Fugu-MT 論文翻訳(概要): Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

論文の概要: Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

arxiv url: http://arxiv.org/abs/2408.02544v1
Date: Mon, 5 Aug 2024 15:16:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 13:17:11.980715
Title: Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
Title（参考訳）: 環境への注意:マルチモーダル・エージェントは環境破壊にかかわる
Authors: Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao,
Abstract要約: 本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
参考スコア（独自算出の注目度）: 68.92637077909693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates the faithfulness of multimodal large language model (MLLM) agents in the graphical user interface (GUI) environment, aiming to address the research question of whether multimodal GUI agents can be distracted by environmental context. A general setting is proposed where both the user and the agent are benign, and the environment, while not malicious, contains unrelated content. A wide range of MLLMs are evaluated as GUI agents using our simulated dataset, following three working patterns with different levels of perception. Experimental results reveal that even the most powerful models, whether generalist agents or specialist GUI agents, are susceptible to distractions. While recent studies predominantly focus on the helpfulness (i.e., action accuracy) of multimodal agents, our findings indicate that these agents are prone to environmental distractions, resulting in unfaithful behaviors. Furthermore, we switch to the adversarial perspective and implement environment injection, demonstrating that such unfaithfulness can be exploited, leading to unexpected risks.
Abstract（参考訳）: 本稿では,GUI環境におけるマルチモーダル大規模言語モデル (MLLM) エージェントの忠実さを考察し,マルチモーダルGUIエージェントが環境コンテキストによって邪魔されるかどうかという研究課題に対処することを目的とする。ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。シミュレーションデータセットを用いて多種多様なMLLMをGUIエージェントとして評価する。実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。近年の研究では、マルチモーダル剤の有効性(作用精度)に主に焦点が当てられているが、これらの薬剤は環境に邪魔される傾向があり、不誠実な行動をもたらすことが示唆されている。さらに, 敵の視点に切り替え, 環境注入を行い, このような不信感を活用できることを実証し, 予期せぬリスクを生じさせる。

関連論文リスト

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文参考訳（メタデータ） (2026-02-10T18:55:41Z)
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文参考訳（メタデータ） (2026-01-28T16:05:44Z)
What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文参考訳（メタデータ） (2026-01-14T14:09:11Z)
Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文参考訳（メタデータ） (2025-11-12T12:56:25Z)
A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文参考訳（メタデータ） (2025-10-13T04:07:01Z)
The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文参考訳（メタデータ） (2025-10-01T07:10:28Z)
Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey [45.485318955120924]
従来の大規模言語モデル(LLM)からより高度なAIエージェントへの移行は、重要な進化のステップである。既存の評価フレームワークは、LLMチャットボットとAIエージェントの区別を曖昧にし、適切なベンチマークを選択する研究者の間で混乱を招くことが多い。本稿では,進化的観点からの現在の評価手法の体系的分析を紹介する。
論文参考訳（メタデータ） (2025-06-06T17:52:18Z)
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。 Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-30T17:59:53Z)
$C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking [12.218102495632937]
エージェントの堅牢性を評価するためのオープンソースベンチマークをC3$-Benchで提示する。具体的には,複雑なツール関係をナビゲートし,重要な隠蔽情報を処理し,動的決定経路を管理する,という3つの課題を設計する。本質的に$C3$-Benchは、これらの課題を通じてモデル脆弱性を公開し、エージェントパフォーマンスの解釈可能性の研究を促進することを目的としている。
論文参考訳（メタデータ） (2025-05-24T15:25:44Z)
MAFE: Multi-Agent Fair Environments for Decision-Making Systems [30.91792275900066]
我々は、マルチエージェントフェア環境(MAFE)の概念を導入し、異なる社会システムをモデル化する3つのMAFEを提示、分析する。実験の結果,MAFEをマルチエージェントフェアアルゴリズム開発のためのテストベッドとしての有用性が示された。
論文参考訳（メタデータ） (2025-02-25T04:03:50Z)
AgentAlign: Misalignment-Adapted Multi-Agent Perception for Resilient Inter-Agent Sensor Correlations [8.916036880001734]
既存の研究は、マルチエージェント設定における脆弱なマルチセンサ相関を概観している。 AgentAlignは、現実世界の異種エージェントのクロスモダリティ機能アライメントフレームワークである。多様な環境条件下での現実的なセンサの欠陥をシミュレートする新しいV2XSet-noiseデータセットを提案する。
論文参考訳（メタデータ） (2024-12-09T01:51:18Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-09-21T18:32:44Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文参考訳（メタデータ） (2024-01-07T19:11:18Z)
INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。 InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文参考訳（メタデータ） (2023-09-04T19:56:18Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文参考訳（メタデータ） (2021-08-06T22:19:09Z)
Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文参考訳（メタデータ） (2020-12-03T17:37:01Z)
Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment Mapping [0.0]
異種エージェントのチームが未知の環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。このタスクは、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全と緊急対応組織に関心を寄せている。
論文参考訳（メタデータ） (2020-10-06T12:23:05Z)
Relational-Grid-World: A Novel Relational Reasoning Environment and An Agent Model for Relational Information Extraction [0.0]
強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。統計的手法に基づくRLアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。環境オブジェクトの明示的なリレーショナル表現をサポートするモデルフリーなRLアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-07-12T11:30:48Z)
Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。 VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文参考訳（メタデータ） (2020-05-06T19:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。