論文の概要: PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision
- arxiv url: http://arxiv.org/abs/2511.08098v1
- Date: Wed, 12 Nov 2025 01:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.645179
- Title: PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision
- Title(参考訳): PerspAct: パースペクティブ・テイキングとアクティブ・ビジョンによるLLM選抜コラボレーションスキルの強化
- Authors: Sabrina Patania, Luca Annese, Anita Pellegrini, Silvia Serino, Anna Lambiase, Luca Pallonetto, Silvia Rossi, Simone Colombani, Tom Foulsham, Azzurra Ruggeri, Dimitri Ognibene,
- Abstract要約: 本研究では、ReActフレームワークを用いた多様な視点を明示的に取り入れることで、LLMが他のエージェントの要求を理解し、理解する能力を高めることができるかどうかを評価する。
視線撮影の複雑さを増大させる7つのシナリオからなる、アクティブな視覚探索を紹介します。
提案手法は, 探索戦略と組み合わせることで, モデルの解釈精度と協調的有効性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 2.32300953742759
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) and multimodal foundation models have significantly broadened their application in robotics and collaborative systems. However, effective multi-agent interaction necessitates robust perspective-taking capabilities, enabling models to interpret both physical and epistemic viewpoints. Current training paradigms often neglect these interactive contexts, resulting in challenges when models must reason about the subjectivity of individual perspectives or navigate environments with multiple observers. This study evaluates whether explicitly incorporating diverse points of view using the ReAct framework, an approach that integrates reasoning and acting, can enhance an LLM's ability to understand and ground the demands of other agents. We extend the classic Director task by introducing active visual exploration across a suite of seven scenarios of increasing perspective-taking complexity. These scenarios are designed to challenge the agent's capacity to resolve referential ambiguity based on visual access and interaction, under varying state representations and prompting strategies, including ReAct-style reasoning. Our results demonstrate that explicit perspective cues, combined with active exploration strategies, significantly improve the model's interpretative accuracy and collaborative effectiveness. These findings highlight the potential of integrating active perception with perspective-taking mechanisms in advancing LLMs' application in robotics and multi-agent systems, setting a foundation for future research into adaptive and context-aware AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)やマルチモーダル基礎モデルの最近の進歩は、ロボット工学や協調システムにおける応用を著しく拡大している。
しかし、効果的なマルチエージェント相互作用は、物理的な視点とてんかんの視点の両方を解釈できる堅牢な視点を取る能力を必要とする。
現在のトレーニングパラダイムは、これらのインタラクティブなコンテキストを無視することが多く、モデルが個々の視点の主観性を推論したり、複数のオブザーバーと環境をナビゲートする必要がある場合の課題となる。
本研究では、推論と行動を統合したアプローチであるReActフレームワークを用いて、多種多様な視点を明示的に取り入れることで、LLMが他のエージェントの要求を理解し、理解する能力を高めることができるかどうかを評価する。
我々は、視点を取る複雑さを増大させる7つのシナリオからなる、アクティブな視覚的な探索を導入することで、古典的なディレクタタスクを拡張します。
これらのシナリオは、参照のあいまいさを視覚的アクセスと相互作用に基づいて解決し、状態表現の変化とReActスタイルの推論を含む戦略を促すために、エージェントの能力に挑戦するように設計されている。
提案手法は,アクティブな探索戦略と組み合わさって,モデルの解釈精度と協調的有効性を大幅に向上することを示した。
これらの知見は、ロボット工学やマルチエージェントシステムにおけるLCMの応用を促進するために、視点決定機構とアクティブな知覚を統合する可能性を強調し、適応型およびコンテキスト対応AIシステムの研究の基盤となる。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models [8.08979200534563]
現実世界のアプリケーションは洗練されたマルチターンインタラクションを必要とする。
大規模言語モデル(LLM)の最近の進歩は、シングルターンタスクを扱う能力に革命をもたらした。
論文 参考訳(メタデータ) (2025-04-07T04:00:08Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Improving Agent Interactions in Virtual Environments with Language
Models [0.9790236766474201]
本研究は、Minecraftデータセットにおける集合的なビルディング割り当てに焦点を当てる。
我々は,最先端手法によるタスク理解を強化するために,言語モデリングを採用している。
論文 参考訳(メタデータ) (2024-02-08T06:34:11Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。