Fugu-MT 論文翻訳(概要): Multimodal Large Language Models for Real-Time Situated Reasoning

論文の概要: Multimodal Large Language Models for Real-Time Situated Reasoning

arxiv url: http://arxiv.org/abs/2602.01880v1
Date: Mon, 02 Feb 2026 09:52:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.087314
Title: Multimodal Large Language Models for Real-Time Situated Reasoning
Title（参考訳）: 実時間位置推論のための多モーダル大言語モデル
Authors: Giulio Antonio Abbo, Senne Lenaerts, Tony Belpaeme,
Abstract要約: GPT-4o言語モデルと、家庭内のスマート掃除ロボットをシミュレートするTurtleBot 4プラットフォームを組み合わせる。モデルは視覚入力を用いて環境評価を行い、清掃を開始するのが適切かどうかを判断する。本研究では,現実的なホーム環境において,限られた視覚的入力からコンテキストや値を推測する能力を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we explore how multimodal large language models can support real-time context- and value-aware decision-making. To do so, we combine the GPT-4o language model with a TurtleBot 4 platform simulating a smart vacuum cleaning robot in a home. The model evaluates the environment through vision input and determines whether it is appropriate to initiate cleaning. The system highlights the ability of these models to reason about domestic activities, social norms, and user preferences and take nuanced decisions aligned with the values of the people involved, such as cleanliness, comfort, and safety. We demonstrate the system in a realistic home environment, showing its ability to infer context and values from limited visual input. Our results highlight the promise of multimodal large language models in enhancing robotic autonomy and situational awareness, while also underscoring challenges related to consistency, bias, and real-time performance.
Abstract（参考訳）: 本研究では、マルチモーダルな大規模言語モデルが、リアルタイムコンテキストと価値認識による意思決定をどのようにサポートするかを検討する。そこで我々は,GPT-4o言語モデルと家庭内のスマート掃除ロボットを模擬したTurtleBot 4プラットフォームを組み合わせる。モデルは視覚入力を用いて環境評価を行い、清掃を開始するのが適切かどうかを判断する。このシステムは、これらのモデルが家庭内活動、社会的規範、およびユーザーの嗜好を判断し、清潔さ、快適さ、安全など、関係する人々の価値観に沿うニュアンスな決定を下す能力を強調している。本研究では,現実的なホーム環境において,限られた視覚的入力からコンテキストや値を推測する能力を示す。本研究は,ロボットの自律性と状況認識を向上する上で,マルチモーダルな大規模言語モデルが約束されると同時に,一貫性,バイアス,リアルタイムパフォーマンスに関する課題も浮き彫りにしている。

関連論文リスト

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文参考訳（メタデータ） (2024-11-28T19:31:50Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。