Fugu-MT 論文翻訳(概要): Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

論文の概要: Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

arxiv url: http://arxiv.org/abs/2605.20072v1
Date: Tue, 19 May 2026 16:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.521729
Title: Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving
Title（参考訳）: 身体的LLMの探索: より高次観測忠実度が問題解決に役立てる場合
Authors: Oussama Zenkri, Oliver Brock,
Abstract要約: ロボットシステムの認知コンポーネントとして,大規模言語モデルが提案されている。本研究は, 生体内LCM剤について, 使用可能な情報を変化させることで, 行動学的に検討した。ノイズフリーベースラインよりも2.85倍の成功率で40%のフリップ確率でピークとなる中等雑音が性能を向上させることが判明した。
参考スコア（独自算出の注目度）: 7.648784748888186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models are increasingly proposed as cognitive components for robotic systems, yet their opaque decision processes make it difficult to explain success or failure in closed-loop embodied tasks. Following an empirical AI methodology, we study embodied LLM agents behaviorally by varying the information available to the agent and measuring the resulting changes in behavior. Using the Lockbox, a sequential mechanical puzzle with hidden interdependencies, we evaluate LLMs across RGB, RGB-D, and ground-truth symbolic observations in a physical robotic setup and use controlled simulation to probe the resulting behavior. Counterintuitively, agents perform best under raw RGB input and worst under perfect ground-truth observations. In simulation, we probe this effect by randomly flipping perceived action outcomes and find that moderate noise improves performance, peaking at a 40% flip probability with a 2.85-fold success rate increase over the noise-free baseline. Further analysis links this gain to a reduction in repetitive action loops. These findings suggest that success rates alone are insufficient for evaluating LLMs, as measured performance may reflect the interaction between perceptual errors and reasoning failures rather than robust problem solving.
Abstract（参考訳）: 大きな言語モデルは、ロボットシステムの認知コンポーネントとしてますます提案されているが、その不透明な決定プロセスは、クローズドループの具体化タスクの成功や失敗を説明するのを困難にしている。実験的なAI手法に従えば、エージェントに利用可能な情報を変更し、その結果の振る舞いの変化を計測することで、実施したLLMエージェントを行動的に研究する。相互依存性を隠蔽した逐次的機械パズルであるロックボックスを用いて, 物理ロボット装置を用いて, RGB, RGB-D, 地底のシンボル観測を行い, 制御されたシミュレーションを用いて, 結果の挙動を探索する。対照的に、エージェントは生のRGB入力下では最高であり、完全な地上観測では最悪である。シミュレーションでは、知覚された動作結果をランダムに反転させることにより、この効果を検証し、中程度のノイズは、ノイズのないベースラインよりも2.85倍の成功率で40%のフリップ確率で、性能を向上させることを発見した。さらなる分析は、この利得を反復的な作用ループの減少と関連づける。これらの結果から,LLMの評価には成功率だけでは不十分であることが示唆された。

関連論文リスト

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文参考訳（メタデータ） (2026-04-27T09:00:30Z)
CoFEE: Reasoning Control for LLM-Based Feature Discovery [0.0]
本研究では,言語モデル(LLM)における特徴発見を改善するための認知行動の誘導による推論制御について検討する。特徴発見におけるLLMの理由について,認知行動を実施するための推論フレームワークであるCoFEEを紹介した。 CoFEEは、バニラアプローチよりも15.2%高い平均成功率スコアを達成し、29%の機能を発生させ、53.3%のコスト削減を実現している。
論文参考訳（メタデータ） (2026-04-23T12:05:38Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。 LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文参考訳（メタデータ） (2025-10-09T10:26:58Z)
Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文参考訳（メタデータ） (2025-09-26T12:07:47Z)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T12:52:06Z)
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文参考訳（メタデータ） (2023-11-14T23:40:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。