論文の概要: CoFineLLM: Conformal Finetuning of LLMs for Language-Instructed Robot Planning
- arxiv url: http://arxiv.org/abs/2511.06575v1
- Date: Sun, 09 Nov 2025 23:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.007563
- Title: CoFineLLM: Conformal Finetuning of LLMs for Language-Instructed Robot Planning
- Title(参考訳): CoFineLLM:言語指導型ロボット計画のためのLLMのコンフォーマルファインタニング
- Authors: Jun Wang, Yevgeniy Vorobeychik, Yiannis Kantaros,
- Abstract要約: 言語モデル(LLM)は、言語に指示されたエージェントのプランナーとして登場した。
しばしば、過度に信頼され、間違ったアウトプットを生み出す。
我々は,LCMベースのプランナのためのCP対応ファインタニングフレームワークであるCoFineLLMを紹介する。
- 参考スコア(独自算出の注目度): 31.40208712412789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently emerged as planners for language-instructed agents, generating sequences of actions to accomplish natural language tasks. However, their reliability remains a challenge, especially in long-horizon tasks, since they often produce overconfident yet wrong outputs. Conformal Prediction (CP) has been leveraged to address this issue by wrapping LLM outputs into prediction sets that contain the correct action with a user-defined confidence. When the prediction set is a singleton, the planner executes that action; otherwise, it requests help from a user. This has led to LLM-based planners that can ensure plan correctness with a user-defined probability. However, as LLMs are trained in an uncertainty-agnostic manner, without awareness of prediction sets, they tend to produce unnecessarily large sets, particularly at higher confidence levels, resulting in frequent human interventions limiting autonomous deployment. To address this, we introduce CoFineLLM (Conformal Finetuning for LLMs), the first CP-aware finetuning framework for LLM-based planners that explicitly reduces prediction-set size and, in turn, the need for user interventions. We evaluate our approach on multiple language-instructed robot planning problems and show consistent improvements over uncertainty-aware and uncertainty-agnostic finetuning baselines in terms of prediction-set size, and help rates. Finally, we demonstrate robustness of our method to out-of-distribution scenarios in hardware experiments.
- Abstract(参考訳): 言語モデル(LLM)は、最近、自然言語タスクを達成するためのアクションのシーケンスを生成する言語命令されたエージェントのプランナーとして登場した。
しかしながら、その信頼性は、特に長期のタスクにおいて、しばしば過度に信頼され、間違った出力を生成するため、依然として課題である。
コンフォーマル予測(CP)は、LCM出力をユーザ定義の信頼性で正しい動作を含む予測セットにラップすることでこの問題に対処するために活用されている。
予測セットがシングルトンの場合、プランナーはそのアクションを実行します。
これにより、LCMベースのプランナーは、ユーザが定義した確率で計画の正確性を確保することができる。
しかし、LSMは不確実性に依存しない方法で訓練されているため、予測セットを意識せずに、特に高い信頼レベルで、必要以上に大きなセットを生成する傾向にあり、その結果、人間の介入が自律的な展開を制限する。
これを解決するために,我々は,予測セットのサイズを明示的に削減し,ユーザ介入の必要性を低減した,LCMベースのプランナのためのCP対応ファインタニングフレームワークであるCoFineLLM(Conformal Finetuning for LLMs)を紹介した。
我々は,複数の言語に指示されたロボット計画問題に対するアプローチを評価し,予測セットのサイズやヘルプ率の観点から,不確実性と不確実性に依存しない微調整ベースラインに対する一貫した改善を示す。
最後に,本手法のハードウェア実験におけるアウト・オブ・ディストリビューションシナリオに対する堅牢性を示す。
関連論文リスト
- Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。