論文の概要: Provably Learning from Language Feedback
- arxiv url: http://arxiv.org/abs/2506.10341v1
- Date: Thu, 12 Jun 2025 04:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.566798
- Title: Provably Learning from Language Feedback
- Title(参考訳): 言語のフィードバックから学ぶ
- Authors: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng,
- Abstract要約: 我々は、言語フィードバック(LLF)問題から学習を形式化し、潜在報酬にもかかわらず学習を可能にする十分な仮定を主張する。
伝達エリューダ次元は、フィードバック中の情報がLLF問題の学習複雑性を変えるという直感を捉えていることを示す。
我々は、逐次的相互作用によってLLF問題を確実に解決する、$textttHELiX$と呼ばれる非回帰アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 22.620909858951197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactively learning from observation and language feedback is an increasingly studied area driven by the emergence of large language model (LLM) agents. While impressive empirical demonstrations have been shown, so far a principled framing of these decision problems remains lacking. In this paper, we formalize the Learning from Language Feedback (LLF) problem, assert sufficient assumptions to enable learning despite latent rewards, and introduce $\textit{transfer eluder dimension}$ as a complexity measure to characterize the hardness of LLF problems. We show that transfer eluder dimension captures the intuition that information in the feedback changes the learning complexity of the LLF problem. We demonstrate cases where learning from rich language feedback can be exponentially faster than learning from reward. We develop a no-regret algorithm, called $\texttt{HELiX}$, that provably solves LLF problems through sequential interactions, with performance guarantees that scale with the transfer eluder dimension of the problem. Across several empirical domains, we show that $\texttt{HELiX}$ performs well even when repeatedly prompting LLMs does not work reliably. Our contributions mark a first step towards designing principled interactive learning algorithms from generic language feedback.
- Abstract(参考訳): 観察と言語フィードバックからインタラクティブに学習することは、大規模言語モデル(LLM)エージェントの出現によってますます研究される分野である。
印象的な実証的なデモンストレーションが示されているが、これらの決定問題の原則的なフレーミングはいまだに欠落している。
本稿では,言語フィードバック問題(LLF)を形式化し,潜在報酬にもかかわらず学習を可能にする十分な仮定を主張するとともに,LLF問題の硬さを特徴づける複雑性尺度として$\textit{transfer eluder dimension}$を導入する。
伝達エリューダ次元は、フィードバック中の情報がLLF問題の学習複雑性を変えるという直感を捉えていることを示す。
豊かな言語フィードバックから学ぶことは、報酬から学ぶよりも指数関数的に高速であることを示す。
我々は、逐次的相互作用によってLLF問題を確実に解き、問題の移動エローダ次元とスケールする性能保証を行う、$\texttt{HELiX}$と呼ばれる非回帰アルゴリズムを開発した。
いくつかの経験的領域において、繰り返し LLM が確実に動作しない場合でも、$\texttt{HELiX}$ がよく機能することを示す。
私たちのコントリビューションは、ジェネリック言語からのフィードバックから、原則付き対話型学習アルゴリズムを設計するための第一歩です。
関連論文リスト
- Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。
最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。
次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文 参考訳(メタデータ) (2024-10-02T06:51:12Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Learning from Mistakes via Cooperative Study Assistant for Large
Language Models [17.318591492264023]
大規模言語モデル(LLM)は、自身のフィードバックに基づいて、その世代を洗練させる可能性を実証している。
SALAM(Studio Assistant for Large Language Model)は,ミスから学習する上で,主要なLLMを支援するための補助エージェントを備えた新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-23T08:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。