論文の概要: Boundless Socratic Learning with Language Games
- arxiv url: http://arxiv.org/abs/2411.16905v1
- Date: Mon, 25 Nov 2024 20:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:48.647373
- Title: Boundless Socratic Learning with Language Games
- Title(参考訳): 言語ゲームによる境界のないソクラテス学習
- Authors: Tom Schaul,
- Abstract要約: は、最初のデータや知識に存在しているものよりもパフォーマンスを大幅に向上させることができると論じています。
本稿では,言語ゲームの概念に基づく構築型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.349705501648028
- License:
- Abstract: An agent trained within a closed system can master any desired capability, as long as the following three conditions hold: (a) it receives sufficiently informative and aligned feedback, (b) its coverage of experience/data is broad enough, and (c) it has sufficient capacity and resource. In this position paper, we justify these conditions, and consider what limitations arise from (a) and (b) in closed systems, when assuming that (c) is not a bottleneck. Considering the special case of agents with matching input and output spaces (namely, language), we argue that such pure recursive self-improvement, dubbed "Socratic learning", can boost performance vastly beyond what is present in its initial data or knowledge, and is only limited by time, as well as gradual misalignment concerns. Furthermore, we propose a constructive framework to implement it, based on the notion of language games.
- Abstract(参考訳): クローズドシステム内で訓練されたエージェントは、以下の3つの条件が満たされている限り、任意の所望の能力を習得することができる。
(a)十分な情報と整合したフィードバックを受け取る。
(b)経験・データの範囲は十分に広く、
(c)十分な能力と資源を有する。
本稿では,これらの条件を正当化し,その制約について考察する。
(a)・
b) 閉系において,それを仮定する場合
(c)はボトルネックではありません。
入力空間と出力空間(すなわち言語)が一致するエージェントの特殊な場合を考えると、このような純粋な再帰的自己改善である「ソクラティックラーニング」は、初期データや知識に存在するものよりもパフォーマンスを大きく向上させ、時間によって制限されるだけでなく、段階的な不整合も懸念する。
さらに,言語ゲームの概念に基づいた構築型フレームワークを提案する。
関連論文リスト
- Temporal Reasoning in AI systems [2.960110343737342]
本稿では,サイック・ナレッジ・ベースにおいて,頑健な時間予測に必要な知識表現と推論手法について論じる。
次に、与えられた流動を外挿するために、事実の持続性に関する知識を表す離散生存関数を使用する。
外挿された区間は、時間的制約やその他のコモンセンス知識によって切り離される。
論文 参考訳(メタデータ) (2025-01-15T23:47:50Z) - When to Speak, When to Abstain: Contrastive Decoding with Abstention [12.639085523137998]
大規模言語モデル(LLM)は、事前訓練された(パラメトリック)知識と外部(文脈)知識を活用することで、様々なタスクにまたがる例外的なパフォーマンスを示す。
本稿では,LLMが関連する知識が利用可能であれば応答を生成でき,それ以外は無視できる新しい学習自由復号法であるContrastive Decoding with Abstentionを提案する。
論文 参考訳(メタデータ) (2024-12-17T04:38:08Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z) - On Sufficient and Necessary Conditions in Bounded CTL: A Forgetting
Approach [3.9461038686072847]
計算木論理(CTL)における忘れ書きに基づくアプローチを導入する。
本研究では, 与えられたモデルの下で, 与えられたシグネチャ上で, 最強必要条件 (SNC) と最弱十分条件 (WSC) を計算できることを示す。
また, その理論的性質について考察し, 忘れることの概念が, 知識を忘れることの本質的な仮定を満足させることを示す。
論文 参考訳(メタデータ) (2020-03-13T21:51:59Z) - BERT as a Teacher: Contextual Embeddings for Sequence-Level Reward [23.176481887478634]
単語を数えたり、比較したりした操作は、単語を埋め込んだり、埋め込みを比較したりすることができる。
BERT埋め込みの詳細な分析は、必要な依存関係をキャプチャするためにコンテキスト埋め込みを使用できることを実証的に示している。
我々は、無条件生成を強化学習問題とみなし、この挑戦的な環境では、報酬関数がn-gramの報酬よりも効果的な学習信号を提供することを示した。
論文 参考訳(メタデータ) (2020-03-05T16:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。