論文の概要: A Preliminary Study of the Intrinsic Relationship between Complexity and
Alignment
- arxiv url: http://arxiv.org/abs/2308.05696v2
- Date: Thu, 29 Feb 2024 03:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:51:26.320250
- Title: A Preliminary Study of the Intrinsic Relationship between Complexity and
Alignment
- Title(参考訳): 複雑度とアライメントの本質的関係に関する予備的検討
- Authors: Yingxiu Zhao, Bowen Yu, Binyuan Hui, Haiyang Yu, Fei Huang, Yongbin
Li, Nevin L. Zhang
- Abstract要約: 制御可能な方法で命令の複雑さを体系的に強化するツリーインストラクションを提案する。
命令のセマンティックツリーに指定された数のノードを追加することで、新しい命令データを得るだけでなく、修正された命令の難易度を制御することもできる。
- 参考スコア(独自算出の注目度): 90.7443414448245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) with open-domain instruction data has
yielded remarkable success in aligning to end tasks and human preferences.
Extensive research has highlighted the importance of the quality and diversity
of instruction data. However, the impact of data complexity, as a crucial
metric, remains relatively unexplored from three aspects: (1)where the
sustainability of performance improvements with increasing complexity is
uncertain; (2)whether the improvement brought by complexity merely comes from
introducing more training tokens; and (3)where the potential benefits of
incorporating instructions from easy to difficult are not yet fully understood.
In this paper, we propose Tree-Instruct to systematically enhance the
instruction complexity in a controllable manner. By adding a specified number
of nodes to instructions' semantic trees, this approach not only yields new
instruction data from the modified tree but also allows us to control the
difficulty level of modified instructions. Our preliminary experiments reveal
the following insights: (1)Increasing complexity consistently leads to
sustained performance improvements of LLMs. (2)Under the same token budget, a
few complex instructions outperform diverse yet simple instructions.
(3)Curriculum instruction tuning might not yield the anticipated results;
focusing on increasing complexity appears to be the key.
- Abstract(参考訳): オープンドメイン命令データを用いた大規模言語モデル(LLM)のトレーニングは、エンドタスクや人間の好みに合わせることに成功している。
広範な研究は、命令データの質と多様性の重要性を強調している。
しかし、データ複雑性の影響は、重要な指標として、(1)複雑さの増加に伴うパフォーマンス改善の持続可能性の不確実性、(2)複雑さによってもたらされる改善が単にトレーニングトークンの導入によるものであるかどうか、(3)簡単から難易度へのインストラクションの導入による潜在的なメリットがまだ完全には理解されていないという3つの側面から比較的解明されていない。
本稿では,制御可能な方式で命令複雑性を体系的に高めるツリーインストラクションを提案する。
命令のセマンティクスツリーに指定されたノード数を追加することで、このアプローチは修正されたツリーから新しい命令データを生成するだけでなく、修正された命令の難易度を制御できる。
1) 複雑性の増大はLCMの持続的な性能向上につながる。
2) 同じトークン予算の下では、いくつかの複雑な命令は多様だが単純な命令よりも優れている。
(3) 計算機命令のチューニングは期待された結果をもたらしない可能性があり, 複雑さの増加に焦点を合わせることが鍵である。
関連論文リスト
- EasyInstruct: An Easy-to-use Instruction Processing Framework for Large
Language Models [38.81710071144466]
EasyInstructは、Large Language Models (LLMs)のための使いやすい命令処理フレームワークである。
EasyInstructは命令生成、選択、プロンプトをモジュール化し、それらの組み合わせと相互作用も考慮する。
論文 参考訳(メタデータ) (2024-02-05T14:33:56Z) - Learning Top-k Subtask Planning Tree based on Discriminative
Representation Pre-training for Decision Making [9.980589742220587]
複雑な現実世界のタスクから抽出された事前知識による計画は、人間が正確な決定を行うために不可欠である。
マルチエンコーダと個別予測器を導入し、簡単なサブタスクのための十分なデータからタスク固有表現を学習する。
また、注意機構を用いてトップkのサブタスク計画木を生成し、未確認タスクの複雑な決定を導くためにサブタスク実行計画をカスタマイズする。
論文 参考訳(メタデータ) (2023-12-18T09:00:31Z) - Data Diversity Matters for Robust Instruction Tuning [93.87078483250782]
近年の研究では、高品質で多様な命令チューニングデータセットをキュレートすることにより、命令追従能力を大幅に改善できることが示されている。
データセットの多様性と品質を制御できる新しいアルゴリズムQDIT(Quality-Diversity Instruction Tuning)を提案する。
いくつかの大規模命令チューニングデータセット上でのQDITの性能を検証した結果、最悪のケースと平均ケースのパフォーマンスを大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-11-21T19:12:18Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - The configurable tree graph (CT-graph): measurable problems in partially
observable and distal reward environments for lifelong reinforcement learning [14.91472053704749]
本稿では,強化学習アルゴリズムのための形式的および透明な問題の集合を紹介する。
問題の定式化と付随コードは、強化学習アルゴリズムの性能を比較するために、高速で透明で数学的に定義されたテストセットを提供する。
論文 参考訳(メタデータ) (2023-01-21T21:05:52Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Let the Model Decide its Curriculum for Multitask Learning [22.043291547405545]
モデルに基づくアプローチによって計算される難易度に基づく学習カリキュラムにトレーニングインスタンスを配置する手法を2種類提案する。
インスタンスレベルとデータセットレベルの技術は、それぞれのベースラインに対して平均4.17%と3.15%のパフォーマンス向上をもたらすため、強い表現をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-19T23:34:22Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。