Fugu-MT 論文翻訳(概要): GATEAU: Selecting Influential Samples for Long Context Alignment

論文の概要: GATEAU: Selecting Influential Samples for Long Context Alignment

arxiv url: http://arxiv.org/abs/2410.15633v3
Date: Tue, 11 Feb 2025 14:18:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 16:10:29.40836
Title: GATEAU: Selecting Influential Samples for Long Context Alignment
Title（参考訳）: GATEAU: 長期的コンテキストアライメントのためのインフルエンシャルサンプルの選択
Authors: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun,
Abstract要約: GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。実験結果から, GATEAUは有効に有効なサンプルを同定し, これらのサンプルに基づいてトレーニングしたモデルにより, より優れた指示追従能力と長文理解能力を示すことが示された。
参考スコア（独自算出の注目度）: 62.87020831987625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aligning large language models to handle instructions with extremely long contexts has yet to be fully investigated. Previous studies attempt to scale up the available data volume by synthesizing long instruction-following samples, as constructing such a dataset tends to be challenging for annotators. However, a lack of a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the model performance. Thus, we propose GATEAU, a novel framework to address the unique challenge of long context alignment by identifying the influential samples enriched with long-range dependency relations. Specifically, GATEAU measures the long-range dependencies from two essential aspects: the difficulty of generating target responses due to the long-range dependencies, and the difficulty of understanding long inputs due to such dependencies. Comprehensive experiments indicate that GATEAU effectively identifies influential samples and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.
Abstract（参考訳）: 命令を非常に長いコンテキストで処理するための大きな言語モデルをアライメントすることは、まだ完全には研究されていない。従来の研究では、このようなデータセットの構築はアノテータにとって難しいため、長い命令追従サンプルを合成することで、利用可能なデータ量をスケールアップしようと試みていた。しかし、データ品質を保証するための明確な戦略の欠如は、低品質のサンプルを導入し、モデルの性能を制限する可能性がある。そこで本稿では,長距離依存関係に富む影響のあるサンプルを同定することにより,長期コンテキストアライメントの独特な課題に対処する新しいフレームワークであるGATEAUを提案する。具体的には、GATEAUは、長距離依存によるターゲット応答生成の難しさと、そのような依存関係によるロングインプットの理解の難しさの2つの重要な側面から、長距離依存を計測する。総合的な実験により、GATEAUは影響力のあるサンプルを効果的に同定し、これらのサンプルで訓練されたモデルは、より良い指示追従能力と長文理解能力を示すことが示された。

関連論文リスト

LongAttn: Selecting Long-context Training Data via Token-level Attention [16.30530770590871]
LongAttnはトークンレベルのフレームワークで、データの長距離依存関係を測定する。オープンソース長文データセット(ArXiv, Book, Code)からLongABC-32Kをフィルタリングする
論文参考訳（メタデータ） (2025-02-24T05:51:53Z)
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文参考訳（メタデータ） (2024-09-18T17:53:17Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。データマイニングフレームワーク textbfProLong を提案する。複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文参考訳（メタデータ） (2024-05-28T07:36:56Z)
Multi-Scale Dilated Convolution Network for Long-Term Time Series Forecasting [17.132063819650355]
時系列の周期と傾向を捉えるために,MSDCN(Multi Scale Dilated Convolution Network)を提案する。指数関数的に増加する拡張と異なるカーネルサイズを持つ異なる畳み込みブロックを設計し、異なるスケールで時系列データをサンプリングする。提案手法の有効性を検証するため,8つの長期時系列予測ベンチマークデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2024-05-09T02:11:01Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文参考訳（メタデータ） (2022-11-30T05:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。