論文の概要: Retrieval Or Holistic Understanding? Dolce: Differentiate Our Long Context Evaluation Tasks
- arxiv url: http://arxiv.org/abs/2409.06338v1
- Date: Tue, 10 Sep 2024 08:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:30:15.416585
- Title: Retrieval Or Holistic Understanding? Dolce: Differentiate Our Long Context Evaluation Tasks
- Title(参考訳): 検索的・全体論的理解 : 長期評価課題の相違
- Authors: Zi Yang,
- Abstract要約: 長期的文脈理解には,検索と全体的理解という2つの大きな能力がある,と我々は主張する。
本研究の目的は,ベンチマークのスイートから,検索に焦点を絞った全体的理解に焦点を絞った問題を自動的に識別し,各焦点内の難易度を定量的に測定することである。
提案手法では,検索対象の0%から67%が検索対象であり,0%から90%が既存の44の長期文脈評価タスクに焦点を絞った総合的理解である。
- 参考スコア(独自算出の注目度): 0.0949356292506589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that there are two major distinct capabilities in long context understanding: retrieval and holistic understanding. Understanding and further improving LLMs' long context capabilities would not be possible without knowing the tasks' focus categories. We aim to automatically identify retrieval focused and holistic understanding focused problems from suites of benchmarks and quantitatively measure the difficulty within each focus. In this paper, we present the Dolce framework, which parameterizes each problem by $\lambda$ (complexity) and $k$ (redundancy) and assigns to one of five predefined focus categories. We propose to sample short contexts from the full context and estimate the probability an LLM solves the problem using the sampled spans. To find the $\lambda$ and $k$ for each problem, we further propose a mixture model of a non-parametric background noise component and a parametric/non-parametric hybrid oracle component, where we derive the probability functions parameterized by $\lambda$ and $k$ for both the correct-or-wrong (COW) scenario and the partial-point-in-grading (PIG) scenario. Our proposed methods can identify 0% to 67% of the problems are retrieval focused and 0% to 90% of the problems are holistic understanding focused across 44 existing long context evaluation tasks.
- Abstract(参考訳): 長い文脈理解には、検索と全体的理解という2つの大きな特徴がある、と我々は主張する。
LLMの長期コンテキスト機能を理解し、さらに改善することは、タスクのフォーカスカテゴリを知らなければ不可能である。
本研究の目的は,ベンチマークのスイートから,検索に焦点を絞った全体的理解に焦点を絞った問題を自動的に識別し,各焦点内の難易度を定量的に測定することである。
本稿では,各問題を$\lambda$(複雑度)と$k$(冗長性)でパラメータ化し,予め定義された5つの焦点カテゴリのうちの1つに割り当てるDolceフレームワークを提案する。
本稿では,全文脈から短い文脈をサンプリングし,LLMがサンプルスパンを用いて問題を解く確率を推定する。
それぞれの問題に対して$\lambda$と$k$を求めるために、さらにパラメトリックなバックグラウンドノイズ成分とパラメトリック/ノンパラメトリックなハイブリッドオラクル成分の混合モデルを提案し、そこでは、COW(or-wrong)シナリオとPIG(partial-point-in-grading)シナリオの両方に対して$\lambda$と$k$でパラメータ化された確率関数を導出する。
提案手法では,検索対象の0%から67%が検索対象であり,0%から90%が既存の44の長期文脈評価タスクに焦点を絞った総合的理解である。
関連論文リスト
- Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。
ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。
我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Active Learning for Contextual Search with Binary Feedbacks [2.6424064030995957]
第一価格オークションなどの応用によって動機付けられた文脈探索における学習問題について検討する。
本稿では,三分探索手法とマージンに基づく能動学習手法を併用した三分探索手法を提案する。
論文 参考訳(メタデータ) (2021-10-03T19:05:29Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。