Fugu-MT 論文翻訳(概要): Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation

論文の概要: Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation

arxiv url: http://arxiv.org/abs/2411.07130v1
Date: Mon, 11 Nov 2024 17:00:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.551299
Title: Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation
Title（参考訳）: 検索・グローバルコンテキスト理解 : 長期的評価のための多面的インテクスト学習について
Authors: Kaijian Zou, Muhammad Khalifa, Lu Wang,
Abstract要約: マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。 ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
参考スコア（独自算出の注目度）: 10.500629810624769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) have demonstrated an improved capacity to handle long-context information, yet existing long-context benchmarks primarily measure LMs' retrieval abilities with extended inputs, e.g., pinpointing a short phrase from long-form text. Therefore, they may fall short when evaluating models' global context understanding capacity, such as synthesizing and reasoning over content across input to generate the response. In this paper, we study long-context language model (LCLM) evaluation through many-shot in-context learning (ICL). Concretely, we identify the skills each ICL task requires, and examine models' long-context capabilities on them. We first ask: What types of ICL tasks benefit from additional demonstrations, and are these tasks effective at evaluating LCLMs? We find that classification and summarization tasks show notable performance improvements with additional demonstrations, while translation and reasoning tasks do not exhibit clear trends. This suggests the classification tasks predominantly test models' retrieval skills. Next, we ask: To what extent does each task require retrieval skills versus global context understanding from LCLMs? We develop metrics to categorize ICL tasks into two groups: (i) retrieval tasks that require strong retrieval ability to pinpoint relevant examples, and (ii) global context understanding tasks that necessitate a deeper comprehension of the full input. We find that not all datasets can effectively evaluate these long-context capabilities. To address this gap, we introduce a new many-shot ICL benchmark, MANYICLBENCH, designed to characterize LCLMs' retrieval and global context understanding capabilities separately. Benchmarking 11 open-weight LCLMs with MANYICLBENCH, we find that while state-of-the-art models perform well in retrieval tasks up to 64k tokens, many show significant drops in global context tasks at just 16k tokens.
Abstract（参考訳）: 言語モデル(LM)は、長文情報を扱う能力の向上を実証しているが、既存の長文ベンチマークは主に、長文から短いフレーズをピンポイントする拡張入力でLMの検索能力を計測している。したがって、入力間でのコンテンツの合成や推論など、モデルのグローバルなコンテキスト理解能力を評価する際には不足する可能性がある。本稿では,マルチショット・イン・コンテクスト・ラーニング(ICL)による長文言語モデル(LCLM)の評価について検討する。具体的には、各ICLタスクに必要なスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。 ICLタスクのどのタイプが、追加のデモンストレーションの恩恵を受けるのか、LCLMを評価する上でこれらのタスクは効果的か? 分類および要約タスクは、追加のデモンストレーションで顕著な性能向上を示すのに対して、翻訳および推論タスクは明確な傾向を示していない。このことは、主にモデルの検索スキルをテストする分類タスクを示唆している。次に質問する: 各タスクは、LCLMからのグローバルコンテキスト理解よりも、検索スキルをどの程度必要としますか? ICLタスクを2つのグループに分類するメトリクスを開発する。一関連事例の特定に強い検索能力を必要とする検索タスク、及び (II)全入力のより深い理解を必要とするグローバルな文脈理解タスク。すべてのデータセットがこれらの長文機能を効果的に評価できるわけではない。このギャップに対処するために、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。 MANYICLBENCHで11個のオープンウェイトLCLMをベンチマークしたところ、最先端のモデルは64kトークンまでの検索タスクでよく機能するが、その多くは16kトークンでグローバルなコンテキストタスクが大幅に低下していることが判明した。

関連論文リスト

Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。 LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文参考訳（メタデータ） (2025-06-02T02:35:24Z)
Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data [6.195658947075431]
HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
論文参考訳（メタデータ） (2024-10-15T19:04:13Z)
Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science [0.1499944454332829]
In-context Learning (ICL) とインストラクションチューニング (IT) を用いた大規模言語モデル (LLM) の分類性能の評価を行った。 ICLは、明示的な勾配更新なしで例から学ぶことで、タスク適応の迅速な代替手段を提供する。私たちの研究は、CSSタスクを数ショットで処理する上で、ICLの重大な利点を強調しています。
論文参考訳（メタデータ） (2024-09-23T02:43:08Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文参考訳（メタデータ） (2024-08-14T12:32:41Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations [44.24067814871803]
In-Context Learning (ICL) の例は少ないが、長いコンテキストでLLMのパフォーマンスを向上させるための魅力的なソリューションである。そこで本稿では,コンテキストのリサイクルにより,長時間のQAタスクの少数例を自動的に生成する手法を提案する。
論文参考訳（メタデータ） (2024-06-19T15:28:29Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。 I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。 ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文参考訳（メタデータ） (2024-04-11T08:20:10Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-11-03T14:39:20Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。文脈内学習の有効性は、選択した例の品質に大きく依存する。高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-14T05:23:08Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。