論文の概要: CUB: Benchmarking Context Utilisation Techniques for Language Models
- arxiv url: http://arxiv.org/abs/2505.16518v1
- Date: Thu, 22 May 2025 10:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.239978
- Title: CUB: Benchmarking Context Utilisation Techniques for Language Models
- Title(参考訳): CUB:言語モデルのためのコンテキスト活用手法のベンチマーク
- Authors: Lovisa Hagström, Youna Kim, Haeun Yu, Sang-goo Lee, Richard Johansson, Hyunsoo Cho, Isabelle Augenstein,
- Abstract要約: 言語モデル(LM)は、時代遅れのパラメトリックメモリと矛盾する関連情報を無視したり、無関係なコンテキストに邪魔されることがある。
CUB(Context Utilisation Benchmark)は、実践者が必要に応じて最適なCMTを特定するのに役立つ。
- 参考スコア(独自算出の注目度): 45.8076254147699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating external knowledge is crucial for knowledge-intensive tasks, such as question answering and fact checking. However, language models (LMs) may ignore relevant information that contradicts outdated parametric memory or be distracted by irrelevant contexts. While many context utilisation manipulation techniques (CMTs) that encourage or suppress context utilisation have recently been proposed to alleviate these issues, few have seen systematic comparison. In this paper, we develop CUB (Context Utilisation Benchmark) to help practitioners within retrieval-augmented generation (RAG) identify the best CMT for their needs. CUB allows for rigorous testing on three distinct context types, observed to capture key challenges in realistic context utilisation scenarios. With this benchmark, we evaluate seven state-of-the-art methods, representative of the main categories of CMTs, across three diverse datasets and tasks, applied to nine LMs. Our results show that most of the existing CMTs struggle to handle the full set of types of contexts that may be encountered in real-world retrieval-augmented scenarios. Moreover, we find that many CMTs display an inflated performance on simple synthesised datasets, compared to more realistic datasets with naturally occurring samples. Altogether, our results show the need for holistic tests of CMTs and the development of CMTs that can handle multiple context types.
- Abstract(参考訳): 質問応答や事実確認といった知識集約的なタスクには,外部知識の導入が不可欠である。
しかし、言語モデル(LM)は、時代遅れのパラメトリックメモリと矛盾する関連情報を無視したり、無関係なコンテキストに邪魔されることがある。
文脈利用を奨励または抑制する多くの文脈利用操作技術(CMT)が近年これらの問題を緩和するために提案されているが、体系的な比較を見ないものはほとんどない。
本稿では,検索強化世代(RAG)内の実践者が,そのニーズに対して最適なCMTを特定するのを支援するために,CUB(Context Utilisation Benchmark)を開発した。
CUBは、3つの異なるコンテキストタイプに対して厳格なテストを可能にする。
本ベンチマークでは,CMTの主要なカテゴリを代表する7つの最先端手法を,9つのLMに適用した3つの多様なデータセットおよびタスクに対して評価する。
以上の結果から,既存のCMTのほとんどは,現実の検索拡張シナリオで発生する可能性のある,コンテキストの集合をフルに扱うのに苦労していることがわかった。
さらに,多くのCMTが,自然発生サンプルを用いたより現実的なデータセットと比較して,単純な合成データセットに膨らませた性能を示すことがわかった。
以上の結果から,CMTの総合的なテストの必要性と,複数のコンテキストタイプを扱えるCMTの開発が示唆された。
関連論文リスト
- A Reality Check on Context Utilisation for Retrieval-Augmented Generation [44.54803681476863]
DRUID (Dataset of Retrieved Untrieved Unliable, Insufficient and Difficult-to-understand contexts) を導入し、実世界のクエリやコンテキストを手動でアノテートする。
このデータセットは、現実世界の証拠の自動検索が不可欠である自動クレーム検証のタスクに基づいている。
合成データセットは、実検索データで稀な文脈特性を誇張し、拡張された文脈利用結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-22T14:16:38Z) - On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
本稿では,マルチショットICLによる長文言語モデルの評価について検討する。
ICLタスクを共通サンプル学習(SSL)と全サンプル学習(ASL)の2つのグループに分類するメトリクスを開発する。
最先端のモデルではSSLタスクで64kトークンまでパフォーマンスが向上するが、ASLタスクで16kトークンしかなかったため、多くのモデルは大幅なパフォーマンス低下を経験している。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - Coverage-based Example Selection for In-Context Learning [27.215972147196805]
BERTScore-Recall (BSR) がテスト入力の健全な側面をよりよく示すより良い例を選択していることを示す。
6つのタスクにまたがる15のデータセットと7つの LLM に対して、(1) BSR は、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2) 構成タスクでは、Set-BSR は、平均17ポイントまで独立したランキングを上回ります。
論文 参考訳(メタデータ) (2023-05-24T08:58:28Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。