論文の概要: CUB: Benchmarking Context Utilisation Techniques for Language Models
- arxiv url: http://arxiv.org/abs/2505.16518v2
- Date: Fri, 08 Aug 2025 07:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.358861
- Title: CUB: Benchmarking Context Utilisation Techniques for Language Models
- Title(参考訳): CUB:言語モデルのためのコンテキスト活用手法のベンチマーク
- Authors: Lovisa Hagström, Youna Kim, Haeun Yu, Sang-goo Lee, Richard Johansson, Hyunsoo Cho, Isabelle Augenstein,
- Abstract要約: 言語モデル(LM)は、時代遅れのパラメトリックメモリと矛盾する関連情報を無視したり、無関係なコンテキストに邪魔されることがある。
CUB(Context Utilisation Benchmark)は、実践者が異なるコンテキスト条件下でCMTを診断するのを助けるために設計された、最初の総合的なベンチマークである。
以上の結果から,既存のCMTでは,実世界の検索拡張シナリオで発生するコンテキストタイプの全スペクトルを扱うのに苦労していることが明らかとなった。
- 参考スコア(独自算出の注目度): 45.8076254147699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating external knowledge is crucial for knowledge-intensive tasks, such as question answering and fact checking. However, language models (LMs) may ignore relevant information that contradicts outdated parametric memory or be distracted by irrelevant contexts. While many context utilisation manipulation techniques (CMTs) have recently been proposed to alleviate these issues, few have seen systematic comparison. In this paper, we develop CUB (Context Utilisation Benchmark) - the first comprehensive benchmark designed to help practitioners within retrieval-augmented generation (RAG) diagnose CMTs under different context conditions. With this benchmark, we conduct the most extensive evaluation to date of seven state-of-the-art methods, representative of the main categories of CMTs, across three diverse datasets and tasks, applied to nine LMs. Our results reveal that most existing CMTs struggle to handle the full spectrum of context types encountered in real-world retrieval-augmented scenarios. We also find that many CMTs display inflated performance on simple synthesised datasets, compared to more realistic datasets with naturally occurring samples. Our findings expose critical gaps in current CMT evaluation practices and demonstrate the need for holistic testing and the development of CMTs that can robustly handle multiple context types.
- Abstract(参考訳): 質問応答や事実確認といった知識集約的なタスクには,外部知識の導入が不可欠である。
しかし、言語モデル(LM)は、時代遅れのパラメトリックメモリと矛盾する関連情報を無視したり、無関係なコンテキストに邪魔される可能性がある。
近年、これらの問題を緩和するために多くの文脈利用操作技術(CMT)が提案されているが、体系的な比較例は少ない。
本稿では,CUB (Context Utilisation Benchmark) を開発した。このベンチマークは,検索強化世代 (RAG) におけるCMTの異なる状況下での診断を支援するために設計された,最初の総合的なベンチマークである。
このベンチマークでは,9つのLMに適用された3つの多様なデータセットおよびタスクに対して,CMTの主要なカテゴリを代表する7つの最先端手法について,最も広範な評価を行う。
以上の結果から,既存のCMTでは,実世界の検索拡張シナリオで発生するコンテキストタイプの全スペクトルを扱うのに苦労していることが明らかとなった。
また、多くのCMTは、自然に発生するサンプルを含むより現実的なデータセットと比較して、単純な合成データセットに膨らませた性能を示す。
本研究は,CMT評価の実践において重要なギャップを明らかにし,複数のコンテキストタイプを堅牢に扱える総合的なテストの必要性とCMTの開発を実証するものである。
関連論文リスト
- MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [55.486895951981566]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - A Reality Check on Context Utilisation for Retrieval-Augmented Generation [44.54803681476863]
DRUID (Dataset of Retrieved Untrieved Unliable, Insufficient and Difficult-to-understand contexts) を導入し、実世界のクエリやコンテキストを手動でアノテートする。
このデータセットは、現実世界の証拠の自動検索が不可欠である自動クレーム検証のタスクに基づいている。
合成データセットは、実検索データで稀な文脈特性を誇張し、拡張された文脈利用結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-22T14:16:38Z) - On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
本稿では,マルチショットICLによる長文言語モデルの評価について検討する。
ICLタスクを共通サンプル学習(SSL)と全サンプル学習(ASL)の2つのグループに分類するメトリクスを開発する。
最先端のモデルではSSLタスクで64kトークンまでパフォーマンスが向上するが、ASLタスクで16kトークンしかなかったため、多くのモデルは大幅なパフォーマンス低下を経験している。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Prompt Refinement or Fine-tuning? Best Practices for using LLMs in Computational Social Science Tasks [0.0]
本稿では,23の社会的知識課題のベンチマークにおいて,現代のLCMに基づく分類手法の性能について概説する。
結果は、より大きな語彙と事前学習コーパスを持つモデルを選択すること、AI強化プロンプトに賛成する単純なゼロショットを避けること、タスク固有のデータに微調整すること、の3つのベストプラクティスを示している。
論文 参考訳(メタデータ) (2024-08-02T15:46:36Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - Coverage-based Example Selection for In-Context Learning [27.215972147196805]
BERTScore-Recall (BSR) がテスト入力の健全な側面をよりよく示すより良い例を選択していることを示す。
6つのタスクにまたがる15のデータセットと7つの LLM に対して、(1) BSR は、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2) 構成タスクでは、Set-BSR は、平均17ポイントまで独立したランキングを上回ります。
論文 参考訳(メタデータ) (2023-05-24T08:58:28Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。