論文の概要: Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering
- arxiv url: http://arxiv.org/abs/2508.18093v1
- Date: Mon, 25 Aug 2025 14:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.829462
- Title: Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering
- Title(参考訳): Agri-Query: 言語横断的質問応答のためのRAG対Long-Context LLMのケーススタディ
- Authors: Julius Gun, Timo Oksanen,
- Abstract要約: 本稿では,128Kのコンテキストウィンドウを持つ大規模言語モデル(LLM)を技術的質問応答(QA)タスク上で評価するケーススタディを提案する。
私たちのベンチマークは、英語、フランス語、ドイツ語で利用可能な農業機械のユーザーマニュアルに基づいて構築されています。
マニュアルの3つの言語バージョンすべてに対して、質問を英語で提示する言語間情報検索シナリオをシミュレートする。
この評価は現実的な "needle-in-a-haystack" の問題に焦点を合わせ、幻覚の検査に答えられない質問を含む。
- 参考スコア(独自算出の注目度): 1.1458853556386799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a case study evaluating large language models (LLMs) with 128K-token context windows on a technical question answering (QA) task. Our benchmark is built on a user manual for an agricultural machine, available in English, French, and German. It simulates a cross-lingual information retrieval scenario where questions are posed in English against all three language versions of the manual. The evaluation focuses on realistic "needle-in-a-haystack" challenges and includes unanswerable questions to test for hallucinations. We compare nine long-context LLMs using direct prompting against three Retrieval-Augmented Generation (RAG) strategies (keyword, semantic, hybrid), with an LLM-as-a-judge for evaluation. Our findings for this specific manual show that Hybrid RAG consistently outperforms direct long-context prompting. Models like Gemini 2.5 Flash and the smaller Qwen 2.5 7B achieve high accuracy (over 85%) across all languages with RAG. This paper contributes a detailed analysis of LLM performance in a specialized industrial domain and an open framework for similar evaluations, highlighting practical trade-offs and challenges.
- Abstract(参考訳): 本稿では,128Kのコンテキストウィンドウを持つ大規模言語モデル(LLM)を技術的質問応答(QA)タスクで評価するケーススタディを提案する。
私たちのベンチマークは、英語、フランス語、ドイツ語で利用可能な農業機械のユーザーマニュアルに基づいて構築されています。
マニュアルの3つの言語バージョンすべてに対して、質問を英語で提示する言語間情報検索シナリオをシミュレートする。
この評価は現実的な "needle-in-a-haystack" の問題に焦点をあて、幻覚の検査に答えられない質問を含む。
長文LLMの3つの戦略(キーワード,意味,ハイブリッド)とLLM-as-a-judgeとの直接的プロンプトを用いた長文LLMの比較を行った。
以上の結果から,Hybrid RAGは直接の長文プロンプトよりも優れていたことが示唆された。
Gemini 2.5 FlashやQwen 2.5 7Bのようなモデルは、RAGを持つすべての言語で高い精度(85%以上)を達成する。
本稿では, 専門分野におけるLCM性能の詳細な分析と, 同様の評価を行うためのオープンフレームワークを提供し, 実践的なトレードオフと課題を浮き彫りにしている。
関連論文リスト
- CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation [26.054199546779696]
CCFQAベンチマークには8言語にまたがる並列音声テキストの事実質問が含まれている。
実験の結果,現在のMLLMはCCFQAベンチマークにおいて大きな課題に直面していることがわかった。
本稿では,LLMの質問応答能力(QA)を多言語音声質問応答(SQA)タスクに効果的に伝達する,数発の翻訳学習戦略を提案する。
論文 参考訳(メタデータ) (2025-08-10T11:09:41Z) - NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。
GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。
我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文 参考訳(メタデータ) (2025-07-30T06:29:50Z) - Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T06:00:21Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - XRAG: Cross-lingual Retrieval-Augmented Generation [21.548347969135254]
XRAGは,LLMの生成能力を評価するために設計されている。
XRAGは最近のニュース記事から構築されており、質問に答えるために外部の知識が必要であることを保証している。
論文 参考訳(メタデータ) (2025-05-15T08:47:55Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。