論文の概要: Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA
- arxiv url: http://arxiv.org/abs/2505.21115v1
- Date: Tue, 27 May 2025 12:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.643223
- Title: Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA
- Title(参考訳): 明日も本当の日か? 信頼できるQAを改善するための多言語常緑質問分類
- Authors: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii,
- Abstract要約: エバーグリーンラベルを用いた最初の多言語QAデータセットであるEverGreenQAを紹介する。
質問の時間性を明示的にエンコードするかどうかを評価するため、12の現代大言語モデルをベンチマークする。
また、このタスクでSoTA性能を実現する軽量な多言語分類器EG-E5を訓練する。
- 参考スコア(独自算出の注目度): 47.60917219813637
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) often hallucinate in question answering (QA) tasks. A key yet underexplored factor contributing to this is the temporality of questions -- whether they are evergreen (answers remain stable over time) or mutable (answers change). In this work, we introduce EverGreenQA, the first multilingual QA dataset with evergreen labels, supporting both evaluation and training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they encode question temporality explicitly (via verbalized judgments) or implicitly (via uncertainty signals). We also train EG-E5, a lightweight multilingual classifier that achieves SoTA performance on this task. Finally, we demonstrate the practical utility of evergreen classification across three applications: improving self-knowledge estimation, filtering QA datasets, and explaining GPT-4o retrieval behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば質問応答(QA)タスクに幻覚を与える。
質問は常緑(回答は時間とともに安定している)か、ミュータブル(回答は変化している)かである。
本研究では,エバーグリーンラベルを用いた最初の多言語QAデータセットであるEverGreenQAを紹介し,評価とトレーニングの両方をサポートする。
EverGreenQAを用いて、12の近代LCMをベンチマークし、質問の時間性を明示的に(口頭弁別判断で)符号化しているか、それとも(不確実性信号で)暗黙的に(コード化するかを評価する。
また、このタスクでSoTA性能を実現する軽量な多言語分類器EG-E5を訓練する。
最後に,自己知識推定の改善,QAデータセットのフィルタリング,GPT-4o検索動作の説明という,3つのアプリケーションにまたがる常緑分類の実用性を示す。
関連論文リスト
- CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - KEPR: Knowledge Enhancement and Plausibility Ranking for Generative
Commonsense Question Answering [11.537283115693432]
本稿では,ジェネレート・Then-Rankパイプラインアーキテクチャに基づく知識向上と可視性ランキング手法を提案する。
具体的には、キーワードのWiktionary Commonsense知識の観点から質問を拡張し、正規化パターンで修正する。
ELECTRAに基づく回答ランキングモデルを構築し、学習中にロジスティック回帰を行う。
論文 参考訳(メタデータ) (2023-05-15T04:58:37Z) - RealTime QA: What's the Answer Right Now? [137.04039209995932]
本稿では,動的質問応答(QA)プラットフォームであるREALTIME QAを紹介する。
GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。
GPT-3は、検索された文書が答えを見つけるのに十分な情報を提供していない場合、時代遅れの回答を返す傾向がある。
論文 参考訳(メタデータ) (2022-07-27T07:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。