論文の概要: BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2410.01171v1
- Date: Wed, 2 Oct 2024 01:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:50:44.190643
- Title: BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
- Title(参考訳): BordIRlines: 言語横断検索拡張ジェネレーションを評価するデータセット
- Authors: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch,
- Abstract要約: 本稿では,言語間RAGの課題について検討し,既存のシステムの堅牢性を検討するためのデータセットを提案する。
以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
- 参考スコア(独自算出の注目度): 34.650355693901034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel at creative generation but continue to struggle with the issues of hallucination and bias. While retrieval-augmented generation (RAG) provides a framework for grounding LLMs' responses in accurate and up-to-date information, it still raises the question of bias: which sources should be selected for inclusion in the context? And how should their importance be weighted? In this paper, we study the challenge of cross-lingual RAG and present a dataset to investigate the robustness of existing systems at answering queries about geopolitical disputes, which exist at the intersection of linguistic, cultural, and political boundaries. Our dataset is sourced from Wikipedia pages containing information relevant to the given queries and we investigate the impact of including additional context, as well as the composition of this context in terms of language and source, on an LLM's response. Our results show that existing RAG systems continue to be challenged by cross-lingual use cases and suffer from a lack of consistency when they are provided with competing information in multiple languages. We present case studies to illustrate these issues and outline steps for future research to address these challenges. We make our dataset and code publicly available at https://github.com/manestay/bordIRlines.
- Abstract(参考訳): 大規模な言語モデルは創造的な世代で優れているが、幻覚や偏見の問題に悩まされ続けている。
検索強化世代(RAG)は、LLMの応答を正確かつ最新の情報でグラウンド化するためのフレームワークを提供するが、それでもバイアスの問題を提起する:どのソースをコンテキストに含めるべきか?
そして、その重要性はどのように重み付けされるべきなのか?
本稿では,言語的・文化的・政治的境界の共通点に存在する地政学的紛争の問合せに答える上で,既存のシステムの堅牢性を評価するためのデータセットについて,言語間RAGの課題について検討する。
我々のデータセットは,与えられたクエリに関連する情報を含むウィキペディアページから得られたものであり,LLMの応答に対する言語とソースの観点から,追加のコンテキストを含めることによる影響と,このコンテキストの構成について検討する。
以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
本稿では,これらの課題を説明するケーススタディと,これらの課題に対処するための今後の研究手順について概説する。
データセットとコードはhttps://github.com/manestay/bordIRlines.comで公開しています。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。