Fugu-MT 論文翻訳(概要): Towards More Equitable Question Answering Systems: How Much More Data Do You Need?

論文の概要: Towards More Equitable Question Answering Systems: How Much More Data Do You Need?

arxiv url: http://arxiv.org/abs/2105.14115v1
Date: Fri, 28 May 2021 21:32:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 17:25:04.020354
Title: Towards More Equitable Question Answering Systems: How Much More Data Do You Need?
Title（参考訳）: より公平な質問応答システムに向けて:どのくらいのデータが必要ですか?
Authors: Arnab Debnath, Navid Rajabi, Fardina Fathmiul Alam, Antonios Anastasopoulos
Abstract要約: ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
参考スコア（独自算出の注目度）: 15.401330338654203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Question answering (QA) in English has been widely explored, but multilingual datasets are relatively new, with several methods attempting to bridge the gap between high- and low-resourced languages using data augmentation through translation and cross-lingual transfer. In this project, we take a step back and study which approaches allow us to take the most advantage of existing resources in order to produce QA systems in many languages. Specifically, we perform extensive analysis to measure the efficacy of few-shot approaches augmented with automatic translations and permutations of context-question-answer pairs. In addition, we make suggestions for future dataset development efforts that make better use of a fixed annotation budget, with a goal of increasing the language coverage of QA datasets and systems. Code and data for reproducing our experiments are available here: https://github.com/NavidRajabi/EMQA.
Abstract（参考訳）: 英語での質問応答(QA)は広く研究されているが、多言語データセットは比較的新しいもので、翻訳と言語間移動によるデータ拡張による高リソース言語と低リソース言語のギャップを埋めようとしている。このプロジェクトでは、多くの言語でQAシステムを生成するために、既存のリソースを最大限に活用できるアプローチを一歩引いて検討する。具体的には,コンテキスト・クエスチョン・アンワーペアの自動翻訳と置換によって拡張された少数ショットアプローチの有効性を測定するために,広範囲な分析を行う。さらに,qaデータセットやシステムの言語カバレッジ向上を目標として,固定アノテーション予算をより有効に活用する,今後のデータセット開発の取り組みについて提案する。実験を再現するためのコードとデータは、ここで入手できる。

関連論文リスト

Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs [0.19116784879310025]
言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
論文参考訳（メタデータ） (2025-10-01T13:50:05Z)
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [73.35882908048423]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-04-04T17:35:43Z)
Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文参考訳（メタデータ） (2024-10-04T07:29:35Z)
MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文参考訳（メタデータ） (2024-07-08T15:37:51Z)
Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文参考訳（メタデータ） (2024-06-14T16:50:29Z)
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。 CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文参考訳（メタデータ） (2024-06-06T16:14:54Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文参考訳（メタデータ） (2023-05-23T17:57:46Z)
Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。これは多言語コレクションの不均一性と不均衡性に起因する。 KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文参考訳（メタデータ） (2023-05-15T21:17:17Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文参考訳（メタデータ） (2022-11-15T16:14:39Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)
Multilingual Transfer Learning for QA Using Translation as Data Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-10T20:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。