Fugu-MT 論文翻訳(概要): Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision

論文の概要: Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision

arxiv url: http://arxiv.org/abs/2402.16508v3
Date: Wed, 02 Oct 2024 07:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 02:55:28.270747
Title: Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision
Title（参考訳）: 大規模合成シュミレーションによる言語横断的オープンドメイン質問応答の事前学習
Authors: Fan Jiang, Tom Drummond, Trevor Cohn,
Abstract要約: 言語間のオープンドメイン質問応答は複雑な問題である。 CLQAは単一エンコーダデコーダモデルを用いて処理可能であることを示す。ウィキペディア内の言語間リンク構造を利用した自己教師型手法を提案する。
参考スコア（独自算出の注目度）: 44.04243892727856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-lingual open domain question answering (CLQA) is a complex problem, comprising cross-lingual retrieval from a multilingual knowledge base, followed by answer generation in the query language. Both steps are usually tackled by separate models, requiring substantial annotated datasets, and typically auxiliary resources, like machine translation systems to bridge between languages. In this paper, we show that CLQA can be addressed using a single encoder-decoder model. To effectively train this model, we propose a self-supervised method based on exploiting the cross-lingual link structure within Wikipedia. We demonstrate how linked Wikipedia pages can be used to synthesise supervisory signals for cross-lingual retrieval, through a form of cloze query, and generate more natural questions to supervise answer generation. Together, we show our approach, \texttt{CLASS}, outperforms comparable methods on both supervised and zero-shot language adaptation settings, including those using machine translation.
Abstract（参考訳）: 言語間オープンドメイン質問応答(CLQA)は、多言語知識ベースからの言語間検索を含む複雑な問題である。どちらのステップも通常は別々のモデルによって取り組まれ、実質的なアノテートデータセットと、言語間の橋渡しを行う機械翻訳システムのような補助的なリソースが必要になる。本稿では,単一エンコーダデコーダモデルを用いてCLQAに対処可能であることを示す。このモデルを効果的に学習するために,ウィキペディア内の言語間リンク構造を利用した自己教師型手法を提案する。リンクされたウィキペディアページは、クローズクエリの形式で言語間検索のための監視信号を合成し、より自然な質問を生成して回答生成を監督する方法を実証する。そこで本研究では,機械翻訳を含む教師付きおよびゼロショット言語適応設定において,同等の手法を性能的に向上させるアプローチである「texttt{CLASS}」について述べる。

関連論文リスト

Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。 2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文参考訳（メタデータ） (2025-07-22T19:23:03Z)
Few-Shot Multilingual Open-Domain QA from 5 Examples [44.04243892727856]
我々は,大規模言語モデル(LLM)から大規模多言語データを合成するためのemphfew-shot学習手法を提案する。提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で生成した高品質な合成多言語データを訓練する。最終的なモデルである textscFsModQA は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
論文参考訳（メタデータ） (2025-02-27T03:24:57Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文参考訳（メタデータ） (2022-12-02T04:08:09Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文参考訳（メタデータ） (2022-05-30T10:31:08Z)
Investigating Post-pretraining Representation Alignment for Cross-Lingual Question Answering [20.4489424966613]
言語間質問応答システムにおける多言語事前学習言語モデルの能力について検討する。言語間の表現をポストホックな微調整のステップで明示的に整合させると、一般的にパフォーマンスが向上する。
論文参考訳（メタデータ） (2021-09-24T15:32:45Z)
One Question Answering Model for Many Languages with Cross-lingual Dense Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文参考訳（メタデータ） (2021-07-26T06:02:54Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。