論文の概要: Fact Checking Beyond Training Set
- arxiv url: http://arxiv.org/abs/2403.18671v1
- Date: Wed, 27 Mar 2024 15:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:29:03.397636
- Title: Fact Checking Beyond Training Set
- Title(参考訳): Fact Checking Beyond Training Set
- Authors: Payam Karisani, Heng Ji,
- Abstract要約: 本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
- 参考スコア(独自算出の注目度): 64.88575826304024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the veracity of everyday claims is time consuming and in some cases requires domain expertise. We empirically demonstrate that the commonly used fact checking pipeline, known as the retriever-reader, suffers from performance deterioration when it is trained on the labeled data from one domain and used in another domain. Afterwards, we delve into each component of the pipeline and propose novel algorithms to address this problem. We propose an adversarial algorithm to make the retriever component robust against distribution shift. Our core idea is to initially train a bi-encoder on the labeled source data, and then, to adversarially train two separate document and claim encoders using unlabeled target data. We then focus on the reader component and propose to train it such that it is insensitive towards the order of claims and evidence documents. Our empirical evaluations support the hypothesis that such a reader shows a higher robustness against distribution shift. To our knowledge, there is no publicly available multi-topic fact checking dataset. Thus, we propose a simple automatic method to re-purpose two well-known fact checking datasets. We then construct eight fact checking scenarios from these datasets, and compare our model to a set of strong baseline models, including recent domain adaptation models that use GPT4 for generating synthetic data.
- Abstract(参考訳): 日常的なクレームの正確性を評価するのに時間がかかり、場合によってはドメインの専門知識が必要になる。
我々は、レトリバーリーダーとして知られる一般的な事実チェックパイプラインが、あるドメインからラベル付きデータに基づいてトレーニングされ、別のドメインで使用される際に、性能劣化に悩まされていることを実証的に実証した。
その後、パイプラインの各コンポーネントを探索し、この問題に対処するための新しいアルゴリズムを提案する。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
私たちの中核となる考え方は、まずラベル付けされたソースデータにバイエンコーダをトレーニングし、次にラベル付けされていないターゲットデータを使用して2つの別々のドキュメントとクレームエンコーダを敵対的にトレーニングすることです。
次に、読者コンポーネントに集中して、クレームや証拠文書の順序に敏感であるようにトレーニングすることを提案する。
我々の経験的評価は、そのような読者は分布シフトに対して高いロバスト性を示すという仮説を支持する。
我々の知る限り、マルチトピックの事実チェックデータセットは公開されていない。
そこで本研究では,2つのよく知られた事実チェックデータセットを再利用するための簡易な自動手法を提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、GPT4を使用して合成データを生成する最近のドメイン適応モデルを含む、強力なベースラインモデルと比較する。
関連論文リスト
- Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Consistent Document-Level Relation Extraction via Counterfactuals [47.75615221596254]
実世界のデータに基づいて訓練された文書レベルの関係抽出モデルが,事実バイアスに悩まされていることが示されている。
文書抽出のための文書レベルの反事実データのデータセットであるCovEReDを提案する。
本研究では,CovEReDモデルを用いて文書レベルの反事実データを生成することにより,一貫性が維持されることを示す。
論文 参考訳(メタデータ) (2024-07-09T09:21:55Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - A Benchmark for Point Clouds Registration Algorithms [6.667628085623009]
ポイントクラウドの登録は多くのポイントクラウド処理パイプラインの基本的なステップである。
ほとんどのアルゴリズムは、アドホックに収集され、研究コミュニティと共有されていないデータでテストされる。
この作業は、著者がアドホックに収集されたデータではなく、公開と共有のベンチマークを使用することを奨励することを目的としている。
論文 参考訳(メタデータ) (2020-03-28T17:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。