論文の概要: Fact Checking Beyond Training Set
- arxiv url: http://arxiv.org/abs/2403.18671v1
- Date: Wed, 27 Mar 2024 15:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:29:03.397636
- Title: Fact Checking Beyond Training Set
- Title(参考訳): Fact Checking Beyond Training Set
- Authors: Payam Karisani, Heng Ji,
- Abstract要約: 本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
- 参考スコア(独自算出の注目度): 64.88575826304024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the veracity of everyday claims is time consuming and in some cases requires domain expertise. We empirically demonstrate that the commonly used fact checking pipeline, known as the retriever-reader, suffers from performance deterioration when it is trained on the labeled data from one domain and used in another domain. Afterwards, we delve into each component of the pipeline and propose novel algorithms to address this problem. We propose an adversarial algorithm to make the retriever component robust against distribution shift. Our core idea is to initially train a bi-encoder on the labeled source data, and then, to adversarially train two separate document and claim encoders using unlabeled target data. We then focus on the reader component and propose to train it such that it is insensitive towards the order of claims and evidence documents. Our empirical evaluations support the hypothesis that such a reader shows a higher robustness against distribution shift. To our knowledge, there is no publicly available multi-topic fact checking dataset. Thus, we propose a simple automatic method to re-purpose two well-known fact checking datasets. We then construct eight fact checking scenarios from these datasets, and compare our model to a set of strong baseline models, including recent domain adaptation models that use GPT4 for generating synthetic data.
- Abstract(参考訳): 日常的なクレームの正確性を評価するのに時間がかかり、場合によってはドメインの専門知識が必要になる。
我々は、レトリバーリーダーとして知られる一般的な事実チェックパイプラインが、あるドメインからラベル付きデータに基づいてトレーニングされ、別のドメインで使用される際に、性能劣化に悩まされていることを実証的に実証した。
その後、パイプラインの各コンポーネントを探索し、この問題に対処するための新しいアルゴリズムを提案する。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
私たちの中核となる考え方は、まずラベル付けされたソースデータにバイエンコーダをトレーニングし、次にラベル付けされていないターゲットデータを使用して2つの別々のドキュメントとクレームエンコーダを敵対的にトレーニングすることです。
次に、読者コンポーネントに集中して、クレームや証拠文書の順序に敏感であるようにトレーニングすることを提案する。
我々の経験的評価は、そのような読者は分布シフトに対して高いロバスト性を示すという仮説を支持する。
我々の知る限り、マルチトピックの事実チェックデータセットは公開されていない。
そこで本研究では,2つのよく知られた事実チェックデータセットを再利用するための簡易な自動手法を提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、GPT4を使用して合成データを生成する最近のドメイン適応モデルを含む、強力なベースラインモデルと比較する。
関連論文リスト
- Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Domain-Specific NER via Retrieving Correlated Samples [37.98414661072985]
本稿では,NERモデルの相関サンプルによる拡張を提案する。
人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。
上記の2つの領域のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-08-27T12:25:24Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - A Benchmark for Point Clouds Registration Algorithms [6.667628085623009]
ポイントクラウドの登録は多くのポイントクラウド処理パイプラインの基本的なステップである。
ほとんどのアルゴリズムは、アドホックに収集され、研究コミュニティと共有されていないデータでテストされる。
この作業は、著者がアドホックに収集されたデータではなく、公開と共有のベンチマークを使用することを奨励することを目的としている。
論文 参考訳(メタデータ) (2020-03-28T17:02:26Z) - SimEx: Express Prediction of Inter-dataset Similarity by a Fleet of
Autoencoders [13.55607978839719]
データの集合間の類似性を知ることは、効果的なモデルのトレーニングに多くの肯定的な意味を持つ。
事前訓練されたオートエンコーダのセットを用いて,データセット間の類似性を早期に予測する手法であるSimExを提案する。
本手法は,共通類似度推定手法と比較して,データセット間類似度予測において10倍以上の高速化を実現する。
論文 参考訳(メタデータ) (2020-01-14T16:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。