Fugu-MT 論文翻訳(概要): Which Spurious Correlations Impact Reasoning in NLI Models? A Visual Interactive Diagnosis through Data-Constrained Counterfactuals

論文の概要: Which Spurious Correlations Impact Reasoning in NLI Models? A Visual Interactive Diagnosis through Data-Constrained Counterfactuals

arxiv url: http://arxiv.org/abs/2306.12146v1
Date: Wed, 21 Jun 2023 09:50:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 13:58:38.954095
Title: Which Spurious Correlations Impact Reasoning in NLI Models? A Visual Interactive Diagnosis through Data-Constrained Counterfactuals
Title（参考訳）: NLIモデルにどのような相関が影響するか? データ制約による視覚的インタラクティブ診断
Authors: Robin Chan, Afra Amini, Mennatallah El-Assady
Abstract要約: 我々は、NLIモデルが予測に頼っている潜在的刺激的な特徴を診断するための、ループ内人間ダッシュボードを提案する。ダッシュボードは、GPT-3提案からインスピレーションを得て、多様で困難な例を生成することができる。
参考スコア（独自算出の注目度）: 6.491031294923251
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a human-in-the-loop dashboard tailored to diagnosing potential spurious features that NLI models rely on for predictions. The dashboard enables users to generate diverse and challenging examples by drawing inspiration from GPT-3 suggestions. Additionally, users can receive feedback from a trained NLI model on how challenging the newly created example is and make refinements based on the feedback. Through our investigation, we discover several categories of spurious correlations that impact the reasoning of NLI models, which we group into three categories: Semantic Relevance, Logical Fallacies, and Bias. Based on our findings, we identify and describe various research opportunities, including diversifying training data and assessing NLI models' robustness by creating adversarial test suites.
Abstract（参考訳）: 我々は、NLIモデルが予測に頼っている潜在的刺激的な特徴を診断するための、ループ内人間ダッシュボードを提案する。ダッシュボードでは、GPT-3提案からインスピレーションを得て、多様で困難な例を生成することができる。さらに、トレーニング済みのNLIモデルから、新しく作成されたサンプルがいかに難しいか、フィードバックに基づいて改善を行うことができる。本研究により,NLIモデルの推論に影響を及ぼす突発的相関のいくつかのカテゴリが発見され,セマンティック関連,論理的誤り,バイアスの3つのカテゴリに分類される。本研究は,NLIモデルのロバスト性評価やトレーニングデータの多様化など,様々な研究機会を特定し,記述するものである。

関連論文リスト

Probing Vision-Language Understanding through the Visual Entailment Task: promises and pitfalls [0.10923877073891446]
本研究では、マルチモーダル言語モデルにおける視覚言語理解の信頼性調査として、視覚的エンタテインメントタスクが果たす役割について検討する。ゼロショット、少数ショット、微調整の設定で実験を行い、プロンプトデザインなどの要因がVEのパフォーマンスに与える影響について検討する。微細チューニングは強い結果をもたらし、E-SNLI-VEデータセットで83.3%の精度を達成し、最先端のOFA-Xモデルを上回っている。
論文参考訳（メタデータ） (2025-07-23T12:46:51Z)
Self-Supervised Learning for Neural Topic Models with Variance-Invariance-Covariance Regularization [12.784397404903142]
本研究では,NTMのパワーと正規化された自己教師型学習手法を組み合わせた自己教師型ニューラルネットワーク(NTM)を提案する。 NTMは、ドキュメント内の単語の後ろに隠された潜在トピックをニューラルネットワークで学習する。我々のモデルは、定量的にも質的にも、ベースラインや最先端モデルよりも優れています。
論文参考訳（メタデータ） (2025-02-14T06:47:37Z)
Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文参考訳（メタデータ） (2025-02-07T10:01:32Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
AIDE: Antithetical, Intent-based, and Diverse Example-Based Explanations [3.748789746936121]
AIDEは意図に基づく、不透明で複雑なモデルに対する多様な説明を提供するためのアプローチである。 AIDEは、正しい解釈、間違った調査、曖昧な予測の3つのタイプを区別する。
論文参考訳（メタデータ） (2024-07-22T19:33:12Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-12-26T15:44:09Z)
Influence Tuning: Demoting Spurious Correlations via Instance Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文参考訳（メタデータ） (2021-10-07T06:59:46Z)
Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。 BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文参考訳（メタデータ） (2021-09-10T12:13:45Z)
Explaining and Improving Model Behavior with k Nearest Neighbor Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文参考訳（メタデータ） (2020-10-18T16:55:25Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。