論文の概要: CAVE: Controllable Authorship Verification Explanations
- arxiv url: http://arxiv.org/abs/2406.16672v1
- Date: Mon, 24 Jun 2024 14:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 14:34:57.800906
- Title: CAVE: Controllable Authorship Verification Explanations
- Title(参考訳): CAVE: 管理可能なオーサシップ検証説明
- Authors: Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren,
- Abstract要約: オーサシップ検証(AV)は、多くのセンシティブなリアルタイムアプリケーションに必須である。
この作業では、モデルCAVEの課題に対処する第一歩を踏み出します。
CAVEは,1)構造化された自由テキストAV説明文を生成し,2)説明ラベルの整合性について容易に検証する。
- 参考スコア(独自算出の注目度): 29.537315481366655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship Verification (AV) (do two documents have the same author?) is essential for many sensitive real-life applications. AV is often used in proprietary domains that require a private, offline model, making SOTA online models like ChatGPT undesirable. Other SOTA systems use methods, e.g. Siamese Networks, that are uninterpretable, and hence cannot be trusted in high-stakes applications. In this work, we take the first step to address the above challenges with our model CAVE (Controllable Authorship Verification Explanations): CAVE generates free-text AV explanations that are controlled to be 1) structured (can be decomposed into sub-explanations with respect to relevant linguistic features), and 2) easily verified for explanation-label consistency (via intermediate labels in sub-explanations). In this work, we train a Llama-3-8B as CAVE; since there are no human-written corpora for AV explanations, we sample silver-standard explanations from GPT-4-TURBO and distill them into a pretrained Llama-3-8B. Results on three difficult AV datasets IMdB2, Blog-Auth, and FanFiction show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracies.
- Abstract(参考訳): 著者検証(AV)(2つの文書が同じ著者を持っているか?
AVはプライベートなオフラインモデルを必要とするプロプライエタリなドメインでよく使われ、ChatGPTのようなSOTAオンラインモデルは望ましくない。
他のSOTAシステムでは、例えばSiamese Networksは解釈不能であり、高信頼のアプリケーションでは信頼できない。
本稿では,この課題に対処する第一歩として,当社のCAVE(Controllable Authorship Verification Explanations): CAVEは,制御可能な自由テキストAV説明を生成する。
1)構造化(関連する言語的特徴に関する部分説明に分解できる)、
2) 説明ラベルの整合性(部分説明の中間ラベルによる)は容易に検証できる。
本研究は, Llama-3-8B をCAVE として訓練し, AV 説明のための人体記述コーパスがないため, GPT-4-TURBO から銀標準説明を採取し, プレトレーニングした Llama-3-8B に蒸留する。
3つの難しいAVデータセットIMdB2、Blog-Auth、FanFictionの結果は、CAVEが高品質な説明(自動的および人的評価によって測定される)と競争的タスクの精度を生成することを示している。
関連論文リスト
- Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - FAST3D: Flow-Aware Self-Training for 3D Object Detectors [12.511087244102036]
最先端の自己学習アプローチは、主に自律運転データの時間的性質を無視している。
連続したLiDAR点雲上の3次元物体検出器の教師なし領域適応を可能にするフロー認識型自己学習法を提案する。
以上の結果から,先進的なドメイン知識がなければ,最先端技術よりも大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T14:32:05Z) - The Care Label Concept: A Certification Suite for Trustworthy and
Resource-Aware Machine Learning [5.684803689061448]
機械学習アプリケーションがユビキタスになった。これにより、マシンラーニングを信頼できるものにするための努力が増えた。
メソッドや学習モデルを理解するために時間を費やしたくない人のために、ケアラベルを提供しています。
ケアラベルは、保証が保持されているかどうかをテストする認定スイートの結果です。
論文 参考訳(メタデータ) (2021-06-01T14:16:41Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Learning to Faithfully Rationalize by Construction [36.572594249534866]
多くの設定において、モデルが特別な予測をした理由を理解することが重要である。
提案手法は, 構築による忠実な説明を提供する, このアプローチの簡易な変種を提案する。
自動評価と手動評価の両方において、この単純なフレームワークの変種はエンドツーエンドのアプローチよりも優れていることが分かる。
論文 参考訳(メタデータ) (2020-04-30T21:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。