論文の概要: CAVE: Controllable Authorship Verification Explanations
- arxiv url: http://arxiv.org/abs/2406.16672v2
- Date: Thu, 5 Sep 2024 06:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:22:00.836988
- Title: CAVE: Controllable Authorship Verification Explanations
- Title(参考訳): CAVE: 管理可能なオーサシップ検証説明
- Authors: Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren,
- Abstract要約: オーサシップ検証(AV)は、プライベートなオフラインモデルを必要とするプロプライエタリなドメインでよく使用される。
CAVEは(1)構造化されるように制御された自由テキストAV説明を生成し、(2)説明-ラベル整合性を容易に検証する。
IMDb62、Blog-Auth、Fanfictionの3つの難しいAVデータセットの結果は、CAVEが高品質な説明を生成することを示している。
- 参考スコア(独自算出の注目度): 29.537315481366655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship Verification (AV) (do two documents have the same author?) is essential in many sensitive real-life applications. AV is often used in proprietary domains that require a private, offline model, making SOTA online models like ChatGPT undesirable. Current offline models however have lower downstream utility due to low accuracy/scalability (eg: traditional stylometry AV systems) and lack of accessible post-hoc explanations. In this work, we take the first step to address the above challenges with our trained, offline Llama-3-8B model CAVE (Controllable Authorship Verification Explanations): CAVE generates free-text AV explanations that are controlled to be (1) structured (can be decomposed into sub-explanations in terms of relevant linguistic features), and (2) easily verified for explanation-label consistency (via intermediate labels in sub-explanations). We first engineer a prompt that can generate silver training data from a SOTA teacher model in the desired CAVE output format. We then filter and distill this data into a pretrained Llama-3-8B, our carefully selected student model. Results on three difficult AV datasets IMDb62, Blog-Auth, and Fanfiction show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracies.
- Abstract(参考訳): 著者検証(AV)(2つの文書が同じ著者を持っているか?
AVはプライベートなオフラインモデルを必要とするプロプライエタリなドメインでよく使われ、ChatGPTのようなSOTAオンラインモデルは望ましくない。
しかし、現在のオフラインモデルは、低精度/スケーラビリティ(例えば、従来のスタイロメトリーAVシステム)とアクセス可能なポストホックな説明の欠如により、ダウンストリームの有用性が低下している。
本研究は,学習したオフラインの Llama-3-8B モデル CAVE (Controllable Authorship Verification Explanations): CAVE は,(1) 構造化された自由文の AV 説明を生成する(関連する言語的特徴から部分説明に分解できる)。
我々はまず,SOTA教師モデルから所望のCAVE出力形式で銀のトレーニングデータを生成するプロンプトを設計する。
次に、このデータを慎重に選択した学生モデルであるLlama-3-8Bにフィルタし、蒸留する。
IMDb62、Blog-Auth、Fanfictionの3つの難しいAVデータセットの結果、CAVEは(自動的および人的評価によって測定される)高品質な説明と、競争力のあるタスクアキュラシーを生成する。
関連論文リスト
- Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - FAST3D: Flow-Aware Self-Training for 3D Object Detectors [12.511087244102036]
最先端の自己学習アプローチは、主に自律運転データの時間的性質を無視している。
連続したLiDAR点雲上の3次元物体検出器の教師なし領域適応を可能にするフロー認識型自己学習法を提案する。
以上の結果から,先進的なドメイン知識がなければ,最先端技術よりも大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T14:32:05Z) - The Care Label Concept: A Certification Suite for Trustworthy and
Resource-Aware Machine Learning [5.684803689061448]
機械学習アプリケーションがユビキタスになった。これにより、マシンラーニングを信頼できるものにするための努力が増えた。
メソッドや学習モデルを理解するために時間を費やしたくない人のために、ケアラベルを提供しています。
ケアラベルは、保証が保持されているかどうかをテストする認定スイートの結果です。
論文 参考訳(メタデータ) (2021-06-01T14:16:41Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Learning to Faithfully Rationalize by Construction [36.572594249534866]
多くの設定において、モデルが特別な予測をした理由を理解することが重要である。
提案手法は, 構築による忠実な説明を提供する, このアプローチの簡易な変種を提案する。
自動評価と手動評価の両方において、この単純なフレームワークの変種はエンドツーエンドのアプローチよりも優れていることが分かる。
論文 参考訳(メタデータ) (2020-04-30T21:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。