論文の概要: CAVE: Controllable Authorship Verification Explanations
- arxiv url: http://arxiv.org/abs/2406.16672v3
- Date: Mon, 10 Feb 2025 03:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:48.650113
- Title: CAVE: Controllable Authorship Verification Explanations
- Title(参考訳): CAVE: 管理可能なオーサシップ検証説明
- Authors: Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren,
- Abstract要約: オーサシップ検証(AV)は多くの実生活アプリケーションに必須である。
現在のオフラインAVモデルは、限られた精度とアクセス可能なポストホック説明の欠如により、ダウンストリームユーティリティが低下している。
トレーニング済みオフラインモデルCAVE(Controllable Authorship Verification Explanations)を開発した。
- 参考スコア(独自算出の注目度): 29.537315481366655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship Verification (AV) (do two documents have the same author?) is essential in many real-life applications. AV is often used in privacy-sensitive domains that require an offline proprietary model that is deployed on premises, making publicly served online models (APIs) a suboptimal choice. Current offline AV models however have lower downstream utility due to limited accuracy (eg: traditional stylometry AV systems) and lack of accessible post-hoc explanations. In this work, we address the above challenges by developing a trained, offline model CAVE (Controllable Authorship Verification Explanations). CAVE generates free-text AV explanations that are controlled to be (1) accessible (uniform structure that can be decomposed into sub-explanations grounded to relevant linguistic features), and (2) easily verified for explanation-label consistency. We generate silver-standard training data grounded to the desirable linguistic features by a prompt-based method Prompt-CAVE. We then filter the data based on rationale-label consistency using a novel metric Cons-R-L. Finally, we fine-tune a small, offline model (Llama-3-8B) with this data to create our model CAVE. Results on three difficult AV datasets show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracy.
- Abstract(参考訳): 著者検証 (AV) (2つの文書は同じ著者を持っているか?
AVは、オンプレミスにデプロイされるオフラインのプロプライエタリなモデルを必要とするプライバシに敏感なドメインでよく使用される。
しかし、現在のオフラインAVモデルは、限られた精度(例えば従来のスタイロメトリーAVシステム)とアクセス可能なポストホックな説明の欠如により、ダウンストリームの有用性が低下している。
本稿では、トレーニングされたオフラインモデルCAVE(Controllable Authorship Verification Explanations)を開発することで、上記の課題に対処する。
CAVEは,(1)アクセシブルに制御された自由文AV説明(関連する言語的特徴に基づく部分説明に分解可能な一様構造)を生成し,(2)説明-ラベル整合性に容易に検証する。
本稿では,Prompt-CAVE法を用いて,望ましい言語特徴に基づく銀標準トレーニングデータを生成する。
次に、新しい計量 Cons-R-L を用いて有理値-ラベル整合性に基づいてデータをフィルタリングする。
最後に、このデータを用いて小さなオフラインモデル(Llama-3-8B)を微調整し、モデルCAVEを作成します。
3つの難しいAVデータセットの結果は、CAVEが高品質な説明(自動的および人的評価によって測定される)と競合するタスク精度を生成することを示している。
関連論文リスト
- The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
論文 参考訳(メタデータ) (2025-04-19T18:40:51Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。
我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。
我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification [9.151489275560413]
本稿では,著者確認のための新しいアプローチであるInstructAVを紹介する。
このアプローチでは,パラメータ効率の細かいチューニング(PEFT)手法と併用して,精度と説明可能性の向上を図る。
論文 参考訳(メタデータ) (2024-07-16T16:27:01Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - FAST3D: Flow-Aware Self-Training for 3D Object Detectors [12.511087244102036]
最先端の自己学習アプローチは、主に自律運転データの時間的性質を無視している。
連続したLiDAR点雲上の3次元物体検出器の教師なし領域適応を可能にするフロー認識型自己学習法を提案する。
以上の結果から,先進的なドメイン知識がなければ,最先端技術よりも大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T14:32:05Z) - Non-Transferable Learning: A New Approach for Model Verification and
Authorization [7.686781778077341]
オーナシップの認証と使用許可という2つの一般的な保護方法がある。
学習モデルにおける排他的データ表現をキャプチャする新しい手法であるNon-Transferable Learning (NTL)を提案する。
我々のNTLベースの認証アプローチは、不正なデータに対する使用性能を著しく低下させることで、データ中心の使用保護を提供します。
論文 参考訳(メタデータ) (2021-06-13T04:57:16Z) - The Care Label Concept: A Certification Suite for Trustworthy and
Resource-Aware Machine Learning [5.684803689061448]
機械学習アプリケーションがユビキタスになった。これにより、マシンラーニングを信頼できるものにするための努力が増えた。
メソッドや学習モデルを理解するために時間を費やしたくない人のために、ケアラベルを提供しています。
ケアラベルは、保証が保持されているかどうかをテストする認定スイートの結果です。
論文 参考訳(メタデータ) (2021-06-01T14:16:41Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Learning to Faithfully Rationalize by Construction [36.572594249534866]
多くの設定において、モデルが特別な予測をした理由を理解することが重要である。
提案手法は, 構築による忠実な説明を提供する, このアプローチの簡易な変種を提案する。
自動評価と手動評価の両方において、この単純なフレームワークの変種はエンドツーエンドのアプローチよりも優れていることが分かる。
論文 参考訳(メタデータ) (2020-04-30T21:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。