Fugu-MT 論文翻訳(概要): CAVE: Controllable Authorship Verification Explanations

論文の概要: CAVE: Controllable Authorship Verification Explanations

arxiv url: http://arxiv.org/abs/2406.16672v1
Date: Mon, 24 Jun 2024 14:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 14:34:57.800906
Title: CAVE: Controllable Authorship Verification Explanations
Title（参考訳）: CAVE: 管理可能なオーサシップ検証説明
Authors: Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren,
Abstract要約: オーサシップ検証(AV)は、多くのセンシティブなリアルタイムアプリケーションに必須である。この作業では、モデルCAVEの課題に対処する第一歩を踏み出します。 CAVEは,1)構造化された自由テキストAV説明文を生成し,2)説明ラベルの整合性について容易に検証する。
参考スコア（独自算出の注目度）: 29.537315481366655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Authorship Verification (AV) (do two documents have the same author?) is essential for many sensitive real-life applications. AV is often used in proprietary domains that require a private, offline model, making SOTA online models like ChatGPT undesirable. Other SOTA systems use methods, e.g. Siamese Networks, that are uninterpretable, and hence cannot be trusted in high-stakes applications. In this work, we take the first step to address the above challenges with our model CAVE (Controllable Authorship Verification Explanations): CAVE generates free-text AV explanations that are controlled to be 1) structured (can be decomposed into sub-explanations with respect to relevant linguistic features), and 2) easily verified for explanation-label consistency (via intermediate labels in sub-explanations). In this work, we train a Llama-3-8B as CAVE; since there are no human-written corpora for AV explanations, we sample silver-standard explanations from GPT-4-TURBO and distill them into a pretrained Llama-3-8B. Results on three difficult AV datasets IMdB2, Blog-Auth, and FanFiction show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracies.
Abstract（参考訳）: 著者検証(AV)(2つの文書が同じ著者を持っているか? AVはプライベートなオフラインモデルを必要とするプロプライエタリなドメインでよく使われ、ChatGPTのようなSOTAオンラインモデルは望ましくない。他のSOTAシステムでは、例えばSiamese Networksは解釈不能であり、高信頼のアプリケーションでは信頼できない。本稿では,この課題に対処する第一歩として,当社のCAVE(Controllable Authorship Verification Explanations): CAVEは,制御可能な自由テキストAV説明を生成する。 1)構造化(関連する言語的特徴に関する部分説明に分解できる)、 2) 説明ラベルの整合性(部分説明の中間ラベルによる)は容易に検証できる。本研究は, Llama-3-8B をCAVE として訓練し, AV 説明のための人体記述コーパスがないため, GPT-4-TURBO から銀標準説明を採取し, プレトレーニングした Llama-3-8B に蒸留する。 3つの難しいAVデータセットIMdB2、Blog-Auth、FanFictionの結果は、CAVEが高品質な説明(自動的および人的評価によって測定される)と競争的タスクの精度を生成することを示している。

関連論文リスト

ModShift: Model Privacy via Designed Shifts [18.035417008213077]
フェデレーション学習における盗聴者に対するモデルのプライバシを保護するために、シフトが導入される。モデル更新のフィッシャー情報行列をシフトした更新から導出し、特異点まで駆動する。提案手法は,ノイズ注入方式と比較して,より高いモデルシフトを実現する。
論文参考訳（メタデータ） (2025-07-26T21:00:56Z)
The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
論文参考訳（メタデータ） (2025-04-19T18:40:51Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文参考訳（メタデータ） (2024-11-09T08:22:31Z)
Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。 3つの大きな言語モデルから合成説明を生成する。
論文参考訳（メタデータ） (2024-10-05T02:19:49Z)
Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文参考訳（メタデータ） (2024-09-30T12:36:25Z)
InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification [9.151489275560413]
本稿では,著者確認のための新しいアプローチであるInstructAVを紹介する。このアプローチでは,パラメータ効率の細かいチューニング(PEFT)手法と併用して,精度と説明可能性の向上を図る。
論文参考訳（メタデータ） (2024-07-16T16:27:01Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文参考訳（メタデータ） (2024-02-06T05:11:38Z)
ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文参考訳（メタデータ） (2023-12-30T07:18:54Z)
Who Wrote it and Why? Prompting Large-Language Models for Authorship Verification [9.751557360880204]
オーサシップ検証(AV)は自然言語処理(NLP)と計算言語学の基本的な課題である。本稿では,AVのLarge-Language Models(LLMs)を利用した新しい手法であるPromptAVを提案する。
論文参考訳（メタデータ） (2023-10-12T08:24:15Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。 GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文参考訳（メタデータ） (2022-07-06T06:26:17Z)
The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。入力と論理的に整合した説明は、通常より正確な予測を示す。本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文参考訳（メタデータ） (2022-05-06T17:57:58Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
FAST3D: Flow-Aware Self-Training for 3D Object Detectors [12.511087244102036]
最先端の自己学習アプローチは、主に自律運転データの時間的性質を無視している。連続したLiDAR点雲上の3次元物体検出器の教師なし領域適応を可能にするフロー認識型自己学習法を提案する。以上の結果から,先進的なドメイン知識がなければ,最先端技術よりも大幅に向上することが示唆された。
論文参考訳（メタデータ） (2021-10-18T14:32:05Z)
Non-Transferable Learning: A New Approach for Model Verification and Authorization [7.686781778077341]
オーナシップの認証と使用許可という2つの一般的な保護方法がある。学習モデルにおける排他的データ表現をキャプチャする新しい手法であるNon-Transferable Learning (NTL)を提案する。我々のNTLベースの認証アプローチは、不正なデータに対する使用性能を著しく低下させることで、データ中心の使用保護を提供します。
論文参考訳（メタデータ） (2021-06-13T04:57:16Z)
The Care Label Concept: A Certification Suite for Trustworthy and Resource-Aware Machine Learning [5.684803689061448]
機械学習アプリケーションがユビキタスになった。これにより、マシンラーニングを信頼できるものにするための努力が増えた。メソッドや学習モデルを理解するために時間を費やしたくない人のために、ケアラベルを提供しています。ケアラベルは、保証が保持されているかどうかをテストする認定スイートの結果です。
論文参考訳（メタデータ） (2021-06-01T14:16:41Z)
Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文参考訳（メタデータ） (2021-04-07T09:44:36Z)
Learning to Faithfully Rationalize by Construction [36.572594249534866]
多くの設定において、モデルが特別な予測をした理由を理解することが重要である。提案手法は, 構築による忠実な説明を提供する, このアプローチの簡易な変種を提案する。自動評価と手動評価の両方において、この単純なフレームワークの変種はエンドツーエンドのアプローチよりも優れていることが分かる。
論文参考訳（メタデータ） (2020-04-30T21:45:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。