論文の概要: Soft Prompts for Evaluation: Measuring Conditional Distance of Capabilities
- arxiv url: http://arxiv.org/abs/2505.14943v1
- Date: Tue, 20 May 2025 22:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.769763
- Title: Soft Prompts for Evaluation: Measuring Conditional Distance of Capabilities
- Title(参考訳): 評価のためのソフトプロンプト:条件付き能力距離の測定
- Authors: Ross Nordby,
- Abstract要約: 本稿では,モデルと対象行動との条件距離の指標として,最適化された入力埋め込み,すなわち「ソフトプロンプト」を用いたアプローチを提案する。
ソフトプロンプトを用いた評価フレームワークは、自然言語、チェス、パスフィンディングで実証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To help evaluate and understand the latent capabilities of language models, this paper introduces an approach using optimized input embeddings, or 'soft prompts,' as a metric of conditional distance between a model and a target behavior. The technique aims to facilitate latent capability discovery as a part of automated red teaming/evaluation suites and to provide quantitative feedback about the accessibility of potentially concerning behaviors in a way that may scale to powerful future models, including those which may otherwise be capable of deceptive alignment. An evaluation framework using soft prompts is demonstrated in natural language, chess, and pathfinding, and the technique is extended with generalized conditional soft prompts to aid in constructing task evaluations.
- Abstract(参考訳): 本稿では,言語モデルの潜在能力を評価・理解するために,モデルと対象行動との条件距離の指標として,最適化された入力埋め込み,すなわち「ソフトプロンプト」を用いたアプローチを提案する。
この技術は、自動化されたレッドチーム/評価スイートの一部として潜在能力発見の促進と、潜在的に関連する行動のアクセシビリティに関する定量的フィードバックを提供することを目的としている。
ソフトプロンプトを用いた評価フレームワークを自然言語,チェス,パスフィンディングで実証し,タスク評価の構築を支援するために,一般化された条件付きソフトプロンプトを用いて拡張する。
関連論文リスト
- An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection [0.08974531206817744]
そこで本研究では,非技術ユーザを対象にした自然言語テキスト記述の改善手法を提案する。
複数の公開可能なオープン語彙オブジェクト検出モデルで性能を示すことで,フィードバック機構がもたらす改善を定量化する。
論文 参考訳(メタデータ) (2025-03-21T16:34:04Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。
SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T16:36:24Z) - Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。
4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文 参考訳(メタデータ) (2024-07-31T21:12:21Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。