論文の概要: Evaluating the Prompt Steerability of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.12405v1
- Date: Tue, 19 Nov 2024 10:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:54.987186
- Title: Evaluating the Prompt Steerability of Large Language Models
- Title(参考訳): 大規模言語モデルのプロンプトステアビリティの評価
- Authors: Erik Miehling, Michael Desmond, Karthikeyan Natesan Ramamurthy, Elizabeth M. Daly, Pierre Dognin, Jesus Rios, Djallel Bouneffouf, Miao Liu,
- Abstract要約: 本稿では,モデルペルソナの操作性を評価するためのベンチマークを提案する。
本ベンチマークでは, 従来のモデルでは, ベースライン挙動の歪と, 多数のペルソナ次元の非対称性の両面から, ステアビリティが制限されていることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.341817101388454
- License:
- Abstract: Building pluralistic AI requires designing models that are able to be shaped to represent a wide range of value systems and cultures. Achieving this requires first being able to evaluate the degree to which a given model is capable of reflecting various personas. To this end, we propose a benchmark for evaluating the steerability of model personas as a function of prompting. Our design is based on a formal definition of prompt steerability, which analyzes the degree to which a model's joint behavioral distribution can be shifted from its baseline behavior. By defining steerability indices and inspecting how these indices change as a function of steering effort, we can estimate the steerability of a model across various persona dimensions and directions. Our benchmark reveals that the steerability of many current models is limited -- due to both a skew in their baseline behavior and an asymmetry in their steerability across many persona dimensions. We release an implementation of our benchmark at https://github.com/IBM/prompt-steering.
- Abstract(参考訳): 複数のAIを構築するには、幅広い価値システムや文化を表現するために形作ることのできるモデルを設計する必要がある。
これを達成するには、まず、与えられたモデルが様々なペルソナを反映できる程度を評価する必要がある。
そこで本研究では,モデルペルソナのステアビリティをプロンプト機能として評価するベンチマークを提案する。
我々の設計は、モデルが基本動作から遷移する度合いを解析するプロンプトステアビリティの形式的定義に基づいている。
ステアビリティ指標を定義し,これらの指標がステアリング作業の関数としてどのように変化するかを検査することにより,さまざまなペルソナ次元と方向にわたってモデルのステアビリティを推定することができる。
我々のベンチマークでは、多くの現在のモデルのステアビリティは、ベースラインの振る舞いが歪み、多くのペルソナ次元にわたるステアビリティが非対称性であることから、制限されていることが明らかになっている。
ベンチマークの実装はhttps://github.com/IBM/prompt-steeringで公開しています。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Cross Feature Selection to Eliminate Spurious Interactions and Single
Feature Dominance Explainable Boosting Machines [0.0]
解釈性は法的、倫理的、実践的な理由において不可欠である。
高性能モデルは、冗長な特徴と単一機能支配との素早い相互作用に悩まされることがある。
本稿では,これらの課題に対処するための新しいアプローチとして,代替のクロスフィーチャー選択,アンサンブル機能,モデル構成変更手法について検討する。
論文 参考訳(メタデータ) (2023-07-17T13:47:41Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Measuring the Driving Forces of Predictive Performance: Application to
Credit Scoring [0.0]
信用スコアでは、機械学習モデルは標準パラメトリックモデルを上回ることが知られている。
本稿では、モデルに関連するコントリビューションにパフォーマンスメトリックを分解するXPER手法を紹介する。
モデル性能の驚くほど大きな部分を、少数の機能が説明できることを示す。
論文 参考訳(メタデータ) (2022-12-12T13:09:46Z) - Explainable Human-in-the-loop Dynamic Data-Driven Digital Twins [6.657586324950896]
Digital Twins (DT) は基本的に動的データ駆動型モデルであり、現実世界のシステムのリアルタイム共生「仮想レプリカ」として機能する。
本稿では, 双方向共生感覚フィードバックを利用して, ヒューマン・イン・ザ・ループ型DDDASおよびDTシステムにおける説明可能性を活用する手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T07:15:12Z) - Using Shape Metrics to Describe 2D Data Points [0.0]
本稿では,2次元データを記述するために形状計測を用いて,解析をより説明しやすく解釈可能にすることを提案する。
これは、説明可能性の権利が不可欠である医療コミュニティにおける応用において特に重要である。
論文 参考訳(メタデータ) (2022-01-27T23:28:42Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。