Fugu-MT 論文翻訳(概要): Evaluating the Prompt Steerability of Large Language Models

論文の概要: Evaluating the Prompt Steerability of Large Language Models

arxiv url: http://arxiv.org/abs/2411.12405v1
Date: Tue, 19 Nov 2024 10:41:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.072396
Title: Evaluating the Prompt Steerability of Large Language Models
Title（参考訳）: 大規模言語モデルのプロンプトステアビリティの評価
Authors: Erik Miehling, Michael Desmond, Karthikeyan Natesan Ramamurthy, Elizabeth M. Daly, Pierre Dognin, Jesus Rios, Djallel Bouneffouf, Miao Liu,
Abstract要約: 本稿では,モデルペルソナの操作性を評価するためのベンチマークを提案する。本ベンチマークでは, 従来のモデルでは, ベースライン挙動の歪と, 多数のペルソナ次元の非対称性の両面から, ステアビリティが制限されていることが明らかとなった。
参考スコア（独自算出の注目度）: 16.341817101388454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building pluralistic AI requires designing models that are able to be shaped to represent a wide range of value systems and cultures. Achieving this requires first being able to evaluate the degree to which a given model is capable of reflecting various personas. To this end, we propose a benchmark for evaluating the steerability of model personas as a function of prompting. Our design is based on a formal definition of prompt steerability, which analyzes the degree to which a model's joint behavioral distribution can be shifted from its baseline behavior. By defining steerability indices and inspecting how these indices change as a function of steering effort, we can estimate the steerability of a model across various persona dimensions and directions. Our benchmark reveals that the steerability of many current models is limited -- due to both a skew in their baseline behavior and an asymmetry in their steerability across many persona dimensions. We release an implementation of our benchmark at https://github.com/IBM/prompt-steering.
Abstract（参考訳）: 複数のAIを構築するには、幅広い価値システムや文化を表現するために形作ることのできるモデルを設計する必要がある。これを達成するには、まず、与えられたモデルが様々なペルソナを反映できる程度を評価する必要がある。そこで本研究では,モデルペルソナのステアビリティをプロンプト機能として評価するベンチマークを提案する。我々の設計は、モデルが基本動作から遷移する度合いを解析するプロンプトステアビリティの形式的定義に基づいている。ステアビリティ指標を定義し,これらの指標がステアリング作業の関数としてどのように変化するかを検査することにより,さまざまなペルソナ次元と方向にわたってモデルのステアビリティを推定することができる。我々のベンチマークでは、多くの現在のモデルのステアビリティは、ベースラインの振る舞いが歪み、多くのペルソナ次元にわたるステアビリティが非対称性であることから、制限されていることが明らかになっている。ベンチマークの実装はhttps://github.com/IBM/prompt-steeringで公開しています。

関連論文リスト

Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文参考訳（メタデータ） (2025-05-28T12:03:09Z)
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文参考訳（メタデータ） (2025-05-15T11:31:02Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Cross Feature Selection to Eliminate Spurious Interactions and Single Feature Dominance Explainable Boosting Machines [0.0]
解釈性は法的、倫理的、実践的な理由において不可欠である。高性能モデルは、冗長な特徴と単一機能支配との素早い相互作用に悩まされることがある。本稿では,これらの課題に対処するための新しいアプローチとして,代替のクロスフィーチャー選択,アンサンブル機能,モデル構成変更手法について検討する。
論文参考訳（メタデータ） (2023-07-17T13:47:41Z)
A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文参考訳（メタデータ） (2023-04-26T17:59:45Z)
Measuring the Driving Forces of Predictive Performance: Application to Credit Scoring [0.0]
信用スコアでは、機械学習モデルは標準パラメトリックモデルを上回ることが知られている。本稿では、モデルに関連するコントリビューションにパフォーマンスメトリックを分解するXPER手法を紹介する。モデル性能の驚くほど大きな部分を、少数の機能が説明できることを示す。
論文参考訳（メタデータ） (2022-12-12T13:09:46Z)
Explainable Human-in-the-loop Dynamic Data-Driven Digital Twins [6.657586324950896]
Digital Twins (DT) は基本的に動的データ駆動型モデルであり、現実世界のシステムのリアルタイム共生「仮想レプリカ」として機能する。本稿では, 双方向共生感覚フィードバックを利用して, ヒューマン・イン・ザ・ループ型DDDASおよびDTシステムにおける説明可能性を活用する手法を提案する。
論文参考訳（メタデータ） (2022-07-19T07:15:12Z)
Using Shape Metrics to Describe 2D Data Points [0.0]
本稿では,2次元データを記述するために形状計測を用いて,解析をより説明しやすく解釈可能にすることを提案する。これは、説明可能性の権利が不可欠である医療コミュニティにおける応用において特に重要である。
論文参考訳（メタデータ） (2022-01-27T23:28:42Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
To what extent do human explanations of model behavior align with actual model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文参考訳（メタデータ） (2020-12-24T17:40:06Z)
Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。 GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文参考訳（メタデータ） (2020-03-25T11:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。