論文の概要: Feedback Forensics: A Toolkit to Measure AI Personality
- arxiv url: http://arxiv.org/abs/2509.26305v1
- Date: Tue, 30 Sep 2025 14:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.57318
- Title: Feedback Forensics: A Toolkit to Measure AI Personality
- Title(参考訳): フィードバックForensics:AIのパーソナリティを測定するツールキット
- Authors: Arduin Findeis, Timo Kaufmann, Eyke Hüllermeier, Robert Mullins,
- Abstract要約: 優れた”AIモデルを作るいくつかの特徴は、事前に説明することが難しい。
我々は、人間の(またはAI)フィードバックによって奨励されたもの、そしてそのようなフィードバックに基づいてトレーニングされ評価されたAIモデルにまたがって提示されたものの両方、AIの性格変化を追跡するためのオープンソースのツールキットを紹介します。
まず、(A)Arena、MultiPref、PRISMなどの一般的なフィードバックデータセットで推奨される性格特性を分析し、(B)このツールキットを用いて、人気のあるモデルがどれだけの特性を示すかを分析する。
- 参考スコア(独自算出の注目度): 26.46420685104593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some traits making a "good" AI model are hard to describe upfront. For example, should responses be more polite or more casual? Such traits are sometimes summarized as model character or personality. Without a clear objective, conventional benchmarks based on automatic validation struggle to measure such traits. Evaluation methods using human feedback such as Chatbot Arena have emerged as a popular alternative. These methods infer "better" personality and other desirable traits implicitly by ranking multiple model responses relative to each other. Recent issues with model releases highlight limitations of these existing opaque evaluation approaches: a major model was rolled back over sycophantic personality issues, models were observed overfitting to such feedback-based leaderboards. Despite these known issues, limited public tooling exists to explicitly evaluate model personality. We introduce Feedback Forensics: an open-source toolkit to track AI personality changes, both those encouraged by human (or AI) feedback, and those exhibited across AI models trained and evaluated on such feedback. Leveraging AI annotators, our toolkit enables investigating personality via Python API and browser app. We demonstrate the toolkit's usefulness in two steps: (A) first we analyse the personality traits encouraged in popular human feedback datasets including Chatbot Arena, MultiPref and PRISM; and (B) then use our toolkit to analyse how much popular models exhibit such traits. We release (1) our Feedback Forensics toolkit alongside (2) a web app tracking AI personality in popular models and feedback datasets as well as (3) the underlying annotation data at https://github.com/rdnfn/feedback-forensics.
- Abstract(参考訳): 優れた”AIモデルを作るいくつかの特徴は、事前に説明することが難しい。
例えば、応答は丁寧か、それともカジュアルか?
このような特徴は、しばしばモデル的性格や個性として要約される。
明確な目的がなければ、自動検証に基づく従来のベンチマークは、そのような特性を測定するのに苦労する。
Chatbot Arenaのような人間のフィードバックを用いた評価手法が一般的な代替手段として登場した。
これらの手法は、複数のモデル応答を相対的にランク付けすることで、個性やその他の望ましい特徴を暗黙的に推測する。
モデルリリースに関する最近の問題は、これらの既存の不透明な評価アプローチの制限を強調している。
これらの既知の問題にもかかわらず、モデルパーソナリティを明示的に評価するための公開ツールが限られている。
人間(またはAI)のフィードバックによって奨励されたもの、そしてそのようなフィードバックに基づいてトレーニングされ評価されたAIモデルにまたがったものの両方を、AIの性格変化を追跡するためのオープンソースのツールキットであるFeedback Forensicsを紹介します。
AIアノテータを活用することで、ツールキットはPython APIとブラウザアプリによるパーソナリティの調査を可能にします。
まず、(A)Chatbot Arena、MultiPref、PRISMなどの一般的なフィードバックデータセットで推奨される性格特性を分析し、(B)このツールキットを用いて、人気のあるモデルがそのような特徴をどの程度示すかを分析する。
2)人気モデルとフィードバックデータセットのAIパーソナリティを追跡するWebアプリと,(3)https://github.com/rdnfn/feedback-forensicsの基本的なアノテーションデータです。
関連論文リスト
- Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。