論文の概要: Behavioral Fingerprinting of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04504v1
- Date: Tue, 02 Sep 2025 07:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.341129
- Title: Behavioral Fingerprinting of Large Language Models
- Title(参考訳): 大規模言語モデルの行動フィンガープリント
- Authors: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu,
- Abstract要約: 現在のLLM(Large Language Models)のベンチマークは主にパフォーマンス指標に焦点を当てている。
本稿では,従来の評価を超越した行動フィンガープリントの枠組みを提案する。
- 参考スコア(独自算出の注目度): 35.18856642496912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current benchmarks for Large Language Models (LLMs) primarily focus on performance metrics, often failing to capture the nuanced behavioral characteristics that differentiate them. This paper introduces a novel ``Behavioral Fingerprinting'' framework designed to move beyond traditional evaluation by creating a multi-faceted profile of a model's intrinsic cognitive and interactive styles. Using a curated \textit{Diagnostic Prompt Suite} and an innovative, automated evaluation pipeline where a powerful LLM acts as an impartial judge, we analyze eighteen models across capability tiers. Our results reveal a critical divergence in the LLM landscape: while core capabilities like abstract and causal reasoning are converging among top models, alignment-related behaviors such as sycophancy and semantic robustness vary dramatically. We further document a cross-model default persona clustering (ISTJ/ESTJ) that likely reflects common alignment incentives. Taken together, this suggests that a model's interactive nature is not an emergent property of its scale or reasoning power, but a direct consequence of specific, and highly variable, developer alignment strategies. Our framework provides a reproducible and scalable methodology for uncovering these deep behavioral differences. Project: https://github.com/JarvisPei/Behavioral-Fingerprinting
- Abstract(参考訳): LLM(Large Language Models)の現在のベンチマークは主にパフォーマンス指標に重点を置いている。
本稿では,モデル固有の認知的・対話的スタイルの多面的プロファイルを作成することにより,従来の評価を超えて行動的フィンガープリンティングを実現するための新しいフレームワーク「行動的フィンガープリンティング」を提案する。
キュレートされた‘textit{Diagnostic Prompt Suite} と,強力なLCMが公平な判断として機能する,革新的な自動評価パイプラインを用いて,機能レベルを越えた18のモデルを分析する。
抽象的推論や因果推論といった中核的な能力はトップモデルに集約されているが、サイコフィナンシーやセマンティックロバストネスといったアライメントに関連した行動は劇的に変化している。
さらに、一般的なアライメントインセンティブを反映した、クロスモデルデフォルトのペルソナクラスタリング(ISTJ/ESTJ)を文書化する。
まとめると、モデルのインタラクティブな性質は、そのスケールや推論能力の創発的な性質ではなく、特定の、高度に可変な開発者のアライメント戦略の直接的な結果であることを示している。
私たちのフレームワークは、これらの深い振る舞いの違いを明らかにするために再現可能でスケーラブルな方法論を提供します。
プロジェクト:https://github.com/JarvisPei/Behavioral-Fingerprinting
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - How to Squeeze An Explanation Out of Your Model [13.154512864498912]
本稿では,モデルに依存しない解釈可能性のアプローチを提案する。
任意のモデルの分類レイヤーの前にSEブロックを含めることで、最も影響力のある特徴を検索することができる。
以上の結果から,新たなSEベースの解釈性は,画像およびビデオ/マルチモーダル設定の様々なモデルに適用可能であることがわかった。
論文 参考訳(メタデータ) (2024-12-06T15:47:53Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。