論文の概要: Supernova Event Dataset: Interpreting Large Language Models' Personality through Critical Event Analysis
- arxiv url: http://arxiv.org/abs/2506.12189v2
- Date: Sun, 22 Jun 2025 23:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.299748
- Title: Supernova Event Dataset: Interpreting Large Language Models' Personality through Critical Event Analysis
- Title(参考訳): 超新星イベントデータセット:臨界事象解析による大規模言語モデルのパーソナリティの解釈
- Authors: Pranav Agarwal, Ioana Ciucă,
- Abstract要約: 大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
本研究では,提案するSupernova Eventデータセットを用いて,モデルパーソナリティを解釈する。
我々はPhi-4、Orca 2、Qwen 2.5のような小型モデルとClaude 3.7、Gemini 2.5、OpenAI o3のような大型で強力なモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into everyday applications. As their influence grows, understanding their decision making and underlying personality becomes essential. In this work, we interpret model personality using our proposed Supernova Event Dataset, a novel dataset with diverse articles spanning biographies, historical events, news, and scientific discoveries. We use this dataset to benchmark LLMs on extracting and ranking key events from text, a subjective and complex challenge that requires reasoning over long-range context and modeling causal chains. We evaluate small models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another LLM acts as a judge to infer each model's personality based on its selection and classification of events. Our analysis shows distinct personality traits: for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal dynamics, while Qwen 2.5 displays a more strategic, analytical style. When analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors step-by-step causal reasoning. This analysis improves model interpretability, making them user-friendly for a wide range of diverse applications. Project Page - https://www.supernova-event.ai/
- Abstract(参考訳): 大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
影響力が増すにつれて、意思決定と根底にある性格を理解することが不可欠となる。
本研究では,生物誌,歴史イベント,ニュース,科学的発見を対象とする多種多様な記事からなる新しいデータセットであるSupernova Event Datasetを用いて,モデルパーソナリティを解釈する。
このデータセットは、テキストからキーイベントを抽出し、ランキング付けするためのLCMのベンチマークに使われ、これは、長期コンテキストの推論と因果連鎖のモデル化を必要とする、主観的で複雑な課題である。
我々は,Phi-4,Orca 2,Qwen 2.5などの小型モデルとClaude 3.7,Gemini 2.5,OpenAI o3のような大規模で強力なモデルを評価し,イベントの選択と分類に基づいて,他のLCMが各モデルの性格を判断する枠組みを提案する。
例えば、Orca 2は対人的ダイナミクスに焦点を当てた感情的推論を示し、Qwen 2.5はより戦略的で分析的なスタイルを示します。
科学的発見イベントを分析する際、Claude Sonnet 3.7は概念的フレーミングを強調し、Gemini 2.5 Proは実証的検証を優先し、o3はステップバイステップの因果推論を好む。
この分析により、モデルの解釈性が向上し、幅広い多様なアプリケーションに対してユーザフレンドリーになる。
Project Page - https://www.supernova-event.ai/
関連論文リスト
- Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Can Large Language Models do Analytical Reasoning? [45.69642663863077]
本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。
意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
論文 参考訳(メタデータ) (2024-03-06T20:22:08Z) - SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in
Speech [0.0]
この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。
これらの予測のためのディープラーニングモデルを探索するには、本論文で強調された単一、複数出力、シーケンシャルモデルを比較する必要がある。
実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。
論文 参考訳(メタデータ) (2024-03-01T11:28:37Z) - MONAL: Model Autophagy Analysis for Modeling Human-AI Interactions [11.972017738888825]
大規模モデルの自己消費説明のためのモデルオートファジー分析(MONAL)を提案する。
MONALは、人間とAIシステム間の交換における人為的な情報の抑制を解明するために、2つの異なる自己食ループを使用している。
生成したモデルのキャパシティを,情報作成者とディスセミネータの両方として評価する。
論文 参考訳(メタデータ) (2024-02-17T13:02:54Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - CLEVRER-Humans: Describing Physical and Causal Events the Human Way [51.68416979907198]
CLEVRER-Humansベンチマークは,人間ラベルを用いた物理的事象の因果判定のためのビデオデータセットである。
まず、ビデオ内のイベントを新たに表現するための、新しい反復的なイベントクローゼタスク、すなわち、Causal Event Graphs (CEGs) と呼ぶもので、第2に、ニューラルネットワーク生成モデルに基づくデータ拡張技術である。
論文 参考訳(メタデータ) (2023-10-05T16:09:48Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。