論文の概要: Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World
- arxiv url: http://arxiv.org/abs/2603.04408v1
- Date: Tue, 03 Feb 2026 08:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.184531
- Title: Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World
- Title(参考訳): LLMにおけるミームの探索 - エンタングルド・アセスメント・ワールドのパラダイム
- Authors: Luzhou Peng, Zhengxin Yang, Honglu Ji, Yikang Yang, Fanda Fan, Wanling Gao, Jiayuan Ge, Yilin Han, Jianfeng Zhan,
- Abstract要約: 本稿では,Dawkinsが知識と行動を再現する文化的遺伝子として導入した概念である,ミームで構成された大規模言語モデルを概念化する。
9つのデータセットと4,507のLLMに適用されたProbing Memesは、隠れた能力構造を明らかにし、従来のパラダイムの下で見えない現象を定量化する。
- 参考スコア(独自算出の注目度): 3.8684495840144724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluation paradigms for large language models (LLMs) characterize models and datasets separately, yielding coarse descriptions: items in datasets are treated as pre-labeled entries, and models are summarized by overall scores such as accuracy, together ignoring the diversity of population-level model behaviors across items with varying properties. To address this gap, this paper conceptualizes LLMs as composed of memes, a notion introduced by Dawkins as cultural genes that replicate knowledge and behavior. Building on this perspective, the Probing Memes paradigm reconceptualizes evaluation as an entangled world of models and data. It centers on a Perception Matrix that captures model-item interactions, enabling Probe Properties for characterizing items and Meme Scores for depicting model behavioral traits. Applied to 9 datasets and 4,507 LLMs, Probing Memes reveals hidden capability structures and quantifies phenomena invisible under traditional paradigms (e.g., elite models failing on problems that most models answer easily). It not only supports more informative and extensible benchmarks but also enables population-based evaluation of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の評価パラダイムは、モデルとデータセットを別々に特徴付け、粗い記述を与える:データセットの項目は事前にラベル付けされたエントリとして扱われ、モデルは精度などの全体的なスコアによって要約される。
このギャップに対処するため,本論文では,LLMを,知識と行動を再現する文化的遺伝子として,ドーキンスによって導入されたミームとして概念化している。
この観点から、Probing Memesパラダイムはモデルとデータの絡み合った世界としての評価を再認識する。
モデルとテーマのインタラクションをキャプチャするパーセプションマトリックスを中心に、アイテムを特徴付けるProbe Propertiesと、モデル行動の特徴を記述するMeme Scoresを実現している。
9つのデータセットと4,507のLLMに適用されたProbing Memesは、隠れた能力構造を明らかにし、従来のパラダイムの下で見えない現象を定量化する(例えば、ほとんどのモデルが簡単に答えられるような問題に失敗したエリートモデル)。
より情報的で拡張性のあるベンチマークをサポートするだけでなく、LLMの個体群に基づく評価も可能である。
関連論文リスト
- Meta-probabilistic Modeling [36.339664748241944]
複数の関連するデータセットから生成モデル構造を直接学習するメタ確率モデリング(MPM)を提案する。
学習と推論のために、抽出可能なVAEにインスパイアされたサロゲートの目的を提案し、双方向の最適化により最適化する。
我々は、オブジェクト中心の画像モデリングとシーケンシャルテキストモデリングでMPMを評価し、有意義な潜在表現を復元しながら、生成モデルをデータに適応させることを実証した。
論文 参考訳(メタデータ) (2026-01-08T00:34:06Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Applying Large Language Models to Travel Satisfaction Analysis [2.5105418815378555]
本研究は上海で収集された家庭調査データを用いて,大言語モデル(LLM)と人間との相違点の存在と原因を特定する。
LLMは文脈的理解と一般化において強力な能力を持ち、タスク固有のデータへの依存を著しく減少させる。
小さいサンプルサイズで旅行行動のモデル化に応用できるLCMに基づくモデリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T09:11:58Z) - Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。
これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-27T15:36:24Z) - Explaining word embeddings with perfect fidelity: Case study in research impact prediction [0.0]
本稿では,単語埋め込みに基づいて学習したロジスティック回帰に基づく分類モデルに対して,新たな特徴重要度手法である自己モデルRated Entities(SMER)を提案する。
SMERは理論上、説明されたモデルに完全に忠実である。
SMERはLIME,SHAP,Global Tree surrogatesよりもよく説明できることを示した。
論文 参考訳(メタデータ) (2024-09-24T09:28:24Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。