論文の概要: JE-IRT: A Geometric Lens on LLM Abilities through Joint Embedding Item Response Theory
- arxiv url: http://arxiv.org/abs/2509.22888v1
- Date: Fri, 26 Sep 2025 20:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.92574
- Title: JE-IRT: A Geometric Lens on LLM Abilities through Joint Embedding Item Response Theory
- Title(参考訳): JE-IRT:ジョイント埋め込み項目応答理論によるLCM能力の幾何学的レンズ
- Authors: Louie Hong Yao, Nicholas Jarvis, Tiffany Zhan, Saptarshi Ghosh, Linfeng Liu, Tianyu Jiang,
- Abstract要約: 本稿では,LLMと問合せの両方を共有空間に埋め込む幾何学的項目応答フレームワークであるJE-IRTを提案する。
質問埋め込みでは、方向は意味論を符号化し、基準は難易度を符号化するが、各質問の正しさはモデルと質問埋め込みの間の幾何学的相互作用によって決定される。
- 参考スコア(独自算出の注目度): 4.680675835708409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard LLM evaluation practices compress diverse abilities into single scores, obscuring their inherently multidimensional nature. We present JE-IRT, a geometric item-response framework that embeds both LLMs and questions in a shared space. For question embeddings, the direction encodes semantics and the norm encodes difficulty, while correctness on each question is determined by the geometric interaction between the model and question embeddings. This geometry replaces a global ranking of LLMs with topical specialization and enables smooth variation across related questions. Building on this framework, our experimental results reveal that out-of-distribution behavior can be explained through directional alignment, and that larger norms consistently indicate harder questions. Moreover, JE-IRT naturally supports generalization: once the space is learned, new LLMs are added by fitting a single embedding. The learned space further reveals an LLM-internal taxonomy that only partially aligns with human-defined subject categories. JE-IRT thus establishes a unified and interpretable geometric lens that connects LLM abilities with the structure of questions, offering a distinctive perspective on model evaluation and generalization.
- Abstract(参考訳): 標準的なLCM評価プラクティスは、様々な能力を単一のスコアに圧縮し、本質的に多次元の性質を隠蔽する。
本稿では,LLMと問合せの両方を共有空間に埋め込む幾何学的項目応答フレームワークであるJE-IRTを提案する。
質問埋め込みでは、方向は意味論を符号化し、基準は難易度を符号化するが、各質問の正しさはモデルと質問埋め込みの間の幾何学的相互作用によって決定される。
この幾何は、LLMのグローバルランキングをトピックの特殊化に置き換え、関連する質問のスムーズな変動を可能にする。
この枠組みに基づく実験結果から,配当外行動は方向アライメントによって説明でき,より大きなノルムが常に難しい問題を示すことが明らかとなった。
さらに、JE-IRTは自然に一般化をサポートします。
学習空間はさらに、人間の定義対象のカテゴリに部分的に一致したLDM内部分類を明らかにしている。
このようにして、JE-IRT は LLM 能力と質問の構造を結びつける統一的で解釈可能な幾何レンズを確立し、モデル評価と一般化の独特な視点を提供する。
関連論文リスト
- Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。
我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:52:34Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models [28.819559978685806]
大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構成的幾何学的問題解決におけるLLMの能力について検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
論文 参考訳(メタデータ) (2024-02-06T10:37:21Z) - Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation [15.77263269398368]
大規模言語モデル(LLM)は、現在のAIのブレークスルーを促進する。
我々は幾何学のレンズを通してLLMの内部機構に光を当てた。
我々は,任意の(事前学習された)LLMから抽出できる解釈可能な幾何学的特徴を導出する。
論文 参考訳(メタデータ) (2023-12-04T06:01:32Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。