論文の概要: Capturing LLM Capabilities via Evidence-Calibrated Query Clustering
- arxiv url: http://arxiv.org/abs/2605.17110v1
- Date: Sat, 16 May 2026 18:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.351108
- Title: Capturing LLM Capabilities via Evidence-Calibrated Query Clustering
- Title(参考訳): Evidence-Calibrated Query ClusteringによるLCM機能のキャプチャ
- Authors: Fangzhou Wu, Sandeep Silwal, Qiuyi Zhang,
- Abstract要約: 本稿では,表面レベルのセマンティクスと潜在能力要件のギャップを埋めるために,事前セマンティクス埋め込みを校正するアルゴリズムECCを提案する。
ECCはBradley-Terryモデルによってパラメータ化された機能プロファイルを通じて各クラスタを特徴付け、トレーニング可能な混合重み付けを使用して、混合機能要求のクエリに適合する。
- 参考スコア(独自算出の注目度): 12.71199389824453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.
- Abstract(参考訳): クエリクラスタリングは、クエリを共有潜在能力要求を反映したグループに整理する。
既存のクラスタリングメソッドは、主にセマンティックな分類や埋め込みに依存しているが、表面レベルのセマンティクスと実際のモデルパフォーマンスの相違により、そのような潜在能力要件を捕捉できないことが多い。
本稿では,表面レベルでのセマンティクスと潜在能力要件のギャップを埋めるために,限定的な後続モデル比較を用いて事前セマンティクス埋め込みを校正するアルゴリズムECCを提案する。
ECCはBradley-Terryモデルによってパラメータ化された機能プロファイルを通じて、各クラスタを特徴付け、トレーニング可能な混合重み付けを使用して、混合能力要求のクエリに対応し、LLM機能のクエリ固有の推論をサポートするフレキシブルで機能対応のクラスタリング構造を共同で学習する。
大規模定量的および定性的な評価により、ECCはLLM能力のランク付けを著しく改善し、平均17.64ポイントと18.02ポイントで人間ラベルと埋め込みベースのベースラインを上回り、クエリルーティングなどの下流タスクで有効であることが示されている。
関連論文リスト
- Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents [81.79110139097297]
汎用埋め込みモデルは意味的類似性を認識するのに優れているが、ユーザ命令で指定されたテキストの特徴を捉えることができない。
我々は、命令追従クラスタリングを生成タスクとして再編成し、大規模推論モデルを自律的なクラスタリングエージェントとして訓練する。
我々の推論駆動学習パイプラインは、LEMがハイレベルクラスタリング命令を解釈し、対応する潜在グループを推測することを可能にする。
論文 参考訳(メタデータ) (2026-03-06T10:15:54Z) - ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - Transforming User Defined Criteria into Explainable Indicators with an Integrated LLM AHP System [2.3322477552758234]
本稿では,LLMスコアリングと解析階層プロセスを組み合わせた解釈可能な集約フレームワークを提案する。
本手法は, LLMを判定として用い, ジェネネラルシャノン距離を用いて識別力を測定し, AHP対比較行列を用いて統計的に接地した重みを導出する。
Amazonのレビュー品質評価と抑うつ関連テキスト評価の実験は、我々のアプローチが同等の予測能力を維持しながら、高い説明可能性と運用効率を実現し、リアルタイムのレイテンシに敏感なWebサービスに適していることを実証している。
論文 参考訳(メタデータ) (2025-11-12T06:17:02Z) - In-Context Clustering with Large Language Models [50.25868718329313]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。
事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。
我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文 参考訳(メタデータ) (2025-10-09T17:07:55Z) - Cascaded Information Disclosure for Generalized Evaluation of Problem Solving Capabilities [4.8986761253231945]
Emphcascaded questionの開示に基づく包括的で一般化可能なフレームワークを提案する。
このアプローチは、各ステージが質問に関する部分的な情報を明らかにすることで、段階的にモデル応答を収集する。
多様な推論と知識に富んだQAデータセットに基づいて,この振る舞いを実証的に検証する。
論文 参考訳(メタデータ) (2025-07-31T17:58:25Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。