論文の概要: Evaluating Steering Techniques using Human Similarity Judgments
- arxiv url: http://arxiv.org/abs/2505.19333v1
- Date: Sun, 25 May 2025 21:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.056149
- Title: Evaluating Steering Techniques using Human Similarity Judgments
- Title(参考訳): ヒトの類似性判断を用いたステアリング手法の評価
- Authors: Zach Studdiford, Timothy T. Rogers, Siddharth Suresh, Kushin Mukherjee,
- Abstract要約: 近年のLarge Language Model (LLM) ステアリング技術の評価は,タスク固有性能に重点を置いている。
サイズや種類に基づく概念間の類似性を柔軟に判断する能力に基づいて, ステアリングLLMを評価した。
その結果,プロンプトベースのステアリング法は,ステアリング精度とモデルと人間のアライメントの両方において,他の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 7.949705607963996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluations of Large Language Model (LLM) steering techniques focus on task-specific performance, overlooking how well steered representations align with human cognition. Using a well-established triadic similarity judgment task, we assessed steered LLMs on their ability to flexibly judge similarity between concepts based on size or kind. We found that prompt-based steering methods outperformed other methods both in terms of steering accuracy and model-to-human alignment. We also found LLMs were biased towards 'kind' similarity and struggled with 'size' alignment. This evaluation approach, grounded in human cognition, adds further support to the efficacy of prompt-based steering and reveals privileged representational axes in LLMs prior to steering.
- Abstract(参考訳): 近年のLarge Language Model (LLM) ステアリング技術の評価は,人間の認知とよく一致した表現を見越して,タスク固有のパフォーマンスに焦点をあてている。
確立された三進的類似性判定タスクを用いて、サイズや種類に基づく概念間の類似性を柔軟に判断する能力に基づいて、操舵式LLMを評価した。
その結果,プロンプトベースステアリング法は,ステアリング精度とモデルと人間のアライメントの両方において,他の手法よりも優れていた。
また、LSMは"kind"類似性に偏り、"size"アライメントに苦慮していることもわかりました。
この評価手法は、人間の認知を基礎として、プロンプトベースのステアリングの有効性をさらに支援し、ステアリング前のLDMにおける特権表現軸を明らかにする。
関連論文リスト
- Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge [24.862965044243168]
従来の手法は、人間の評価において固有の多様性と不確実性を見越して、単一点評価に依存していた。
本研究では,LLM生成した判定分布と経験的人的分布とを明確に整合させる新しいトレーニングフレームワークを提案する。
我々のフレームワークは、既存のオープンソースLCMや従来の単一点アライメント手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-05-18T08:33:09Z) - Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans [3.431979707540646]
表現のアライメントを研究するための新しいアプローチを提案する。
我々は、特定の概念に責任を持つニューロンを特定するために、アクティベーションステアリングの研究からの手法を採用する。
この方法で得られたLCM表現は、行動データから推定される人間の表現と密接に一致している。
論文 参考訳(メタデータ) (2025-02-20T23:08:03Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。