論文の概要: Evaluating Steering Techniques using Human Similarity Judgments
- arxiv url: http://arxiv.org/abs/2505.19333v1
- Date: Sun, 25 May 2025 21:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.056149
- Title: Evaluating Steering Techniques using Human Similarity Judgments
- Title(参考訳): ヒトの類似性判断を用いたステアリング手法の評価
- Authors: Zach Studdiford, Timothy T. Rogers, Siddharth Suresh, Kushin Mukherjee,
- Abstract要約: 近年のLarge Language Model (LLM) ステアリング技術の評価は,タスク固有性能に重点を置いている。
サイズや種類に基づく概念間の類似性を柔軟に判断する能力に基づいて, ステアリングLLMを評価した。
その結果,プロンプトベースのステアリング法は,ステアリング精度とモデルと人間のアライメントの両方において,他の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 7.949705607963996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluations of Large Language Model (LLM) steering techniques focus on task-specific performance, overlooking how well steered representations align with human cognition. Using a well-established triadic similarity judgment task, we assessed steered LLMs on their ability to flexibly judge similarity between concepts based on size or kind. We found that prompt-based steering methods outperformed other methods both in terms of steering accuracy and model-to-human alignment. We also found LLMs were biased towards 'kind' similarity and struggled with 'size' alignment. This evaluation approach, grounded in human cognition, adds further support to the efficacy of prompt-based steering and reveals privileged representational axes in LLMs prior to steering.
- Abstract(参考訳): 近年のLarge Language Model (LLM) ステアリング技術の評価は,人間の認知とよく一致した表現を見越して,タスク固有のパフォーマンスに焦点をあてている。
確立された三進的類似性判定タスクを用いて、サイズや種類に基づく概念間の類似性を柔軟に判断する能力に基づいて、操舵式LLMを評価した。
その結果,プロンプトベースステアリング法は,ステアリング精度とモデルと人間のアライメントの両方において,他の手法よりも優れていた。
また、LSMは"kind"類似性に偏り、"size"アライメントに苦慮していることもわかりました。
この評価手法は、人間の認知を基礎として、プロンプトベースのステアリングの有効性をさらに支援し、ステアリング前のLDMにおける特権表現軸を明らかにする。
関連論文リスト
- Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。