論文の概要: Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact
- arxiv url: http://arxiv.org/abs/2603.00883v1
- Date: Sun, 01 Mar 2026 03:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.397331
- Title: Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact
- Title(参考訳): 知恵のない知識:LLMと意図的影響の相違を測る
- Authors: Michael Hardy, Yunsung Kim,
- Abstract要約: LLMはますますAIベンチマークに長けているが、ダウンストリームタスクの妥当性を保証するものではない。
本研究では,学童の指導・学習のアウト・オブ・ディストリビューション・タスクを用いた指導基盤モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs increasingly excel on AI benchmarks, but doing so does not guarantee validity for downstream tasks. This study evaluates the performance of leading foundation models (FMs, i.e., generative pre-trained base LLMs) with out-of-distribution (OOD) tasks of the teaching and learning of schoolchildren. Across all FMs, inter-model behaviors on disparate tasks correlate higher than they do with expert human behaviors on target tasks. These biases shared across LLMs are poorly aligned with downstream measures of teaching quality and often \textit{negatively aligned with learning outcomes}. Further, we find multi-model ensembles, both unanimous model voting and expert-weighting by benchmark performance, further exacerbate misalignment with learning. We measure that 50\% of the variation in misalignment error is shared across foundation models, suggesting that common pretraining accounts for much of the misalignment in these tasks. We demonstrate methods for robustly measuring alignment of complex tasks and provide unique insights into both educational applications of foundation models and to understanding limitations of models.
- Abstract(参考訳): LLMはますますAIベンチマークに長けているが、ダウンストリームタスクの妥当性を保証するものではない。
本研究は,学童の指導と学習のアウト・オブ・ディストリビューション(OOD)タスクを用いた指導基礎モデル(FM,ジェネレーティブ・プレトレーニングベースLLM)の性能を評価する。
すべてのFMにおいて、異なるタスクにおけるモデル間動作は、ターゲットタスクにおける専門家の人間の振る舞いよりも高い相関関係を持つ。
LLM間で共有されるこれらのバイアスは、品質を教えるための下流の尺度と不整合であり、しばしば学習結果に整合する。
さらに,マルチモデルアンサンブル(全会一致モデル投票とベンチマーク性能によるエキスパート重み付け)が,さらに学習のミスアライメントを悪化させる。
誤り修正誤差の50 % は基礎モデル間で共有されており、一般的な事前学習がこれらのタスクにおける誤調整の多くを担っていることを示唆している。
複雑なタスクのアライメントを頑健に測定する手法を示し、基礎モデルの教育的応用とモデルの限界を理解するためのユニークな洞察を提供する。
関連論文リスト
- Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Injecting Imbalance Sensitivity for Multi-Task Learning [36.60453299563175]
マルチタスク学習(MTL)は、リアルタイムアプリケーションにディープラーニングモデルをデプロイするための有望なアプローチとして登場した。
近年,MLLにおけるタスク共有表現を確立するための最適化に基づく学習パラダイムが提案されている。
本稿は、これらの研究が主に紛争問題を強調しつつ、MTLにおける不均衡/支配の潜在的に重大な影響を無視していることを実証的に論じる。
論文 参考訳(メタデータ) (2025-03-11T03:11:54Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。
計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-19T01:43:52Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。