論文の概要: A Language Model's Guide Through Latent Space
- arxiv url: http://arxiv.org/abs/2402.14433v1
- Date: Thu, 22 Feb 2024 10:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:33:29.962960
- Title: A Language Model's Guide Through Latent Space
- Title(参考訳): 潜在空間を通した言語モデルのガイド
- Authors: Dimitri von R\"utte, Sotiris Anagnostidis, Gregor Bachmann, Thomas
Hofmann
- Abstract要約: 本研究では,概念導入の成功とフラレンシの潜在的な劣化を考慮し,概念指導のための新しい指標を開発する。
実験の結果, 真理性などの概念は, 従来の手法による指導をより容易に行うことができるが, 適切性やユーモアといった新しい概念は, 導出が難しいか, 作業に広範囲なチューニングを必要とするか, あるいは混乱を経験する必要があることが判明した。
我々の研究は、検出可能性、誘導可能性、概念の性質の相互作用に関するより深い調査を保証し、ガイダンス研究のための豊富な実験ベッドが、より強力なフォローアップアプローチを刺激することを期待しています。
- 参考スコア(独自算出の注目度): 36.49717369886151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept guidance has emerged as a cheap and simple way to control the
behavior of language models by probing their hidden representations for concept
vectors and using them to perturb activations at inference time. While the
focus of previous work has largely been on truthfulness, in this paper we
extend this framework to a richer set of concepts such as appropriateness,
humor, creativity and quality, and explore to what degree current detection and
guidance strategies work in these challenging settings. To facilitate
evaluation, we develop a novel metric for concept guidance that takes into
account both the success of concept elicitation as well as the potential
degradation in fluency of the guided model. Our extensive experiments reveal
that while some concepts such as truthfulness more easily allow for guidance
with current techniques, novel concepts such as appropriateness or humor either
remain difficult to elicit, need extensive tuning to work, or even experience
confusion. Moreover, we find that probes with optimal detection accuracies do
not necessarily make for the optimal guides, contradicting previous
observations for truthfulness. Our work warrants a deeper investigation into
the interplay between detectability, guidability, and the nature of the
concept, and we hope that our rich experimental test-bed for guidance research
inspires stronger follow-up approaches.
- Abstract(参考訳): 概念ガイダンスは、概念ベクトルの隠された表現を探索し、推論時にアクティベーションを摂動させることによって、言語モデルの振る舞いを制御する、安価でシンプルな方法として登場した。
本稿では,この枠組みを,適切な性,ユーモア,クリエイティビティ,品質といった,より豊かな概念に拡張し,現在の検出と指導戦略がこれらの困難な設定でどの程度機能するかを探求する。
評価を容易にするために,概念解明の成功と誘導モデルの流動性の潜在的な低下を考慮し,概念指導のための新しい指標を開発した。
広範な実験により,真理性といった概念によっては,現在の手法による指導がより容易に行えるが,適切性やユーモアといった新しい概念はいまだに解明しづらいか,作業に広範なチューニングを必要とするか,あるいは混乱を経験することさえあることが明らかとなった。
さらに, 最適検出精度を持つプローブは, 先行観測の真理性に反し, 最適ガイドを必ずしも実現しないことがわかった。
我々の研究は、検出可能性、誘導可能性、概念の性質の相互作用に関するより深い調査を保証し、ガイダンス研究のための豊富な実験ベッドが、より強力なフォローアップアプローチを刺激することを期待しています。
関連論文リスト
- Low-Rank Approximation, Adaptation, and Other Tales [8.034728173797953]
低ランク近似は、現代のデータ分析の基本的な技術である。
ユビキティにもかかわらず、低ランク近似の力学と適応への応用は、しばしば曖昧である。
本論文は, 内部動作を明らかにする包括的ガイドを提供することにより, 低階近似と適応性を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-08-12T00:51:21Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Trustworthy and Aligned Machine Learning: A Data-centric Survey
with Causality Perspectives [11.63431725146897]
機械学習の信頼性はこの分野において重要なトピックとして浮上している。
本調査は,一貫した概念集合を用いた信頼性の高い機械学習開発の背景を示す。
我々は,これらの手法を,堅牢性,敵対的堅牢性,解釈可能性,公正性にまたがる数学的語彙を持つ統一言語を提供する。
論文 参考訳(メタデータ) (2023-07-31T17:11:35Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - SciMON: Scientific Inspiration Machines Optimized for Novelty [68.46036589035539]
文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。
モデルが入力背景コンテキストとして使用される新しい設定で、劇的な出発をとっています。
本稿では,過去の科学的論文から「吸入」を抽出するモデリングフレームワークであるSciMONを紹介する。
論文 参考訳(メタデータ) (2023-05-23T17:12:08Z) - Visualizing Transferred Knowledge: An Interpretive Model of Unsupervised
Domain Adaptation [70.85686267987744]
教師なしのドメイン適応問題は、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することができる。
本稿では、翻訳された知識の謎を視覚的に明らかにする最初の試みとして、教師なしドメイン適応の解釈モデルを提案する。
提案手法は,ベースモデルの予測を直感的に説明し,画像パッチをソースドメインとターゲットドメインの両方で同一のセマンティクスとマッチングすることで伝達知識を公開する。
論文 参考訳(メタデータ) (2023-03-04T03:02:12Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。