論文の概要: Representation Engineering for Large-Language Models: Survey and Research Challenges
- arxiv url: http://arxiv.org/abs/2502.17601v1
- Date: Mon, 24 Feb 2025 19:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:43.691876
- Title: Representation Engineering for Large-Language Models: Survey and Research Challenges
- Title(参考訳): 大規模言語モデルの表現工学:調査と研究課題
- Authors: Lukasz Bartoszcze, Sarthak Munshi, Bryan Sukidi, Jennifer Yen, Zejia Yang, David Williams-King, Linh Le, Kosi Asuzu, Carsten Maple,
- Abstract要約: 我々は、この発展途上の分野における研究の結束図を示すために、表現工学の目標と方法を定式化する。
パフォーマンス低下、計算時間の増加、ステアビリティの問題などのリスクを概説する。
- 参考スコア(独自算出の注目度): 6.670092691529475
- License:
- Abstract: Large-language models are capable of completing a variety of tasks, but remain unpredictable and intractable. Representation engineering seeks to resolve this problem through a new approach utilizing samples of contrasting inputs to detect and edit high-level representations of concepts such as honesty, harmfulness or power-seeking. We formalize the goals and methods of representation engineering to present a cohesive picture of work in this emerging discipline. We compare it with alternative approaches, such as mechanistic interpretability, prompt-engineering and fine-tuning. We outline risks such as performance decrease, compute time increases and steerability issues. We present a clear agenda for future research to build predictable, dynamic, safe and personalizable LLMs.
- Abstract(参考訳): 大規模言語モデルは様々なタスクを完了できるが、予測不可能で難解なままである。
表現工学は、コントラスト入力のサンプルを利用して、誠実さ、有害性、パワーシーキングといった概念の高レベルな表現を検出し、編集することで、この問題を解決しようとしている。
我々は、この発展途上の分野における研究の結束図を示すために、表現工学の目標と方法を定式化する。
メカニスティック・インタプリタビリティ、プロンプト・エンジニアリング、微調整といった代替手法と比較する。
パフォーマンス低下、計算時間の増加、ステアビリティの問題などのリスクを概説する。
我々は、予測可能、動的、安全、パーソナライズ可能なLLMを構築するための将来の研究のための明確な議題を提示する。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models [7.736445799116692]
多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、精度、社会的バイアス、人間の価値観との整合性に関連するいくつかの障害も観察します。
本研究では,事前学習した識別モデルと生成モデルを用いて,エンフディープ強化学習を用いて,障害モードの景観を探索・構築するポストホック手法を提案する。
提案手法の有効性を,コンピュータビジョン,自然言語処理,視覚言語タスクで実証的に示す。
論文 参考訳(メタデータ) (2024-06-11T10:45:41Z) - Tradeoffs Between Alignment and Helpfulness in Language Models with Representation Engineering [15.471566708181824]
本研究では,アライメントの増加とモデルの有用性の低下のトレードオフについて検討する。
フレームワークの条件下では、アライメントは表現工学によって保証される。
本研究は,表現工学ベクトルのノルムにより,有用性が2次的に損なわれることを示す。
論文 参考訳(メタデータ) (2024-01-29T17:38:14Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。
データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。
我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文 参考訳(メタデータ) (2023-06-20T16:14:27Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z) - Which Model to Transfer? Finding the Needle in the Growing Haystack [27.660318887140203]
我々は後悔というよく知られた概念を通じてこの問題の形式化を提供する。
タスク非依存とタスク認識の両方の手法が,後悔を招きかねないことを示す。
そこで我々は,既存の手法よりも優れた,シンプルで効率的なハイブリッド検索戦略を提案する。
論文 参考訳(メタデータ) (2020-10-13T14:00:22Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。