論文の概要: PaCE: Parsimonious Concept Engineering for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04331v2
- Date: Tue, 05 Nov 2024 15:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:52.083655
- Title: PaCE: Parsimonious Concept Engineering for Large Language Models
- Title(参考訳): PaCE: 大規模言語モデルのための同義的な概念工学
- Authors: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Darshan Thaker, Aditya Chattopadhyay, Chris Callison-Burch, René Vidal,
- Abstract要約: Parsimonious Concept Engineering (PaCE)は、アライメントのための新しいアクティベーションエンジニアリングフレームワークである。
アクティベーション空間において,各原子が意味論的概念に対応する大規模概念辞書を構築する。
本研究では,PaCEが言語能力を維持しつつ,最先端のアライメント性能を実現することを示す。
- 参考スコア(独自算出の注目度): 57.740055563035256
- License:
- Abstract: Large Language Models (LLMs) are being used for a wide variety of tasks. While they are capable of generating human-like responses, they can also produce undesirable output including potentially harmful information, racist or sexist language, and hallucinations. Alignment methods are designed to reduce such undesirable outputs via techniques such as fine-tuning, prompt engineering, and representation engineering. However, existing methods face several challenges: some require costly fine-tuning for every alignment task; some do not adequately remove undesirable concepts, failing alignment; some remove benign concepts, lowering the linguistic capabilities of LLMs. To address these issues, we propose Parsimonious Concept Engineering (PaCE), a novel activation engineering framework for alignment. First, to sufficiently model the concepts, we construct a large-scale concept dictionary in the activation space, in which each atom corresponds to a semantic concept. Given any alignment task, we instruct a concept partitioner to efficiently annotate the concepts as benign or undesirable. Then, at inference time, we decompose the LLM activations along the concept dictionary via sparse coding, to accurately represent the activations as linear combinations of benign and undesirable components. By removing the latter ones from the activations, we reorient the behavior of the LLM towards the alignment goal. We conduct experiments on tasks such as response detoxification, faithfulness enhancement, and sentiment revising, and show that PaCE achieves state-of-the-art alignment performance while maintaining linguistic capabilities.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクに使われています。
彼らは人間のような反応を生成できるが、潜在的に有害な情報、人種差別的または性差別的な言語、幻覚などの望ましくない出力を生成できる。
アライメント法は、微調整、プロンプトエンジニアリング、表現工学といった技術によって、そのような望ましくない出力を減らすように設計されている。
しかし、既存の手法にはいくつかの課題がある: 全てのアライメントタスクに対してコストのかかる微調整を必要とするもの、望ましくない概念を適切に取り除かないもの、アライメントを失敗するもの、良質な概念を排除し、LLMの言語能力を低下させるものなどがある。
これらの課題に対処するため、我々は、アライメントのための新しいアクティベーションエンジニアリングフレームワークであるParsimonious Concept Engineering (PaCE)を提案する。
まず、これらの概念を十分にモデル化するために、各原子が意味論的概念に対応するような活性化空間に大規模な概念辞書を構築する。
任意のアライメントタスクが与えられた場合、概念分割器に、その概念を良心的あるいは望ましくないものとして効率的にアノテートするように指示する。
そして,推論時に,概念辞書に沿ったLLMアクティベーションをスパース符号化により分解し,そのアクティベーションを良性成分と望ましくない成分の線形結合として正確に表現する。
後者をアクティベートから取り除くことにより、LCMの動作をアライメントゴールに向けて再調整する。
我々は,反応の解毒,忠実度向上,感情修正などの課題について実験を行い,言語能力を維持しつつ,PaCEが最先端のアライメント性能を達成することを示す。
関連論文リスト
- Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - InfoCon: Concept Discovery with Generative and Discriminative Informativeness [7.160037417413006]
我々は、様々なロボットタスクに適応し、再組み立て可能な操作概念の自己監督的な発見に焦点を当てる。
我々は、操作の概念を生成的かつ差別的な目標としてモデル化し、それらを意味のあるサブトラジェクトリに自律的にリンクできるメトリクスを導出する。
論文 参考訳(メタデータ) (2024-03-14T14:14:04Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains [19.814974042343028]
文ラベリングタスクのコンテキスト内概念ガイドラインに従うための命令調整型言語モデルの能力について検討する。
以上の結果から,概念定義はタスク性能に一貫して寄与するが,実際のコンテキスト下での作業能力に制限があるのは大規模モデルのみであることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T05:11:26Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。
セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文 参考訳(メタデータ) (2023-05-20T15:48:47Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。