論文の概要: Length Representations in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.20398v1
- Date: Sun, 27 Jul 2025 19:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.563308
- Title: Length Representations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける長さ表現
- Authors: Sangjun Moon, Dasom Choi, Jingun Kwon, Hidetaka Kamigaito, Manabu Okumura,
- Abstract要約: 本研究では,大言語モデルの内部表現に出力シーケンス長情報をエンコードする方法に関する実証的証拠を提供する。
モデル内の特定の隠蔽単位をスケーリングすることにより、生成したテキストの情報量を失うことなく、出力シーケンス長を制御できる。
- 参考スコア(独自算出の注目度): 29.454553763013042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities across various tasks, that are learned from massive amounts of text-based data. Although LLMs can control output sequence length, particularly in instruction-based settings, the internal mechanisms behind this control have been unexplored yet. In this study, we provide empirical evidence on how output sequence length information is encoded within the internal representations in LLMs. In particular, our findings show that multi-head attention mechanisms are critical in determining output sequence length, which can be adjusted in a disentangled manner. By scaling specific hidden units within the model, we can control the output sequence length without losing the informativeness of the generated text, thereby indicating that length information is partially disentangled from semantic information. Moreover, some hidden units become increasingly active as prompts become more length-specific, thus reflecting the model's internal awareness of this attribute. Our findings suggest that LLMs have learned robust and adaptable internal mechanisms for controlling output length without any external control.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量のテキストベースのデータから学習された様々なタスクにまたがる顕著な能力を示している。
LLMは、特に命令ベースの設定では出力シーケンス長を制御できるが、この制御の背後にある内部メカニズムはまだ解明されていない。
本研究では,LLMの内部表現に出力シーケンス長情報をエンコードする方法を実証的に示す。
特に,マルチヘッドアテンション機構が出力シーケンス長の決定に重要であることを示す。
モデル内の特定の隠蔽単位をスケーリングすることにより、生成したテキストのインフォメーション性を損なうことなく、出力シーケンス長を制御できるので、意味情報から長さ情報が部分的に切り離されていることを示す。
さらに、いくつかの隠れたユニットは、プロンプトがより長さに比例するにつれて活発になり、モデルの内部でこの属性に対する認識が反映される。
以上の結果から,LCMは外部制御なしで出力長を制御するための頑健で適応可能な内部機構を学習したことが示唆された。
関連論文リスト
- Length Controlled Generation for Black-box LLMs [70.57649832433451]
大規模言語モデル (LLM) は印象的な命令に従う能力を示しているが、生成したテキストの長さを正確に管理することは困難である。
本稿では,Metropolis-Hastingsアルゴリズムと重要なサンプリング高速化戦略を組み合わせた,テキスト長制御のための新しい反復サンプリングフレームワークを提案する。
このフレームワークは,Llama3.1における長さ制御の抽象的要約などのタスクに対して,ほぼ100%の成功率を達成する。
論文 参考訳(メタデータ) (2024-12-19T09:07:38Z) - Hansel: Output Length Controlling Framework for Large Language Models [3.053720182019654]
Hanselは大規模言語モデルにおける長さ制御のための効率的なフレームワークである。
このフレームワークは、モデルの微調整段階において、事前訓練されたLLMに適用することができる。
論文 参考訳(メタデータ) (2024-12-18T16:52:38Z) - PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness [41.87219806677628]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な機能を示している。
これらの進歩にもかかわらず、LLMは長さ制御の課題に直面している。
そこで本研究では,この課題に対処するための新しいアプローチとして,PhysorID PromptingとPhysorID Fine-Tuningを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:15:36Z) - SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。
SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文 参考訳(メタデータ) (2024-10-09T03:40:22Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。
劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文 参考訳(メタデータ) (2024-02-19T16:04:53Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - Prompt-Based Length Controlled Generation with Reinforcement Learning [48.49553921757085]
本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-23T09:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。