論文の概要: Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
- arxiv url: http://arxiv.org/abs/2511.15210v1
- Date: Wed, 19 Nov 2025 08:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.695851
- Title: Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
- Title(参考訳): テクストの本質的な次元の解き放つ:学術的抽象から創造的物語へ
- Authors: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya,
- Abstract要約: 内在次元(ID)は現代のLLM解析において重要なツールである。
我々は、解釈可能なテキストプロパティにおいて、最初の総合的な研究基盤IDを提供する。
- 参考スコア(独自算出の注目度): 6.189667549402578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.
- Abstract(参考訳): 内在的次元 (ID) は現代のLCM分析において重要なツールであり、トレーニング力学、スケーリング挙動、データセット構造の研究を報知するが、そのテキスト決定式は未解明のままである。
我々は、クロスエンコーダ分析、言語特徴、スパースオートエンコーダ(SAEs)を通じて、解釈可能なテキスト特性の基盤IDを初めて包括的に研究する。
本研究は,3つの重要な知見を定めている。
第一に、IDはエントロピーベースのメトリクスを補完するものであり、長さを制御した後、両者は非相関であり、IDは予測品質に直交する幾何学的複雑さをキャプチャする。
第二に、IDは堅牢なジャンルの階層化を示す: 科学的な散文は、低ID(~8)、百科事典的コンテンツ媒体ID(~9)、そして、テストされたすべてのモデルに高いID(~10.5)を書く創造的/オピニオン書き込みを示す。
これは、SFが追加の自由度を必要とするのに対して、現代のLLMは科学的テキストが「表現的にシンプル」であることを示している。
第3に、SAEを用いて、科学的信号(形式音、レポートテンプレート、統計)によるIDの低減、人間化された信号(個人化、感情、物語)の増大といった因果的特徴を識別する。
ステアリング実験はこれらの効果が因果関係であることを確認した。
したがって、現代のモデルでは、科学的な文章は比較的「簡単」に見えるが、フィクション、意見、影響は表現の自由の度合いを増す。
我々の多面的分析は、IDの適切な使用と、IDに基づく結果の音声解釈のための実践的なガイダンスを提供する。
関連論文リスト
- RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-03-02T06:11:29Z) - See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [14.01260112340177]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、監視カメラを通して個人をマッチングすることを目的としている。
既存の方法は通常、衣服の変化の影響を軽減するか、アイデンティティ(ID)関連の特徴を強化する。
本稿では,衣服による相違を低減し,IDの質を高めるために,新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文 参考訳(メタデータ) (2024-12-02T10:11:16Z) - Examining Identity Drift in Conversations of LLM Agents [5.12659586713042]
本研究では,9つの大言語モデル(LLM)におけるアイデンティティの整合性について検討する。
実験は、質的、定量的な方法で分析された、個人的なテーマに関するマルチターン会話を含む。
論文 参考訳(メタデータ) (2024-12-01T13:19:32Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Looking at words and points with attention: a benchmark for
text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文 参考訳(メタデータ) (2023-09-14T17:59:48Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。