論文の概要: HiCI: Hierarchical Construction-Integration for Long-Context Attention
- arxiv url: http://arxiv.org/abs/2603.20843v1
- Date: Sat, 21 Mar 2026 14:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.113744
- Title: HiCI: Hierarchical Construction-Integration for Long-Context Attention
- Title(参考訳): HiCI: 長期的アテンションのための階層的コンストラクショナルインテグレーション
- Authors: Xiangyu Zeng, Qi Xu, Yunke Wang, Chang Xu,
- Abstract要約: セグメントレベルの表現を構築し,それらを共有グローバルなコンテキストに統合する階層型アテンションモジュールであるHiCI(Hierarchical Construction-Integration)を提案する。
4Kトークンから100Kトークン (7B) および64Kトークン (13B) までコンテキストを延ばし、LLaMA-2 のパラメータ効率適応による HiCI の検証を行った。
言語モデリング、検索、命令追従ベンチマーク全体において、HiCIは強力なベースラインよりも一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 42.93464826388166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context language modeling is commonly framed as a scalability challenge of token-level attention, yet local-to-global information structuring remains largely implicit in existing approaches. Drawing on cognitive theories of discourse comprehension, we propose HiCI (Hierarchical Construction--Integration), a hierarchical attention module that constructs segment-level representations, integrates them into a shared global context, and broadcasts both to condition segment-level attention. We validate HiCI through parameter-efficient adaptation of LLaMA-2 with only <5.5% additional parameters, extending context from 4K to 100K tokens (7B) and 64K tokens (13B). Across language modeling, retrieval, and instruction-following benchmarks, HiCI yields consistent improvements over strong baselines, including matching proprietary models on topic retrieval and surpassing GPT-3.5-Turbo-16K on code comprehension. These results demonstrate the effectiveness of explicit hierarchical structuring as an inductive bias for long-context modeling.
- Abstract(参考訳): 長文言語モデリングは、トークンレベルの注意のスケーラビリティの問題として一般的に考えられているが、既存のアプローチでは、局所的な言語間情報構造がほとんど暗黙的に残っている。
談話理解の認知理論に基づいて,セグメントレベルの表現を構築し,それらを共有グローバルな文脈に統合する階層型アテンションモジュールであるHiCI(Hierarchical Construction-Integration)を提案し,その両方を条件セグメントレベルのアテンションにブロードキャストする。
我々は,LLaMA-2のパラメータ効率適応を5.5%追加パラメータで検証し,コンテキストを4Kから100Kトークン(7B),64Kトークン(13B)まで拡張した。
言語モデリング、検索、命令追従ベンチマーク全体にわたって、HiCIは、トピック検索に関するプロプライエタリなモデルと、コード理解に関するGPT-3.5-Turbo-16Kを超えるような、強力なベースラインよりも一貫して改善されている。
これらの結果は,長期コンテキストモデリングにおける帰納的バイアスとしての明示的階層構造の有効性を示す。
関連論文リスト
- Structure-Aware Decoding Mechanisms for Complex Entity Extraction with Large-Scale Language Models [8.15127799301814]
本稿では,大規模言語モデルに基づく構造認識復号法を提案する。
ネストおよび重複するエンティティ抽出タスクにおいて、意味的整合性と構造的整合性の両方を維持することの難しさに対処する。
ACE 2005データセットで実施された実験では、精度、精度、リコール、F1-Scoreが大幅に改善された。
論文 参考訳(メタデータ) (2025-12-16T00:40:06Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - SLiNT: Structure-aware Language Model with Injection and Contrastive Training for Knowledge Graph Completion [11.686307370683922]
知識グラフにおけるリンク予測は、欠落したエンティティを推測するために構造情報と意味コンテキストを統合する必要がある。
SLiNTは,知識グラフに基づく構造的コンテキストを,ロラをベースとした軽量な適応型フリーズバックボーンに注入し,堅牢なリンク予測を行うモジュールフレームワークである。
WN18RRとFB15k-237の実験により、SLiNTは埋め込みベースとジェネレーションベースの両方と比較して優れた性能または競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-08T10:36:49Z) - A Dynamic Framework for Semantic Grouping of Common Data Elements (CDE) Using Embeddings and Clustering [0.782496834711349]
本研究の目的は、異種バイオメディカルデータセット間の共通データ要素(CDE)の調和を容易にする動的でスケーラブルなフレームワークを開発することである。
本手法では,CDEを意味的関係やパターンをキャプチャする高密度ベクトルに変換するコンテキスト対応テキスト埋め込みに,Large Language Models (LLMs) を利用する。
論文 参考訳(メタデータ) (2025-06-02T18:43:37Z) - HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling [39.14392943549792]
本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2024-08-27T06:50:28Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models [43.56153167864033]
大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2023-12-11T12:14:06Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。