論文の概要: Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2601.19488v2
- Date: Fri, 30 Jan 2026 11:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.206645
- Title: Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation
- Title(参考訳): 長軸自己回帰ビデオ生成のためのエントロピー誘導kガードサンプリング
- Authors: Yizhao Han, Tianxing Shi, Zhao Wang, Zifan Xu, Zhiyuan Pu, Mingxiao Li, Qian Zhang, Wei Yin, Xiao-Xiao Long,
- Abstract要約: トークン単位の分散に適応する手法として,Entropy-Guard k-gressive sampleを提案する。
ENkGは低エントロピー領域の適応トークン候補サイズを用いており、冗長ノイズを抑え、構造的整合性を維持するために少ない候補を用いる。
実験では、静的トップk/トップp戦略と比較して知覚品質と構造安定性が一貫した改善を示した。
- 参考スコア(独自算出の注目度): 22.973340187143616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) architectures have achieved significant successes in LLMs, inspiring explorations for video generation. In LLMs, top-p/top-k sampling strategies work exceptionally well: language tokens have high semantic density and low redundancy, so a fixed size of token candidates already strikes a balance between semantic accuracy and generation diversity. In contrast, video tokens have low semantic density and high spatio-temporal redundancy. This mismatch makes static top-k/top-p strategies ineffective for video decoders: they either introduce unnecessary randomness for low-uncertainty regions (static backgrounds) or get stuck in early errors for high-uncertainty regions (foreground objects). Prediction errors will accumulate as more frames are generated and eventually severely degrade long-horizon quality. To address this, we propose Entropy-Guided k-Guard (ENkG) sampling, a simple yet effective strategy that adapts sampling to token-wise dispersion, quantified by the entropy of each token's predicted distribution. ENkG uses adaptive token candidate sizes: for low-entropy regions, it employs fewer candidates to suppress redundant noise and preserve structural integrity; for high-entropy regions, it uses more candidates to mitigate error compounding. ENkG is model-agnostic, training-free, and adds negligible overhead. Experiments demonstrate consistent improvements in perceptual quality and structural stability compared to static top-k/top-p strategies.
- Abstract(参考訳): 自己回帰(AR)アーキテクチャは、ビデオ生成のための探索を刺激し、LLMにおいて大きな成功を収めた。
言語トークンは、意味密度が高く、冗長性が低いため、トークン候補の固定サイズは、意味的精度と生成の多様性のバランスをとっています。
対照的に、ビデオトークンは意味密度が低く、時空間冗長度が高い。
このミスマッチは、ビデオデコーダにとって静的なトップk/トップp戦略を非効率にする。低不確実な領域(静的な背景)に不要なランダム性を導入するか、高不確実な領域(地上オブジェクト)に早期エラーを発生させる。
予測エラーは、より多くのフレームが生成されると蓄積され、最終的にはロングホライゾンの品質が著しく低下する。
そこで本研究では,各トークンの予測分布のエントロピーによって定量化されるトークン単位の分散にサンプリングを適用する,シンプルかつ効果的な手法であるEntropy-Guided k-Guard(ENkG)サンプリングを提案する。
ENkGは適応トークン候補サイズを使用し、低エントロピー領域では冗長ノイズを抑え、構造的整合性を保ち、高エントロピー領域ではエラー合成を緩和するためにより多くの候補を使用する。
ENkGはモデルに依存しない、トレーニング不要で、無視可能なオーバーヘッドを追加する。
実験では、静的トップk/トップp戦略と比較して知覚品質と構造安定性が一貫した改善を示した。
関連論文リスト
- Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference [5.146388234814547]
長いビデオはしばしば現代の言語モデルのトークン予算を超え、厳しいコンテキスト制限とレイテンシの問題に繋がる。
本稿では,時間的に静的なパッチを識別・プルーニングすることで,ビデオ中のトークンの冗長性を低減できる簡易なプラグイン・アンド・プレイ方式であるEfficient Video Sampling (EVS)を紹介する。
EVSは意味的忠実性を維持しながらトークン数を大幅に削減し、より高速な推論とより長い入力シーケンスを可能にする。
論文 参考訳(メタデータ) (2025-10-16T12:34:38Z) - Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation [14.086036250269613]
ラベル付きサンプルがほとんどない新しいドメインにビジョンランゲージモデルを適用することは、過度なオーバーフィットと計算上の制約のため、課題である。
本稿では,ごく少数のパラメータを動的に調整する新しいスパース最適化フレームワークを提案する。
11の多様なデータセットの実験により、SOはメモリオーバーヘッドを低減しつつ、最先端の数発の適応性能を実現している。
論文 参考訳(メタデータ) (2025-04-16T19:10:34Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision [58.6039004982056]
本稿では,ビデオキャプションのみを用いて,ジェネレータの訓練を可能にするニューロシンボリックフレームワークを提案する。
アライメントアルゴリズムは、微分可能なシンボリック推論を利用することにより、弱い監督の課題を克服する。
提案手法を,OpenPVSG,20BN,MUGENの3つのビデオデータセット上で評価した。
論文 参考訳(メタデータ) (2023-04-15T22:24:05Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。