Fugu-MT 論文翻訳(概要): Structure over Pixels: Learning Variable-Length Visual Programs

論文の概要: Structure over Pixels: Learning Variable-Length Visual Programs

arxiv url: http://arxiv.org/abs/2605.27696v2
Date: Thu, 28 May 2026 13:12:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:54.832744
Title: Structure over Pixels: Learning Variable-Length Visual Programs
Title（参考訳）: ピクセル上の構造: 可変長ビジュアルプログラムを学習する
Authors: Piotr Wyrwiński, Kacper Dobek, Krzysztof Krawiec,
Abstract要約: STROPは構造的なシーン表現を形成し、画像の視覚的プログラムがどれくらい長くあるべきかを同時に学習する。コードブックは、すべてハイレベルな潜在表現の質によって形作られています。
参考スコア（独自算出の注目度）: 1.7205106391379026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Discrete visual tokenizers translate images into ordered sequences of codes, providing a natural representation for structural description of scenes. Yet existing adaptive tokenizers either require post-hoc search or select among a discrete set of pre-trained rates, rather than learning a continuous per-image sequence length coupled to the model and scene, and they typically train against pixel reconstruction, emphasizing texture rather than structure. We propose STROP, a discrete visual tokenizer architecture that forms structural scene representations and simultaneously learns how long an image's visual program should be. Using a four-phase curriculum supervised by local rate--distortion probes against frozen DINOv3 features, STROP optimizes a dedicated length head that estimates the active prefix length in a single forward pass. By bypassing pixel-level reconstruction gradients, the codebook is shaped entirely by the quality of higher-level latent representations. Program length grows with scene complexity, and signs of compositional structure emerge both in downstream dense-prediction transfer and in direct inspection of the learned code vocabulary.
Abstract（参考訳）: 離散的な視覚トークン化器は画像を順序付けられたコード列に変換し、シーンの構造的記述の自然な表現を提供する。しかし、既存の適応トークン化器は、モデルとシーンに結合した連続した画像毎のシーケンス長を学ぶのではなく、ポストホック検索や個別の事前訓練されたレートの選択を必要とする。本稿では、画像の視覚的プログラムがどれくらいの時間であるべきかを同時に学習する、構造的シーン表現を形成する離散的な視覚的トークン化アーキテクチャSTROPを提案する。凍ったDINOv3特徴に対する局所速度歪みプローブによって教師される4段階のカリキュラムを用いて、STROPは単一の前方通過におけるアクティブプレフィックス長を推定する専用の長さヘッドを最適化する。ピクセルレベルの再構築勾配をバイパスすることで、コードブックは高レベルの潜在表現の品質によって完全に形作られます。プログラム長はシーンの複雑さとともに増大し、下流の高密度予測転送と学習したコード語彙の直接検査の両方で構成構造の兆候が現れる。

関連論文リスト

CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning [65.10059440725041]
視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。ヴィジュアル言語を誤用する傾向があり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。本研究では,サイクル一貫性のレンズを用いて,画像テキストのアライメントを再考する。
論文参考訳（メタデータ） (2026-03-18T20:57:31Z)
Communication-Inspired Tokenization for Structured Image Representations [74.17163003465537]
COMiT(Communication inspired Tokenization)は、構造化された視覚トークンシーケンスを学習するためのフレームワークである。セマンティックアライメントが基盤となる一方で、解釈可能なオブジェクト中心のトークン構造を誘導するためには、注意的なシーケンシャルトークン化が重要であることを示す。
論文参考訳（メタデータ） (2026-02-24T09:53:50Z)
DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning [3.47287766500271]
インストラクショナルビデオにおけるシーンレベルのキャプションは、視覚的手がかりと時間的構造の両方を理解することで学習を強化することができる。手動シーンセグメンテーションを必要とせずに、コヒーレントなシーンレベルのキャプションを生成するパイプラインDynaStrideを導入する。我々はDynaStrideが時間的コヒーレントで情報的なキャプションを生成することを示し、AIによる指導コンテンツ生成を改善するための有望な方向性を示唆している。
論文参考訳（メタデータ） (2025-10-27T22:29:08Z)
PINs: Progressive Implicit Networks for Multi-Scale Neural Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文参考訳（メタデータ） (2022-02-09T20:33:37Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文参考訳（メタデータ） (2021-10-21T00:16:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。