Fugu-MT 論文翻訳(概要): KamonBench: A Grammar-Based Dataset for Evaluating Compositional Factor Recovery in Vision-Language Models

論文の概要: KamonBench: A Grammar-Based Dataset for Evaluating Compositional Factor Recovery in Vision-Language Models

arxiv url: http://arxiv.org/abs/2605.13322v1
Date: Wed, 13 May 2026 10:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.986484
Title: KamonBench: A Grammar-Based Dataset for Evaluating Compositional Factor Recovery in Vision-Language Models
Title（参考訳）: KamonBench:視覚言語モデルにおける構成因子の回復評価のための文法ベースデータセット
Authors: Richard Sproat, Stefano Peluchetti,
Abstract要約: 家紋は日本の文化の重要な部分であり、作曲視覚の自然なテストケースである。カモンベンチ(KamonBench)は、文法に基づく2万の合成合成クレストと補助成分のサンプルを持つ画像構造ベンチマークである。
参考スコア（独自算出の注目度）: 5.049057348282933
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Kamon (family crests) are an important part of Japanese culture and a natural test case for compositional visual recognition: each crest combines a small number of symbolic choices, but the space of possible descriptions is sparse. We introduce KamonBench, a grammar-based image-to-structure benchmark with 20,000 synthetic composite crests and auxiliary component examples. Each composite crest is paired with a formal kamon description language - "kamon yōgo" - description, a segmented Japanese analysis, an English translation, and a non-linguistic program code. Because each synthetic crest is generated from known factors, namely container, modifier, and motif, KamonBench supports evaluation beyond caption-level accuracy: direct program-code factor metrics, controlled factor-pair recombination splits, counterfactual motif-sensitivity groups under fixed container-modifier contexts, and linear probes of factor accessibility. We include baseline results for a ViT encoder/Transformer decoder and two VGG n-gram decoders, with and without learned positional masks. KamonBench therefore provides a controlled testbed for sparse compositional visual recognition and factor recovery in vision-language models.
Abstract（参考訳）: 家紋(かもん)は、日本文化の重要な部分であり、構成的視覚認識の自然なテストケースであり、各紋は少数の象徴的選択を組み合わせているが、記述の空間は希薄である。カモンベンチ(KamonBench)は、文法に基づく2万の合成合成クレストと補助成分のサンプルを持つ画像構造ベンチマークである。それぞれの合成紋は、正式なカモン記述言語である「カモンヨゴ」と、日本語の分節的分析、英訳、非言語的なプログラムコードと組み合わせられる。それぞれの合成クレストは、コンテナ、修飾子、モチーフといった既知の因子から生成されるため、キャプションレベルの精度以上の評価をサポートしている。 ViTエンコーダ/トランスフォーマーデコーダと2つのVGG n-gramデコーダのベースライン結果を含む。そのため、KamonBenchは、視覚言語モデルにおいて、スパース構成の視覚認識と因子回復のための制御されたテストベッドを提供する。

関連論文リスト

Communication-Inspired Tokenization for Structured Image Representations [74.17163003465537]
COMiT(Communication inspired Tokenization)は、構造化された視覚トークンシーケンスを学習するためのフレームワークである。セマンティックアライメントが基盤となる一方で、解釈可能なオブジェクト中心のトークン構造を誘導するためには、注意的なシーケンシャルトークン化が重要であることを示す。
論文参考訳（メタデータ） (2026-02-24T09:53:50Z)
In-Context Compositional Learning via Sparse Coding Transformer [21.27564345380246]
本稿では,その構成作業能力を高めるため,注意の再構築を提案する。スパース符号化では、データはそれらの構成規則を捉える係数を持つ辞書原子のスパース結合として表現される。本研究では,S-RAVENデータセットとRAVENデータセットに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2025-11-25T11:19:58Z)
Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [8.097278579432908]
トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
論文参考訳（メタデータ） (2025-08-11T19:23:59Z)
Multigranular Evaluation for Brain Visual Decoding [5.19485079754946]
既存の脳視覚復号のための評価プロトコルは、モデル間の違いを曖昧にし、神経科学的な基礎を欠き、きめ細かい視覚的区別を捉えることができない粗いメトリクスに依存している。本稿では, 構造的忠実度, 推論的アライメント, 文脈的コヒーレンスを両立する, 統合された多粒性評価フレームワークであるBASICを紹介する。構造レベルでは,フォアグラウンド,セマンティック,インスタンス,コンポーネントマスクなど,階層的なセグメンテーションに基づくメトリクススイートを導入する。意味レベルでは、多目的大を用いてオブジェクト、属性、関係を含む構造化されたシーン表現を抽出する。
論文参考訳（メタデータ） (2025-07-10T17:59:24Z)
CoLa: Chinese Character Decomposition with Compositional Latent Components [63.01848135436417]
人間は漢字を構成成分に分解し、それらを再結合して見えない文字を認識することができる。本研究では,漢字(CoLa)の合成潜時成分を人間定義の分解方式に頼らずに学習する潜時変数モデルを提案する。
論文参考訳（メタデータ） (2025-06-04T10:06:15Z)
Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文参考訳（メタデータ） (2024-08-19T08:23:09Z)
Text encoders bottleneck compositionality in contrastive vision-language models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。 CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文参考訳（メタデータ） (2023-05-24T08:48:44Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
Image Captioning with Compositional Neural Module Networks [18.27510863075184]
自然言語の合成性と順序性の両方を探求する画像キャプションのための階層的枠組みを導入する。提案アルゴリズムは,入力画像で検出された各オブジェクトの特異な側面に対応する異なるモジュールに選択的に参加することで,詳細に富んだ文を構成することを学習する。
論文参考訳（メタデータ） (2020-07-10T20:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。