論文の概要: Compositional Concept Generalization with Variational Quantum Circuits
- arxiv url: http://arxiv.org/abs/2509.09541v1
- Date: Thu, 11 Sep 2025 15:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.445834
- Title: Compositional Concept Generalization with Variational Quantum Circuits
- Title(参考訳): 変分量子回路を用いた構成概念一般化
- Authors: Hala Hawashin, Mina Abbaszadeh, Nicholas Joseph, Beth Pearson, Martha Lewis, Mehrnoosh sadrzadeh,
- Abstract要約: 従来, コンポジションテンソルに基づく文意味論が課題を克服できるかどうかを検討したが, 否定的な結果となった。
量子モデルのトレーニング効率が向上すれば、これらのタスクのパフォーマンスが向上すると予想する。
我々は、ヒルベルト空間における合成テンソルモデル表現を解釈し、変分量子回路を訓練し、これらの表現を画像キャプションタスクで学習する。
- 参考スコア(独自算出の注目度): 2.1533342461940608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional generalization is a key facet of human cognition, but lacking in current AI tools such as vision-language models. Previous work examined whether a compositional tensor-based sentence semantics can overcome the challenge, but led to negative results. We conjecture that the increased training efficiency of quantum models will improve performance in these tasks. We interpret the representations of compositional tensor-based models in Hilbert spaces and train Variational Quantum Circuits to learn these representations on an image captioning task requiring compositional generalization. We used two image encoding techniques: a multi-hot encoding (MHE) on binary image vectors and an angle/amplitude encoding on image vectors taken from the vision-language model CLIP. We achieve good proof-of-concept results using noisy MHE encodings. Performance on CLIP image vectors was more mixed, but still outperformed classical compositional models.
- Abstract(参考訳): 構成一般化は人間の認知の重要な側面であるが、視覚言語モデルのような現在のAIツールには欠けている。
従来, コンポジションテンソルに基づく文意味論が課題を克服できるかどうかを検討したが, 否定的な結果となった。
量子モデルのトレーニング効率が向上すれば、これらのタスクのパフォーマンスが向上すると予想する。
我々は、ヒルベルト空間における合成テンソルベースモデルの表現を解釈し、それらの表現を合成一般化を必要とするイメージキャプションタスクで学習する。
両画像ベクトル上のマルチホット符号化(MHE)と、視覚言語モデルCLIPから得られた画像ベクトルに対する角度/振幅符号化の2つの手法を用いた。
ノイズの多いMHE符号化を用いて概念実証を行う。
CLIP画像ベクトルの性能はより混合されたが、依然として古典的な構成モデルよりも優れていた。
関連論文リスト
- GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - CAT: Content-Adaptive Image Tokenization [92.2116487267877]
本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。
本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。
トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
論文 参考訳(メタデータ) (2025-01-06T16:28:47Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Image Compression with Product Quantized Masked Image Modeling [44.15706119017024]
最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。
Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
論文 参考訳(メタデータ) (2022-12-14T17:50:39Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Variational Quanvolutional Neural Networks with enhanced image encoding [0.0]
畳み込みにインスパイアされたハイブリッド量子古典画像分類アルゴリズム(QNN)の性能に及ぼす3種類の異なる量子画像符号化手法の効果について検討する。
実験の結果,一部の画像符号化は変分回路に適していることがわかった。
論文 参考訳(メタデータ) (2021-06-14T12:08:30Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。