論文の概要: Revisiting KRISP: A Lightweight Reproduction and Analysis of Knowledge-Enhanced Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.20795v1
- Date: Tue, 25 Nov 2025 19:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.826462
- Title: Revisiting KRISP: A Lightweight Reproduction and Analysis of Knowledge-Enhanced Vision-Language Models
- Title(参考訳): KRISPの再検討:知識強化型ビジョンランゲージモデルの軽量化と解析
- Authors: Souradeep Dutta, Keshav Bulia, Neena S Nair,
- Abstract要約: Facebook AI ResearchがKRISPを導入した。これは、構造化された外部知識を、視覚言語推論のためのパイプラインに統合するものだ。
その有効性にもかかわらず、元のモデルは産業規模の訓練のために開発され、計算的に要求され、大きなバックボーンに強く結びついている。
本研究では,KRISPを異なる角度から再検討し,パラメータが著しく少ない軽量な再現性を提供する。
- 参考スコア(独自算出の注目度): 1.873444918172383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facebook AI Research introduced KRISP [4], which integrates structured external knowledge into pipelines for vision-language reasoning. Despite its effectiveness, the original model has been developed for industrial-scale training, is computationally demanding, and is tightly connected to a large backbone. In this work, we reexamine KRISP from a different angle and offer a lightweight reproduction with significantly fewer parameters. Even though our replicated model performs about 75 % of the original, the replication process uncovers a number of design flaws, real-world pitfalls, and implicit problems that were not fully covered in the original paper. We offer insights into the scalability and efficacy of knowledge-enhanced VQA architectures under resource constraints through systematic ablation studies, which include a proof-of-concept on synthetic VQA data and evaluation on the DAQUAR dataset. Our model, configured with a low parameter setup and constrained by the external Knowledge graph domain, prevents AI hallucinations and generates outputs solely within that domain. Minimal parameters allow us to function on edge devices like smartphones and AR-VR, further improving offline visual reasoning.
- Abstract(参考訳): Facebook AI ResearchがKRISP[4]を導入した。
その有効性にもかかわらず、元のモデルは産業規模の訓練のために開発され、計算的に要求され、大きなバックボーンに強く結びついている。
本研究では,KRISPを異なる角度から再検討し,パラメータが著しく少ない軽量な再現性を提供する。
私たちの複製されたモデルはオリジナルの約75%を処理しますが、複製プロセスは、多くの設計上の欠陥、現実世界の落とし穴、そしてオリジナルの論文で完全にカバーされていない暗黙の問題を明らかにします。
本稿では, 知識強化型VQAアーキテクチャの資源制約下でのスケーラビリティと有効性について, 総合的なVQAデータに対する概念実証とDAQUARデータセットの評価を含む系統的アブレーション研究を通じて考察する。
我々のモデルは、低パラメータ設定で構成され、外部知識グラフドメインによって制約され、AI幻覚を防止し、その領域内でのみ出力を生成する。
最小限のパラメータは、スマートフォンやAR-VRのようなエッジデバイスで機能し、オフラインの視覚的推論をさらに改善します。
関連論文リスト
- Edge-ASR: Towards Low-Bit Quantization of Automatic Speech Recognition Models [8.589209709453026]
量子化、特にPTQ(Post-Training Quantization)は、再トレーニングせずにモデルサイズと推論コストを削減する効果的な方法を提供する。
本稿では、WhisperとMoonshineの2つのエッジASRモデルファミリーに適用した8つの最先端(SOTA)PTQ手法のベンチマークを示す。
提案手法は効率と精度のトレードオフを特徴とし,3ドルビット量子化さえも高容量モデルで成功できることを示した。
論文 参考訳(メタデータ) (2025-07-10T16:00:27Z) - Shifting AI Efficiency From Model-Centric to Data-Centric Compression [67.45087283924732]
AI研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と私たちは主張する。
データ中心圧縮は、モデルトレーニングや推論中に処理されたデータのボリュームを直接圧縮することで、AI効率を向上させる。
我々の研究は、AIの効率性に関する新たな視点を提供し、既存の取り組みを合成し、コンテキスト長の増大によって引き起こされる課題に対処するためにイノベーションを触媒することを目的としています。
論文 参考訳(メタデータ) (2025-05-25T13:51:17Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。
INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。
この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文 参考訳(メタデータ) (2024-11-06T06:14:24Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - A survey on Variational Autoencoders from a GreenAI perspective [0.0]
変分オートエンコーダ(VAE)は、統計や情報理論の要素と深層ニューラルネットワークが提供する柔軟性を融合する強力な生成モデルである。
この記事では、最も成功し、最近のVAEのバリエーションについて比較評価する。
論文 参考訳(メタデータ) (2021-03-01T15:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。