論文の概要: CoGR-MoE: Concept-Guided Expert Routing with Consistent Selection and Flexible Reasoning for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2604.16930v1
- Date: Sat, 18 Apr 2026 09:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.243558
- Title: CoGR-MoE: Concept-Guided Expert Routing with Consistent Selection and Flexible Reasoning for Visual Question Answering
- Title(参考訳): CoGR-MoE: ビジュアル質問応答のための一貫した選択とフレキシブル推論によるコンセプトガイド付きエキスパートルーティング
- Authors: Xiyin Zeng, Yi Lu, Hao Wang,
- Abstract要約: 近年のMixture-of-Experts (MoE) 手法は、同様の概念をグループ化したり、例に基づいてルーティングしたりすることで、オプション推論を改善する。
提案する概念ガイド型ルーティングフレームワーク(CoGR-MoE)は,学習段階における専門家の選択を指導するための解答のセマンティクスを取り入れたものだ。
- 参考スコア(独自算出の注目度): 6.290567822084781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) requires models to identify the correct answer options based on both visual and textual evidence. Recent Mixture-of-Experts (MoE) methods improve option reasoning by grouping similar concepts or routing based on examples. However, unstable routing can lead to inconsistent expert selection in the same question type, while overly stable routing may reduce flexibility. To address this, we propose Concept-Guided Routing framework (CoGR-MoE), which incorporates semantics of the answer options to guide expert selection in the training phase. Next, option features are used to reweight the selected experts, producing discriminative representations for each candidate option. These option-level representations are further used for option comparison and optimized via contrastive learning. The experimental results indicate that CoGR-MoE delivers strong performance across multiple VQA tasks, demonstrating the effectiveness of our approach.
- Abstract(参考訳): VQA(Visual Question Answering)は、視覚的およびテキスト的証拠に基づいて正しい回答オプションを特定するモデルを必要とする。
近年のMixture-of-Experts (MoE) 手法は、同様の概念をグループ化したり、例に基づいてルーティングしたりすることで、オプション推論を改善する。
しかし、不安定なルーティングは、同じ質問タイプで一貫性のない専門家の選択につながる可能性がある一方で、過度に安定したルーティングは柔軟性を低下させる可能性がある。
これを解決するために,提案する概念ガイド型ルーティングフレームワーク (CoGR-MoE) を提案する。
次に、選択した専門家を再重み付けするためにオプション機能を使用し、各候補オプションに対して差別的な表現を生成する。
これらのオプションレベルの表現は、オプション比較にさらに使われ、コントラスト学習によって最適化される。
実験の結果,CoGR-MoEは複数のVQAタスクにまたがって高い性能を示し,本手法の有効性を実証した。
関連論文リスト
- Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。
RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。
提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。
本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T09:32:29Z) - SMART-RAG: Selection using Determinantal Matrices for Augmented Retrieval [40.17823569905232]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)を大幅に改善し、正確で文脈に根ざした応答を生成する。
RAGアプローチは、クエリコンテキストの関連性のみに基づくトップランクのドキュメントを優先し、冗長性と矛盾する情報をしばしば導入する。
本稿では,RAGにおける文脈選択の最適化を目的とした,教師なしおよびトレーニング不要なフレームワークであるRAG(Mathrices for Augmented Retrieval)によるタスク応答のための選択を提案する。
論文 参考訳(メタデータ) (2024-09-21T03:03:09Z) - Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Transfer Learning Enhanced Single-choice Decision for Multi-choice Question Answering [27.601353412882258]
MMRC (Multi-choice Machine Reading) は、与えられたパスと質問に基づいて、オプションのセットから正しい回答を選択することを目的としている。
本稿では,ある解答が正しいかどうかを識別するために,二項分類を訓練することにより,複数選択を単一選択に再構成する。
提案手法はマルチ選択フレームワークを排除し,他のタスクのリソースを活用できる。
論文 参考訳(メタデータ) (2024-04-27T16:02:55Z) - IRRGN: An Implicit Relational Reasoning Graph Network for Multi-turn
Response Selection [4.471148909362883]
Graph Networkへのインプシット推論は、発話間の暗黙的な抽出と、発話とオプションの抽出を目的としている。
モデルは、初めて MuTual データセットで人のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-12-01T13:17:25Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。