Fugu-MT 論文翻訳(概要): GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

論文の概要: GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

arxiv url: http://arxiv.org/abs/2311.04901v1
Date: Wed, 8 Nov 2023 18:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 14:47:59.907423
Title: GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs
Title（参考訳）: ゲノム : 成長・再使用モジュールによる生成的ニューロシンボリック視覚推論
Authors: Zhenfang Chen, Rui Sun, Wenjun Liu, Yining Hong, Chuang Gan
Abstract要約: 本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
参考スコア（独自算出の注目度）: 64.49176353858792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works have shown that Large Language Models (LLMs) could empower traditional neuro-symbolic models via programming capabilities to translate language into module descriptions, thus achieving strong visual reasoning results while maintaining the model's transparency and efficiency. However, these models usually exhaustively generate the entire code snippet given each new instance of a task, which is extremely ineffective. We propose generative neuro-symbolic visual reasoning by growing and reusing modules. Specifically, our model consists of three unique stages, module initialization, module generation, and module execution. First, given a vision-language task, we adopt LLMs to examine whether we could reuse and grow over established modules to handle this new task. If not, we initialize a new module needed by the task and specify the inputs and outputs of this new module. After that, the new module is created by querying LLMs to generate corresponding code snippets that match the requirements. In order to get a better sense of the new module's ability, we treat few-shot training examples as test cases to see if our new module could pass these cases. If yes, the new module is added to the module library for future reuse. Finally, we evaluate the performance of our model on the testing set by executing the parsed programs with the newly made visual modules to get the results. We find the proposed model possesses several advantages. First, it performs competitively on standard tasks like visual question answering and referring expression comprehension; Second, the modules learned from one task can be seamlessly transferred to new tasks; Last but not least, it is able to adapt to new visual reasoning tasks by observing a few training examples and reusing modules.
Abstract（参考訳）: 近年の研究では、LLM(Large Language Models)が、言語をモジュール記述に変換するプログラミング能力を通じて、従来のニューロシンボリックモデルに力を与える可能性があることが示されている。しかし、これらのモデルは通常、タスクの新たなインスタンスごとにコードスニペット全体を徹底的に生成します。本稿では,モジュールの成長と再利用による生成的ニューロシンボリック視覚推論を提案する。具体的には,モジュール初期化,モジュール生成,モジュール実行という,3つのユニークなステージで構成されています。まず、視覚言語タスクを前提として、新しいタスクを処理するために既存のモジュールを再利用し、拡張できるかどうかを検討する。そうでなければ、タスクに必要な新しいモジュールを初期化し、この新しいモジュールの入力と出力を指定する。その後、新しいモジュールはLCMに問い合わせて、要求に合う対応するコードスニペットを生成することで作成される。新しいモジュールの能力をよりよく理解するために、少数のトレーニングサンプルをテストケースとして扱い、新しいモジュールがこれらのケースを通過するかどうかを確認します。もしそうなら、将来の再利用のために新しいモジュールがモジュールライブラリに追加される。最後に、新たに作成されたビジュアルモジュールを用いて解析したプログラムを実行して結果を得ることにより、テストセットにおけるモデルの性能を評価する。提案モデルにはいくつかの利点がある。第二に、あるタスクから学んだモジュールは、シームレスに新しいタスクに移行することができる。最後は、いくつかのトレーニング例を観察して、モジュールを再使用することによって、新しい視覚的推論タスクに適応することができる。

関連論文リスト

Learning to Chain Operations by Routing Information Through a Global Workspace [3.1614158472531435]
本稿では,グローバルワークスペース理論(Global Workspace Theory)にインスパイアされたモデルを提案する。モデルの性能を単純な追加タスクで評価し、そこでは2つの加算をまとめる必要がある。本研究は,深層学習の推論能力を高めるため,グローバルワークスペース理論に触発されたアーキテクチャの可能性を強調した。
論文参考訳（メタデータ） (2025-02-28T15:30:55Z)
Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing [64.38277118982698]
LLM(Large Language Models)は、人間のような命令追従能力を示す。本研究では,各命令に対して最高の性能のLCMをルーティングして,全体的な性能を向上させる方法について検討する。提案手法は,モデル能力表現,ユーザ命令,性能調査プロンプトを用いて,性能評価を行う機能命令を新たに構築する。
論文参考訳（メタデータ） (2025-02-24T16:10:53Z)
Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文参考訳（メタデータ） (2024-09-04T17:01:02Z)
Unlocking Emergent Modularity in Large Language Models [27.12431620957652]
標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
論文参考訳（メタデータ） (2023-10-17T01:02:32Z)
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。 CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文参考訳（メタデータ） (2023-10-13T10:17:48Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文参考訳（メタデータ） (2021-12-25T08:36:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。