論文の概要: Symbol-LLM: Leverage Language Models for Symbolic System in Visual Human
Activity Reasoning
- arxiv url: http://arxiv.org/abs/2311.17365v1
- Date: Wed, 29 Nov 2023 05:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:27:36.273559
- Title: Symbol-LLM: Leverage Language Models for Symbolic System in Visual Human
Activity Reasoning
- Title(参考訳): Symbol-LLM:視覚活動推論における記号システムのための言語モデル
- Authors: Xiaoqian Wu, Yong-Lu Li, Jianhua Sun, Cewu Lu
- Abstract要約: 本稿では,広い範囲のシンボルと合理的なルールを持つ新しい記号体系を提案する。
我々は,LLMの最近の進歩を2つの理想的な性質の近似として活用する。
本手法は,広範囲な活動理解タスクにおいて優位性を示す。
- 参考スコア(独自算出の注目度): 58.5857133154749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human reasoning can be understood as a cooperation between the intuitive,
associative "System-1" and the deliberative, logical "System-2". For existing
System-1-like methods in visual activity understanding, it is crucial to
integrate System-2 processing to improve explainability, generalization, and
data efficiency. One possible path of activity reasoning is building a symbolic
system composed of symbols and rules, where one rule connects multiple symbols,
implying human knowledge and reasoning abilities. Previous methods have made
progress, but are defective with limited symbols from handcraft and limited
rules from visual-based annotations, failing to cover the complex patterns of
activities and lacking compositional generalization. To overcome the defects,
we propose a new symbolic system with two ideal important properties:
broad-coverage symbols and rational rules. Collecting massive human knowledge
via manual annotations is expensive to instantiate this symbolic system.
Instead, we leverage the recent advancement of LLMs (Large Language Models) as
an approximation of the two ideal properties, i.e., Symbols from Large Language
Models (Symbol-LLM). Then, given an image, visual contents from the images are
extracted and checked as symbols and activity semantics are reasoned out based
on rules via fuzzy logic calculation. Our method shows superiority in extensive
activity understanding tasks. Code and data are available at
https://mvig-rhos.com/symbol_llm.
- Abstract(参考訳): 人間の推論は、直感的で連想的な「システム1」と、意図的で論理的な「システム2」の協調として理解することができる。
視覚活動理解における既存のSystem-1ライクな手法では、System-2処理を統合して説明可能性、一般化、データ効率を改善することが重要である。
行動推論の可能な道の1つは、記号と規則からなる記号体系を構築し、一つの規則が複数のシンボルを結び、人間の知識と推論能力を意味する。
従来の手法は進歩してきたが、手工芸の限られた記号と視覚的アノテーションの限られた規則に欠陥があり、複雑な活動パターンをカバーできず、作曲の一般化が欠如している。
この欠陥を克服するために,広い範囲のシンボルと合理的規則という2つの理想的な特性を持つ新しいシンボルシステムを提案する。
手動アノテーションによる膨大な人間知識の収集は、このシンボリックシステムをインスタンス化するのにコストがかかる。
代わりに、LLM(Lymbol-LLM)の最近の進歩を、2つの理想的な性質、すなわち、大言語モデル(Symbol-LLM)のシンボルの近似として活用する。
そして、画像から視覚的内容が抽出され、シンボルとしてチェックされ、ファジィ論理計算によるルールに基づいてアクティビティセマンティクスが推論される。
本手法は広範囲な活動理解タスクにおいて優位性を示す。
コードとデータはhttps://mvig-rhos.com/symbol_llmで入手できる。
関連論文リスト
- Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - Take A Step Back: Rethinking the Two Stages in Visual Reasoning [57.16394309170051]
本稿では2段階の視点で視覚的推論を再考する。
共有アナライザを使用しながら、異なるデータドメイン用の分離エンコーダによるシンボル化を実装する方が効率的である。
提案する2段階のフレームワークは,様々な視覚的推論タスクにおいて,印象的な一般化を実現する。
論文 参考訳(メタデータ) (2024-07-29T02:56:19Z) - Speak It Out: Solving Symbol-Related Problems with Symbol-to-Language
Conversion for Language Models [16.265409100706584]
記号は抽象的推論、化学特性予測、テーブル質問応答といった様々なタスクで重要な役割を果たしている。
印象的な自然言語理解能力にもかかわらず、シンボルに対する大きな言語モデルの推論能力は依然として不十分である。
本稿では,自然言語で表現された情報を用いて,大規模言語モデルによるシンボル関連問題の解法を可能にする,S2L( symbol-to- language)を提案する。
論文 参考訳(メタデータ) (2024-01-22T07:07:06Z) - Symbol-LLM: Towards Foundational Symbol-centric Interface For Large
Language Models [41.91490484827197]
シンボルデータの集合を大規模言語モデルのトレーニングに直接注入することは問題となる。
本研究では、データとフレームワークの観点からこれらの課題に取り組み、Symbol-LLMシリーズモデルを導入する。
シンボル中心タスクとNL中心タスクの広範な実験は、Symbol-LLMシリーズモデルのバランスと優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - Generating by Understanding: Neural Visual Generation with Logical
Symbol Groundings [26.134405924834525]
本稿では,論理プログラミングシステムとニューラルビジュアル生成モデルを統合するために,ニューロシンボリック学習手法であるAbductive Visual Generation(AbdGen)を提案する。
その結果、ベースラインアプローチと比較して、AbdGenはシンボル代入にラベル付きデータをかなり少なくする必要があることがわかった。
AbdGenは、既存のアプローチの能力から外れたデータから、基礎となる論理生成ルールを効果的に学習することができる。
論文 参考訳(メタデータ) (2023-10-26T15:00:21Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Deep Symbolic Learning: Discovering Symbols and Rules from Perceptions [69.40242990198]
Neuro-Symbolic(NeSy)統合は、認識と推論を必要とするタスクに対して、シンボリック推論とニューラルネットワーク(NN)を組み合わせる。
ほとんどのNeSyシステムは論理的知識の継続的な緩和に依存しており、モデルパイプライン内では決定的な決定は行われない。
本研究では,NeSy関数を学習するNeSyシステムを提案する。すなわち,連続データを離散シンボルにマップする(集合)知覚関数の構成と,シンボルの集合上のシンボル関数である。
論文 参考訳(メタデータ) (2022-08-24T14:06:55Z) - pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。
主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。
我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-06-14T15:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。