Fugu-MT 論文翻訳(概要): LogicalDefender: Discovering, Extracting, and Utilizing Common-Sense Knowledge

論文の概要: LogicalDefender: Discovering, Extracting, and Utilizing Common-Sense Knowledge

arxiv url: http://arxiv.org/abs/2403.11570v1
Date: Mon, 18 Mar 2024 08:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 16:07:12.736548
Title: LogicalDefender: Discovering, Extracting, and Utilizing Common-Sense Knowledge
Title（参考訳）: LogicalDefender: 常識知識の発見,抽出,活用
Authors: Yuhe Liu, Mengxue Kang, Zengchang Qin, Xiangxiang Chu,
Abstract要約: 画像の理解と処理において,知識として機能する深層論理情報が重要な役割を担っていることがわかった。我々は、画像と、すでに人間がテキストで要約した論理的知識を組み合わせたLogicalDefenderを提案する。実験により、我々のモデルはより優れた論理的性能を達成し、抽出された論理的知識は他のシナリオに効果的に適用できることが示されている。
参考スコア（独自算出の注目度）: 15.978331453541427
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large text-to-image models have achieved astonishing performance in synthesizing diverse and high-quality images guided by texts. With detail-oriented conditioning control, even finer-grained spatial control can be achieved. However, some generated images still appear unreasonable, even with plentiful object features and a harmonious style. In this paper, we delve into the underlying causes and find that deep-level logical information, serving as common-sense knowledge, plays a significant role in understanding and processing images. Nonetheless, almost all models have neglected the importance of logical relations in images, resulting in poor performance in this aspect. Following this observation, we propose LogicalDefender, which combines images with the logical knowledge already summarized by humans in text. This encourages models to learn logical knowledge faster and better, and concurrently, extracts the widely applicable logical knowledge from both images and human knowledge. Experiments show that our model has achieved better logical performance, and the extracted logical knowledge can be effectively applied to other scenarios.
Abstract（参考訳）: テキスト・ツー・イメージの大規模モデルは、テキストでガイドされた多種多様な高品質な画像の合成において驚くべきパフォーマンスを達成した。ディテール指向コンディショニング制御により、よりきめ細かい空間制御も実現できる。しかし、多くのオブジェクトの特徴と調和したスタイルがあるにもかかわらず、生成した画像の中には相応しいものも残されている。本稿では, 画像の理解と処理において, 深層論理情報が重要な役割を担っていることを明らかにする。それでも、ほとんどのモデルでは画像における論理的関係の重要性を無視しており、この点では性能が劣っている。そこで本研究では,画像と,人間がすでにテキストで要約した論理的知識を組み合わせたLogicalDefenderを提案する。これにより、モデルがより速くより良く論理的知識を学習し、同時に画像と人間の知識の両方から広く適用可能な論理的知識を抽出する。実験により、我々のモデルはより優れた論理的性能を達成し、抽出された論理的知識は他のシナリオに効果的に適用できることが示されている。

関連論文リスト

Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。次に、多段階最適化戦略によりMLLMを微調整する。得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文参考訳（メタデータ） (2025-06-08T08:47:44Z)
Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models [36.18155629835474]
視覚言語モデル(VLM)は、画像から情報を取り出し、推論するのに優れている。本研究は,テキストで記述されたエンティティと画像で表現されたエンティティについて,現実的な質問に答える際のモデル性能の相違について検討する。
論文参考訳（メタデータ） (2024-12-18T18:22:30Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
ARTxAI: Explainable Artificial Intelligence Curates Deep Representation Learning for Artistic Images using Fuzzy Techniques [11.286457041998569]
芸術的画像分類における異なる課題から得られる特徴が、類似した性質の他の課題を解決するのにどのように適しているかを示す。本稿では、画像の既知の視覚特性をディープラーニングモデルで用いる特徴にマッピングする、説明可能な人工知能手法を提案する。
論文参考訳（メタデータ） (2023-08-29T13:15:13Z)
InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation based on Visual Illusion [1.7980584146314789]
本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-28T13:01:32Z)
Generalizable Synthetic Image Detection via Language-guided Contrastive Learning [22.533225521726116]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。本稿では,言語誘導型コントラスト学習を用いた簡易かつ効果的な合成画像検出手法を提案する。提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文参考訳（メタデータ） (2023-05-23T08:13:27Z)
Combining Commonsense Reasoning and Knowledge Acquisition to Guide Deep Learning in Robotics [8.566457170664926]
本稿では,認知システムの研究からインスピレーションを得たアーキテクチャについて述べる。ディープネットワークモデルは、ロボット工学とAIにおける多くのパターン認識と意思決定タスクに使用されている。我々のアーキテクチャは意思決定の信頼性を改善し、データ駆動のディープネットワークモデルのトレーニングに関わる労力を削減する。
論文参考訳（メタデータ） (2022-01-25T12:24:22Z)
pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文参考訳（メタデータ） (2021-06-14T15:19:06Z)
Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文参考訳（メタデータ） (2021-05-08T10:09:36Z)
Learning Contextual Causality from Time-consecutive Images [84.26437953699444]
因果知識は多くの人工知能システムにとって重要である。本稿では,視覚信号から文脈因果関係を学習する可能性について検討する。まず,高品質なデータセットvis-causalを提案し,ビデオから有意義な因果知識を自動的に発見できることを示す実験を行った。
論文参考訳（メタデータ） (2020-12-13T20:24:48Z)
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。 RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文参考訳（メタデータ） (2020-10-15T05:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。