Fugu-MT 論文翻訳(概要): SKG-VLA: Scene Knowledge Graph Priors for Structured Scene Semantics and Multimodal Reasoning for Decision Making

論文の概要: SKG-VLA: Scene Knowledge Graph Priors for Structured Scene Semantics and Multimodal Reasoning for Decision Making

arxiv url: http://arxiv.org/abs/2605.09343v1
Date: Sun, 10 May 2026 05:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.201588
Title: SKG-VLA: Scene Knowledge Graph Priors for Structured Scene Semantics and Multimodal Reasoning for Decision Making
Title（参考訳）: SKG-VLA:構造化シーンセマンティックのためのシーン知識グラフと意思決定のためのマルチモーダル推論
Authors: Zeyu Li, Lei Li,
Abstract要約: マルチモーダルな苦情判断のためのSKG-VLAを提案する。中心となる考え方は、各ケースを構造化された苦情シーンとしてモデル化し、EmphScene Knowledge Graph (SKG)による決定関連セマンティクスを表現することである。データ合成パイプラインを構築し、苦情シーンの記述、ルール一貫性のあるグラフの一般化、質問応答の監督、意思決定の勧告を生成する。実験により、SKG-VLAは不完全な証拠の下で、ポリシーに基づく推論、苦情判定の精度、長期の一般化、堅牢性を一貫して改善することが示された。
参考スコア（独自算出の注目度）: 10.54549578058132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decision making in large-scale complaint handling systems increasingly relies on heterogeneous evidence, including complaint narratives, screenshots, order metadata, historical interactions, and platform policies. Existing complaint understanding systems mainly perform shallow classification or template matching over isolated modalities, while underutilizing explicit scene structure, rule knowledge, and cross-evidence dependencies. To address this limitation, we present SKG-VLA for multimodal complaint decision making. The core idea is to model each case as a structured complaint scene and represent its decision-relevant semantics with a \emph{Scene Knowledge Graph} (SKG), which organizes complaint entities, evidence items, policy clauses, temporal events, transactional states, and action-relevant relations into a unified graph. Based on SKG, we build a data synthesis pipeline that generates complaint scene descriptions, rule-consistent graph generalizations, question-answer supervision, and decision recommendations. We further construct a large-scale complaint scene dataset with both text-only and multimodal in-domain benchmarks. Finally, we adopt a three-stage training strategy -- domain-adaptive pre-training, task-oriented instruction fine-tuning, and end-to-end multimodal alignment -- to inject structured scene priors into a multimodal decision model. Experiments show that SKG-VLA consistently improves policy-grounded reasoning, complaint decision accuracy, long-tail generalization, and robustness under incomplete evidence.
Abstract（参考訳）: 大規模な苦情処理システムにおける意思決定は、不満の物語、スクリーンショット、注文メタデータ、歴史的相互作用、プラットフォームポリシーなど、不均一な証拠にますます依存している。既存の苦情理解システムは主に、明確なシーン構造、ルール知識、およびクロスエビデンス依存関係を弱めながら、孤立したモダリティに対して浅い分類やテンプレートマッチングを行う。この制限に対処するため,マルチモーダルな苦情判断のためのSKG-VLAを提案する。中心となる考え方は、各ケースを構造化された苦情シーンとしてモデル化し、その決定関連セマンティクスを、苦情エンティティ、証拠項目、ポリシー条項、時間的イベント、トランザクション状態、アクション関連関係を統一されたグラフにまとめる「emph{Scene Knowledge Graph} (SKG)」で表現することである。 SKGに基づいて、苦情シーンの記述、ルール一貫性のあるグラフの一般化、質問・回答の監督、決定勧告を生成するデータ合成パイプラインを構築した。さらに,テキストのみとマルチモーダルなドメイン内ベンチマークによる大規模苦情シーンデータセットを構築した。最後に、ドメイン適応型事前トレーニング、タスク指向の命令微調整、エンドツーエンドのマルチモーダルアライメントという3段階のトレーニング戦略を採用し、構造化シーンの事前をマルチモーダル決定モデルに注入する。実験により、SKG-VLAは不完全な証拠の下で、ポリシーに基づく推論、苦情判定の精度、長期の一般化、堅牢性を一貫して改善することが示された。

関連論文リスト

Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文参考訳（メタデータ） (2026-05-04T09:18:19Z)
PassiveQA: A Three-Action Framework for Epistemically Calibrated Question Answering via Supervised Finetuning [0.0]
不完全情報の下では、モデルが解答、解答、Ask、Abstainを判断しなければならない。本稿では,教師付き微調整によりモデル行動と情報満足度を整合させる3つのアクション・フレームワークであるPassiveQAを提案する。提案手法は,構造化情報状態表現,知識グラフ基底コンテキスト,および不足変数と決定推論を明示的にモデル化した微調整プランナーを統合する。
論文参考訳（メタデータ） (2026-04-06T09:54:16Z)
SocraticKG: Knowledge Graph Construction via QA-Driven Fact Extraction [4.867319754310031]
構造化中間表現として質問応答対を導入する自動KG構築法を提案する。 SocraticKGは、直接KG抽出パイプラインで通常失われるコンテキスト依存と暗黙のリレーショナルリンクをキャプチャする。
論文参考訳（メタデータ） (2026-01-15T02:26:51Z)
Talk, Snap, Complain: Validation-Aware Multimodal Expert Framework for Fine-Grained Customer Grievances [14.30884038757821]
既存の苦情分析へのアプローチは、つぶやきや製品レビューのような、一過性の短いコンテンツに大きく依存している。本稿では,このマルチモーダル設定に適した,エキスパートルーティング付きバリデーション・アウェア・ラーナーであるVALORを紹介する。微粒なアスペクト重大さとラベルを付加したマルチモーダル・クレーム・データセット上でVALORを評価した。
論文参考訳（メタデータ） (2025-11-18T17:29:28Z)
Structuring Reasoning for Complex Rules Beyond Flat Representations [37.11501169845084]
我々は、専門家による推論プロセスに触発された新しいフレームワークを提案する。 Dynamic Adjudication template(DAT)は、推論メカニズムを3つの方法論的なステージに構成する。 DATは、複雑なルールベースのタスクにおいて、従来のChain-of-Thought(CoT)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-10-01T04:10:13Z)
From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文参考訳（メタデータ） (2023-10-22T16:07:06Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Contextual Reasoning for Scene Generation (Technical Report) [16.54738722019977]
実際の自動運転車のシーンデータに適用する方法を示す。この研究の目的は、MR-CKRを自動運転車の学習に挑戦するシーンを生成する問題に適用することである。本稿では,MR-CKRと代数測度を組み合わせた意味指導型データ生成フレームワークについて述べる。
論文参考訳（メタデータ） (2023-05-03T16:39:55Z)
Linear Partial Monitoring for Sequential Decision-Making: Algorithms, Regret Bounds and Applications [70.67112733968654]
部分的なモニタリングは、シーケンシャルな意思決定のための表現力のあるフレームワークである。本稿では,部分的モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的かつカーネル化された設定に拡張する。
論文参考訳（メタデータ） (2023-02-07T18:58:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。