Fugu-MT 論文翻訳(概要): Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models

論文の概要: Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models

arxiv url: http://arxiv.org/abs/2503.16724v1
Date: Thu, 20 Mar 2025 21:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.217152
Title: Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models
Title（参考訳）: 視覚言語モデルによる強化学習における意味解釈の自動化に向けて
Authors: Zhaoxin Li, Zhang Xi-Jia, Batuhan Altundas, Letian Chen, Rohan Paleja, Matthew Gombolay,
Abstract要約: 視覚言語モデルを用いた意味論的解釈型強化学習(SILVA)について紹介する。 SILVAは、事前学習された視覚言語モデル(VLM)を意味的特徴抽出やポリシー最適化のためのツリーベースモデルに活用する自動化フレームワークである。
参考スコア（独自算出の注目度）: 1.8032335403003321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic Interpretability in Reinforcement Learning (RL) enables transparency, accountability, and safer deployment by making the agent's decisions understandable and verifiable. Achieving this, however, requires a feature space composed of human-understandable concepts, which traditionally rely on human specification and fail to generalize to unseen environments. In this work, we introduce Semantically Interpretable Reinforcement Learning with Vision-Language Models Empowered Automation (SILVA), an automated framework that leverages pre-trained vision-language models (VLM) for semantic feature extraction and interpretable tree-based models for policy optimization. SILVA first queries a VLM to identify relevant semantic features for an unseen environment, then extracts these features from the environment. Finally, it trains an Interpretable Control Tree via RL, mapping the extracted features to actions in a transparent and interpretable manner. To address the computational inefficiency of extracting features directly with VLMs, we develop a feature extraction pipeline that generates a dataset for training a lightweight convolutional network, which is subsequently used during RL. By leveraging VLMs to automate tree-based RL, SILVA removes the reliance on human annotation previously required by interpretable models while also overcoming the inability of VLMs alone to generate valid robot policies, enabling semantically interpretable reinforcement learning without human-in-the-loop.
Abstract（参考訳）: 強化学習(RL)における意味的解釈可能性(Semantic Interpretability in Reinforcement Learning)は、エージェントの決定を理解し、検証可能にすることによって、透明性、説明可能性、より安全なデプロイメントを可能にする。しかし、これを実現するには、伝統的に人間仕様に依存し、目に見えない環境への一般化に失敗する、人間の理解可能な概念からなる機能空間が必要である。本研究では,SILVA(Semantically Interpretable Reinforcement Learning with Vision-Language Models Empowered Automation)を提案する。 SILVAはまずVLMに問い合わせて、目に見えない環境の関連するセマンティックな特徴を特定し、環境からこれらの特徴を抽出する。最後に、RLを介して解釈可能なコントロールツリーをトレーニングし、抽出された特徴を透明で解釈可能な方法でアクションにマッピングする。本稿では,VLMによる特徴抽出の計算効率の低下に対処するため,軽量畳み込みネットワークをトレーニングするためのデータセットを生成する特徴抽出パイプラインを開発した。木ベースのRLを自動化するためにVLMを活用することで、SILVAは、解釈可能なモデルでこれまで必要とされていた人間のアノテーションへの依存を取り除くと同時に、VLMだけで有効なロボットポリシーを生成することができないことを克服し、ヒューマン・イン・ザ・ループなしで意味論的に解釈可能な強化学習を可能にする。

関連論文リスト

Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文参考訳（メタデータ） (2025-12-04T16:54:41Z)
BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles [0.0]
自律車線維持(LK)のためのマルチモーダル強化学習(RL)のための新しいフレームワークを提案する。提案手法により,エージェントは周囲を認識し,理解しやすい運転ルールを学習することができる。セマンティックアライメント、LK精度、障害物回避、速度制御を含むハイブリッド報酬関数は、学習をより効率的で一般化しやすいものにするのに役立つ。
論文参考訳（メタデータ） (2025-10-25T17:27:08Z)
SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning [88.9014727048442]
SSL4RLは、自己教師付き学習タスクをRLベースの微調整のための検証可能な報酬の源として活用する、新しいフレームワークである。提案手法では,イメージローテーションの予測やマスク付きパッチの再構築といったSSLの目的を,高密度で自動的な報酬信号に変換する。実験の結果、SSL4RLは視覚中心の推論ベンチマークと視覚言語推論ベンチマークの両方のパフォーマンスを大幅に改善することが示された。
論文参考訳（メタデータ） (2025-10-18T09:22:40Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文参考訳（メタデータ） (2025-09-24T13:35:15Z)
Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文参考訳（メタデータ） (2025-08-30T03:01:57Z)
LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2025-04-15T17:14:06Z)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
スパースオートエンコーダ (SAEs) は,大規模言語モデル (LLMs) の解釈可能性と操舵性を向上させることが示されている。本研究では,SAEをCLIPなどの視覚言語モデル(VLM)に適用し,視覚表現における単意味性を評価するための総合的な枠組みを導入する。
論文参考訳（メタデータ） (2025-04-03T17:58:35Z)
Proposition of Affordance-Driven Environment Recognition Framework Using Symbol Networks in Large Language Models [1.2430809884830318]
本研究では,大規模言語モデル(LLM)を活用した自動割当獲得手法を提案する。例として「リンゴ」を用いた実験は、高い説明性で文脈依存の余裕を抽出する手法の能力を実証した。
論文参考訳（メタデータ） (2025-04-02T11:48:44Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文参考訳（メタデータ） (2025-02-17T02:30:45Z)
RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T04:30:42Z)
Mechanistic understanding and validation of large AI models with SemanticLens [13.712668314238082]
航空機のような人間工学的なシステムとは異なり、AIモデルの内部動作はほとんど不透明である。本稿では、コンポーネントによって符号化された隠れた知識をマッピングするニューラルネットワークの普遍的説明法であるSemanticLensを紹介する。
論文参考訳（メタデータ） (2025-01-09T17:47:34Z)
Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文参考訳（メタデータ） (2024-12-14T18:18:52Z)
Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文参考訳（メタデータ） (2024-12-08T20:46:23Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。 VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Understanding Large Language Model Behaviors through Interactive Counterfactual Generation and Analysis [22.755345889167934]
本稿では,大規模言語モデル (LLM) の対実解析による探索を可能にする対話型可視化システムを提案する。本システムは,意味論的に意味のある反事実を生成する新しいアルゴリズムを特徴とする。 LLM実践者とのユーザスタディと専門家とのインタビューは、システムのユーザビリティと有効性を示している。
論文参考訳（メタデータ） (2024-04-23T19:57:03Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文参考訳（メタデータ） (2023-12-02T10:06:54Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。 LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文参考訳（メタデータ） (2023-10-01T00:52:24Z)
Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文参考訳（メタデータ） (2023-08-18T10:40:25Z)
Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。シミュレーションと実環境の両方で実験的な評価を行う。
論文参考訳（メタデータ） (2023-01-15T09:37:55Z)
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。 PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。 PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文参考訳（メタデータ） (2022-05-23T10:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。