論文の概要: TD-Interpreter: Enhancing the Understanding of Timing Diagrams with Visual-Language Learning
- arxiv url: http://arxiv.org/abs/2507.16844v1
- Date: Sun, 20 Jul 2025 14:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.67978
- Title: TD-Interpreter: Enhancing the Understanding of Timing Diagrams with Visual-Language Learning
- Title(参考訳): TD-Interpreter:視覚言語学習によるタイミング図理解の促進
- Authors: Jie He, Vincent Theo Willem Kenbeek, Zhantao Yang, Meixun Qu, Ezio Bartocci, Dejan Ničković, Radu Grosu,
- Abstract要約: 複雑なタイミング図(TD)の理解を支援する特殊なMLツールであるTD-Interpreterを紹介する。
TD-Interpreterは視覚的な質問応答環境であり、エンジニアは一連のTDを入力し、これらのTDに関する設計および検証クエリを問うことができる。
- 参考スコア(独自算出の注目度): 7.8338101221733885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TD-Interpreter, a specialized ML tool that assists engineers in understanding complex timing diagrams (TDs), originating from a third party, during their design and verification process. TD-Interpreter is a visual question-answer environment which allows engineers to input a set of TDs and ask design and verification queries regarding these TDs. We implemented TD-Interpreter with multimodal learning by fine-tuning LLaVA, a lightweight 7B Multimodal Large Language Model (MLLM). To address limited training data availability, we developed a synthetic data generation workflow that aligns visual information with its textual interpretation. Our experimental evaluation demonstrates the usefulness of TD-Interpreter which outperformed untuned GPT-4o by a large margin on the evaluated benchmarks.
- Abstract(参考訳): 本稿では、TD-Interpreterについて紹介する。TD-Interpreterは、設計および検証プロセスにおいて、サードパーティから派生した複雑なタイミング図(TD)の理解を支援する特殊なMLツールである。
TD-Interpreterは視覚的な質問応答環境であり、エンジニアは一連のTDを入力し、これらのTDに関する設計および検証クエリを問うことができる。
軽量 7B マルチモーダル大言語モデル (MLLM) である LLaVA を微調整し, マルチモーダル学習を用いたTD-Interpreter を実装した。
限られたトレーニングデータの可用性に対処するため,視覚情報をテキスト解釈と整合させる合成データ生成ワークフローを開発した。
実験により,評価ベンチマークにおいて未調整GPT-4oよりも高い性能を示したTD-Interpreterの有用性を示した。
関連論文リスト
- GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions [24.947855662285015]
物理特性を指向したChain-of-Thought(CoT)推論機構を統合した6-DoFグリップ検出フレームワークを提案する。
IntentGraspは、多目的把握検出のための公共データセットのギャップを、多言語および間接的なコマンドで埋める大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-03-20T10:32:38Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。