論文の概要: Error Notebook-Guided, Training-Free Part Retrieval in 3D CAD Assemblies via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.01350v2
- Date: Mon, 08 Sep 2025 02:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.358663
- Title: Error Notebook-Guided, Training-Free Part Retrieval in 3D CAD Assemblies via Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルによる3次元CAD集合の誤りノートブックガイドによる学習不要部分検索
- Authors: Yunqing Liu, Nan Zhang, Zhiming Tan,
- Abstract要約: 追加のトレーニングを必要としない新しい部分検索フレームワークを提案するが、改良されたプロンプトエンジニアリングにはError Notebooks + RAGを用いる。
誤りノートブックの構築は、2つのステップから構成される: 歴史的誤り CoT とその誤った回答を収集し、正しい解が得られるまで反射補正によってこれら CoT を接続する。
RAGは、Error Notebooksから仕様関連レコードを取得し、それらを推論プロセスに組み込むために使用される。
- 参考スコア(独自算出の注目度): 5.185787781187911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective specification-aware part retrieval within complex CAD assemblies is essential for automated design verification and downstream engineering tasks. However, directly using LLMs/VLMs to this task presents some challenges: the input sequences may exceed model token limits, and even after processing, performance remains unsatisfactory. Moreover, fine-tuning LLMs/VLMs requires significant computational resources, and for many high-performing general-use proprietary models (e.g., GPT or Gemini), fine-tuning access is not available. In this paper, we propose a novel part retrieval framework that requires no extra training, but using Error Notebooks + RAG for refined prompt engineering to help improve the existing general model's retrieval performance. The construction of Error Notebooks consists of two steps: (1) collecting historical erroneous CoTs and their incorrect answers, and (2) connecting these CoTs through reflective corrections until the correct solutions are obtained. As a result, the Error Notebooks serve as a repository of tasks along with their corrected CoTs and final answers. RAG is then employed to retrieve specification-relevant records from the Error Notebooks and incorporate them into the inference process. Another major contribution of our work is a human-in-the-loop CAD dataset, which is used to evaluate our method. In addition, the engineering value of our novel framework lies in its ability to effectively handle 3D models with lengthy, non-natural language metadata. Experiments with proprietary models, including GPT-4o and the Gemini series, show substantial gains, with GPT-4o (Omni) achieving up to a 23.4% absolute accuracy improvement on the human preference dataset. Moreover, ablation studies confirm that CoT reasoning provides benefits especially in challenging cases with higher part counts (>10).
- Abstract(参考訳): 複雑なCADアセンブリ内での効率的な仕様認識部分の検索は、自動設計検証と下流エンジニアリングタスクに不可欠である。
しかし、このタスクにLLM/VLMを直接使用すると、入力シーケンスはモデルのトークン制限を超え、処理後も性能は不満足なままである。
さらに、微調整のLLM/VLMは計算資源がかなり必要であり、多くの高性能な汎用プロプライエタリモデル(例えば、GPTやGemini)では、微調整のアクセスは利用できない。
本稿では,新たな部分検索フレームワークを提案するが,既存の汎用モデルの検索性能向上のために,Error Notebooks + RAG を改良したプロンプトエンジニアリングに活用する。
誤りノートの作成は,(1) 歴史的誤り CoT とその誤答の収集,(2) 正しい解が得られるまで反射補正によってこれら CoT を接続する,という2つのステップから構成される。
その結果、エラーノートブックは、修正されたCoTと最終回答と共にタスクのリポジトリとして機能する。
RAGは、Error Notebooksから仕様関連レコードを取得し、それらを推論プロセスに組み込むために使用される。
我々の研究のもうひとつの大きな貢献は、我々の手法を評価するために使用される、ループ内CADデータセットである。
さらに、我々の新しいフレームワークの工学的価値は、長大で非自然な言語メタデータを持つ3Dモデルを効果的に扱う能力にある。
GPT-4o や Gemini シリーズを含むプロプライエタリなモデルによる実験では、GPT-4o (Omni) は人間の嗜好データセットに対して23.4%の精度で改善された。
さらに、アブレーション研究により、CoT推論が特に高い部分数(>10)の挑戦例に利益をもたらすことが確認された。
関連論文リスト
- CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning [50.867869718716555]
本稿では,2段階の微調整パラダイムであるCReFT-CADを紹介する。
われわれはTriView2CADをリリースした。
論文 参考訳(メタデータ) (2025-05-31T13:52:56Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。
しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。
textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。
第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。
第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:57:51Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。
RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。
本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文 参考訳(メタデータ) (2024-09-21T16:04:43Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review [14.689883695115519]
technology-assisted review (tar) は、ハイリコール検索タスクにおける文書レビューのための反復的なアクティブラーニングである。
教師付きチューニングを備えたトランスフォーマーベースモデルは,多くのテキスト分類タスクにおいて有効性を向上させることが確認された。
アクティブな学習を始める前にタスクコレクションを微調整する正当性言語モデルが重要であることを示す。
論文 参考訳(メタデータ) (2021-05-03T17:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。