論文の概要: Technical Report for Argoverse2 Scenario Mining Challenges on Iterative Error Correction and Spatially-Aware Prompting
- arxiv url: http://arxiv.org/abs/2506.11124v1
- Date: Tue, 10 Jun 2025 07:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.487644
- Title: Technical Report for Argoverse2 Scenario Mining Challenges on Iterative Error Correction and Spatially-Aware Prompting
- Title(参考訳): Argoverse2シナリオマイニングにおける反復誤差補正と空間認識プロンプトの技術的検討
- Authors: Yifei Chen, Ross Greer,
- Abstract要約: RefAVは自然言語クエリを実行可能コードに変換するフレームワークで、関連するシナリオを特定する。
この技術的なレポートでは、これらの制限に対処するための2つの重要な拡張を紹介します。
さまざまなLLMs-Qwen2.5-VL-7B、Gemini 2.5 Flash、Gemini 2.5 Proを使ったArgoverse 2検証セットの実験では、複数のメトリクスで一貫した利得を示している。
- 参考スコア(独自算出の注目度): 1.523669433825807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scenario mining from extensive autonomous driving datasets, such as Argoverse 2, is crucial for the development and validation of self-driving systems. The RefAV framework represents a promising approach by employing Large Language Models (LLMs) to translate natural-language queries into executable code for identifying relevant scenarios. However, this method faces challenges, including runtime errors stemming from LLM-generated code and inaccuracies in interpreting parameters for functions that describe complex multi-object spatial relationships. This technical report introduces two key enhancements to address these limitations: (1) a fault-tolerant iterative code-generation mechanism that refines code by re-prompting the LLM with error feedback, and (2) specialized prompt engineering that improves the LLM's comprehension and correct application of spatial-relationship functions. Experiments on the Argoverse 2 validation set with diverse LLMs-Qwen2.5-VL-7B, Gemini 2.5 Flash, and Gemini 2.5 Pro-show consistent gains across multiple metrics; most notably, the proposed system achieves a HOTA-Temporal score of 52.37 on the official test set using Gemini 2.5 Pro. These results underline the efficacy of the proposed techniques for reliable, high-precision scenario mining.
- Abstract(参考訳): Argoverse 2のような広範な自動運転データセットからのシナリオマイニングは、自動運転システムの開発と検証に不可欠である。
RefAVフレームワークは、Large Language Models(LLMs)を使用して、自然言語クエリを実行可能なコードに変換することで、関連するシナリオを特定する、有望なアプローチを表している。
しかし, この手法では, LLM生成コードから発生する実行時エラーや, 複雑な多目的空間関係を記述する関数のパラメータの解釈の不正確さなど, 課題に直面している。
本技術報告では,(1)LLMを誤りフィードバックで再プロンプトすることでコードを洗練するフォールトトレラントな反復的コード生成機構,(2)LLMの理解と空間関係関数の正しい適用を改善する特別なプロンプトエンジニアリング,という2つの制限に対処するための重要な機能拡張を紹介する。
多様なLLM-Qwen2.5-VL-7B、Gemini 2.5 Flash、Gemini 2.5 Pro-ShowによるArgoverse 2バリデーションセットの実験では、複数のメトリクスで一貫した利得が得られた。
これらの結果は, 信頼性, 高精度なシナリオマイニングにおける提案手法の有効性を裏付けるものである。
関連論文リスト
- Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas [0.0]
本研究では,PWP(Persistent Prompting, Persistent Prompting, パーシステント・プロンプト・プリンティング)の原理によって誘導される構造的文脈条件付けについて, 推論時にその振る舞いを調節するための方法論的戦略として検討する。
このアプローチは、正確な検証タスクのために、容易に利用できる汎用の大規模言語モデル(LLM)の信頼性を高めるように設計されている。
基本的なプロンプトは信頼できないが、PLMの分析的考え方を厳格に条件付けるためにPWP構造を適用するアプローチは、両方のモデルでテキストエラーの識別を改善するように見えた。
論文 参考訳(メタデータ) (2025-05-18T06:33:08Z) - Automated Repair of Ambiguous Natural Language Requirements [9.379494157034083]
ソフトウェア工学における大規模言語モデル(LLM)は、自然言語(NL)の役割を増幅している。
我々は、コード生成の不確実性を低減してアプローチするあいまいなNL要求の自動修復を導入する。
我々の結果は、SpecFixが要求の23.93%を修正し、修正された要求に対して33.66%のモデルPass@1が改善されたことを示している。
論文 参考訳(メタデータ) (2025-05-12T06:47:53Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。
本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文 参考訳(メタデータ) (2024-11-08T08:52:59Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。