Fugu-MT 論文翻訳(概要): Aggregating LLM-Based Weak Verifiers for Spatial Layout Generation

論文の概要: Aggregating LLM-Based Weak Verifiers for Spatial Layout Generation

arxiv url: http://arxiv.org/abs/2606.05268v1
Date: Wed, 03 Jun 2026 16:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.302539
Title: Aggregating LLM-Based Weak Verifiers for Spatial Layout Generation
Title（参考訳）: 空間レイアウト生成のための集積LDM弱検証器
Authors: Sharon Zhang, R. Kenny Jones, Jiajun Wu, Maneesh Agrawala,
Abstract要約: 本稿では,タスク固有の弱い(不完全な)検証器を空間配置領域の強い検証器に構築・集約するパイプラインを提案する。このような検証器の応答を集約することで、より強力な検証器を生成することができることを示す。また,強い検証器からの自然言語フィードバックを用いた検証器誘導レイアウト生成により,基本レイアウト生成器のレイアウト品質が66.2%向上することが実証された。
参考スコア（独自算出の注目度）: 32.48696484106244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a pipeline for building and aggregating task-specific, LLM-generated weak (imperfect) verifiers into a strong verifier for spatial layout domains. Given a task description, our pipeline asks an LLM to synthesize a collection of verifier programs using a layout verification DSL. Each individual LLM-generated verifier usually provides an imperfect check for a match between the layout and the corresponding task description. We show that by aggregating the responses of many such verifiers we can produce a stronger verifier. Moreover, by applying techniques from weak learning, our pipeline can learn how to aggregate the weak verifiers from a very sparse set of human labeled example layouts (about 10). We find that the strong verifiers produced by our pipeline outperform the status-quo approach of using a set of LLM judges to directly check whether a layout matches a task description, raising F1-scores by up to 7X across a variety of 3D room layout and 2D poster design tasks. We also demonstrate that verifier-guided layout generation using natural language feedback from our strong verifiers improves layout quality of a base layout generator by up to 66.2% according to a human evaluator.
Abstract（参考訳）: 本稿では,LLM生成の弱い(不完全な)検証器を空間レイアウト領域の強い検証器に構築・集約するパイプラインを提案する。タスク記述が与えられた場合、パイプラインはレイアウト検証DSLを用いて検証プログラムの集合を合成するようLLMに要求する。各LSM生成検証器は、通常、レイアウトと対応するタスク記述との一致の完全なチェックを提供する。このような検証器の応答を集約することで、より強力な検証器を生成することができることを示す。さらに、弱い学習のテクニックを適用することで、私たちのパイプラインは、非常にスパースな人間のラベル付きサンプルレイアウト(約10)から弱い検証器を集約する方法を学ぶことができます。我々は,LLM判定器を用いて,レイアウトがタスク記述と一致しているかを直接確認し,F1スコアを最大7倍高め,様々な3次元の部屋レイアウトと2次元ポスターデザインタスクで評価することにより,パイプラインが生成する強力な検証器の性能を向上することを発見した。また,強い検証器からの自然言語フィードバックを用いた検証器誘導レイアウト生成により,基本レイアウト生成器のレイアウト品質が66.2%向上することが実証された。

関連論文リスト

AutoPyVerifier: Learning Compact Executable Verifiers for Large Language Model Outputs [17.122224644097304]
AutoPyVerifierは、候補検証関数を合成し、非循環グラフを探索することでそれらを洗練するフレームワークである。本稿では,AutoPyVerifier が初期 LLM 生成した検証セットに対して 55.0 F1 点まで目標目標予測を改善することを示す。
論文参考訳（メタデータ） (2026-04-24T18:22:58Z)
From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification [0.30915521808748864]
大規模な言語モデルは、自動化されたソフトウェア工学における約束を示すが、その正しさの保証は、誤ったコードや幻覚的なコードによってしばしば損なわれる。 NaturalLanguage2VerifiedCodeデータセット:60の複雑なアルゴリズム問題の集合を提供する。 7個のオープンウェイト LLM でランダムに選択された11個の問題集合をタイレッドプロンプト戦略を用いて評価した。以上の結果から,コンテキストレスなプロンプトがほぼユニバーサルの失敗につながる一方で,構造的アンカーと反復的自己修復が劇的なパフォーマンスの転換を促進することが示唆された。
論文参考訳（メタデータ） (2026-04-24T14:28:10Z)
LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources [0.7734726150561088]
行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。レイアウト、用語、データ品質の変化は、急激なトリアージ、大規模分析、探索計画を妨げる。本稿では、AIによる解析および正規化パイプラインであるGuardian Packを紹介し、マルチソース調査文書を統一されたスキーマ準拠の表現に変換する。
論文参考訳（メタデータ） (2026-04-08T01:35:56Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [14.603394022550864]
CheckEmbed (CE)は、大規模言語モデル(LLM)の単純でスケーラブルで正確な検証方法である。 CEは、全問合せレベルで、高速でセマンティックにリッチな比較を行い、精度とスケーラビリティの両方において重要な制限を克服します。実験の結果,CEは閉じたタスクとオープンエンドタスクの両方の幻覚を確実に検出することがわかった。
論文参考訳（メタデータ） (2024-06-04T17:42:21Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。