論文の概要: Looking at words and points with attention: a benchmark for
text-to-shape coherence
- arxiv url: http://arxiv.org/abs/2309.07917v1
- Date: Thu, 14 Sep 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 11:45:08.714808
- Title: Looking at words and points with attention: a benchmark for
text-to-shape coherence
- Title(参考訳): 単語と点に注目したテキスト対形コヒーレンスのためのベンチマーク
- Authors: Andrea Amaduzzi, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano
- Abstract要約: 生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
- 参考スコア(独自算出の注目度): 17.340484439401894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-conditional 3D object generation and manipulation have seen rapid
progress, the evaluation of coherence between generated 3D shapes and input
textual descriptions lacks a clear benchmark. The reason is twofold: a) the low
quality of the textual descriptions in the only publicly available dataset of
text-shape pairs; b) the limited effectiveness of the metrics used to
quantitatively assess such coherence. In this paper, we propose a comprehensive
solution that addresses both weaknesses. Firstly, we employ large language
models to automatically refine textual descriptions associated with shapes.
Secondly, we propose a quantitative metric to assess text-to-shape coherence,
through cross-attention mechanisms. To validate our approach, we conduct a user
study and compare quantitatively our metric with existing ones. The refined
dataset, the new metric and a set of text-shape pairs validated by the user
study comprise a novel, fine-grained benchmark that we publicly release to
foster research on text-to-shape coherence of text-conditioned 3D generative
models. Benchmark available at
https://cvlab-unibo.github.io/CrossCoherence-Web/.
- Abstract(参考訳): テキスト条件による3Dオブジェクト生成と操作は急速に進歩しているが、生成された3D形状と入力テキスト記述とのコヒーレンスの評価は明確なベンチマークを欠いている。
理由は2つあります
a) テキスト形式のペアの唯一の公開データセットにおけるテキスト記述の質の低さ
b) 当該コヒーレンスを定量的に評価するための指標の限られた有効性
本稿では,両弱点に対処する包括的解決策を提案する。
まず,大きな言語モデルを用いて,形状に関連するテキスト記述を自動的に洗練する。
次に,テキスト間のコヒーレンスを評価するための定量的指標を提案する。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
ユーザスタディによって検証された改良されたデータセット,新しいメトリック,およびテキスト形状のペアは,テキスト条件付き3次元生成モデルのテキスト形状コヒーレンスに関する研究を促進するために公開された,新しいきめ細かいベンチマークで構成されている。
ベンチマークはhttps://cvlab-unibo.github.io/CrossCoherence-Web/で入手できる。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic
Textual Guidance [70.08635216710967]
X-Meshはテキスト駆動型3Dスタイリングフレームワークで、新しいテキスト誘導動的注意モジュールを備えている。
我々は、新しい標準テキストメシュベンチマーク、MIT-30と2つの自動メトリクスを導入し、将来の研究が公正で客観的な比較を達成できるようにする。
論文 参考訳(メタデータ) (2023-03-28T06:45:31Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Parts2Words: Learning Joint Embedding of Point Clouds and Texts by
Bidirectional Matching between Parts and Words [32.47815081044594]
テキストからの形状と単語の双方向マッチングにより,点雲とテキストの結合埋め込みを学習することを提案する。
具体的には、まず点雲を部品に分割し、次に最適化された特徴空間内の部品と単語を一致させるために最適な輸送手法を利用する。
実験により,本手法はマルチモーダル検索タスクにおけるSOTAの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-07-05T08:55:34Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。