論文の概要: Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning of Human Movement Trajectories
- arxiv url: http://arxiv.org/abs/2409.12670v1
- Date: Thu, 19 Sep 2024 11:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:56:59.024770
- Title: Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning of Human Movement Trajectories
- Title(参考訳): Text2Traj2Text:人間の運動軌跡の文脈キャプションのための学習・合成フレームワーク
- Authors: Hikaru Asano, Ryo Yonetani, Taiki Sekii, Hiroki Ouchi,
- Abstract要約: 本稿では,小売店舗における買い物客の軌跡データの背後にあるコンテキストをキャプションする新しい学習・キャプションフレームワークであるText2Traj2Textを提案する。
私たちの仕事は、ターゲット広告や在庫管理など、より良い顧客理解を必要とするさまざまな小売アプリケーションに影響を与えます。
- 参考スコア(独自算出の注目度): 11.303926633163117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Text2Traj2Text, a novel learning-by-synthesis framework for captioning possible contexts behind shopper's trajectory data in retail stores. Our work will impact various retail applications that need better customer understanding, such as targeted advertising and inventory management. The key idea is leveraging large language models to synthesize a diverse and realistic collection of contextual captions as well as the corresponding movement trajectories on a store map. Despite learned from fully synthesized data, the captioning model can generalize well to trajectories/captions created by real human subjects. Our systematic evaluation confirmed the effectiveness of the proposed framework over competitive approaches in terms of ROUGE and BERT Score metrics.
- Abstract(参考訳): 本稿では,小売店舗における買い物客の軌道データの背後にあるコンテキストをキャプションする新しい学習・合成フレームワークであるText2Traj2Textを提案する。
私たちの仕事は、ターゲット広告や在庫管理など、より良い顧客理解を必要とするさまざまな小売アプリケーションに影響を与えます。
キーとなるアイデアは、大きな言語モデルを活用して、ストアマップ上の対応する移動軌跡と同様に、多様で現実的なキャプションのコレクションを合成することだ。
完全に合成されたデータから学習したにもかかわらず、キャプションモデルは、実際の人間の被験者によって生成された軌跡やカプセルにうまく一般化することができる。
提案手法の有効性をROUGEとBERTスコアで検証し,提案手法の有効性を確認した。
関連論文リスト
- RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
マルチモーダルなインターリーブド文書など、ペアリングされていない膨大な量のデータが、視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを3つのスケールで構築する。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - SE-GCL: An Event-Based Simple and Effective Graph Contrastive Learning for Text Representation [23.60337935010744]
テキスト表現のためのイベントベース,シンプル,効果的なグラフコントラスト学習(SE-GCL)を提案する。
正確には、テキストからイベントブロックを抽出し、意味的相互接続を表す内部関係グラフを構築する。
特に、コア表現セマンティクスのためのイベントスケルトンの概念を導入し、典型的には複雑なデータ拡張テクニックを単純化する。
論文 参考訳(メタデータ) (2024-12-16T10:53:24Z) - Multimodal Remote Sensing Scene Classification Using VLMs and Dual-Cross Attention Networks [0.8999666725996978]
本稿では,大規模な視覚言語モデル(VLM)によって生成されたテキスト記述を,高価な手作業による注釈コストを伴わずに補助的なモダリティとして統合する新しいRSSCフレームワークを提案する。
5つのRSSCデータセットの定量的および定性的な評価実験により、我々のフレームワークがベースラインモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-03T16:24:16Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Enhancing Semantic Understanding with Self-supervised Methods for
Abstractive Dialogue Summarization [4.226093500082746]
本稿では,対話要約モデルを訓練するための欠点を補う自己教師型手法を提案する。
我々の原理は,対話文表現の文脈化能力を高めるために,前文対話文を用いて不整合情報の流れを検出することである。
論文 参考訳(メタデータ) (2022-09-01T07:51:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。