論文の概要: BiListing: Modality Alignment for Listings
- arxiv url: http://arxiv.org/abs/2508.20396v1
- Date: Thu, 28 Aug 2025 03:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.958127
- Title: BiListing: Modality Alignment for Listings
- Title(参考訳): BiListing: リスニングのためのモダリティアライメント
- Authors: Guillaume Guy, Mihajlo Grbovic, Chun How Tan, Han Zhao,
- Abstract要約: Airbnbはこれまで、ゲストへのリスティングを理解し、ランク付けし、推奨するために構造化されたデータに依存してきた。
表現学習が盛んになると、テキストや写真から豊富な情報を活用することがより簡単になった。
本稿では,大規模言語モデルと事前学習型言語画像モデルを活用することで,リストのテキストと写真を整列する手法であるBiListingを提案する。
- 参考スコア(独自算出の注目度): 9.310531686254798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Airbnb is a leader in offering travel accommodations. Airbnb has historically relied on structured data to understand, rank, and recommend listings to guests due to the limited capabilities and associated complexity arising from extracting meaningful information from text and images. With the rise of representation learning, leveraging rich information from text and photos has become easier. A popular approach has been to create embeddings for text documents and images to enable use cases of computing similarities between listings or using embeddings as features in an ML model. However, an Airbnb listing has diverse unstructured data: multiple images, various unstructured text documents such as title, description, and reviews, making this approach challenging. Specifically, it is a non-trivial task to combine multiple embeddings of different pieces of information to reach a single representation. This paper proposes BiListing, for Bimodal Listing, an approach to align text and photos of a listing by leveraging large-language models and pretrained language-image models. The BiListing approach has several favorable characteristics: capturing unstructured data into a single embedding vector per listing and modality, enabling zero-shot capability to search inventory efficiently in user-friendly semantics, overcoming the cold start problem, and enabling listing-to-listing search along a single modality, or both. We conducted offline and online tests to leverage the BiListing embeddings in the Airbnb search ranking model, and successfully deployed it in production, achieved 0.425% of NDCB gain, and drove tens of millions in incremental revenue.
- Abstract(参考訳): Airbnbは旅行宿泊のリーダーだ。
Airbnbは歴史的に、テキストや画像から意味のある情報を抽出することによる、限られた能力と関連する複雑さのために、ゲストへのリスティングを理解し、ランク付けし、推奨するために構造化されたデータに依存してきた。
表現学習が盛んになると、テキストや写真から豊富な情報を活用することがより簡単になった。
一般的なアプローチとしては、テキストドキュメントとイメージの埋め込みを作成して、リストの類似性を計算したり、MLモデルの機能として埋め込みを使用することが考えられる。
しかしながら、Airbnbのリスティングには、複数のイメージ、タイトルや説明、レビューなどのさまざまな構造化されていないテキストドキュメントなど、さまざまな非構造化データがあるため、このアプローチは困難である。
具体的には、異なる情報の複数の埋め込みを結合して単一の表現に到達させることは、非自明な作業である。
本稿では,バイモーダルリスティングのためのBiListingを提案し,大規模言語モデルと事前学習型言語画像モデルを活用することで,リストのテキストと写真を整列する手法を提案する。
BiListingアプローチには、リストとモダリティ毎に単一の埋め込みベクトルに非構造化データをキャプチャし、ユーザフレンドリなセマンティクスで効率的にインベントリを検索できるようにし、コールドスタート問題を克服し、単一のモダリティに沿ってリストからリストへの検索を可能にする、といういくつかの好ましい特徴がある。
Airbnbの検索ランキングモデルにBiListingを組み込むためのオフラインおよびオンラインテストを実施し、本番環境での運用に成功し、NDCBの収益の0.425%を獲得し、数千万ドルのインクリメンタルな収益を上げた。
関連論文リスト
- ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
これらのモデルは曖昧さやユーザ命令を必要とするタスクには使用できない。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.753626355995653]
jina-clip-v2は、テキストペア、三つ子、画像-テキストペアで訓練された対照的な視覚言語モデルである。
我々は、多言語テキストエンコーダを使用し、29の非英語言語からの多言語テキストを含む訓練データセットを拡張した。
我々は、このモデルの性能を評価し、jina-clip-v2が最先端のCLIPモデルよりも顕著に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-11T22:28:12Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal
Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。
画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。
広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:43:57Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。