論文の概要: BloomIntent: Automating Search Evaluation with LLM-Generated Fine-Grained User Intents
- arxiv url: http://arxiv.org/abs/2509.18641v1
- Date: Tue, 23 Sep 2025 04:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.707484
- Title: BloomIntent: Automating Search Evaluation with LLM-Generated Fine-Grained User Intents
- Title(参考訳): BloomIntent: LLM生成した細粒度ユーザインテントによる検索評価の自動化
- Authors: Yoonseo Choi, Eunhye Kim, Hyunwoo Kim, Donghyun Park, Honggu Lee, Jinyoung Kim, Juho Kim,
- Abstract要約: BloomIntentは、ユーザインテントを評価単位として使用する、ユーザ中心の検索評価手法である。
我々は,BloomIntentが細粒度で評価可能なインテントを生成し,インテントレベルの満足度をスケーラブルに評価したことを示す。
- 参考スコア(独自算出の注目度): 21.802731368326132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: If 100 people issue the same search query, they may have 100 different goals. While existing work on user-centric AI evaluation highlights the importance of aligning systems with fine-grained user intents, current search evaluation methods struggle to represent and assess this diversity. We introduce BloomIntent, a user-centric search evaluation method that uses user intents as the evaluation unit. BloomIntent first generates a set of plausible, fine-grained search intents grounded on taxonomies of user attributes and information-seeking intent types. Then, BloomIntent provides an automated evaluation of search results against each intent powered by large language models. To support practical analysis, BloomIntent clusters semantically similar intents and summarizes evaluation outcomes in a structured interface. With three technical evaluations, we showed that BloomIntent generated fine-grained, evaluable, and realistic intents and produced scalable assessments of intent-level satisfaction that achieved 72% agreement with expert evaluators. In a case study (N=4), we showed that BloomIntent supported search specialists in identifying intents for ambiguous queries, uncovering underserved user needs, and discovering actionable insights for improving search experiences. By shifting from query-level to intent-level evaluation, BloomIntent reimagines how search systems can be assessed -- not only for performance but for their ability to serve a multitude of user goals.
- Abstract(参考訳): もし100人が同じ検索クエリを発行すれば、100の異なる目標を達成できるかもしれない。
ユーザ中心のAI評価に関する既存の研究は、システムをきめ細かいユーザ意図と整合させることの重要性を強調しているが、現在の検索評価手法は、この多様性を表現および評価するのに苦労している。
本稿では,ユーザ意図を評価単位として利用するユーザ中心の検索評価手法であるBloomIntentを紹介する。
BloomIntentはまず、ユーザ属性の分類と情報検索のインテントタイプに基づく、可塑性できめ細かい検索インテントのセットを生成する。
次に,BloomIntentは,大規模言語モデルを用いた各意図に対する検索結果の自動評価を行う。
実用的な分析を支援するため、BloomIntentクラスタは意味的に類似した意図を持ち、構造化インターフェイスで評価結果を要約する。
3つの技術的評価により,BloomIntentが細粒度,評価可能,現実的な意図を生成し,専門家評価者と72%の合意を得た意図レベルの満足度をスケーラブルに評価した。
In a case study (N=4), we showed that BloomIntent supporting search specialists in identify intents for amambiuous query,covering underserved user needs, and finding actionable insights to improve search experience。
クエリレベルからインテントレベルの評価に移行することで、BloomIntentは、検索システムの評価方法を再定義する。
関連論文リスト
- IntentRec: Predicting User Session Intent with Hierarchical Multi-Task Learning [2.209382468269059]
IntentRecは階層型マルチタスクニューラルネットワークアーキテクチャに基づく新しいレコメンデーションフレームワークである。
インテント予測を直接活用することで、正確でパーソナライズされたレコメンデーションをユーザに提供できます。
Netflixのユーザエンゲージメントデータに関する包括的な実験によると、IntentRecは最先端の次世代および次世代の予測器よりも優れています。
論文 参考訳(メタデータ) (2024-07-25T22:58:59Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - I3: Intent-Introspective Retrieval Conditioned on Instructions [83.91776238599824]
I3は,タスク固有の訓練を使わずに,インストラクションに条件付けられた様々なタスクに対して,インテント・イントロスペクティブ検索を行う統合検索システムである。
I3は、特定の検索意図を理解するために、パラメータ分離された方法でプラグ可能なイントロスペクタを組み込む。
LLM生成データを利用してI3フェーズ・バイ・フェイズを訓練し、プログレッシブ・ストラクチャー・プルーニングとドローバック・ベースのデータリファインメントという2つの重要な設計を具現化した。
論文 参考訳(メタデータ) (2023-08-19T14:17:57Z) - Saliency Cards: A Framework to Characterize and Compare Saliency Methods [34.38335172204263]
Saliencyメソッドは、各入力機能がモデルの出力に対してどれだけ重要かを計算する。
既存のアプローチでは、多様なユーザニーズを考慮しない唾液度メソッドに対して、普遍的なデシラタを仮定している。
サリエンシカード(Saliency Card)は、サリエンシメソッドの動作とパフォーマンスに関する構造化されたドキュメントである。
論文 参考訳(メタデータ) (2022-06-07T01:21:49Z) - Deep Search Query Intent Understanding [17.79430887321982]
本稿では,検索の異なる段階における問合せ意図をモデル化するための総合的な学習フレームワークの提供を目的とする。
我々は,1) 文字レベルモデルを用いたタイプアヘッド検索において,入力したユーザの意図をオンザフライで予測すること,2) 完全クエリのための正確な単語レベルの意図予測モデルに焦点をあてる。
論文 参考訳(メタデータ) (2020-08-15T18:19:56Z) - Query Intent Detection from the SEO Perspective [0.34376560669160383]
ユーザクエリの意図を,Googleの結果と機械学習の手法を利用して識別することを目的としている。
クラスタ化されたクエリから抽出されたキーワードのリストは、与えられた新しいクエリの意図を特定するために使用される。
論文 参考訳(メタデータ) (2020-06-16T13:08:29Z) - Learning to Rank Intents in Voice Assistants [2.102846336724103]
本稿では,意図的ランキングタスクのための新しいエネルギーモデルを提案する。
提案手法は,誤差率を3.8%削減することで,既存の手法よりも優れていることを示す。
また,意図的ランキングタスクにおけるアルゴリズムのロバスト性を評価し,そのロバスト性について33.3%向上したことを示す。
論文 参考訳(メタデータ) (2020-04-30T21:51:26Z) - IART: Intent-aware Response Ranking with Transformers in
Information-seeking Conversation Systems [80.0781718687327]
我々は、情報探索会話におけるユーザ意図パターンを分析し、意図認識型ニューラルレスポンスランキングモデル「IART」を提案する。
IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。
論文 参考訳(メタデータ) (2020-02-03T05:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。