論文の概要: Personalized Top-k Set Queries Over Predicted Scores
- arxiv url: http://arxiv.org/abs/2502.12998v1
- Date: Tue, 18 Feb 2025 16:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:30.649385
- Title: Personalized Top-k Set Queries Over Predicted Scores
- Title(参考訳): 予測スコアに関するPersonalized Top-k Set Queries
- Authors: Sohrab Namazi Nia, Subhodeep Ghosh, Senjuti Basu Roy, Sihem Amer-Yahia,
- Abstract要約: 本研究は,予測スコア上でトップkクエリに応答する上で,高価な外部オラクルの適用性について検討する。
任意の集合ベースのスコアリング関数を処理する汎用計算フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.74740893966611
- License:
- Abstract: This work studies the applicability of expensive external oracles such as large language models in answering top-k queries over predicted scores. Such scores are incurred by user-defined functions to answer personalized queries over multi-modal data. We propose a generic computational framework that handles arbitrary set-based scoring functions, as long as the functions could be decomposed into constructs, each of which sent to an oracle (in our case an LLM) to predict partial scores. At a given point in time, the framework assumes a set of responses and their partial predicted scores, and it maintains a collection of possible sets that are likely to be the true top-k. Since calling oracles is costly, our framework judiciously identifies the next construct, i.e., the next best question to ask the oracle so as to maximize the likelihood of identifying the true top-k. We present a principled probabilistic model that quantifies that likelihood. We study efficiency opportunities in designing algorithms. We run an evaluation with three large scale datasets, scoring functions, and baselines. Experiments indicate the efficacy of our framework, as it achieves an order of magnitude improvement over baselines in requiring LLM calls while ensuring result accuracy. Scalability experiments further indicate that our framework could be used in large-scale applications.
- Abstract(参考訳): 本研究は,予測スコア上でトップkクエリに応答する大規模言語モデルなどの高価な外部オラクルの適用性について検討する。
このようなスコアは、マルチモーダルデータ上でパーソナライズされたクエリに答えるために、ユーザ定義関数によって生成される。
本稿では,任意の集合に基づくスコアリング関数を処理する汎用計算フレームワークを提案する。
ある時点において、フレームワークは応答の集合とその部分的な予測スコアを仮定し、真のトップkとなる可能性のある集合の集合を保持する。
オラクルの呼び出しはコストがかかるので、我々のフレームワークは次の構造、すなわち、真のトップkを識別する可能性の最大化のために、託宣を問うのに最適な次の質問を司法的に特定します。
我々はその確率を定量化する原理的確率モデルを提案する。
アルゴリズムの設計における効率性について研究する。
3つの大規模データセット、スコアリング機能、ベースラインで評価を行う。
実験結果から,LLM呼び出しの精度を確保しつつ,ベースラインよりも格段に改善されたフレームワークの有効性が示唆された。
スケーラビリティの実験は、我々のフレームワークが大規模アプリケーションで利用できることを示している。
関連論文リスト
- Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。
このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。
我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文 参考訳(メタデータ) (2024-12-21T13:19:15Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Interpretable by Design: Learning Predictors by Composing Interpretable
Queries [8.054701719767293]
機械学習アルゴリズムは設計によって解釈されるべきである。
正確な予測に必要なクエリの数を最小限に抑える。
視覚とNLPタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2022-07-03T02:40:34Z) - On Efficient Approximate Queries over Machine Learning Models [30.26180913049285]
本稿では,プロキシを活用し,オラクルの使用量を最小限に抑えることで,クエリ応答を近似する新しい統一フレームワークを開発する。
我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。
我々のアルゴリズムは最先端のアルゴリズムより優れており、証明可能な統計的保証で高い結果が得られる。
論文 参考訳(メタデータ) (2022-06-06T18:35:19Z) - Test Score Algorithms for Budgeted Stochastic Utility Maximization [12.360522095604983]
既存のスコアリング機構、すなわちレプリケーションテストスコアを拡張して、異種アイテムのコストとアイテムの値を統合する。
我々のアルゴリズムと近似は、テストスコアが特定の期待値のノイズ見積もりであると仮定する。
我々は,我々のアルゴリズムが,同じ近似保証を維持しながら,商品が同じ方法で到着する状況に適応できることを示す。
論文 参考訳(メタデータ) (2020-12-30T15:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。