論文の概要: Controlling the False Split Rate in Tree-Based Aggregation
- arxiv url: http://arxiv.org/abs/2108.05350v1
- Date: Wed, 11 Aug 2021 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:59:29.819871
- Title: Controlling the False Split Rate in Tree-Based Aggregation
- Title(参考訳): 樹木群集における偽散布率の制御
- Authors: Simeng Shao, Jacob Bien, Adel Javanmard
- Abstract要約: 木に基づくアグリゲーションのための仮説テストアルゴリズムを提案する。
木に基づく集約の2つの主要な例に焦点をあてる。1つは集約手段と、もう1つは回帰係数の集約を含む。
- 参考スコア(独自算出の注目度): 11.226095593522691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many domains, data measurements can naturally be associated with the
leaves of a tree, expressing the relationships among these measurements. For
example, companies belong to industries, which in turn belong to ever coarser
divisions such as sectors; microbes are commonly arranged in a taxonomic
hierarchy from species to kingdoms; street blocks belong to neighborhoods,
which in turn belong to larger-scale regions. The problem of tree-based
aggregation that we consider in this paper asks which of these tree-defined
subgroups of leaves should really be treated as a single entity and which of
these entities should be distinguished from each other.
We introduce the "false split rate", an error measure that describes the
degree to which subgroups have been split when they should not have been. We
then propose a multiple hypothesis testing algorithm for tree-based
aggregation, which we prove controls this error measure. We focus on two main
examples of tree-based aggregation, one which involves aggregating means and
the other which involves aggregating regression coefficients. We apply this
methodology to aggregate stocks based on their volatility and to aggregate
neighborhoods of New York City based on taxi fares.
- Abstract(参考訳): 多くの領域では、データ測定は自然に木の葉と関連付けられ、これらの測定間の関係を表現する。
例えば、企業は産業に属し、セクターなどの粗い部門に属し、微生物は種から王国までの分類学的階層に配置され、街路ブロックは地区に属し、より大きな地域に属している。
この論文で考察する木に基づく集約の問題は、葉の木のどの部分群が実際は一つの実体として扱われるべきなのか、どの要素が互いに区別されるべきなのかを問うものである。
偽分割率(false split rate)は、部分群が分割すべきでないときに分割された度合いを記述する誤差測度である。
次に,木に基づくアグリゲーションのための複数の仮説テストアルゴリズムを提案する。
木に基づく集約の2つの主要な例に焦点をあてる。1つは集約手段と、もう1つは回帰係数の集約を含む。
この方法では、そのボラティリティに基づいて株式を集約し、タクシー運賃に基づいてニューヨーク市の周辺地域を集約する。
関連論文リスト
- Identifying General Mechanism Shifts in Linear Causal Representations [58.6238439611389]
我々は,未知の潜在因子の線形混合を観測する線形因果表現学習環境について考察する。
近年の研究では、潜伏要因の復元や、それに基づく構造因果モデルの構築が可能であることが示されている。
非常に穏やかな標準仮定の下では、シフトしたノードの集合を識別することが可能である。
論文 参考訳(メタデータ) (2024-10-31T15:56:50Z) - When does Subagging Work? [0.0]
回帰木に対するサブアグリゲーションまたはサブスタンプアグリゲーションの有効性について検討した。
i) バイアスは細胞の直径に依存するので、分裂が少ない木はバイアスを受ける傾向にあると定式化します。
サブゲージの性能を,異なる数の分割木と比較した。
論文 参考訳(メタデータ) (2024-04-02T10:44:55Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Effective and Efficient Federated Tree Learning on Hybrid Data [80.31870543351918]
本稿では,ハイブリッドデータ上でのフェデレーションツリー学習を可能にする,新しいフェデレーション学習手法であるHybridTreeを提案する。
木に一貫した分割ルールが存在することを観察し、木の下層にパーティの知識を組み込むことができることを示す。
実験により,HybridTreeは計算および通信のオーバーヘッドが低い集中的な設定に匹敵する精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-10-18T10:28:29Z) - Distribution and volume based scoring for Isolation Forests [0.0]
我々は,異常・異常検出のための孤立林法に2つの貢献をしている。
1つ目は、ランダムツリー推定器間でスコアを集約するために使用されるスコア関数を情報理論的に動機づけた一般化である。
二つ目は、個別の樹木推定器のレベルでの代替スコアリング関数であり、孤立林の深度に基づくスコアリングを、孤立木の葉ノードに関連付けられたハイパーボリュームに基づくものに置き換える。
論文 参考訳(メタデータ) (2023-09-20T16:27:10Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - HiPerformer: Hierarchically Permutation-Equivariant Transformer for Time
Series Forecasting [56.95572957863576]
本稿では,同じ群を構成する成分間の関係と群間の関係を考察した階層的置換同変モデルを提案する。
実世界のデータを用いた実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-05-14T05:11:52Z) - Factor-augmented tree ensembles [0.0]
本論文は,時間列回帰木の情報集合を,状態空間法を用いて抽出した定常因子を用いて拡張することを提案する。
測定誤差、非定常傾向、季節性、観察不足などの不規則性を示す予測器を処理できる。
経験的に、これらの因子拡大木のアンサンブルは、マクロファイナンス問題に対する信頼性の高いアプローチを提供する。
論文 参考訳(メタデータ) (2021-11-27T22:44:54Z) - Exemplars can Reciprocate Principal Components [0.0]
Category Treesは、カテゴリタイプに分岐して機能しないツリー構造を生成するクラスタリングメソッドである。
この理論はポルトガル森林火災データセットをケーススタディとして用いたものである。
論文 参考訳(メタデータ) (2021-03-22T12:46:29Z) - Trees-Based Models for Correlated Data [8.629912408966147]
相関構造を無視する標準木に基づく回帰モデルを実装する際に生じる問題を示す。
新しいアプローチでは,相関構造を分割基準で明示的に考慮する。
相関を考慮しない木モデルに対する新たなアプローチの優位性は,シミュレーション実験と実データ解析によって裏付けられている。
論文 参考訳(メタデータ) (2021-02-16T12:30:48Z) - Pairwise Supervision Can Provably Elicit a Decision Boundary [84.58020117487898]
類似性学習は、パターンのペア間の関係を予測することによって有用な表現を引き出す問題である。
類似性学習は、決定境界を直接引き出すことによって二項分類を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-11T05:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。