このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230319となっている論文です。

PDF登録状況(公開日: 20230319)

TitleAuthorsAbstract論文公表日・翻訳日
# PACO:行動、文化、抑圧に関わる挑発

PACO: Provocation Involving Action, Culture, and Oppression ( http://arxiv.org/abs/2303.12808v1 )

ライセンス: Link先を確認
Vaibhav Garg, Ganning Xu, and Munindar P. Singh(参考訳) インドでは、宗教などの特定の属性に基づいて特定の集団を識別する。 同じ宗教団体が互いに挑発されることが多い。 これまでの研究では、インドで著名な宗教団体であるヒンドゥー教徒とムスリムの間で緊張が高まっている。 インターネットが出現すると、WhatsAppなどのソーシャルメディアプラットフォームにもそのような挑発が浮上した。 既存のインドのWhatsApp投稿のデータセットを活用することで、インド系ムスリムに対する挑発文の3つのカテゴリを特定しました。 さらに,3つの挑発カテゴリに対して7,000文のラベル付けを行い,このデータセットをpacoと呼ぶ。 私たちはpacoを使ってwhatsappの投稿から引き起こされる文章を識別できるモデルを訓練しました。 我々の最良のモデルは細調整されたRoBERTaで、5倍のクロスバリデーションで平均AUCスコア0.851を達成した。 挑発文を自動で識別することは、テキストが大衆に届くのを阻止し、対象の宗教集団に対する差別や暴力を防止できる。 さらに, 実践的レンズによる挑発的発話について, 宗教集団に対するダイアログ行動と過度な超ストラテジーを同定し検討した。

In India, people identify with a particular group based on certain attributes such as religion. The same religious groups are often provoked against each other. Previous studies show the role of provocation in increasing tensions between India's two prominent religious groups: Hindus and Muslims. With the advent of the Internet, such provocation also surfaced on social media platforms such as WhatsApp. By leveraging an existing dataset of Indian WhatsApp posts, we identified three categories of provoking sentences against Indian Muslims. Further, we labeled 7,000 sentences for three provocation categories and called this dataset PACO. We leveraged PACO to train a model that can identify provoking sentences from a WhatsApp post. Our best model is fine-tuned RoBERTa and achieved a 0.851 average AUC score over five-fold cross-validation. Automatically identifying provoking sentences could stop provoking text from reaching out to the masses, and can prevent possible discrimination or violence against the target religious group. Further, we studied the provocative speech through a pragmatic lens, by identifying the dialog acts and impoliteness super-strategies used against the religious group.
翻訳日:2023-03-24 16:53:56 公開日:2023-03-19
# 生成潜在形状モデルにおける幾何学的変形空間の遠ざかる

Disentangling Geometric Deformation Spaces in Generative Latent Shape Models ( http://arxiv.org/abs/2103.00142v2 )

ライセンス: Link先を確認
Tristan Aumentado-Armstrong, Stavros Tsogkas, Sven Dickinson, and Allan Jepson(参考訳) 3Dオブジェクトの完全な表現は、単一のインスタンスの表現からカテゴリ間の形状の変化まで、解釈可能な方法で変形の空間を特徴づけることを必要とする。 本研究では, 物体形状の空間を剛性方向, 非剛性ポーズ, 内在的な形状に分解する3次元形状の幾何学的歪みの事前生成モデルを改善する。 得られたモデルは、古典的なスペクトル幾何学と構造化された潜在表現空間の確率的非絡み合いの組み合わせを用いて、対応、ラベル、あるいは厳密なアライメントなしに生の3次元形状から訓練することができる。 我々の改良には、回転不変性のより洗練された処理や、遅延空間とスペクトル空間を橋渡しするための微分型フローネットワークの利用が含まれる。 潜伏空間の幾何学的構造は、物体の変形空間の解釈可能な特徴づけを与える。 さらに、監視を必要とせず、ポーズ転送やポーズ認識検索などのタスクも可能となる。 本研究では, 生成モデル, 表現学習, 等角化性能について評価し, 回転不変性, 内在的因子分解品質が先行モデルよりも向上したことを示す。

A complete representation of 3D objects requires characterizing the space of deformations in an interpretable manner, from articulations of a single instance to changes in shape across categories. In this work, we improve on a prior generative model of geometric disentanglement for 3D shapes, wherein the space of object geometry is factorized into rigid orientation, non-rigid pose, and intrinsic shape. The resulting model can be trained from raw 3D shapes, without correspondences, labels, or even rigid alignment, using a combination of classical spectral geometry and probabilistic disentanglement of a structured latent representation space. Our improvements include more sophisticated handling of rotational invariance and the use of a diffeomorphic flow network to bridge latent and spectral space. The geometric structuring of the latent space imparts an interpretable characterization of the deformation space of an object. Furthermore, it enables tasks like pose transfer and pose-aware retrieval without requiring supervision. We evaluate our model on its generative modelling, representation learning, and disentanglement performance, showing improved rotation invariance and intrinsic-extrinsic factorization quality over the prior model.
翻訳日:2023-03-24 08:41:04 公開日:2023-03-19
# 量子平行マルコフ連鎖モンテカルロ

A quantum parallel Markov chain Monte Carlo ( http://arxiv.org/abs/2112.00212v4 )

ライセンス: Link先を確認
Andrew J. Holbrook(参考訳) 本稿では,並列MCMCアルゴリズムに対して,各ステップで複数の提案を生成するハイブリッド量子コンピューティング戦略を提案する。 この戦略は、Gumbel-maxトリックを用いて、並列MCMC内のレート制限ステップを量子並列化に対応させ、一般化されたアセプション-リジェクトステップを離散最適化問題に変換する。 並列mcmc文献からの新たな知見と組み合わせることで、グローバーの量子探索アルゴリズムのよく知られた拡張の中にターゲット密度の評価を組み込むことができる。 P$ を 1 つのMCMC 反復で提案する数を表すと、この組み合わせ戦略は $\mathcal{O}(P)$ から $\mathcal{O}(P^{1/2})$ に要求される目標評価の数を減らす。 本稿では, 量子コンピューティング, 量子探索, Gumbel-max トリックのルーディを概観し, その組み合わせを可能な限り広い読者層に向けて解明する。

We propose a novel hybrid quantum computing strategy for parallel MCMC algorithms that generate multiple proposals at each step. This strategy makes the rate-limiting step within parallel MCMC amenable to quantum parallelization by using the Gumbel-max trick to turn the generalized accept-reject step into a discrete optimization problem. When combined with new insights from the parallel MCMC literature, such an approach allows us to embed target density evaluations within a well-known extension of Grover's quantum search algorithm. Letting $P$ denote the number of proposals in a single MCMC iteration, the combined strategy reduces the number of target evaluations required from $\mathcal{O}(P)$ to $\mathcal{O}(P^{1/2})$. In the following, we review the rudiments of quantum computing, quantum search and the Gumbel-max trick in order to elucidate their combination for as wide a readership as possible.
翻訳日:2023-03-24 05:42:55 公開日:2023-03-19
# 文化から文化への画像翻訳とユーザ評価

Culture-to-Culture Image Translation and User Evaluation ( http://arxiv.org/abs/2201.01565v5 )

ライセンス: Link先を確認
Giulia Zaino, Carmine Tommaso Recchiuto, and Antonio Sgorbissa(参考訳) 本稿は、画像「文化化」の概念、すなわち、その機能を維持しつつ、ある文化に属すると認識される対象を「文化的特徴のブラッシュストローク」を変更する過程として定義する。 まず,オブジェクトのイメージをソースからターゲットの文化ドメインに翻訳するパイプラインを,最先端の生成型広告ネットワークに基づいて定義した。 次に,オンラインアンケートを通じて,異なる文化圏に属する画像がイタリア人参加者に与える影響に関する4つの仮説を検証した。 予想通り、結果は個人の好みや好みに依存しますが、知的システムとのインタラクション中に、文化的な背景に合わせて修正された画像を提示する人もいます。

The article introduces the concept of image ``culturization," i.e., defined as the process of altering the ``brushstroke of cultural features" that make objects perceived as belonging to a given culture while preserving their functionalities. First, we defined a pipeline for translating objects' images from a source to a target cultural domain based on state-of-the-art Generative Adversarial Networks. Then, we gathered data through an online questionnaire to test four hypotheses concerning the impact of images belonging to different cultural domains on Italian participants. As expected, results depend on individual tastes and preferences: however, they align with our conjecture that some people, during the interaction with an intelligent system, will prefer to be shown images modified to match their cultural background.
翻訳日:2023-03-24 05:32:06 公開日:2023-03-19
# エンタングルメント支援古典および量子誤り訂正符号のためのシングルトン境界

Singleton Bounds for Entanglement-Assisted Classical and Quantum Error Correcting Codes ( http://arxiv.org/abs/2202.02184v4 )

ライセンス: Link先を確認
Manideep Mamindlapally, Andreas Winter(参考訳) 我々は、フォン・ノイマンのエントロピーとその性質に基づく完全量子シャノン理論法を用いて、絡み合い支援型ハイブリッド古典量子(EACQ)誤り訂正符号の性能に関するシングルトン境界を導出することができることを示した。 具体的には、任意のアルファベットサイズのEACQ符号の可能な3ビット、cbitおよびebitの3つのレート領域が、関連するメモリレス消去チャネルの量子シャノン理論速度領域に含まれており、ポリトープであることが判明した。 この領域の大部分は、局所的アルファベットサイズ(ヒルベルト空間次元)が十分大きいときに、古典的および量子的最小距離分離可能(MDS)符号に関する既知の事実(特に、その極端点とその極端線を除くすべて)に従えば、ある種のERCQ符号によって達成可能であることを示す。 残りの1つの極端線セグメントの到達性は開問題として残される。

We show that entirely quantum Shannon theoretic methods, based on von Neumann entropies and their properties, can be used to derive Singleton bounds on the performance of entanglement-assisted hybrid classical-quantum (EACQ) error correcting codes. Concretely, we show that the triple-rate region of qubits, cbits and ebits of possible EACQ codes over arbitrary alphabet sizes is contained in the quantum Shannon theoretic rate region of an associated memoryless erasure channel, which turns out to be a polytope. We show that a large part of this region is attainable by certain EACQ codes, whenever the local alphabet size (i.e. Hilbert space dimension) is large enough, in keeping with known facts about classical and quantum minimum distance separable (MDS) codes: in particular, all of its extreme points and all but one of its extremal lines. The attainability of the remaining one extremal line segment is left as an open question.
翻訳日:2023-03-24 05:24:33 公開日:2023-03-19
# 適応サンプリングによるL-SVRGとL-Katyusha

L-SVRG and L-Katyusha with Adaptive Sampling ( http://arxiv.org/abs/2201.13387v2 )

ライセンス: Link先を確認
Boxin Zhao, Boxiang Lyu, Mladen Kolar(参考訳) L-SVRGやその加速変種であるL-Katyusha(Kovalev et al., 2020)のような確率勾配に基づく最適化手法は機械学習モデルの訓練に広く用いられており、L-SVRGとL-Katyushaの理論的および実証的な性能は、非一様分布(Qian et al., 2021)からの観測により改善することができる。 しかし、所望のサンプリング分布を設計するには、モデルパラメータの次元が高い場合、計算上は難解な滑らかさ定数の事前知識が必要である。 この問題に対処するために,L-SVRGとL-Katyushaの適応型サンプリング戦略を提案する。 サンプリング分布が反復的に変化するとき,L-SVRGとL-Katyushaの収束保証を凸目的に対して証明する。 その結果,事前情報がなくても適応的サンプリング戦略が一致し,場合によってはqian et al. (2021) のサンプリング方式の性能を超越する結果が得られた。 広範シミュレーションは実データに基づくサンプリング手法の本理論と実用性を支持する。

Stochastic gradient-based optimization methods, such as L-SVRG and its accelerated variant L-Katyusha (Kovalev et al., 2020), are widely used to train machine learning models.The theoretical and empirical performance of L-SVRG and L-Katyusha can be improved by sampling observations from a non-uniform distribution (Qian et al., 2021). However,designing a desired sampling distribution requires prior knowledge of smoothness constants, which can be computationally intractable to obtain in practice when the dimension of the model parameter is high. To address this issue, we propose an adaptive sampling strategy for L-SVRG and L-Katyusha that can learn the sampling distribution with little computational overhead, while allowing it to change with iterates, and at the same time does not require any prior knowledge of the problem parameters. We prove convergence guarantees for L-SVRG and L-Katyusha for convex objectives when the sampling distribution changes with iterates. Our results show that even without prior information, the proposed adaptive sampling strategy matches, and in some cases even surpasses, the performance of the sampling scheme in Qian et al. (2021). Extensive simulations support our theory and the practical utility of the proposed sampling scheme on real data.
翻訳日:2023-03-24 05:23:32 公開日:2023-03-19
# スナップショット圧縮イメージングのための数学的クックブック

Mathematical Cookbook for Snapshot Compressive Imaging ( http://arxiv.org/abs/2202.07437v3 )

ライセンス: Link先を確認
Yaping Zhao(参考訳) 著者は、Snapshot Compressive Imaging (SCI)で、美しくエレガントでユーザーフレンドリーな数学のクックブックを提供する予定だ。 現在、クックブックは導入、従来の最適化、深い平衡モデルで構成されている。 最新リリースは強く推奨されている! その他の質問、提案、コメントに対しては、著者にメールを自由に送れる。

The author intends to provide you with a beautiful, elegant, user-friendly cookbook for mathematics in Snapshot Compressive Imaging (SCI). Currently, the cookbook is composed of introduction, conventional optimization, and deep equilibrium models. The latest releases are strongly recommended! For any other questions, suggestions, or comments, feel free to email the author.
翻訳日:2023-03-24 05:14:59 公開日:2023-03-19
# Adaptive Regret Guaranteesを用いたオンライン凸最適化のための新しいプロジェクションフリーアルゴリズム

New Projection-free Algorithms for Online Convex Optimization with Adaptive Regret Guarantees ( http://arxiv.org/abs/2202.04721v3 )

ライセンス: Link先を確認
Dan Garber, Ben Kretzu(参考訳) 我々は、オンライン凸最適化(OCO)のための新しい効率的な \textit{projection-free} アルゴリズムを提案する。 ほとんどの最先端のプロジェクションフリーアルゴリズムは \textit{follow-the-leader} フレームワークに基づいているが、我々のアルゴリズムは根本的に異なり、いわゆる \textit{infeasible projections} を計算するための新しい効率的なアプローチによる \textit{onlinegradient descent} アルゴリズムに基づいている。 結果として、自然に \textit{adaptive regret} 保証、すなわち w.r.t を持つ後悔境界、すなわち、シーケンスの任意の部分インターバルを与える最初のプロジェクションフリーアルゴリズムを得る。 具体的には、実現可能な集合に対する線形最適化オラクル(LOO)の可用性を$T$のシーケンスで仮定すると、我々のアルゴリズムは、LOOへの$O(T^{3/4})$適応的後悔と$O(T^{3/4})$適応的期待的後悔を保証する。 これらの境界は、現在の LOO ベースの射影自由 OCO の後悔境界と一致し、これは \textit{not adapt} である。 また、分離オラクルを通して実現可能な集合にアクセス可能な新しい自然設定も検討する。 我々は,全体$O(T)$を分離オラクルに呼び出し,$O(\sqrt{T})$適応的後悔と$O(T^{3/4})$適応的期待的後悔をそれぞれ全情報および盗賊設定に対して保証するアルゴリズムを提案する。

We present new efficient \textit{projection-free} algorithms for online convex optimization (OCO), where by projection-free we refer to algorithms that avoid computing orthogonal projections onto the feasible set, and instead relay on different and potentially much more efficient oracles. While most state-of-the-art projection-free algorithms are based on the \textit{follow-the-leader} framework, our algorithms are fundamentally different and are based on the \textit{online gradient descent} algorithm with a novel and efficient approach to computing so-called \textit{infeasible projections}. As a consequence, we obtain the first projection-free algorithms which naturally yield \textit{adaptive regret} guarantees, i.e., regret bounds that hold w.r.t. any sub-interval of the sequence. Concretely, when assuming the availability of a linear optimization oracle (LOO) for the feasible set, on a sequence of length $T$, our algorithms guarantee $O(T^{3/4})$ adaptive regret and $O(T^{3/4})$ adaptive expected regret, for the full-information and bandit settings, respectively, using only $O(T)$ calls to the LOO. These bounds match the current state-of-the-art regret bounds for LOO-based projection-free OCO, which are \textit{not adaptive}. We also consider a new natural setting in which the feasible set is accessible through a separation oracle. We present algorithms which, using overall $O(T)$ calls to the separation oracle, guarantee $O(\sqrt{T})$ adaptive regret and $O(T^{3/4})$ adaptive expected regret for the full-information and bandit settings, respectively.
翻訳日:2023-03-24 05:14:34 公開日:2023-03-19
# DSSIM:浮動小数点データのための構造類似度指標

DSSIM: a structural similarity index for floating-point data ( http://arxiv.org/abs/2202.02616v2 )

ライセンス: Link先を確認
Allison H. Baker and Alexander Pinard and Dorit M. Hammerling(参考訳) データビジュアライゼーションは、大規模なモデルシミュレーションコードから浮動小数点出力データと相互作用する上で重要なコンポーネントである。 実際、シミュレーションデータに対する後処理分析ワークフローは、多くの場合、生データから大量の画像を生成し、それらの多くは、互いに比較されるか、特定の参照画像に対して生成される。 この画像比較シナリオでは、画像品質評価(IQA)は極めて有用であり、構造類似度指数(SSIM)は引き続き一般的な選択肢である。 しかし、大量の画像を生成するにはコストがかかり、プロット固有の(データに依存しない)選択はSSIM値に影響を与える可能性がある。 自然な疑問は、SSIMを浮動小数点シミュレーションデータに直接適用し、そのデータの違いが視覚的評価に影響を及ぼす可能性が示唆され、データから特定の画像群を効果的に回避できるかどうかである。 そこで本研究では,データSSIM(Data SSIM)と呼ばれる浮動小数点データに直接適用可能な,一般的なSSIMの代替案を提案する。 一般的な気候モデルを用いた大規模シミュレーションデータに対する圧縮損失による差の評価においてdssimの有用性を示す一方で,シミュレーションや画像データを含む多くのアプリケーションにおいてdssimが有用であることを示す。

Data visualization is a critical component in terms of interacting with floating-point output data from large model simulation codes. Indeed, postprocessing analysis workflows on simulation data often generate a large number of images from the raw data, many of which are then compared to each other or to specified reference images. In this image-comparison scenario, image quality assessment (IQA) measures are quite useful, and the Structural Similarity Index (SSIM) continues to be a popular choice. However, generating large numbers of images can be costly, and plot-specific (but data independent) choices can affect the SSIM value. A natural question is whether we can apply the SSIM directly to the floating-point simulation data and obtain an indication of whether differences in the data are likely to impact a visual assessment, effectively bypassing the creation of a specific set of images from the data. To this end, we propose an alternative to the popular SSIM that can be applied directly to the floating point data, which we refer to as the Data SSIM (DSSIM). While we demonstrate the usefulness of the DSSIM in the context of evaluating differences due to lossy compression on large volumes of simulation data from a popular climate model, the DSSIM may prove useful for many other applications involving simulation or image data.
翻訳日:2023-03-24 05:11:41 公開日:2023-03-19
# デリバティブ価格モデルのキャリブレーション:マルチエージェント強化学習の視点から

Calibration of Derivative Pricing Models: a Multi-Agent Reinforcement Learning Perspective ( http://arxiv.org/abs/2203.06865v3 )

ライセンス: Link先を確認
Nelson Vadori(参考訳) 量的金融における最も基本的な問題の1つは、与えられたオプションセットの市場価格に適合する連続時間拡散モデルの存在である。 伝統的に、直観、理論的、実証的な分析の混合を用いて、正確なあるいは近似的な適合を達成するモデルを見つける。 本研究は,近年の深層マルチエージェント強化学習における既存の発展を活用し,確率過程の分野における探索に適切なゲーム理論的定式化がいかに役立つかを示すことを目的とする。 さらに,SPX-VIXキャリブレーション問題など,その分野で重要な問題を解決するために,コミュニティが我々の技術を活用し,拡張できることを願っている。 実験では,局所的なボラティリティや,ボラティリティプロセスに必要な経路依存性を学習し,ベルムダンオプションの価格を最小限に抑えることができた。 我々のアルゴリズムは、粒子が$\sigma_{loc}(t,S_t)^2 = \mathbb{E}[\sigma_t^2|S_t]$を確実にする代わりに、より一般的なキャリブレーションターゲットに向けて協調するRL駆動のエージェントを学習する粒子法である。

One of the most fundamental questions in quantitative finance is the existence of continuous-time diffusion models that fit market prices of a given set of options. Traditionally, one employs a mix of intuition, theoretical and empirical analysis to find models that achieve exact or approximate fits. Our contribution is to show how a suitable game theoretical formulation of this problem can help solve this question by leveraging existing developments in modern deep multi-agent reinforcement learning to search in the space of stochastic processes. More importantly, we hope that our techniques can be leveraged and extended by the community to solve important problems in that field, such as the joint SPX-VIX calibration problem. Our experiments show that we are able to learn local volatility, as well as path-dependence required in the volatility process to minimize the price of a Bermudan option. Our algorithm can be seen as a particle method \`{a} la Guyon et Henry-Labordere where particles, instead of being designed to ensure $\sigma_{loc}(t,S_t)^2 = \mathbb{E}[\sigma_t^2|S_t]$, are learning RL-driven agents cooperating towards more general calibration targets.
翻訳日:2023-03-24 05:06:26 公開日:2023-03-19
# クラスリファクタリングレコメンデーション抽出のための変分グラフオートエンコーダの探索

Exploring Variational Graph Auto-Encoders for Extract Class Refactoring Recommendation ( http://arxiv.org/abs/2203.08787v2 )

ライセンス: Link先を確認
Pritom Saha Akash, Kevin Chen-Chuan Chang(参考訳) コードの臭いは、システムの再利用性と保守性を低減するソフトウェアシステムの設計と開発の欠陥の兆候である。 リファクタリングは、プログラムコードからコードの臭いを取り除くための継続的なプラクティスとして行われます。 異なるコードの臭いの中で、godクラスまたはblobは最も一般的なコードの臭いの1つです。 godクラスにはあまりに多くの責務があり、オブジェクト指向プログラミング設計の低結合性と高い結合性原則に違反している。 本稿では,より特定の責任を持つ複数の小さなクラスに神クラスを抽出するための自動的アプローチを提案する。 これを実現するために、まず、関係する神クラスのためのメソッド(ノード)のグラフを構築する。 それぞれのメソッド間のエッジは構造的類似性によって決定され、各メソッドの特徴は異なる意味表現法を用いて初期化される。 次に、変分グラフオートエンコーダを用いて、各メソッドのベクトル表現を学習する。 最後に、学習されたベクターは、メソッドを異なるグループに分類し、リファクタリングされたクラスとして推奨する。 2つの有名なオープンソースシステムから収集した16の実際の神クラス上で,3つの異なるクラス凝集指標を用いて,提案フレームワークを評価した。 また,既存の手法と類似したアプローチの比較研究を行い,提案手法が実験で使用した神学のほとんどすべてにより良い結果をもたらしたことを確認した。

The code smell is a sign of design and development flaws in a software system that reduces the reusability and maintainability of the system. Refactoring is done as an ongoing practice to remove the code smell from the program code. Among different code smells, the God class or Blob is one of the most common code smells. A god class contains too many responsibilities, violating object-oriented programming design's low coupling and high cohesiveness principles. This paper proposes an automatic approach to extracting a God class into multiple smaller classes with more specific responsibilities. To do this, we first construct a graph of methods (as nodes) for the concerning god class. The edge between any two methods is determined by their structural similarity, and the feature for each method is initialized using different semantic representation methods. Then, the variational graph auto-encoder is used to learn a vector representation for each method. Finally, the learned vectors are used to cluster methods into different groups to be recommended as refactored classes. We assessed the proposed framework using three different class cohesion metrics on sixteen actual God Classes collected from two well-known open-source systems. We also conducted a comparative study of our approach with a similar existing approach and found that the proposed approach generated better results for almost all the God Classes used in the experiment.
翻訳日:2023-03-24 04:53:43 公開日:2023-03-19
# 動物行動のプラグ・アンド・プレイ解析のためのスーパーアニマルモデル

SuperAnimal models pretrained for plug-and-play analysis of animal behavior ( http://arxiv.org/abs/2203.07436v2 )

ライセンス: Link先を確認
Shaokai Ye and Anastasiia Filippova and Jessy Lauer and Maxime Vidal and Steffen Schneider and Tian Qiu and Alexander Mathis and Mackenzie Weygandt Mathis(参考訳) 行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。 行動分析の一般的なステップは、まず、ポーズ推定として知られる動物の重要な点を抽出することである。 しかし、現在、ポーズの信頼できる推論には、教師付きモデルを構築するためにドメイン知識と手作業によるラベル付けが必要である。 我々は,新たな手法であるSuperAnimal(スーパーアニマル)を,人間ラベルやモデルトレーニングをゼロにする深層学習モデルの開発と展開を可能にする一連の技術革新を提案する。 SuperAnimalは、45種以上の動物ポーズモデルが2種類しかないビデオ推論を可能にする。 モデルが微調整が必要な場合、SuperAnimalモデルは10$\times$より多くのデータ効率と事前転送学習アプローチよりも優れた性能を示す。 さらに,ビデオの教師なし精細化を行う新しい映像適応法を提案し,行動分類におけるモデルの有用性について述べる。 これは、行動分析のためのデータ効率の良いプラグアンドプレイソリューションである。

Quantification of behavior is critical in applications ranging from neuroscience, veterinary medicine and animal conservation efforts. A common key step for behavioral analysis is first extracting relevant keypoints on animals, known as pose estimation. However, reliable inference of poses currently requires domain knowledge and manual labeling effort to build supervised models. We present a series of technical innovations that enable a new method, collectively called SuperAnimal, to develop and deploy deep learning models that require zero additional human labels and model training. SuperAnimal allows video inference on over 45 species with only two global classes of animal pose models. If the models need fine-tuning, we show SuperAnimal models are 10$\times$ more data efficient and outperform prior transfer learning approaches. Moreover, we provide a new video-adaptation method to perform unsupervised refinement of videos, and we illustrate the utility of our model in behavioral classification. Collectively, this presents a data-efficient, plug-and-play solution for behavioral analysis.
翻訳日:2023-03-24 04:53:24 公開日:2023-03-19
# 感性信号からの暗号復号予測:BERT分類器と弱スーパービジョンの解析

Forecasting Cryptocurrency Returns from Sentiment Signals: An Analysis of BERT Classifiers and Weak Supervision ( http://arxiv.org/abs/2204.05781v3 )

ライセンス: Link先を確認
Duygu Ider, Stefan Lessmann(参考訳) 金融市場の物価上昇を予想することは、予測に対する継続的な関心のトピックである。 深層学習と自然言語処理(NLP)の進歩と、ニュース記事やソーシャルメディア投稿などの形で大量のテキストデータの提供により、予測モデルにテキストベースの予測器を組み込んだ研究が増えている。 本稿では,テキストデータのラベルが付かない問題に対処するために最近提案されたnlpアプローチであるweak learningを導入することで,この文献に寄与する。 依存変数がなければ、トレーニング済みのnlpモデルをカスタムコーパスで微調整することはできない。 弱いラベルを用いた微調整は、テキストベースの特徴の予測値を高め、暗号通貨のリターンを予測する文脈で予測精度を高めることを確認した。 より根本的には、我々が提示するモデリングパラダイムは、ドメイン固有のテキストを弱ラベルし、事前訓練されたNLPモデルを微調整することで、(金融)予測に普遍的に適用でき、テキストデータを活用する新しい方法を解き放つ。

Anticipating price developments in financial markets is a topic of continued interest in forecasting. Funneled by advancements in deep learning and natural language processing (NLP) together with the availability of vast amounts of textual data in form of news articles, social media postings, etc., an increasing number of studies incorporate text-based predictors in forecasting models. We contribute to this literature by introducing weak learning, a recently proposed NLP approach to address the problem that text data is unlabeled. Without a dependent variable, it is not possible to finetune pretrained NLP models on a custom corpus. We confirm that finetuning using weak labels enhances the predictive value of text-based features and raises forecast accuracy in the context of predicting cryptocurrency returns. More fundamentally, the modeling paradigm we present, weak labeling domain-specific text and finetuning pretrained NLP models, is universally applicable in (financial) forecasting and unlocks new ways to leverage text data.
翻訳日:2023-03-24 04:45:30 公開日:2023-03-19
# 個人推定のための新しい下肢境界と一般化フィンガープリントレンマ

New Lower Bounds for Private Estimation and a Generalized Fingerprinting Lemma ( http://arxiv.org/abs/2205.08532v4 )

ライセンス: Link先を確認
Gautam Kamath, Argyris Mouzakis and Vikrant Singhal(参考訳) 我々は、$(\varepsilon, \delta)$-differential privacy という制約の下で統計量推定タスクの新たな下限を証明する。 まず, ガウス分布のプライベート共分散推定のための厳密な下限を与える。 フロベニウスノルムにおける共分散行列の推定には$\omega(d^2)$のサンプルが必要であり、スペクトルノルムでは$\omega(d^{3/2})$のサンプルが必要であり、どちらも対数因子の上限に一致する。 後者の境界は、ガウス共分散のスペクトル推定のために、プライベートと非プライベートサンプル複素量の間の予想された統計的ギャップの存在を検証する。 我々はこれらの境界を主要な技術的貢献によって証明し、指数関数系へのフィンガープリンティング法を広範に一般化した。 さらに、Acharya, Sun, Zhangのプライベートなアスード法を用いて、$\ell_2$-distanceで$\alpha$-errorに有界な共分散を持つ分布の平均を推定するための$\Omega(d/(\alpha^2 \varepsilon))$低い境界を示す。 これらの問題の既知の下限は、多項式的に弱いか、$(\varepsilon,0)$-differential privacyという厳格な条件で保持されていた。

We prove new lower bounds for statistical estimation tasks under the constraint of $(\varepsilon, \delta)$-differential privacy. First, we provide tight lower bounds for private covariance estimation of Gaussian distributions. We show that estimating the covariance matrix in Frobenius norm requires $\Omega(d^2)$ samples, and in spectral norm requires $\Omega(d^{3/2})$ samples, both matching upper bounds up to logarithmic factors. The latter bound verifies the existence of a conjectured statistical gap between the private and the non-private sample complexities for spectral estimation of Gaussian covariances. We prove these bounds via our main technical contribution, a broad generalization of the fingerprinting method to exponential families. Additionally, using the private Assouad method of Acharya, Sun, and Zhang, we show a tight $\Omega(d/(\alpha^2 \varepsilon))$ lower bound for estimating the mean of a distribution with bounded covariance to $\alpha$-error in $\ell_2$-distance. Prior known lower bounds for all these problems were either polynomially weaker or held under the stricter condition of $(\varepsilon,0)$-differential privacy.
翻訳日:2023-03-24 04:26:13 公開日:2023-03-19
# 古典的及び量子広帯域合成開口における信号処理技術の進歩

An Overview of Advances in Signal Processing Techniques for Classical and Quantum Wideband Synthetic Apertures ( http://arxiv.org/abs/2205.05602v2 )

ライセンス: Link先を確認
Peter Vouras, Kumar Vijay Mishra, Alexandra Artusio-Glimpse, Samuel Pinilla, Angeliki Xenaki, David W. Griffith and Karen Egiazarian(参考訳) 合成開口(SA)システムの急速な発展は、単一センサの物理的次元から本質的に可能なよりも大きな角分解能を持つ大きな開口を発生させるが、いくつかの信号処理応用において新たな研究の道が開かれた。 SAは機械式ポインターを使用して、アンテナを宇宙空間に移動させたり、センサーの分散ネットワークを配置したりすることができる。 新しいハードウェア技術の出現により、SAは近年より密集する傾向にある。 近年、高周波数帯域が開通し、SA帯域幅が広くなった。 一般に、空間と帯域幅の広いSAのポテンシャルを利用するためには、新しい技術とセットアップが必要である。 本稿では,このような空間的およびスペクトル的広帯域SAシステムにおける信号処理の動向について概説する。 このガイドは、新参者がsa分析における最も重要な問題をナビゲートすることを支援し、この分野における新しい理論の開発をさらに支援することを目的としている。 特に,広帯域SAレーダ,チャネル音響,ソナー,ラジオメトリー,光学応用の理論的枠組みと実践的基盤について述べる。 古典的なSAの応用とは別に、現在活発な研究が行われているが開発初期段階にあるSAの量子電場センシングプローブについても論じる。

Rapid developments in synthetic aperture (SA) systems, which generate a larger aperture with greater angular resolution than is inherently possible from the physical dimensions of a single sensor alone, are leading to novel research avenues in several signal processing applications. The SAs may either use a mechanical positioner to move an antenna through space or deploy a distributed network of sensors. With the advent of new hardware technologies, the SAs tend to be denser nowadays. The recent opening of higher frequency bands has led to wide SA bandwidths. In general, new techniques and setups are required to harness the potential of wide SAs in space and bandwidth. Herein, we provide a brief overview of emerging signal processing trends in such spatially and spectrally wideband SA systems. This guide is intended to aid newcomers in navigating the most critical issues in SA analysis and further supports the development of new theories in the field. In particular, we cover the theoretical framework and practical underpinnings of wideband SA radar, channel sounding, sonar, radiometry, and optical applications. Apart from the classical SA applications, we also discuss the quantum electric-field-sensing probes in SAs that are currently undergoing active research but remain at nascent stages of development.
翻訳日:2023-03-24 04:25:48 公開日:2023-03-19
# 画像超解像トランスにおける画素数の増加

Activating More Pixels in Image Super-Resolution Transformer ( http://arxiv.org/abs/2205.04437v3 )

ライセンス: Link先を確認
Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, and Chao Dong(参考訳) トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。 しかし,これらのネットワークは帰属分析により,限られた空間範囲の入力情報しか利用できないことがわかった。 これは、Transformerのポテンシャルが既存のネットワークで完全に活用されていないことを意味する。 より良い再構成のためにより多くの入力画素を活性化するために、新しいハイブリッドアテンショントランス(hat)を提案する。 チャネルアテンションとウィンドウベースの自己注意スキームを組み合わせることで、グローバルな統計と強力な局所的な適合能力を活用できるという相補的な利点を活用できる。 さらに,クロスウィンドウ情報をよりよく集約するために,隣接するウィンドウ特徴間の相互作用を強化するために,重なり合うクロスアテンションモジュールを導入する。 トレーニング段階では、モデルの可能性を利用してさらなる改善を図るために、同じタスク事前学習戦略を採用する。 実験の結果,提案するモジュールの有効性が明らかになり,さらにモデルをスケールアップして,このタスクの性能を大幅に向上できることを示す。 提案手法は1dB以上で最先端の手法を著しく上回っている。 コードとモデルはhttps://github.com/xpixelgroup/hatで入手できる。

Transformer-based methods have shown impressive performance in low-level vision tasks, such as image super-resolution. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for better reconstruction, we propose a novel Hybrid Attention Transformer (HAT). It combines both channel attention and window-based self-attention schemes, thus making use of their complementary advantages of being able to utilize global statistics and strong local fitting capability. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally adopt a same-task pre-training strategy to exploit the potential of the model for further improvement. Extensive experiments show the effectiveness of the proposed modules, and we further scale up the model to demonstrate that the performance of this task can be greatly improved. Our overall method significantly outperforms the state-of-the-art methods by more than 1dB. Codes and models are available at https://github.com/XPixelGroup/HAT.
翻訳日:2023-03-24 04:25:29 公開日:2023-03-19
# 量子共変微分

Quantum covariant derivative ( http://arxiv.org/abs/2206.01716v4 )

ライセンス: Link先を確認
Ryan Requist(参考訳) パラメータ依存量子状態によって誘導される接ベクトルや他の幾何学的対象を微分および平行輸送することができる共変微分を導入する。 ゲージと座標変換の下で共変であることが証明され、量子幾何学テンソルと互換性がある。 量子共変微分は、ゲージおよび座標不変なアディバティック摂動理論を導出するために用いられ、非線形アディバティック応答特性の計算に効率的なツールを提供する。

The covariant derivative capable of differentiating and parallel transporting tangent vectors and other geometric objects induced by a parameter-dependent quantum state is introduced. It is proved to be covariant under gauge and coordinate transformations and compatible with the quantum geometric tensor. The quantum covariant derivative is used to derive a gauge- and coordinate-invariant adiabatic perturbation theory, providing an efficient tool for calculations of nonlinear adiabatic response properties.
翻訳日:2023-03-24 04:18:19 公開日:2023-03-19
# 効率的なデータインプテーションアルゴリズムのための主成分分析に基づくフレームワーク

Principal Component Analysis based frameworks for efficient missing data imputation algorithms ( http://arxiv.org/abs/2205.15150v3 )

ライセンス: Link先を確認
Thu Nguyen, Hoang Thien Ly, Michael Alexander Riegler, P{\aa}l Halvorsen, Hugo L. Hammer(参考訳) データの欠落は一般的に発生する問題である。 不足するエントリを埋めるために多くの計算方法が開発されている。 しかし、これらすべてが高次元データ、特に多重計算技術にスケールできるわけではない。 一方、現在のデータは高次元の傾向にある。 そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。PCA(Principal Component Analysis)をベースとしたシンプルだが汎用的なフレームワークであるPCAI(Principal Component Analysis Imputation)を提案する。 さらに、欠落している機能の一部または全部がカテゴリ化されている場合や、欠落している機能の数が大きい場合であっても、フレームワークは使用できる。 次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。 我々は,PCAI と PIC が,最先端の計算アルゴリズムを含む様々な計算アルゴリズムで動作し,直接計算に比べて平均二乗誤差/分類精度を向上しつつ,計算速度を大幅に向上できることを示す,様々なシナリオによるアプローチの有効性を検証した。

Missing data is a commonly occurring problem in practice. Many imputation methods have been developed to fill in the missing entries. However, not all of them can scale to high-dimensional data, especially the multiple imputation techniques. Meanwhile, the data nowadays tends toward high-dimensional. Therefore, in this work, we propose Principal Component Analysis Imputation (PCAI), a simple but versatile framework based on Principal Component Analysis (PCA) to speed up the imputation process and alleviate memory issues of many available imputation techniques, without sacrificing the imputation quality in term of MSE. In addition, the frameworks can be used even when some or all of the missing features are categorical, or when the number of missing features is large. Next, we introduce PCA Imputation - Classification (PIC), an application of PCAI for classification problems with some adjustments. We validate our approach by experiments on various scenarios, which shows that PCAI and PIC can work with various imputation algorithms, including the state-of-the-art ones and improve the imputation speed significantly, while achieving competitive mean square error/classification accuracy compared to direct imputation (i.e., impute directly on the missing data).
翻訳日:2023-03-24 04:17:08 公開日:2023-03-19
# 擬似的手による連続的グラスピング関数の学習

Learning Continuous Grasping Function with a Dexterous Hand from Human Demonstrations ( http://arxiv.org/abs/2207.05053v3 )

ライセンス: Link先を確認
Jianglong Ye, Jiashun Wang, Binghao Huang, Yuzhe Qin, Xiaolong Wang(参考訳) そこで本研究では,暗黙関数を用いたデクスタラスハンド操作のための把持動作生成法を提案する。 連続的な時間入力により、モデルは連続的で滑らかな把握計画を生成することができる。 提案したモデルであるContinuous Grasping Function (CGF) を命名する。 CGFは3次元人間の実演を用いて条件付き変分オートエンコーダを用いて生成モデルを用いて学習する。 まず、大規模な人間と物体の相互作用軌道を、モーションリターゲティングによってロボットのデモに変換し、次にこれらのデモを使ってCGFを訓練する。 推定中, cgfを用いたサンプリングを行い, シミュレータ内で異なる把持計画を生成し, 実ロボットへの移動に成功するものを選択する。 多様な人間のデータをトレーニングすることで、cgfは一般化によって複数のオブジェクトを操作できる。 従来の計画アルゴリズムと比較して、CGFはより効率的であり、実のアレグロハンドでグリーピングする際の成功率を大幅に向上させる。 プロジェクトのページはhttps://jianglongye.com/cgf.comで閲覧できます。

We propose to learn to generate grasping motion for manipulation with a dexterous hand using implicit functions. With continuous time inputs, the model can generate a continuous and smooth grasping plan. We name the proposed model Continuous Grasping Function (CGF). CGF is learned via generative modeling with a Conditional Variational Autoencoder using 3D human demonstrations. We will first convert the large-scale human-object interaction trajectories to robot demonstrations via motion retargeting, and then use these demonstrations to train CGF. During inference, we perform sampling with CGF to generate different grasping plans in the simulator and select the successful ones to transfer to the real robot. By training on diverse human data, our CGF allows generalization to manipulate multiple objects. Compared to previous planning algorithms, CGF is more efficient and achieves significant improvement on success rate when transferred to grasping with the real Allegro Hand. Our project page is available at https://jianglongye.com/cgf .
翻訳日:2023-03-24 03:48:52 公開日:2023-03-19
# 並列コンフォーマルハイパーパラメータ最適化

Parallel Conformal Hyperparameter Optimization ( http://arxiv.org/abs/2207.03017v2 )

ライセンス: Link先を確認
Riccardo Doyle(参考訳) ハイパーパラメータ検索のための新しいフレームワークは、ここ10年でいくつか登場したが、ほとんどが厳密で、通常、分散的な仮定に依存し、検索モデルの柔軟性を制限している。 本稿では,共形信頼区間の上位信頼境界サンプリングに基づく新しい最適化フレームワークを提案する。 このようなアーキテクチャを探索し、高密度ニューラルネットワークと畳み込みニューラルネットワークのハイパーパラメータチューニングをベンチマークし、ランダム検索よりも優れた性能を示した。

Several novel frameworks for hyperparameter search have emerged in the last decade, but most rely on strict, often normal, distributional assumptions, limiting search model flexibility. This paper proposes a novel optimization framework based on upper confidence bound sampling of conformal confidence intervals, whose assumption of exchangeability enables greater choice of search model architectures. Several such architectures were explored and benchmarked on hyperparameter tuning of both dense and convolutional neural networks, displaying superior performance to random search.
翻訳日:2023-03-24 03:48:24 公開日:2023-03-19
# モバイル無線ネットワークにおける適応型フォワード戦略の学習:リソース使用率対レイテンシ

Learning an Adaptive Forwarding Strategy for Mobile Wireless Networks: Resource Usage vs. Latency ( http://arxiv.org/abs/2207.11386v2 )

ライセンス: Link先を確認
Victoria Manfredi, Alicia P. Wolfe, Xiaolan Zhang, Bing Wang(参考訳) 移動無線ネットワークにおける効果的なルーティング戦略の設計は,空間的に多様かつ時間的に変化するネットワーク条件にルーティング動作をシームレスに適応させる必要があるため,困難である。 本研究では,深層強化学習(deeprl)を用いて,スケーラブルで汎用的なシングルコピールーティング戦略を学習する。 私たちは次のような貢献をします i)DeepRLエージェントがパケット当たりの送信数に対して遅延を最小化するような競合するネットワーク目標を明示的にトレードオフできる報酬関数を設計する。 二 特定のネットワークトポロジとは独立に、移動体無線ネットワークとモデルデバイスモビリティを特徴付けるための、新しい関係性近傍、経路、コンテキストの機能セットを提案する。 iii)すべてのパケットとデバイスからのデータを単一のオフライン集中型トレーニングセットに統合して、単一のdeeprlエージェントをトレーニングできる柔軟なトレーニングアプローチを採用しています。 汎用性とスケーラビリティを評価するため,1つのモバイルネットワークシナリオでDeepRLエージェントをトレーニングし,他のモバイルシナリオでテストし,デバイス数や送信範囲を変化させる。 以上の結果から,DeepRLエージェントが訓練を受けていないシナリオにおいても,学習したシングルコピールーティング戦略は最適戦略以外の遅延戦略よりも優れていた。

Designing effective routing strategies for mobile wireless networks is challenging due to the need to seamlessly adapt routing behavior to spatially diverse and temporally changing network conditions. In this work, we use deep reinforcement learning (DeepRL) to learn a scalable and generalizable single-copy routing strategy for such networks. We make the following contributions: i) we design a reward function that enables the DeepRL agent to explicitly trade-off competing network goals, such as minimizing delay vs. the number of transmissions per packet; ii) we propose a novel set of relational neighborhood, path, and context features to characterize mobile wireless networks and model device mobility independently of a specific network topology; and iii) we use a flexible training approach that allows us to combine data from all packets and devices into a single offline centralized training set to train a single DeepRL agent. To evaluate generalizeability and scalability, we train our DeepRL agent on one mobile network scenario and then test it on other mobile scenarios, varying the number of devices and transmission ranges. Our results show our learned single-copy routing strategy outperforms all other strategies in terms of delay except for the optimal strategy, even on scenarios on which the DeepRL agent was not trained.
翻訳日:2023-03-24 03:39:13 公開日:2023-03-19
# バイスペクトルニューラルネットワーク

Bispectral Neural Networks ( http://arxiv.org/abs/2209.03416v4 )

ライセンス: Link先を確認
Sophia Sanborn, Christian Shewmake, Bruno Olshausen, Christopher Hillar(参考訳) 本稿では,信号が定義される空間上のコンパクト可換群の作用に不変な表現を学習するためのニューラルネットワークアーキテクチャであるbispectral neural network (bnns)を提案する。 このモデルは、解析的に定義された群不変量である bispectrum の ansatz を組み込んでいる -- つまり、群作用による変動のみを取り除きながら、すべての信号構造を保存できる。 ここでは,BNNが群,その既約表現,および対応する同変および完全不変写像を,データ中の対称性から純粋に学習できることを実証する。 さらに、完全性は、これらのネットワークに強い不変性に基づく逆ロバスト性を持つことを示す。 この研究は、頑健な不変表現学習のための強力な計算プリミティブとしてバイスペクトルニューラルネットワークを確立する

We present a neural network architecture, Bispectral Neural Networks (BNNs) for learning representations that are invariant to the actions of compact commutative groups on the space over which a signal is defined. The model incorporates the ansatz of the bispectrum, an analytically defined group invariant that is complete -- that is, it preserves all signal structure while removing only the variation due to group actions. Here, we demonstrate that BNNs are able to simultaneously learn groups, their irreducible representations, and corresponding equivariant and complete-invariant maps purely from the symmetries implicit in data. Further, we demonstrate that the completeness property endows these networks with strong invariance-based adversarial robustness. This work establishes Bispectral Neural Networks as a powerful computational primitive for robust invariant representation learning
翻訳日:2023-03-24 03:21:43 公開日:2023-03-19
# 超強結合量子光マター系のベリー相とトポロジー

Berry Phase and Topology in Ultrastrongly Coupled Quantum Light-Matter Systems ( http://arxiv.org/abs/2209.01363v2 )

ライセンス: Link先を確認
Kanta Masuki, and Yuto Ashida(参考訳) キャビティ内における物質と量子化電磁場との強い結合は、外部駆動がない状態で物質相を制御するための経路として考えられる。 二次元の空洞電磁界と超強結合した物質の量子幾何とトポロジーを忠実かつ効率的な理論的枠組みで解析する。 この形式はベリー位相やチャーン数などの幾何学的および位相的量の超強結合状態において正確に評価することができる。 我々は,円偏光キャビティモードに結合した大規模ディラックフェルミオンのモデル解析に一般フレームワークを適用した。 驚くべきことに, 位相相への通常の遷移に加えて, 強結合系における定性的に新しい特徴,すなわち位相的自明な相への相対的遷移の出現を明らかにする。 また, 強結合光マター系の低エネルギー有効理論とハルダンハニカムモデルとのユニタリマッピングを示すことにより, その直感的理解を示す。

Strong coupling between matter and quantized electromagnetic fields in a cavity has emerged as a possible route toward controlling the phase of matter in the absence of an external drive. We develop a faithful and efficient theoretical framework to analyze quantum geometry and topology in materials ultrastrongly coupled to cavity electromagnetic fields in two dimensions. The formalism allows us to accurately evaluate geometrical and topological quantities, such as Berry phase and Chern number, in ultrastrong and deep strong coupling regimes. We apply our general framework to analyze a concrete model of massive Dirac fermions coupled to a circularly polarized cavity mode. Surprisingly, in addition to an ordinary transition to the topological phase, our analysis reveals a qualitatively new feature in deep strong coupling regimes, namely, the emergence of reentrant transition to the topologically trivial phase. We also present its intuitive understanding by showing the unitary mapping between the low-energy effective theory of strongly coupled light-matter systems and the Haldane honeycomb model.
翻訳日:2023-03-24 03:21:28 公開日:2023-03-19
# 組合せゲージ対称性を用いた非アベリア量子スピン液体の構築

Constructing Non-Abelian Quantum Spin Liquids Using Combinatorial Gauge Symmetry ( http://arxiv.org/abs/2209.14333v2 )

ライセンス: Link先を確認
Dmitry Green and Claudio Chamon(参考訳) 我々は、完全非可換ゲージ対称性(特に、可換ゲージ対称性)を示す1-および2-体相互作用のみを持つハミルトン系を構築する。 スピンハミルトニアンは四元数群に付随する量子二重性を実現する。 これは強磁性および反強磁性の$Z$相互作用と長手および横磁場のみを含み、したがって非アベリア位相を実現する符号問題を持たないスピンハミルトニアンの明示的な例である。 スピンモデルに加えて、同じ対称性を持つ超伝導量子回路バージョンを提案する。

We construct Hamiltonians with only 1- and 2-body interactions that exhibit an exact non-Abelian gauge symmetry (specifically, combinatiorial gauge symmetry). Our spin Hamiltonian realizes the quantum double associated to the group of quaternions. It contains only ferromagnetic and anti-ferromagnetic $ZZ$ interactions, plus longitudinal and transverse fields, and therefore is an explicit example of a spin Hamiltonian with no sign problem that realizes a non-Abelian topological phase. In addition to the spin model, we propose a superconducting quantum circuit version with the same symmetry.
翻訳日:2023-03-24 03:14:35 公開日:2023-03-19
# 人的支援の最小化: 深層強化学習のための1つのデモ

Minimizing Human Assistance: Augmenting a Single Demonstration for Deep Reinforcement Learning ( http://arxiv.org/abs/2209.11275v2 )

ライセンス: Link先を確認
Abraham George, Alison Bartsch, and Amir Barati Farimani(参考訳) 強化学習における人間の実演の使用は、エージェントのパフォーマンスを著しく改善することが証明されている。 しかし、人間の手作業によるモデルへの要求は、強化学習の目的に対してやや反則的である。 本稿では,RL学習を支援するために,簡単な仮想現実シミュレーションを用いて収集した1人の人間の例を用いて,学習過程における人間の関与を最小限に抑えながら,性能上の優位性を維持することを試みる。 提案手法は,Deep Deterministic Policy Gradients and Hindsight Experience Replay(DDPG + HER)と組み合わせることで,単純なタスクのトレーニング時間を大幅に改善し,DDPG + HERだけでは解決できない複雑なタスク(ブロックスタック)をエージェントが解決できるようにする。 このモデルは、人間の1つの例を使って、この重要なトレーニングアドバンテージを達成し、1分以内の入力を必要とする。 さらに、人間の例から学ぶにもかかわらず、エージェントは人間レベルのパフォーマンスに拘束されず、しばしば人間の実演と大きく異なるポリシーを学ぶ。

The use of human demonstrations in reinforcement learning has proven to significantly improve agent performance. However, any requirement for a human to manually 'teach' the model is somewhat antithetical to the goals of reinforcement learning. This paper attempts to minimize human involvement in the learning process while retaining the performance advantages by using a single human example collected through a simple-to-use virtual reality simulation to assist with RL training. Our method augments a single demonstration to generate numerous human-like demonstrations that, when combined with Deep Deterministic Policy Gradients and Hindsight Experience Replay (DDPG + HER) significantly improve training time on simple tasks and allows the agent to solve a complex task (block stacking) that DDPG + HER alone cannot solve. The model achieves this significant training advantage using a single human example, requiring less than a minute of human input. Moreover, despite learning from a human example, the agent is not constrained to human-level performance, often learning a policy that is significantly different from the human demonstration.
翻訳日:2023-03-24 03:13:26 公開日:2023-03-19
# トポロジカルマターとフラクショナルエンタングルド幾何学

Topological Matter and Fractional Entangled Geometry ( http://arxiv.org/abs/2209.15381v4 )

ライセンス: Link先を確認
Karyn Le Hur(参考訳) 本稿では,量子物理学と位相結晶の幾何学的アプローチにおける最近の進歩を,古典電気力学によるディラック磁気単極子やゲージ場と結びつけて明らかにする。 量子スピン-1/2粒子のブロッホ球は、放射磁場の存在下で整数トポロジカル電荷を取得する。 表面の極から大域的位相特性が符号化され、滑らかな場、計量、量子距離と位相数の正方形との対応が可能であることを示す。 情報は各極から薄いディラック弦上の赤道面へ輸送される。 我々は、空間と時間における「量子トポロメトリー」の理論を開発し、光の円二色性から結晶のトポロジカルバンド構造への量子化された光電効果のニュートンアプローチからの輸送に応用する。 トポロジカル格子モデルに関連するエッジモードは、球体や楕円体をシリンダーに変形する際に解析的に解決される。 ハニカム格子上の量子ホール効果、量子異常ホール効果、および量子スピンホール効果の位相的性質は、光物質結合からブリルアンゾーンで局所的に測定することができる。 形式主義は運動量空間からの相互作用効果を含めることができる。 相互作用はまた、曲線空間内の分数絡み合い幾何学をもたらすこともある。 量子力学における絡み合った波動関数、測地線のコヒーレント重ね合わせ、半位相数への方法、マヨラナフェルミオンの関係を解明する。 トポロジカルな事柄における実現を示す。 本研究では,立方体表面上のアキソニオン電気力学,位相絶縁体とメロンによる2次元球面モデルの関係を示す。

Here, we reveal our recent progress on a geometrical approach of quantum physics and topological crystals linking with Dirac magnetic monopoles and gauge fields through classical electrodynamics. The Bloch sphere of a quantum spin-1/2 particle acquires an integer topological charge in the presence of a radial magnetic field. We show that global topological properties are encoded from the poles of the surface allowing a correspondence between smooth fields, metric and quantum distance with the square of the topological number. The information is transported from each pole to the equatorial plane on a thin Dirac string. We develop the theory, "quantum topometry" in space and time, and present applications on transport from a Newtonian approach, on a quantized photo-electric effect from circular dichroism of light towards topological band structures of crystals. Edge modes related to topological lattice models are resolved analytically when deforming the sphere or ellipse onto a cylinder. Topological properties of the quantum Hall effect, quantum anomalous Hall effect and quantum spin Hall effect on the honeycomb lattice can be measured locally in the Brillouin zone from light-matter coupling. The formalism allows us to include interaction effects from the momentum space. Interactions may also result in fractional entangled geometry within the curved space. We develop a relation between entangled wavefunction in quantum mechanics, coherent superposition of geometries, a way to one-half topological numbers and Majorana fermions. We show realizations in topological matter. We present a link between axion electrodynamics, topological insulators on a surface of a cube and the two-spheres' model via merons.
翻訳日:2023-03-24 03:02:32 公開日:2023-03-19
# 10億規模の事前学習したマルチモーダルビジネスナレッジグラフの構築と応用

Construction and Applications of Billion-Scale Pre-Trained Multimodal Business Knowledge Graph ( http://arxiv.org/abs/2209.15214v6 )

ライセンス: Link先を確認
Shumin Deng, Chengming Wang, Zhoubo Li, Ningyu Zhang, Zelin Dai, Hehong Chen, Feiyu Xiong, Ming Yan, Qiang Chen, Mosha Chen, Jiaoyan Chen, Jeff Z. Pan, Bryan Hooi, Huajun Chen(参考訳) ビジネスナレッジグラフ(kgs)は、現在多くの企業にとって重要であり、事実知識と構造化データを提供し、多くの製品を駆動し、よりインテリジェントにする。 有望な利益にもかかわらず、ビジネスKGを構築するには、欠陥のある構造と複数のモダリティの禁止的な問題を解決する必要がある。 本稿では,非自明な現実世界システムにおけるKG構築に関する実践的課題の理解を深める。 我々は、よく知られた企業であるAlibaba Groupから派生したオープンビジネス知識グラフ(OpenBG)を構築するプロセスを紹介する。 具体的には、デプロイされたアプリケーションにおける詳細な分類法とマルチモーダル事実を用いて、さまざまな抽象的製品と消費要求をカバーするコアオントロジーを定義する。 OpenBGは前例のない規模のオープンビジネスのKGで、260億の3倍体で、100万以上のコアクラス/コンセプトと2,681種類の関係をカバーしている。 コミュニティ向けのオープンリソース(OpenBGベンチマーク)をすべてリリースし、KG中心のタスクの実験結果を報告する。 また、OpenBGベンチマークに基づいたオンラインコンペも開催しており、何千ものチームを集めています。 我々はさらにOpenBGを事前訓練し、ビジネスシナリオにおける多くのKG強化下流タスクに適用し、eコマースにおける数十億ドル規模のマルチモーダル知識の有効性を実証する。 コードを持つすべてのリソースは \url{https://github.com/OpenBGBenchmark/OpenBG} でリリースされた。

Business Knowledge Graphs (KGs) are important to many enterprises today, providing factual knowledge and structured data that steer many products and make them more intelligent. Despite their promising benefits, building business KG necessitates solving prohibitive issues of deficient structure and multiple modalities. In this paper, we advance the understanding of the practical challenges related to building KG in non-trivial real-world systems. We introduce the process of building an open business knowledge graph (OpenBG) derived from a well-known enterprise, Alibaba Group. Specifically, we define a core ontology to cover various abstract products and consumption demands, with fine-grained taxonomy and multimodal facts in deployed applications. OpenBG is an open business KG of unprecedented scale: 2.6 billion triples with more than 88 million entities covering over 1 million core classes/concepts and 2,681 types of relations. We release all the open resources (OpenBG benchmarks) derived from it for the community and report experimental results of KG-centric tasks. We also run up an online competition based on OpenBG benchmarks, and has attracted thousands of teams. We further pre-train OpenBG and apply it to many KG- enhanced downstream tasks in business scenarios, demonstrating the effectiveness of billion-scale multimodal knowledge for e-commerce. All the resources with codes have been released at \url{https://github.com/OpenBGBenchmark/OpenBG}.
翻訳日:2023-03-24 03:02:03 公開日:2023-03-19
# mteb:巨大なテキスト埋め込みベンチマーク

MTEB: Massive Text Embedding Benchmark ( http://arxiv.org/abs/2210.07316v3 )

ライセンス: Link先を確認
Niklas Muennighoff, Nouamane Tazi, Lo\"ic Magne, Nils Reimers(参考訳) テキスト埋め込みは、単一のタスクから可能なアプリケーションを他のタスクにカバーしない小さなデータセットで一般的に評価される。 セマンティックテキスト類似性(STS)に対する最先端の埋め込みがクラスタリングや再ランク付けといった他のタスクにも同じように適用できるかどうかは不明だ。 様々なモデルが適切に評価されることなく常に提案されているため、この分野の進歩を追跡するのは困難である。 この問題を解決するために,MTEB (Massive Text Embedding Benchmark) を導入する。 MTEBは、58のデータセットと112の言語をカバーする8つの組み込みタスクにまたがる。 MTEB上での33モデルのベンチマークにより,これまでで最も包括的なテキスト埋め込みベンチマークを確立した。 特定のテキスト埋め込みメソッドがすべてのタスクで支配的でないことが分かりました。 これは、フィールドが普遍的なテキスト埋め込みメソッドに収束して、それを十分にスケールアップして、すべての埋め込みタスクに最先端の結果を提供することができないことを示唆する。 MTEBにはオープンソースコードとhttps://github.com/embeddings-benchmark/mteb.comの公開リーダボードがある。

Text embeddings are commonly evaluated on a small set of datasets from a single task not covering their possible applications to other tasks. It is unclear whether state-of-the-art embeddings on semantic textual similarity (STS) can be equally well applied to other tasks like clustering or reranking. This makes progress in the field difficult to track, as various models are constantly being proposed without proper evaluation. To solve this problem, we introduce the Massive Text Embedding Benchmark (MTEB). MTEB spans 8 embedding tasks covering a total of 58 datasets and 112 languages. Through the benchmarking of 33 models on MTEB, we establish the most comprehensive benchmark of text embeddings to date. We find that no particular text embedding method dominates across all tasks. This suggests that the field has yet to converge on a universal text embedding method and scale it up sufficiently to provide state-of-the-art results on all embedding tasks. MTEB comes with open-source code and a public leaderboard at https://github.com/embeddings-benchmark/mteb.
翻訳日:2023-03-24 02:54:48 公開日:2023-03-19
# 深部残像を用いた不確かさを意識した教師なし画像

Uncertainty-Aware Unsupervised Image Deblurring with Deep Residual Prior ( http://arxiv.org/abs/2210.05361v4 )

ライセンス: Link先を確認
Xiaole Tang, Xile Zhao, Jun Liu, Jianli Wang, Yuchun Miao, Tieyong Zeng(参考訳) 非ブラインドデブロワー法は、正確なぼやけたカーネル仮定の下で良好な性能を達成する。 カーネルの不確実性(すなわちカーネルエラー)は実際には避けられないため、セミブリンド・デブラリングはカーネルの(または誘導された)エラーの事前を導入することで処理することが提案されている。 しかし、カーネル(または誘導エラー)の適切な事前設計方法はまだ難しいままである。 ドメイン知識を組み込んだ手作りの事前処理は一般的にはうまく機能するが、カーネル(または誘導)エラーが複雑である場合、パフォーマンスが低下する可能性がある。 トレーニングデータの多様性と多さに過度に依存するデータ駆動事前は、アウト・オブ・ディストリビューションの曖昧さやイメージに対して脆弱である。 この課題に対処するために、カスタマイズされた未トレーニングのディープニューラルネットワークによって表現されるカーネル誘発エラー(残留と判定される)に対するデータセットなしのディープ残差を提案する。 深部プリエントと手作りプリエントのそれぞれの強度を有機的に統合することにより,ぼかし画像と不正確なぼかしカーネルから潜在画像を復元する非教師付き半ブリンドデブラリングモデルを提案する。 定式化モデルに対処するため,効率的な交互最小化アルゴリズムを開発した。 画像品質とカーネルエラーに対する堅牢性の観点から,データ駆動型およびモデル駆動型の手法と比較して,提案手法の良好な性能を示す。

Non-blind deblurring methods achieve decent performance under the accurate blur kernel assumption. Since the kernel uncertainty (i.e. kernel error) is inevitable in practice, semi-blind deblurring is suggested to handle it by introducing the prior of the kernel (or induced) error. However, how to design a suitable prior for the kernel (or induced) error remains challenging. Hand-crafted prior, incorporating domain knowledge, generally performs well but may lead to poor performance when kernel (or induced) error is complex. Data-driven prior, which excessively depends on the diversity and abundance of training data, is vulnerable to out-of-distribution blurs and images. To address this challenge, we suggest a dataset-free deep residual prior for the kernel induced error (termed as residual) expressed by a customized untrained deep neural network, which allows us to flexibly adapt to different blurs and images in real scenarios. By organically integrating the respective strengths of deep priors and hand-crafted priors, we propose an unsupervised semi-blind deblurring model which recovers the latent image from the blurry image and inaccurate blur kernel. To tackle the formulated model, an efficient alternating minimization algorithm is developed. Extensive experiments demonstrate the favorable performance of the proposed method as compared to data-driven and model-driven methods in terms of image quality and the robustness to the kernel error.
翻訳日:2023-03-24 02:53:59 公開日:2023-03-19
# BlanketSet -- 臨床現実のベッド内アクション認識と定性的半同期MoCapデータセット

BlanketSet -- A clinical real-world in-bed action recognition and qualitative semi-synchronised MoCap dataset ( http://arxiv.org/abs/2210.03600v3 )

ライセンス: Link先を確認
Jo\~ao Carmona and Tam\'as Kar\'acsony and Jo\~ao Paulo Silva Cunha(参考訳) ビデオベースの臨床動作分析は、いくつかの関連するバイオメディカル応用のためのコンピュータビジョンのトピックである。 それでも、ディープラーニングアプローチに使用される主要な公開大規模データセット(ImageNetや3DPWなど)には、これらの臨床シナリオに対する注釈付き例がない。 この問題に対処するため,病院ベッドで実施したRGB-IR-D行動認識データセットであるBlanketSetを紹介する。 このデータセットは、より一般的な大規模なデータセットで得られた改善をこれらの臨床シナリオにブリッジするのに役立つ可能性がある。 データセットへのアクセス方法はhttps://rdm.inesctec.pt/dataset/nis-2022-004で確認できる。

Clinical in-bed video-based human motion analysis is a very relevant computer vision topic for several relevant biomedical applications. Nevertheless, the main public large datasets (e.g. ImageNet or 3DPW) used for deep learning approaches lack annotated examples for these clinical scenarios. To address this issue, we introduce BlanketSet, an RGB-IR-D action recognition dataset of sequences performed in a hospital bed. This dataset has the potential to help bridge the improvements attained in more general large datasets to these clinical scenarios. Information on how to access the dataset is available at https://rdm.inesctec.pt/dataset/nis-2022-004.
翻訳日:2023-03-24 02:52:39 公開日:2023-03-19
# BlanketGen - MoCapデータセットのための合成毛布閉塞拡張パイプライン

BlanketGen - A synthetic blanket occlusion augmentation pipeline for MoCap datasets ( http://arxiv.org/abs/2210.12035v2 )

ライセンス: Link先を確認
Jo\~ao Carmona, Tam\'as Kar\'acsony, Jo\~ao Paulo Silva Cunha(参考訳) 人間の動作分析は最近大幅に改善されているが、代表的なデータセットがないため、臨床ベッドでのシナリオでは遅れを取っている。 この問題に対処するため,我々は,合成ブランケットオクルージョンで動画を強調するパイプラインである blanketgen を実装した。 このパイプラインにより、BlanketGen-3DPWと呼ばれるポーズ推定データセットの強化版を生成した。 そして、新しいデータセットを使ってディープラーニングモデルを微調整し、将来性のある結果でこれらのシナリオのパフォーマンスを改善しました。 コードと詳細はhttps://gitlab.inesctec.pt/brain-lab/brain-lab-public/blanket-gen-releasesで確認できる。

Human motion analysis has seen drastic improvements recently, however, due to the lack of representative datasets, for clinical in-bed scenarios it is still lagging behind. To address this issue, we implemented BlanketGen, a pipeline that augments videos with synthetic blanket occlusions. With this pipeline, we generated an augmented version of the pose estimation dataset 3DPW called BlanketGen-3DPW. We then used this new dataset to fine-tune a Deep Learning model to improve its performance in these scenarios with promising results. Code and further information are available at https://gitlab.inesctec.pt/brain-lab/brain-lab-public/blanket-gen-releases.
翻訳日:2023-03-24 02:45:28 公開日:2023-03-19
# pacific: 財務における表データとテキストデータによる積極的な対話型質問応答に向けて

PACIFIC: Towards Proactive Conversational Question Answering over Tabular and Textual Data in Finance ( http://arxiv.org/abs/2210.08817v2 )

ライセンス: Link先を確認
Yang Deng, Wenqiang Lei, Wenxuan Zhang, Wai Lam, Tat-Seng Chua(参考訳) 金融のハイブリッドコンテキスト上での会話型質問応答(CQA)を容易にするために,PACIFICという新しいデータセットを提案する。 既存のCQAデータセットと比較して、PACIFICには3つの重要な特徴がある。 (i)プロラクティビティ (ii)数値推論、及び (iii)表とテキストのハイブリッドコンテキスト。 新しいタスクは、明確化質問生成とcqaを組み合わせたproactive conversational question answering(pcqa)を研究するために定義されます。 さらに,PCQAにおける入力と出力のハイブリッド形式をSeq2Seq問題に適応させる新しい手法,UniPCQAを提案する。 UniPCQAはPCQAのすべてのサブタスクに対してマルチタスク学習を行い、トップ$kのサンプルSeq2Seq出力をクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。 我々はPACIFICデータセットを広範なベースラインでベンチマークし、PCQAの各サブタスクについて包括的な評価を行う。

To facilitate conversational question answering (CQA) over hybrid contexts in finance, we present a new dataset, named PACIFIC. Compared with existing CQA datasets, PACIFIC exhibits three key features: (i) proactivity, (ii) numerical reasoning, and (iii) hybrid context of tables and text. A new task is defined accordingly to study Proactive Conversational Question Answering (PCQA), which combines clarification question generation and CQA. In addition, we propose a novel method, namely UniPCQA, to adapt a hybrid format of input and output content in PCQA into the Seq2Seq problem, including the reformulation of the numerical reasoning process as code generation. UniPCQA performs multi-task learning over all sub-tasks in PCQA and incorporates a simple ensemble strategy to alleviate the error propagation issue in the multi-task learning by cross-validating top-$k$ sampled Seq2Seq outputs. We benchmark the PACIFIC dataset with extensive baselines and provide comprehensive evaluations on each sub-task of PCQA.
翻訳日:2023-03-24 02:42:29 公開日:2023-03-19
# 音声認識のための室内インパルス応答推定の改善

Towards Improved Room Impulse Response Estimation for Speech Recognition ( http://arxiv.org/abs/2211.04473v2 )

ライセンス: Link先を確認
Anton Ratnarajah, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Pablo Hoffmann, Dinesh Manocha, Paul Calamia(参考訳) 本稿では,下流アプリケーションシナリオであるfar-field automatic speech recognition (asr)の文脈において,ブラインドルームインパルス応答(rir)推定システムに対する新しいアプローチを提案する。 まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。 次に、残響音声からRIR特徴を符号化し、その符号化された特徴からRIRを構成するGANに基づく生成的逆数ネットワーク(generative adversarial network)を提案する。 本モデルは,ASR評価課題(単語誤り率6.9 %)において,音響ベンチマーク(エネルギー崩壊緩和率17 %,早期反射エネルギー測定率22 %)において,最先端のベースラインよりも優れていることを示す。

We propose a novel approach for blind room impulse response (RIR) estimation systems in the context of a downstream application scenario, far-field automatic speech recognition (ASR). We first draw the connection between improved RIR estimation and improved ASR performance, as a means of evaluating neural RIR estimators. We then propose a generative adversarial network (GAN) based architecture that encodes RIR features from reverberant speech and constructs an RIR from the encoded features, and uses a novel energy decay relief loss to optimize for capturing energy-based properties of the input reverberant speech. We show that our model outperforms the state-of-the-art baselines on acoustic benchmarks (by 17\% on the energy decay relief and 22\% on an early-reflection energy metric), as well as in an ASR evaluation task (by 6.9\% in word error rate).
翻訳日:2023-03-24 02:27:20 公開日:2023-03-19
# NESTER:治療効果推定のための適応型ニューロシンボリック法

NESTER: An Adaptive Neurosymbolic Method for Treatment Effect Estimation ( http://arxiv.org/abs/2211.04370v2 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Vineeth N Balasubramanian(参考訳) 観察データによる治療効果の推定は因果推論の中心的な問題である。 潜在的な結果の枠組みに基づく手法は、因果推論から帰納的バイアスとヒューリスティックスを利用してこの問題を解決する。 既存の各手法は、ニューラルネットワークアーキテクチャと正規化器を設計することにより、確率スコアの制御、ランダム化の強制など、治療効果推定の特定の側面に対処する。 本稿では,治療効果評価の一般化手法であるニューロシンボリック処理効果推定器 (NESTER) を提案する。 NESTERは治療効果推定のためのすべてのデシラタを一つのフレームワークにまとめる。 そこで本研究では,文献における帰納バイアスに基づく治療効果推定のためのドメイン固有言語(DSL)を設計する。 また,治療効果推定タスクにおけるNESTERの能力についても理論的に検討した。 総合的な実験結果から,nesterは実行時要件を妥協することなく,最先端のメソッドよりもベンチマークデータセットで優れたパフォーマンスを示す。

Treatment effect estimation from observational data is a central problem in causal inference. Methods based on potential outcomes framework solve this problem by exploiting inductive biases and heuristics from causal inference. Each existing technique addresses a specific aspect of treatment effect estimation, such as controlling propensity score, enforcing randomization, etc., by designing neural network architectures and regularizers. In this paper, we propose an adaptive method called Neurosymbolic Treatment Effect Estimator (NESTER), a generalized method for treatment effect estimation. NESTER brings together all the desiderata for treatment effect estimation into one framework. For this purpose, we design a Domain Specific Language (DSL) for the treatment effect estimation based on inductive biases used in literature. We also theoretically study NESTER's capability for the treatment effect estimation task. Our comprehensive empirical results show that NESTER performs better on benchmark datasets than state-of-the-art methods without compromising run time requirements.
翻訳日:2023-03-24 02:27:00 公開日:2023-03-19
# 潜在変数ガウス過程モデルに対する完全ベイズ推定

Fully Bayesian inference for latent variable Gaussian process models ( http://arxiv.org/abs/2211.02218v2 )

ライセンス: Link先を確認
Suraj Yerramilli, Akshay Iyer, Wei Chen, Daniel W. Apley(参考訳) 実際の工学と科学の応用は、しばしば1つ以上の定性的な入力を含む。 しかし、標準ガウス過程(GP)は、定性的入力を直接対応できない。 最近導入された潜伏変数ガウス過程(LVGP)は、まず各定性的因子を下層の潜伏変数(LV)にマッピングし、次にこれらのLV上の標準GP共分散関数を使用することによってこの問題を克服する。 lvsは他のgpハイパーパラメータと同様に最大確率推定によって推定され、予測式に挿入される。 しかし、このプラグインアプローチは、特に限られたトレーニングデータにおいて重要なLVの推定の不確実性を考慮していない。 本研究では,LVGPモデルに対する完全ベイズ的アプローチを開発し,LVによる定性的入力の効果を可視化する。 また、LVGPハイパーパラメータに対するLVGPのスケールアップとベイズ推定の完全な近似も開発した。 いくつかの工学モデルと材料設計応用について,プラグイン推論と完全ベイズ推論を比較した数値的研究を行った。 従来の標準GPモデリングでは,完全ベイズ処理が限定的な改善をもたらすという結論が得られたが,LVGPモデリングでは,プラグインアプローチによる予測精度と不確かさの定量化が大幅に改善されている。

Real engineering and scientific applications often involve one or more qualitative inputs. Standard Gaussian processes (GPs), however, cannot directly accommodate qualitative inputs. The recently introduced latent variable Gaussian process (LVGP) overcomes this issue by first mapping each qualitative factor to underlying latent variables (LVs), and then uses any standard GP covariance function over these LVs. The LVs are estimated similarly to the other GP hyperparameters through maximum likelihood estimation, and then plugged into the prediction expressions. However, this plug-in approach will not account for uncertainty in estimation of the LVs, which can be significant especially with limited training data. In this work, we develop a fully Bayesian approach for the LVGP model and for visualizing the effects of the qualitative inputs via their LVs. We also develop approximations for scaling up LVGPs and fully Bayesian inference for the LVGP hyperparameters. We conduct numerical studies comparing plug-in inference against fully Bayesian inference over a few engineering models and material design applications. In contrast to previous studies on standard GP modeling that have largely concluded that a fully Bayesian treatment offers limited improvements, our results show that for LVGP modeling it offers significant improvements in prediction accuracy and uncertainty quantification over the plug-in approach.
翻訳日:2023-03-24 02:26:03 公開日:2023-03-19
# 近接量子過程トモグラフィによる空間依存偏光変換の探索

Retrieving space-dependent polarization transformations via near-optimal quantum process tomography ( http://arxiv.org/abs/2210.17288v2 )

ライセンス: Link先を確認
Francesco Di Colandrea, Lorenzo Amato, Roberto Schiattarella, Alexandre Dauphin, Filippo Cardano(参考訳) 光波板回転光偏光は単一量子ビットユニタリ作用素としてモデル化することができ、その作用は量子過程トモグラフィーによって実験的に決定できる。 トモグラフィー問題に対する標準的なアプローチは、最大様相の推定に依存し、実験的な射影測定のセットと同じ結果をもたらす最も可能性の高い変換を提供する。 本手法の性能は, 入力測定回数と, 採用する数値最小化ルーチンに大きく依存する。 本稿では、この問題に対する遺伝的および機械学習のアプローチの適用について検討し、最小値に非常に近い一連の投影計測を処理する際に、どちらも正確な再構成と高速な操作を可能にすることを発見した。 これらの手法を空間依存偏光変換に応用し、パターン付き複屈折を持つスピン軌道メタサーフェスの光学的作用を実験的に評価する。 これにより、光学プロセストモグラフィーのための方法論のツールボックスを拡大する。 特に、ニューラルネットワークベースのスキームは、重要なスピードアップを提供しており、リアルタイムにキャラクタリゼーションを必要とするアプリケーションでは重要かもしれない。 これらの結果は、非ユニタリゲートや高次元ヒルベルト空間での演算を含む、より一般的な量子過程におけるトモグラフィーアプローチの最適化の基礎となることを期待している。

An optical waveplate rotating light polarization can be modeled as a single-qubit unitary operator, whose action can be experimentally determined via quantum process tomography. Standard approaches to tomographic problems rely on the maximum-likelihood estimation, providing the most likely transformation to yield the same outcomes as a set of experimental projective measurements. The performances of this method strongly depend on the number of input measurements and the numerical minimization routine that is adopted. Here we investigate the application of genetic and machine learning approaches to this problem, finding that both allow for accurate reconstructions and fast operations when processing a set of projective measurements very close to the minimal one. We apply these techniques to the case of space-dependent polarization transformations, providing an experimental characterization of the optical action of spin-orbit metasurfaces having patterned birefringence. Our efforts thus expand the toolbox of methodologies for optical process tomography. In particular, we find that the neural network-based scheme provides a significant speed-up, that may be critical in applications requiring a characterization in real-time. We expect these results to lay the groundwork for the optimization of tomographic approaches in more general quantum processes, including non-unitary gates and operations in higher-dimensional Hilbert spaces.
翻訳日:2023-03-24 02:24:01 公開日:2023-03-19
# CapEnrich: クロスモーダルな事前学習によるWebイメージのキャプションセマンティックス強化

CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge ( http://arxiv.org/abs/2211.09371v3 )

ライセンス: Link先を確認
Linli Yao, Weijing Chen, Qin Jin(参考訳) web上の大量のラベルのない画像に対するテキスト記述の自動生成は、マルチモーダル検索やレコメンデーションなど、現実的なwebアプリケーションに大きなメリットがある。 しかし、既存のモデルは、異なる画像に対して共通の概念を持つ反復文を生成する傾向など、'over-generic'の記述を生成する問題に悩まされている。 これらの一般的な記述は、絶え間なく変化するWebイメージに十分なテキストセマンティクスを提供していない。 近年のvlp(vision-language pre-training, 視覚言語事前学習)モデルの成功に触発されて,画像記述のテクスト的意味度を自動向上するクロスモーダル事前学習知識の活用について検討した。 追加のヒューマンアノテーションを必要としないため、一般的な画像記述をよりセマンティックな詳細で補完するプラグイン・アンド・プレイフレームワークであるCapEnrichを提案する。 具体的には、まず、所望のトレーニング文を得るための自動データ構築戦略を提案し、学習可能なプロンプトやテンプレートプロンプトといったプロンプト戦略を採用し、VLPモデルにインセンティブを与え、よりテキストの詳細を生成する。 学習可能なテンプレートでは、VLPモデル全体を修正し、プロンプトベクトルのみをチューニングします。 1) VLPモデルの事前学習知識は,多様な視覚概念を記述するために可能な限り確保することができる。 2) 軽量なトレーニング可能なパラメータしか必要としないため、低いデータリソースに親しみやすい。 本手法は,Web画像における文の記述性や多様性を大幅に向上させる。 コードはhttps://github.com/yaolinli/capenrichで入手できる。

Automatically generating textual descriptions for massive unlabeled images on the web can greatly benefit realistic web applications, e.g. multimodal retrieval and recommendation. However, existing models suffer from the problem of generating ``over-generic'' descriptions, such as their tendency to generate repetitive sentences with common concepts for different images. These generic descriptions fail to provide sufficient textual semantics for ever-changing web images. Inspired by the recent success of Vision-Language Pre-training (VLP) models that learn diverse image-text concept alignment during pretraining, we explore leveraging their cross-modal pre-trained knowledge to automatically enrich the textual semantics of image descriptions. With no need for additional human annotations, we propose a plug-and-play framework, i.e CapEnrich, to complement the generic image descriptions with more semantic details. Specifically, we first propose an automatic data-building strategy to get desired training sentences, based on which we then adopt prompting strategies, i.e. learnable and template prompts, to incentivize VLP models to generate more textual details. For learnable templates, we fix the whole VLP model and only tune the prompt vectors, which leads to two advantages: 1) the pre-training knowledge of VLP models can be reserved as much as possible to describe diverse visual concepts; 2) only lightweight trainable parameters are required, so it is friendly to low data resources. Extensive experiments show that our method significantly improves the descriptiveness and diversity of generated sentences for web images. The code is available at https://github.com/yaolinli/CapEnrich.
翻訳日:2023-03-24 02:07:25 公開日:2023-03-19
# SpaText: 制御可能な画像生成のための空間テキスト表現

SpaText: Spatio-Textual Representation for Controllable Image Generation ( http://arxiv.org/abs/2211.14305v2 )

ライセンス: Link先を確認
Omri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, Xi Yin(参考訳) 最近のテキスト・画像拡散モデルでは、前例のない品質の説得力のある結果が得られる。 しかし、異なる領域やオブジェクトの形状やレイアウトをきめ細かな方法で制御することはほぼ不可能である。 このようなコントロールを提供する以前の試みは、固定されたラベルに依存することで妨げられた。 そこで本稿では,open-vocabulary scene controlを用いたテキスト対画像生成手法であるspatextを提案する。 シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザは、各関心領域が自由形式の自然言語記述によって注釈付けされたセグメンテーションマップを提供する。 画像内の各領域に詳細なテキスト記述を有する大規模データセットの欠如により,現在の大規模テキストから画像へのデータセットを活用し,新たなクリップベースの時空間表現のアプローチを基礎として,ピクセルベースと潜在型モデルという2つの最先端拡散モデルの有効性を示す。 さらに,拡散モデルにおける分類器フリー誘導法を多条件ケースに拡張する方法を示し,別の高速化推論アルゴリズムを提案する。 最後に,fidスコアとユーザスタディに加えて,いくつかの自動評価指標を提供し,その手法を評価し,自由形式のテクストシーン制御による画像生成において最先端の結果が得られることを示す。

Recent text-to-image diffusion models are able to generate convincing results of unprecedented quality. However, it is nearly impossible to control the shapes of different regions/objects or their layout in a fine-grained fashion. Previous attempts to provide such controls were hindered by their reliance on a fixed set of labels. To this end, we present SpaText - a new method for text-to-image generation using open-vocabulary scene control. In addition to a global text prompt that describes the entire scene, the user provides a segmentation map where each region of interest is annotated by a free-form natural language description. Due to lack of large-scale datasets that have a detailed textual description for each region in the image, we choose to leverage the current large-scale text-to-image datasets and base our approach on a novel CLIP-based spatio-textual representation, and show its effectiveness on two state-of-the-art diffusion models: pixel-based and latent-based. In addition, we show how to extend the classifier-free guidance method in diffusion models to the multi-conditional case and present an alternative accelerated inference algorithm. Finally, we offer several automatic evaluation metrics and use them, in addition to FID scores and a user study, to evaluate our method and show that it achieves state-of-the-art results on image generation with free-form textual scene control.
翻訳日:2023-03-24 01:40:11 公開日:2023-03-19
# 一様に明るいディスクに対する点オブジェクトの局所化に関する量子限界

Quantum Limits on Localizing Point Objects against a Uniformly Bright Disk ( http://arxiv.org/abs/2211.16395v2 )

ライセンス: Link先を確認
Sudhakar Prasad(参考訳) 本研究では, 量子フィッシャー情報(QFI)を用いて, 円形撮像開口を用いて, 既知の中心と半径の均一な光子計数限界における点源の2次元位置を推定する。 1光子密度演算子の固有基底におけるQFIの背景とソースの輝度比の力による摂動計算と、QFIの数値的正確な計算の両方を示す。 その他の均一な明るい円盤内の小面積の明るさホールの位置を推定する量子限界の関連する問題として、太陽系外惑星検出コミュニティへの潜在的な関心の問題は、穴と背景円盤の面積の比の力で摂動的に扱われる。 次に,2つの問題に対して点源と輝度ホール中心の2つの位置座標を偏りなく推定するために,zernike,fourier-bessel,localized point-source modeの3つのベースにおいて,波面投影のcracker-rao下界(crb)を数値的に評価した。 これらのCRBと、QFI行列を反転させることにより与えられる量子制限最小誤差分散と、直接撮像に伴うCRBを比較して、これらの予測を行う際の波面投影の最大効率を評価する。

We calculate the quantum Fisher information (QFI) for estimating, using a circular imaging aperture, the two-dimensional location of a point source against a uniformly bright disk of known center and radius in the ideal photon-counting limit. We present both a perturbative calculation of the QFI in powers of the background-to-source brightness ratio and a numerically exact calculation of the QFI in the eigen-basis of the one-photon density operator. A related problem of the quantum limit on estimating the location of a small-area brightness hole in an otherwise uniformly bright disk, a problem of potential interest to the extrasolar planet detection community, is also treated perturbatively in powers of the ratio of the areas of the hole and the background disk. We then numerically evaluate the Cramer-Rao lower bound (CRB) for wavefront projections in three separate bases, those comprised of Zernike, Fourier-Bessel and localized point-source modes, for unbiased estimation of the two position coordinates of the point source and of the brightness hole center, respectively, for the two problems. By comparing these CRBs with the corresponding quantum-limited minimum error variances, given by inverting the QFI matrix, and with the CRBs associated with direct imaging, we assess the maximum efficiency of these wavefront projections in performing such estimations.
翻訳日:2023-03-24 01:30:19 公開日:2023-03-19
# LLM-Planner:大規模言語モデルを用いた身体的エージェントの接地計画

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models ( http://arxiv.org/abs/2212.04088v2 )

ライセンス: Link先を確認
Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su(参考訳) 本研究は,視覚的に知覚された環境下で複雑なタスクを完了させるために,自然言語命令に従うことができるエンボディエージェントのプランナーとして,大規模言語モデル(LLM)を使用することに焦点を当てる。 高いデータコストと既存の方法のサンプル効率の低さは、多くのタスクをこなすことができ、新しいタスクを素早く学習できる多用途エージェントの開発を妨げる。 本研究では,大規模言語モデルのパワーを活用し,エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。 また,現在の環境に根ざした計画の生成と更新のために,物理接地によるLCMの簡易かつ効果的な拡張手法を提案する。 LLM-Plannerは、0.5%未満のペアトレーニングデータを使用しても、フルトレーニングデータを使用してトレーニングされた最近のベースラインと競合するパフォーマンスを実現しています。 既存のメソッドは、同じ数ショット設定で、どんなタスクでもほとんど完了できません。 我々の研究は、多くのタスクを素早く学習できる多目的でサンプル効率の良いエンボディエージェントを開発するための扉を開く。 ウェブサイト:https://dki-lab.github.io/LLM-Planner

This study focuses on using large language models (LLMs) as a planner for embodied agents that can follow natural language instructions to complete complex tasks in a visually-perceived environment. The high data cost and poor sample efficiency of existing methods hinders the development of versatile agents that are capable of many tasks and can learn new tasks quickly. In this work, we propose a novel method, LLM-Planner, that harnesses the power of large language models to do few-shot planning for embodied agents. We further propose a simple but effective way to enhance LLMs with physical grounding to generate and update plans that are grounded in the current environment. Experiments on the ALFRED dataset show that our method can achieve very competitive few-shot performance: Despite using less than 0.5% of paired training data, LLM-Planner achieves competitive performance with recent baselines that are trained using the full training data. Existing methods can barely complete any task successfully under the same few-shot setting. Our work opens the door for developing versatile and sample-efficient embodied agents that can quickly learn many tasks. Website: https://dki-lab.github.io/LLM-Planner
翻訳日:2023-03-24 01:20:26 公開日:2023-03-19
# 情景認識エゴセントリックな3次元ポーズ推定

Scene-aware Egocentric 3D Human Pose Estimation ( http://arxiv.org/abs/2212.11684v2 )

ライセンス: Link先を確認
Jian Wang, Lingjie Liu, Weipeng Xu, Kripasindhu Sarkar, Diogo Luvizon, Christian Theobalt(参考訳) 頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により近年注目を集めている。 既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。 この問題に対処するために,シーン制約を伴う自我中心姿勢の予測を導く,情景対応自我中心姿勢推定手法を提案する。 そこで本研究では,広視野の魚眼カメラからシーン深度マップを推定するエゴセントリック深度推定ネットワークを提案する。 次に,2次元画像の特徴と推定深度マップをボクセル空間に投影し,V2Vネットワークで3次元ポーズを回帰するシーン対応ポーズ推定ネットワークを提案する。 ボクセルに基づく特徴表現は、2次元画像特徴とシーン幾何学との間の直接幾何学的接続を提供し、さらにV2Vネットワークにより推定されたシーン幾何学に基づいて予測されたポーズを制約する。 上記のネットワークのトレーニングを可能にするために、egogtaと呼ばれる合成データセットと、egopw-sceneと呼ばれるegopwベースのインザワイルドデータセットも作成しました。 新しい評価シーケンスの実験結果から,予測された3次元自我中心のポーズは人間とシーンの相互作用において正確かつ物理的に妥当であることが示され,本手法が最先端の手法よりも定量的かつ質的に優れていることが示された。

Egocentric 3D human pose estimation with a single head-mounted fisheye camera has recently attracted attention due to its numerous applications in virtual and augmented reality. Existing methods still struggle in challenging poses where the human body is highly occluded or is closely interacting with the scene. To address this issue, we propose a scene-aware egocentric pose estimation method that guides the prediction of the egocentric pose with scene constraints. To this end, we propose an egocentric depth estimation network to predict the scene depth map from a wide-view egocentric fisheye camera while mitigating the occlusion of the human body with a depth-inpainting network. Next, we propose a scene-aware pose estimation network that projects the 2D image features and estimated depth map of the scene into a voxel space and regresses the 3D pose with a V2V network. The voxel-based feature representation provides the direct geometric connection between 2D image features and scene geometry, and further facilitates the V2V network to constrain the predicted pose based on the estimated scene geometry. To enable the training of the aforementioned networks, we also generated a synthetic dataset, called EgoGTA, and an in-the-wild dataset based on EgoPW, called EgoPW-Scene. The experimental results of our new evaluation sequences show that the predicted 3D egocentric poses are accurate and physically plausible in terms of human-scene interaction, demonstrating that our method outperforms the state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2023-03-24 01:02:26 公開日:2023-03-19
# C2マッチングによる参照型画像とビデオ超解像

Reference-based Image and Video Super-Resolution via C2-Matching ( http://arxiv.org/abs/2212.09581v2 )

ライセンス: Link先を確認
Yuming Jiang, Kelvin C.K. Chan, Xintao Wang, Chen Change Loy, Ziwei Liu(参考訳) 参照型スーパーリゾリューション(Ref-SR)は、最近、高解像度(HR)参照画像を導入して、低解像度(LR)入力画像やビデオを強化するための有望なパラダイムとして登場した。 既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。 しかし、入力画像と参照画像の間には、変換ギャップ(例えば、スケールと回転)と分解能ギャップ(例えば、HRとLR)という2つのギャップがあるため、局所移動の実行は困難である。 これらの課題に対処するため,我々はC2-Matchingを提案する。 1) 変換ギャップを埋めるために, 入力画像の強調ビューを用いて変換-ロバスト対応を学習するコントラスト対応ネットワークを提案する。 2) 解答ギャップに対処するために, より容易なHR-HRマッチングから知識を抽出し, より曖昧なLR-HRマッチングを導出する教師-学生相関蒸留を採用する。 3)最後に,入力画像と参照画像間の潜在的な不一致問題に対処する動的集約モジュールを設計する。 また,実環境下での参照ベース画像の超解像性能を忠実に評価するために,実用シナリオを模倣したwebly referenced sr(wr-sr)データセットを提案する。 また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースビデオスーパーソリューションタスクに拡張する。 広範な実験により,提案するc2マッチングは,標準cufed5ベンチマークのartsを著しく上回り,ビデオsrパイプラインにc2マッチングコンポーネントを組み込むことにより,ビデオsrのパフォーマンスを向上させた。

Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image or video by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g., scale and rotation) and the resolution gap (e.g., HR and LR). To tackle these challenges, we propose C2-Matching in this work, which performs explicit robust matching crossing transformation and resolution. 1) To bridge the transformation gap, we propose a contrastive correspondence network, which learns transformation-robust correspondences using augmented views of the input image. 2) To address the resolution gap, we adopt teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue between input images and reference images. In addition, to faithfully evaluate the performance of Reference-based Image Super-Resolution under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. We also extend C2-Matching to Reference-based Video Super-Resolution task, where an image taken in a similar scene serves as the HR reference image. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts on the standard CUFED5 benchmark and also boosts the performance of video SR by incorporating the C2-Matching component into Video SR pipelines.
翻訳日:2023-03-24 01:01:08 公開日:2023-03-19
# KoopmanLab: 複雑な物理方程式を解く機械学習

KoopmanLab: machine learning for solving complex physics equations ( http://arxiv.org/abs/2301.01104v3 )

ライセンス: Link先を確認
Wei Xiong, Muyuan Ma, Xiaomeng Huang, Ziyang Zhang, Pei Sun, Yang Tian(参考訳) 多くの物理学理論は偏微分方程式(PDE)に根ざしている。 しかし、より複雑な物理学方程式、特に解析解や閉形式を持たない方程式は、物理学のさらなる発展を妨げる。 古典的数値的アプローチによるPDEの計算的解法は、精度と効率のトレードオフに悩まされており、未知の潜伏PDEが生成する経験的データには適用できない。 この課題を克服するために、分析解や閉形式を使わずにPDEを学習するための、Koopman Neural operator familyの効率的なモジュールであるKoopmanLabを提案する。 我々のモジュールは、メッシュに依存しないニューラルネットワークベースのPDEソルバの一種であるクープマンニューラル演算子(KNO)の複数の変種から構成される。 knoのコンパクトな変種は、小さなモデルサイズで正確にpdesを解くことができ、knoの大きな変種は、未知、高次元、非線形のpdesによって制御される非常に複雑な動的システムの予測においてより競争力がある。 全ての変種は、代表的PDE(例えば、流体力学におけるナビエ・ストークス方程式とベイトマン・バーガース方程式)とERA5(地球物理学における最大の高解像度の地球規模の気候データセットの1つである)に実装されたメッシュ非依存および長期予測実験によって検証される。 これらの実証は、コープマンラブが方程式や力学系に関連する多様な物理学研究の基本的な道具となる可能性を示唆している。

Numerous physics theories are rooted in partial differential equations (PDEs). However, the increasingly intricate physics equations, especially those that lack analytic solutions or closed forms, have impeded the further development of physics. Computationally solving PDEs by classic numerical approaches suffers from the trade-off between accuracy and efficiency and is not applicable to the empirical data generated by unknown latent PDEs. To overcome this challenge, we present KoopmanLab, an efficient module of the Koopman neural operator family, for learning PDEs without analytic solutions or closed forms. Our module consists of multiple variants of the Koopman neural operator (KNO), a kind of mesh-independent neural-network-based PDE solvers developed following dynamic system theory. The compact variants of KNO can accurately solve PDEs with small model sizes while the large variants of KNO are more competitive in predicting highly complicated dynamic systems govern by unknown, high-dimensional, and non-linear PDEs. All variants are validated by mesh-independent and long-term prediction experiments implemented on representative PDEs (e.g., the Navier-Stokes equation and the Bateman-Burgers equation in fluid mechanics) and ERA5 (i.e., one of the largest high-resolution global-scale climate data sets in earth physics). These demonstrations suggest the potential of KoopmanLab to be a fundamental tool in diverse physics studies related to equations or dynamic systems.
翻訳日:2023-03-24 00:52:26 公開日:2023-03-19
# mn-ds:ニュース記事階層分類のためのマルチラベルニュースデータセット

MN-DS: A Multilabeled News Dataset for News Articles Hierarchical Classification ( http://arxiv.org/abs/2212.12061v2 )

ライセンス: Link先を確認
Alina Petukhova, Nuno Fachada(参考訳) 本稿は、2019年1月1日から12月31日までに収集された階層的なニュースカテゴリを持つ10,917のニュース記事のデータセットを示す。 17の1次分類と109の2次分類の階層分類に基づいて,手作業で記事を分類した。 このデータセットは、ニュース記事を自動的にトピック別に分類する機械学習モデルのトレーニングに使用することができる。 このデータセットは、リリースされたニュースに基づいて、ニュース構造化、分類、将来のイベントを予測する研究者に役立つ。

This article presents a dataset of 10,917 news articles with hierarchical news categories collected between January 1st 2019, and December 31st 2019. We manually labelled the articles based on a hierarchical taxonomy with 17 first-level and 109 second-level categories. This dataset can be used to train machine learning models for automatically classifying news articles by topic. This dataset can be helpful for researchers working on news structuring, classification, and predicting future events based on released news.
翻訳日:2023-03-24 00:49:30 公開日:2023-03-19
# DARTS検索空間に対する擬似反転ボトルネック畳み込み

Pseudo-Inverted Bottleneck Convolution for DARTS Search Space ( http://arxiv.org/abs/2301.01286v3 )

ライセンス: Link先を確認
Arash Ahmadian, Louis S.P. Liu, Yue Fei, Konstantinos N. Plataniotis, Mahdi S. Hosseini(参考訳) 微分可能なアーキテクチャ探索(DARTS)は勾配に基づくニューラルアーキテクチャ探索法として注目されている。 DARTSの導入以来、CNNの最先端アーキテクチャ設計原則に基づいたアクション空間の適応に向けた作業はほとんど行われていない。 本研究では,DARTS検索空間をConvNeXtにインスパイアされたマイクロデザイン変更によって漸進的に拡張し,精度,評価層数,計算コストのトレードオフを研究することで,このギャップに対処することを目的とする。 本研究では,Pseudo-Inverted Bottleneck Conv (PIBConv) ブロックを導入し,ConvNeXtで提案した逆ボトルネックブロックの計算フットプリントを削減する。 提案するアーキテクチャは,評価層数に対する感度が低く,同じ大きさのdartsネットワークを2。 さらに、少ないレイヤで計算フットプリント(gmacsで測定される)とパラメータ数で高い精度を達成できるだけでなく、gradcamの比較では、dartと比較してターゲットオブジェクトの特徴的な特徴を検出できることが示されている。 コードはhttps://github.com/mahdihosseini/pibconvから利用できる。

Differentiable Architecture Search (DARTS) has attracted considerable attention as a gradient-based neural architecture search method. Since the introduction of DARTS, there has been little work done on adapting the action space based on state-of-art architecture design principles for CNNs. In this work, we aim to address this gap by incrementally augmenting the DARTS search space with micro-design changes inspired by ConvNeXt and studying the trade-off between accuracy, evaluation layer count, and computational cost. We introduce the Pseudo-Inverted Bottleneck Conv (PIBConv) block intending to reduce the computational footprint of the inverted bottleneck block proposed in ConvNeXt. Our proposed architecture is much less sensitive to evaluation layer count and outperforms a DARTS network with similar size significantly, at layer counts as small as 2. Furthermore, with less layers, not only does it achieve higher accuracy with lower computational footprint (measured in GMACs) and parameter count, GradCAM comparisons show that our network can better detect distinctive features of target objects compared to DARTS. Code is available from https://github.com/mahdihosseini/PIBConv.
翻訳日:2023-03-24 00:40:12 公開日:2023-03-19
# Pairwise と $K$-wise の比較による人間のフィードバックによる原則強化学習

Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons ( http://arxiv.org/abs/2301.11270v3 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。 解析により、真の報酬関数が線型であるとき、広く用いられる最大極大推定器(MLE)はブラッドリー・テリー・ルーシ(BTL)モデルとプラケット・ルーシ(PL)モデルの両方に収束することを示した。 しかし、学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。 さらに、plモデルの下では、$k$-wise比較をペアワイズ比較に分割する真のmleと代替mleの両方が収束することを示す。 さらに、真のMLEは漸近的により効率的である。 InstructGPTにおける既存のRLHFアルゴリズムの実証的成功を検証し,アルゴリズム設計の新しい知見を提供する。 さらに,RLHFと最大エントロピー逆強化学習(IRL)の問題を統一し,最大エントロピーIRLに束縛された最初のサンプル複雑性を提供する。

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and max-entropy Inverse Reinforcement Learning (IRL), and provide the first sample complexity bound for max-entropy IRL.
翻訳日:2023-03-24 00:33:21 公開日:2023-03-19
# ChatGPTは良い翻訳ツールか? はい gpt-4をエンジンとして

Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine ( http://arxiv.org/abs/2301.08745v3 )

ライセンス: Link先を確認
Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Zhaopeng Tu(参考訳) 本報告では,機械翻訳におけるChatGPTの予備評価を行い,翻訳プロンプト,多言語翻訳,翻訳堅牢性について述べる。 chatgptが推奨するプロンプトを使って翻訳能力を起動し、候補プロンプトが一般的にうまく動作し、パフォーマンスの差が小さいことが分かりました。 多数のベンチマークテストセットを評価することで、ChatGPTは高リソースのヨーロッパ言語で商用翻訳製品(Google Translateなど)と競合するが、低リソースや遠方の言語では遅れがかなり大きいことが分かる。 遠方の言語では、$\mathbf{pivot~prompting}$という興味深い戦略を探索し、ChatGPTにソース文を高リソースのピボット言語に変換するよう求め、翻訳性能を大幅に向上させる。 翻訳の堅牢性については、chatgptは生物医学的抽象やredditコメントの商用システムほど性能は良くないが、音声言語では良い結果を示している。 GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。 言い換えれば、$\mathbf{ChatGPT~has~already~become~a~good~translator! スクリプトとデータ: https://github.com/wxjiao/is-chatgpt-a-good-translator

This report provides a preliminary evaluation of ChatGPT for machine translation, including translation prompt, multilingual translation, and translation robustness. We adopt the prompts advised by ChatGPT to trigger its translation ability and find that the candidate prompts generally work well and show minor performance differences. By evaluating on a number of benchmark test sets, we find that ChatGPT performs competitively with commercial translation products (e.g., Google Translate) on high-resource European languages but lags behind significantly on low-resource or distant languages. For distant languages, we explore an interesting strategy named $\mathbf{pivot~prompting}$ that asks ChatGPT to translate the source sentence into a high-resource pivot language before into the target language, which improves the translation performance significantly. As for the translation robustness, ChatGPT does not perform as well as the commercial systems on biomedical abstracts or Reddit comments but exhibits good results on spoken language. With the launch of the GPT-4 engine, the translation performance of ChatGPT is significantly boosted, becoming comparable to commercial translation products, even for distant languages. In other words, $\mathbf{ChatGPT~has~already~become~a~good~translator!}$ Scripts and data: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator
翻訳日:2023-03-24 00:32:00 公開日:2023-03-19
# 論理を用いた騒がしい群衆ラベルからの学習

Learning from Noisy Crowd Labels with Logics ( http://arxiv.org/abs/2302.06337v3 )

ライセンス: Link先を確認
Zhijun Chen, Hailong Sun, Haoqian He, Pengpeng Chen(参考訳) 本稿では,雑音の多い群集ラベルから学習する深層ニューラルネットワークへの記号論理知識の統合について検討する。 ノイズラベル付きデータと論理規則の両方から学習するemライクな反復型論理知識蒸留フレームワークである,うるさい群衆ラベル(logic-lncl)からの論理誘導学習を導入する。 従来のEMメソッドとは異なり,我々のフレームワークには,論理ルールから新たなタイプの学習ターゲットを抽出する ``pseudo-E-step' が含まれており,それを '`pseudo-M-step' で分類器の訓練に使用する。 テキスト感情分類と名前付きエンティティ認識のための2つの実世界のデータセットに対する広範囲な評価は、提案フレームワークが最先端を改善し、騒々しい群衆ラベルから学習するための新しいソリューションを提供することを示す。

This paper explores the integration of symbolic logic knowledge into deep neural networks for learning from noisy crowd labels. We introduce Logic-guided Learning from Noisy Crowd Labels (Logic-LNCL), an EM-alike iterative logic knowledge distillation framework that learns from both noisy labeled data and logic rules of interest. Unlike traditional EM methods, our framework contains a ``pseudo-E-step'' that distills from the logic rules a new type of learning target, which is then used in the ``pseudo-M-step'' for training the classifier. Extensive evaluations on two real-world datasets for text sentiment classification and named entity recognition demonstrate that the proposed framework improves the state-of-the-art and provides a new solution to learning from noisy crowd labels.
翻訳日:2023-03-24 00:04:30 公開日:2023-03-19
# 浅部視覚トランスフォーマの理論的理解--学習・一般化・サンプル複雑性

A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity ( http://arxiv.org/abs/2302.06015v2 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Sijia Liu, Pin-yu Chen(参考訳) 自己着脱モジュールを備えた視覚トランスフォーマー(vits)は、近年多くの視覚タスクで大きな成功を収めている。 しかし、層間の非凸相互作用のため、理論的な学習と一般化分析がほとんどである。 本稿では,ラベル関連トークンとラベル関連トークンの両方を特徴付けるデータモデルに基づいて,浅いvit,すなわち1つの自己付着層と2層パーセプトロンを分類タスクとして訓練する最初の理論的解析を行う。 サンプルの複雑さを特徴付け、ゼロ一般化誤差を実現する。 私たちのサンプル複雑性境界は、ラベル関連トークンの分数、トークンノイズレベル、初期モデルエラーの逆と正の相関がある。 また,確率的勾配降下 (sgd) を用いた学習プロセスが,注意度マップのスパース化につながることを証明し,注意度の成功に関する一般直観の形式的検証を行った。 さらに, 適切なトークンスペーシフィケーションは, 相関関係を含むラベル不関連トークンやノイズトークンを除去することにより, テスト性能を向上させることができることを示す。 合成データとCIFAR-10データセットに関する実証実験は、我々の理論結果を正当化し、より深いViTに一般化する。

Vision Transformers (ViTs) with self-attention modules have recently achieved great empirical success in many vision tasks. Due to non-convex interactions across layers, however, theoretical learning and generalization analysis is mostly elusive. Based on a data model characterizing both label-relevant and label-irrelevant tokens, this paper provides the first theoretical analysis of training a shallow ViT, i.e., one self-attention layer followed by a two-layer perceptron, for a classification task. We characterize the sample complexity to achieve a zero generalization error. Our sample complexity bound is positively correlated with the inverse of the fraction of label-relevant tokens, the token noise level, and the initial model error. We also prove that a training process using stochastic gradient descent (SGD) leads to a sparse attention map, which is a formal verification of the general intuition about the success of attention. Moreover, this paper indicates that a proper token sparsification can improve the test performance by removing label-irrelevant and/or noisy tokens, including spurious correlations. Empirical experiments on synthetic data and CIFAR-10 dataset justify our theoretical results and generalize to deeper ViTs.
翻訳日:2023-03-24 00:03:20 公開日:2023-03-19
# マスク基準画像品質評価

Mask Reference Image Quality Assessment ( http://arxiv.org/abs/2302.13770v2 )

ライセンス: Link先を確認
Pengxiang Xiao, Shuai He, Limin Liu, Anlong Ming(参考訳) 意味情報を理解することは、フル参照(FR)法と非参照(NR)画像品質評価(IQA)法の両方で何が学べるかを知るための重要なステップである。 しかし、特に多くの歪んだ画像に対して、参照として非歪な画像があるとしても(FR-IQA)、歪んだ画像の失われた意味やテクスチャ情報を直接知覚することは困難である。 本稿では,歪んだ画像の特定のパッチをマスクし,参照画像パッチで欠落したパッチを補うマスク参照iqa(mr-iqa)法を提案する。 このように、このモデルでは、品質評価のために再構成された画像を入力するだけでよい。 まず、参照画像から最適な候補パッチを選択し、歪んだ画像で失われた意味情報を補足するマスク生成器を設計し、品質評価の参考となるとともに、異なるマスクパッチはモデルのトレーニングを優先し、過剰フィッティングを減少させるデータ拡張を暗示する。 第2に,Mask Reference Network (MRNet): マスクされたパッチによる障害を防止し,再構成画像におけるパッチの不連続を解消する。 本手法は,ベンチマークKADID-10k, LIVE, CSIQデータセット上での最先端性能を実現し, データセット間の一般化性能を向上する。 コードと結果は補足資料で入手できる。

Understanding semantic information is an essential step in knowing what is being learned in both full-reference (FR) and no-reference (NR) image quality assessment (IQA) methods. However, especially for many severely distorted images, even if there is an undistorted image as a reference (FR-IQA), it is difficult to perceive the lost semantic and texture information of distorted images directly. In this paper, we propose a Mask Reference IQA (MR-IQA) method that masks specific patches of a distorted image and supplements missing patches with the reference image patches. In this way, our model only needs to input the reconstructed image for quality assessment. First, we design a mask generator to select the best candidate patches from reference images and supplement the lost semantic information in distorted images, thus providing more reference for quality assessment; in addition, the different masked patches imply different data augmentations, which favors model training and reduces overfitting. Second, we provide a Mask Reference Network (MRNet): the dedicated modules can prevent disturbances due to masked patches and help eliminate the patch discontinuity in the reconstructed image. Our method achieves state-of-the-art performances on the benchmark KADID-10k, LIVE and CSIQ datasets and has better generalization performance across datasets. The code and results are available in the supplementary material.
翻訳日:2023-03-23 23:25:53 公開日:2023-03-19
# 高速収束のための単一ステップ合成特徴圧縮器を用いたコミュニケーション効率のよいフェデレーション学習

Communication-efficient Federated Learning with Single-Step Synthetic Features Compressor for Faster Convergence ( http://arxiv.org/abs/2302.13562v2 )

ライセンス: Link先を確認
Yuhao Zhou, Mingjia Shi, Yuanxi Li, Qing Ye, Yanan Sun, Jiancheng Lv(参考訳) 連合学習(fl)における通信オーバーヘッドの削減は難しいが、大規模分散プライバシ保存機械学習では不可欠である。 スパシフィケーションなどの手法は通信オーバーヘッドを大幅に減らすことができるが、収束率も著しく損なわれる。 本稿では, 単段合成特徴圧縮機(3SFC)という新しい手法を提案し, 生勾配に基づいて, 小さな合成データセットを直接構築することにより, 通信効率の高いFLを実現する。 したがって、3SFCは、構築されたデータセットが1つのデータサンプルのみを含む場合、非常に低い圧縮率を達成することができる。 さらに、3sfcの圧縮相は相似性に基づく目的関数を利用して1ステップで最適化できるため、性能とロバスト性が大幅に向上する。 さらに,圧縮誤差を最小限に抑えるため,誤差フィードバック(EF)も3SFCに組み込まれている。 複数のデータセットとモデルの実験から、3SFCは圧縮率の低い競合する手法(最大0.02%)に比べてはるかに優れた収束率を持っていることが示唆された。 さらに、アブレーション研究と可視化により、3sfcはコミュニケーションラウンド毎に競合する方法よりも多くの情報を運ぶことができ、その効果をさらに検証できることを示した。

Reducing communication overhead in federated learning (FL) is challenging but crucial for large-scale distributed privacy-preserving machine learning. While methods utilizing sparsification or others can largely lower the communication overhead, the convergence rate is also greatly compromised. In this paper, we propose a novel method, named single-step synthetic features compressor (3SFC), to achieve communication-efficient FL by directly constructing a tiny synthetic dataset based on raw gradients. Thus, 3SFC can achieve an extremely low compression rate when the constructed dataset contains only one data sample. Moreover, 3SFC's compressing phase utilizes a similarity-based objective function so that it can be optimized with just one step, thereby considerably improving its performance and robustness. In addition, to minimize the compressing error, error feedback (EF) is also incorporated into 3SFC. Experiments on multiple datasets and models suggest that 3SFC owns significantly better convergence rates compared to competing methods with lower compression rates (up to 0.02%). Furthermore, ablation studies and visualizations show that 3SFC can carry more information than competing methods for every communication round, further validating its effectiveness.
翻訳日:2023-03-23 23:25:29 公開日:2023-03-19
# UniHCP:人間中心の知覚の統一モデル

UniHCP: A Unified Model for Human-Centric Perceptions ( http://arxiv.org/abs/2303.02936v2 )

ライセンス: Link先を確認
Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang(参考訳) 人間中心の知覚(ポーズ推定、人間の解析、歩行者検出、人物再同定など)は、視覚モデルの産業応用において重要な役割を果たす。 特定の人間中心のタスクは、それぞれに焦点をあてる意味的な側面を持っているが、同時に、人体の基本的な意味構造も共有している。 しかし、そのような均質性を活かし、人間中心タスクの汎用モデルの設計を試みる研究はほとんどない。 本研究では、人間中心の幅広いタスクを再考し、最小限の方法でそれらを統一する。 そこで我々は,人間中心のタスクを多種多様なタスクに統一したUniHCPを,視覚トランスフォーマアーキテクチャを用いて簡易なエンド・ツー・エンド方式で提案する。 33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPはいくつかのドメイン内および下流タスクにおいて、直接評価によって強力なベースラインを達成できる。 特定のタスクに適応すると、UniHCPは、人間解析用のCIHPの69.8 mIoU、属性予測用のPA-100Kの86.18 mA、ReID用のMarket1501の90.3 mAP、歩行者検出用のCrowdHumanの85.8 JIなど、幅広い人間中心のタスクで新しいSOTAを達成し、各タスク用に調整された特別モデルよりも優れたパフォーマンスを発揮する。

Human-centric perceptions (e.g., pose estimation, human parsing, pedestrian detection, person re-identification, etc.) play a key role in industrial applications of visual models. While specific human-centric tasks have their own relevant semantic aspect to focus on, they also share the same underlying semantic structure of the human body. However, few works have attempted to exploit such homogeneity and design a general-propose model for human-centric tasks. In this work, we revisit a broad range of human-centric tasks and unify them in a minimalist manner. We propose UniHCP, a Unified Model for Human-Centric Perceptions, which unifies a wide range of human-centric tasks in a simplified end-to-end manner with the plain vision transformer architecture. With large-scale joint training on 33 human-centric datasets, UniHCP can outperform strong baselines on several in-domain and downstream tasks by direct evaluation. When adapted to a specific task, UniHCP achieves new SOTAs on a wide range of human-centric tasks, e.g., 69.8 mIoU on CIHP for human parsing, 86.18 mA on PA-100K for attribute prediction, 90.3 mAP on Market1501 for ReID, and 85.8 JI on CrowdHuman for pedestrian detection, performing better than specialized models tailored for each task.
翻訳日:2023-03-23 23:19:07 公開日:2023-03-19
# Seq-HyGAN:Hypergraph Attention Networkによるシーケンス分類

Seq-HyGAN: Sequence Classification via Hypergraph Attention Network ( http://arxiv.org/abs/2303.02393v2 )

ライセンス: Link先を確認
Khaled Mohammed Saifuddin, Corey May, Farhan Tanvir, Muhammad Ifte Khairul Islam, Esra Akbas(参考訳) シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。 しかし、シーケンスデータに明示的な特徴がないため、機械学習モデルでは困難である。 ニューラルネットワーク(NN)モデルは、学習機能によってこの問題に対処するが、隣接する構造的接続をキャプチャし、シーケンス間のグローバルで高次情報を無視している。 シーケンス分類問題におけるこれらの課題に対処するため,我々は新しいハイパーグラフアテンションネットワークモデルseq-hyganを提案する。 シーケンスデータ間の複雑な構造的類似性を捉えるために、まず、シーケンスをハイパーエッジとして、シーケンスから抽出されたサブシーケンスをノードとして表現するハイパーグラフを作成する。 さらに,2段階の注意機構を利用した注意に基づくハイパーグラフニューラルネットワークモデルを提案する。 このモデルは、各シーケンスの重要なサブシーケンスを同時に学習しながら、ハイパーエッジとしてシーケンス表現を生成する。 我々は4つのデータセットについて広範な実験を行い、そのモデルをいくつかの最先端手法と比較した。 実験により,提案したSeq-HyGANモデルにより,シーケンスデータを効果的に分類し,ベースラインを大幅に上回ることを示す。 また,Seq-HyGANにおける各モジュールの寄与を調べるケーススタディも実施する。

Sequence classification has a wide range of real-world applications in different domains, such as genome classification in health and anomaly detection in business. However, the lack of explicit features in sequence data makes it difficult for machine learning models. While Neural Network (NN) models address this with learning features automatically, they are limited to capturing adjacent structural connections and ignore global, higher-order information between the sequences. To address these challenges in the sequence classification problems, we propose a novel Hypergraph Attention Network model, namely Seq-HyGAN. To capture the complex structural similarity between sequence data, we first create a hypergraph where the sequences are depicted as hyperedges and subsequences extracted from sequences are depicted as nodes. Additionally, we introduce an attention-based Hypergraph Neural Network model that utilizes a two-level attention mechanism. This model generates a sequence representation as a hyperedge while simultaneously learning the crucial subsequences for each sequence. We conduct extensive experiments on four data sets to assess and compare our model with several state-of-the-art methods. Experimental results demonstrate that our proposed Seq-HyGAN model can effectively classify sequence data and significantly outperform the baselines. We also conduct case studies to investigate the contribution of each module in Seq-HyGAN.
翻訳日:2023-03-23 23:18:13 公開日:2023-03-19
# 早期出力を用いた深部ニューラルネットワークの階層的学習

Hierarchical Training of Deep Neural Networks Using Early Exiting ( http://arxiv.org/abs/2303.02384v2 )

ライセンス: Link先を確認
Yamin Sepehri, Pedram Pad, Ahmet Caner Y\"uz\"ug\"uler, Pascal Frossard, L. Andrea Dunbar(参考訳) ディープニューラルネットワークはビジョンタスクに最先端の精度を提供するが、トレーニングにはかなりのリソースを必要とする。 したがって、データを取得するエッジデバイスから遠く離れたクラウドサーバでトレーニングされる。 この問題は通信コスト、ランタイム、プライバシの懸念を高める。 本研究では,エッジとクラウドワーカを分割したアーキテクチャで早期のエグジットを利用して通信コスト,トレーニングランタイム,プライバシの懸念を緩和する,ディープニューラルネットワークの新しい階層的トレーニング手法を提案する。 本手法では,トレーニング期間中のエッジとクラウド間のニューラルネットワークの後方通過を分離するために,早期出口の新しいユースケースを提案する。 トレーニングフェーズのシーケンシャルな性質のため、階層のレベルを同時にトレーニングできない、あるいはプライバシを妥協するコストで実行できない、最も利用可能なメソッドの問題に対処する。 対照的に,本手法はエッジとクラウドワーカを同時に使用することができ,生の入力データをクラウドと共有せず,後方通過時の通信も不要である。 異なるニューラルネットワークアーキテクチャに対するいくつかのシミュレーションとオンデバイス実験は、この方法の有効性を実証している。 VGG-16とResNet-18のCIFAR-10分類実験において,クラウドとの通信を低ビットレートチャネルで行う場合,本手法はトレーニングランタイムを29%,61%削減する。 この実行時の利得は達成され、精度低下は無視される。 この方法は、エッジクラウドシステムの一部として携帯電話やロボットなどの低リソースデバイス上での、高精度なディープニューラルネットワークのオンライン学習に有利であり、新しいタスクやクラスのデータに対してより柔軟である。

Deep neural networks provide state-of-the-art accuracy for vision tasks but they require significant resources for training. Thus, they are trained on cloud servers far from the edge devices that acquire the data. This issue increases communication cost, runtime and privacy concerns. In this study, a novel hierarchical training method for deep neural networks is proposed that uses early exits in a divided architecture between edge and cloud workers to reduce the communication cost, training runtime and privacy concerns. The method proposes a brand-new use case for early exits to separate the backward pass of neural networks between the edge and the cloud during the training phase. We address the issues of most available methods that due to the sequential nature of the training phase, cannot train the levels of hierarchy simultaneously or they do it with the cost of compromising privacy. In contrast, our method can use both edge and cloud workers simultaneously, does not share the raw input data with the cloud and does not require communication during the backward pass. Several simulations and on-device experiments for different neural network architectures demonstrate the effectiveness of this method. It is shown that the proposed method reduces the training runtime by 29% and 61% in CIFAR-10 classification experiment for VGG-16 and ResNet-18 when the communication with the cloud is done at a low bit rate channel. This gain in the runtime is achieved whilst the accuracy drop is negligible. This method is advantageous for online learning of high-accuracy deep neural networks on low-resource devices such as mobile phones or robots as a part of an edge-cloud system, making them more flexible in facing new tasks and classes of data.
翻訳日:2023-03-23 23:17:52 公開日:2023-03-19
# 機械学習を用いた公式概念の発見と認識

Discovery and Recognition of Formula Concepts using Machine Learning ( http://arxiv.org/abs/2303.01994v2 )

ライセンス: Link先を確認
Philipp Scharpf and Moritz Schubotz and Howard S. Cohl and Corinna Breitinger and Bela Gipp(参考訳) 科学文献の引用に基づく情報検索法(IR法)は、多くの文献を参照する学術分野において、プラジャリズム検出や文学推薦システムなどのIR応用に有効であることが証明されている。 科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。 我々の長期目標は、引用に基づくIR法を一般化し、古典的参照と数学的概念の両方に適用することである。 本稿では,式概念発見(fcd)と式概念認識(fcr)の2つのサブタスクを用いた数式概念検索タスクを,数学式がどのように引用し定義するかを提案する。 FCDは、式にバンドルされた等価表現を名付ける「形式的概念」の定義と探索を目的としているが、FCRは、与えられた公式を割り当てられた一意の数学的概念識別子と一致させるように設計されている。 本稿では、FCDおよびFCRタスクに対処するための機械学習に基づくアプローチを提案する。 次に、これらのアプローチを標準化されたテストコレクション(NTCIR arXiv データセット)上で評価する。 FCD法では, 頻繁な公式の等価表現を抽出するための精度が68%, 周辺テキストから式名を抽出するためのリコールが72%であった。 fcd と fcr は数学的文書内の公式の引用を可能にし、意味検索や質問への回答を容易にし、またプラジアリズム検出やレコメンデーションシステムのための文書類似性評価も行う。

Citation-based Information Retrieval (IR) methods for scientific documents have proven effective for IR applications, such as Plagiarism Detection or Literature Recommender Systems in academic disciplines that use many references. In science, technology, engineering, and mathematics, researchers often employ mathematical concepts through formula notation to refer to prior knowledge. Our long-term goal is to generalize citation-based IR methods and apply this generalized method to both classical references and mathematical concepts. In this paper, we suggest how mathematical formulas could be cited and define a Formula Concept Retrieval task with two subtasks: Formula Concept Discovery (FCD) and Formula Concept Recognition (FCR). While FCD aims at the definition and exploration of a 'Formula Concept' that names bundled equivalent representations of a formula, FCR is designed to match a given formula to a prior assigned unique mathematical concept identifier. We present machine learning-based approaches to address the FCD and FCR tasks. We then evaluate these approaches on a standardized test collection (NTCIR arXiv dataset). Our FCD approach yields a precision of 68% for retrieving equivalent representations of frequent formulas and a recall of 72% for extracting the formula name from the surrounding text. FCD and FCR enable the citation of formulas within mathematical documents and facilitate semantic search and question answering as well as document similarity assessments for plagiarism detection or recommender systems.
翻訳日:2023-03-23 23:17:22 公開日:2023-03-19
# 多群学習によるグループ条件妥当性

Group conditional validity via multi-group learning ( http://arxiv.org/abs/2303.03995v2 )

ライセンス: Link先を確認
Samuel Deng, Navid Ardeshir, Daniel Hsu(参考訳) 分布自由な共形予測の問題と群条件妥当性の基準を考える。 この基準は隠れ階層化や集団フェアネスを含む多くの実用的なシナリオによって動機づけられている。 既存の手法は、制限的群化構造または分布的仮定の下でそのような保証を達成するか、あるいはヘテロスケダスティックノイズの下で過度に保守的である。 マルチグループ学習と呼ばれる問題に対して,アルゴリズムを活用することにより,個人集団に対する妥当性保証を実現する問題に対する簡易な削減を提案する。 これにより、多群学習から理論的保証を移植し、共形予測のためのサンプル複雑性保証を得る。 また,階層構造を持つグループを対象とした多群学習アルゴリズムを提案する。 このアルゴリズムを還元に使用すると、より単純な予測構造でサンプルの複雑さが保証される。

We consider the problem of distribution-free conformal prediction and the criterion of group conditional validity. This criterion is motivated by many practical scenarios including hidden stratification and group fairness. Existing methods achieve such guarantees under either restrictive grouping structure or distributional assumptions, or they are overly-conservative under heteroskedastic noise. We propose a simple reduction to the problem of achieving validity guarantees for individual populations by leveraging algorithms for a problem called multi-group learning. This allows us to port theoretical guarantees from multi-group learning to obtain obtain sample complexity guarantees for conformal prediction. We also provide a new algorithm for multi-group learning for groups with hierarchical structure. Using this algorithm in our reduction leads to improved sample complexity guarantees with a simpler predictor structure.
翻訳日:2023-03-23 23:07:55 公開日:2023-03-19
# 連続強化学習対象物はPAC学習可能

Computably Continuous Reinforcement-Learning Objectives are PAC-learnable ( http://arxiv.org/abs/2303.05518v2 )

ライセンス: Link先を確認
Cambridge Yang, Michael Littman, Michael Carbin(参考訳) 強化学習において、割引と有限水平累積報酬を最大化する古典的な目的は、PAC学習可能である: 有限量のサンプルと計算を用いて、確率の高い準最適ポリシーを学習するアルゴリズムがある。 近年、研究者は、線形時間論理式として指定された目的など、古典的な累積報酬を超えた目的とそれに対応する強化学習アルゴリズムを導入している。 しかし、これらの新たな目的のPAC学習性に関する疑問は、まだ未解決のままである。 本研究は, 一般強化学習目標のパックリーナビリティを, 2つの分析条件におけるパックリーナビリティの十分条件を通して示している。 特に、サンプル複雑性のみを考慮した分析では、オラクルとして与えられた目的が一様連続であれば、PAC学習可能であることを示す。 さらに,計算複雑性を考慮した解析では,目的が計算可能であればpac-learnableであることが証明される。 言い換えれば、手続きが目標値の連続的な近似を計算するなら、目的はPAC学習可能である。 本稿では,PAC学習能力が不明な文献の目的に対する条件の3つの適用例を示し,これらの目的がPAC学習可能であることを証明する。 その結果,既存のPAC学習能力の検証に有効である。 また、一様連続でない研究対象がPAC学習可能でないことが示されているため、新たなPAC学習可能目標の設計を導くことができる。

In reinforcement learning, the classic objectives of maximizing discounted and finite-horizon cumulative rewards are PAC-learnable: There are algorithms that learn a near-optimal policy with high probability using a finite amount of samples and computation. In recent years, researchers have introduced objectives and corresponding reinforcement-learning algorithms beyond the classic cumulative rewards, such as objectives specified as linear temporal logic formulas. However, questions about the PAC-learnability of these new objectives have remained open. This work demonstrates the PAC-learnability of general reinforcement-learning objectives through sufficient conditions for PAC-learnability in two analysis settings. In particular, for the analysis that considers only sample complexity, we prove that if an objective given as an oracle is uniformly continuous, then it is PAC-learnable. Further, for the analysis that considers computational complexity, we prove that if an objective is computable, then it is PAC-learnable. In other words, if a procedure computes successive approximations of the objective's value, then the objective is PAC-learnable. We give three applications of our condition on objectives from the literature with previously unknown PAC-learnability and prove that these objectives are PAC-learnable. Overall, our result helps verify existing objectives' PAC-learnability. Also, as some studied objectives that are not uniformly continuous have been shown to be not PAC-learnable, our results could guide the design of new PAC-learnable objectives.
翻訳日:2023-03-23 22:57:38 公開日:2023-03-19
# DDS2M:ハイパースペクトル画像復元のための自己監督型拡散比スペクトルモデル

DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for Hyperspectral Image Restoration ( http://arxiv.org/abs/2303.06682v2 )

ライセンス: Link先を確認
Yuchun Miao and Lefei Zhang and Liangpei Zhang and Dacheng Tao(参考訳) 拡散モデルは、特にノイズの堅牢性の観点から、画像復元における印象的な性能のために最近注目されている。 しかしながら、既存の拡散ベースの手法は、大量のトレーニングデータに基づいて訓練され、非常によく分布するが、分布シフトの影響を受けやすい。 これは特にhsi(data-starved hyperspectral image)復元には不適切である。 この問題に対処するため、本研究では、逆拡散過程において、劣化したHSIを余分なトレーニングデータなしでのみ使用することにより、提案した変分拡散比スペクトルモデル(VS2M)のパラメータを推定することで機能する、HSI修復のための自己教師付き拡散モデル(Denoising Diffusion Spatio-Spectral Model (\texttt{DDS2M})を提案する。 VS2Mでは、ばらつき推論に基づく損失関数をカスタマイズして、トレーニングされていない空間およびスペクトルネットワークが後続分布を学習し、サンプリングチェーンの遷移として拡散過程の反転を支援する。 自己監督的な性質と拡散過程から、既存の拡散ベース法と比較して様々なHSIに対してより強力な一般化能力と、既存のHSI復元法に比べて耐雑音性を有する。 hsiデノイジング、ノイズの多いhsiコンプリート、および様々なhsis上の超解像に関する広範囲な実験は、既存のタスク固有の状態に対する \texttt{dds2m} の優位性を示している。

Diffusion models have recently received a surge of interest due to their impressive performance for image restoration, especially in terms of noise robustness. However, existing diffusion-based methods are trained on a large amount of training data and perform very well in-distribution, but can be quite susceptible to distribution shift. This is especially inappropriate for data-starved hyperspectral image (HSI) restoration. To tackle this problem, this work puts forth a self-supervised diffusion model for HSI restoration, namely Denoising Diffusion Spatio-Spectral Model (\texttt{DDS2M}), which works by inferring the parameters of the proposed Variational Spatio-Spectral Module (VS2M) during the reverse diffusion process, solely using the degraded HSI without any extra training data. In VS2M, a variational inference-based loss function is customized to enable the untrained spatial and spectral networks to learn the posterior distribution, which serves as the transitions of the sampling chain to help reverse the diffusion process. Benefiting from its self-supervised nature and the diffusion process, \texttt{DDS2M} enjoys stronger generalization ability to various HSIs compared to existing diffusion-based methods and superior robustness to noise compared to existing HSI restoration methods. Extensive experiments on HSI denoising, noisy HSI completion and super-resolution on a variety of HSIs demonstrate \texttt{DDS2M}'s superiority over the existing task-specific state-of-the-arts.
翻訳日:2023-03-23 22:47:50 公開日:2023-03-19
# マルチモデルアクティブラーニングによる統計ハードウェア設計

Statistical Hardware Design With Multi-model Active Learning ( http://arxiv.org/abs/2303.08054v3 )

ライセンス: Link先を確認
Alireza Ghaffari, Masoud Asgharian, Yvon Savaria(参考訳) 現代の社会に貢献する多くの新しいアプリケーションが複雑化するにつれ、効率的なコンピューティングプラットフォームを設計する必要がある。 しかし、効率的なハードウェアの設計は、複数のパラメータとその相互作用を扱う複雑な多目的問題である。 ハードウェア設計には多数のパラメータや目的があるので、可能な組み合わせをすべて合成することは、最適解を見つけるための実現可能な方法ではない。 この問題に取り組むための有望なアプローチは、望ましいハードウェア性能の統計的モデリングである。 本稿では,この問題を解決するためのモデルベースアクティブラーニング手法を提案する。 提案手法はベイズモデルを用いてハードウェア性能の様々な側面を特徴付ける。 また、より正確なモデルを作成するために、トランスファー学習とガウス回帰ブートストラップ技術とアクティブラーニングを併用しています。 提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。 提案手法は,FPGAターゲット用マイクロアーキテクチャ設計やOpenCLカーネルなど,様々なハードウェア構成のための設計空間探索と性能予測を行う。 実験により,提案する統計モデルの予測力を維持しつつ,性能モデル作成に必要なサンプル数が大幅に減少することを示した。 例えば、性能予測設定では、提案手法はモデルを作成するのに65%のサンプルが必要であり、設計空間探索設定では、提案手法は50未満のサンプルを探索することで最適なパラメータ設定を見つけることができる。

With the rising complexity of numerous novel applications that serve our modern society comes the strong need to design efficient computing platforms. Designing efficient hardware is, however, a complex multi-objective problem that deals with multiple parameters and their interactions. Given that there are a large number of parameters and objectives involved in hardware design, synthesizing all possible combinations is not a feasible method to find the optimal solution. One promising approach to tackle this problem is statistical modeling of a desired hardware performance. Here, we propose a model-based active learning approach to solve this problem. Our proposed method uses Bayesian models to characterize various aspects of hardware performance. We also use transfer learning and Gaussian regression bootstrapping techniques in conjunction with active learning to create more accurate models. Our proposed statistical modeling method provides hardware models that are sufficiently accurate to perform design space exploration as well as performance prediction simultaneously. We use our proposed method to perform design space exploration and performance prediction for various hardware setups, such as micro-architecture design and OpenCL kernels for FPGA targets. Our experiments show that the number of samples required to create performance models significantly reduces while maintaining the predictive power of our proposed statistical models. For instance, in our performance prediction setting, the proposed method needs 65% fewer samples to create the model, and in the design space exploration setting, our proposed method can find the best parameter settings by exploring less than 50 samples.
翻訳日:2023-03-23 22:39:45 公開日:2023-03-19
# 3次テンソル用マルチスライスクラスタリングのDBSCAN

DBSCAN of Multi-Slice Clustering for Third-Order Tensors ( http://arxiv.org/abs/2303.07768v2 )

ライセンス: Link先を確認
Dina Faneva Andriantsiory, Joseph Ben Geloun, Mustapha Lebbah(参考訳) 3次元データのトリクラスタリングには、各次元のクラスタサイズやクラスタ数を指定する必要がある。 この問題に対処するために、3階テンソルのマルチスライスクラスタリング(msc)は、しきい値の類似性に基づいてクラスタを見つけるために、ランク1テンソルデータセットの低次元部分空間にある信号スライスを見つける。 データセットがrランク1テンソル(r > 1)の和である場合、データから異なる部分空間にある異なるスライス群を抽出するMSC-DBSCANという拡張アルゴリズムを提案する。 我々のアルゴリズムはMSCアルゴリズムと同じ入力を使い、MSCとランクワンテンソルデータの解を見つけることができる。

Several methods for triclustering three-dimensional data require the cluster size or the number of clusters in each dimension to be specified. To address this issue, the Multi-Slice Clustering (MSC) for 3-order tensor finds signal slices that lie in a low dimensional subspace for a rank-one tensor dataset in order to find a cluster based on the threshold similarity. We propose an extension algorithm called MSC-DBSCAN to extract the different clusters of slices that lie in the different subspaces from the data if the dataset is a sum of r rank-one tensor (r > 1). Our algorithm uses the same input as the MSC algorithm and can find the same solution for rank-one tensor data as MSC.
翻訳日:2023-03-23 22:38:57 公開日:2023-03-19
# v2v4real:車間協調認識のための実世界の大規模データセット

V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle Cooperative Perception ( http://arxiv.org/abs/2303.07601v2 )

ライセンス: Link先を確認
Runsheng Xu, Xin Xia, Jinlong Li, Hanzhao Li, Shuo Zhang, Zhengzhong Tu, Zonglin Meng, Hao Xiang, Xiaoyu Dong, Rui Song, Hongkai Yu, Bolei Zhou, Jiaqi Ma(参考訳) 現代の自動運転車の認識システムは、閉塞に敏感であり、長い知覚範囲の能力がないことが知られている。 レベル5の自律性を妨げる重要なボトルネックのひとつです。 近年の研究では、V2V協調認識システムが自動運転産業に革命をもたらす可能性があることが示されている。 しかし、現実のデータセットがないため、この分野の進歩は妨げられる。 V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。 データは、多様なシナリオで駆動するマルチモーダルセンサーを備えた2台の車両によって収集される。 我々のV2V4Realデータセットは、20KのLiDARフレーム、40KのRGBフレーム、5つのクラスのための240Kの注釈付き3Dバウンディングボックス、そしてすべての運転経路をカバーするHDMapからなる410kmの走行領域をカバーしています。 V2V4Realは、協調3次元物体検出、協調3次元物体追跡、協調知覚のためのSim2Realドメイン適応を含む3つの知覚タスクを導入している。 本稿では,最近の協調知覚アルゴリズムの包括的ベンチマークを提案する。 V2V4Realデータセットはhttps://research.seas.ucla.edu/mobility-lab/v2v4real/にある。

Modern perception systems of autonomous vehicles are known to be sensitive to occlusions and lack the capability of long perceiving range. It has been one of the key bottlenecks that prevents Level 5 autonomy. Recent research has demonstrated that the Vehicle-to-Vehicle (V2V) cooperative perception system has great potential to revolutionize the autonomous driving industry. However, the lack of a real-world dataset hinders the progress of this field. To facilitate the development of cooperative perception, we present V2V4Real, the first large-scale real-world multi-modal dataset for V2V perception. The data is collected by two vehicles equipped with multi-modal sensors driving together through diverse scenarios. Our V2V4Real dataset covers a driving area of 410 km, comprising 20K LiDAR frames, 40K RGB frames, 240K annotated 3D bounding boxes for 5 classes, and HDMaps that cover all the driving routes. V2V4Real introduces three perception tasks, including cooperative 3D object detection, cooperative 3D object tracking, and Sim2Real domain adaptation for cooperative perception. We provide comprehensive benchmarks of recent cooperative perception algorithms on three tasks. The V2V4Real dataset can be found at https://research.seas.ucla.edu/mobility-lab/v2v4real/.
翻訳日:2023-03-23 22:38:42 公開日:2023-03-19
# diffusionad: 異常検出のための弁別拡散

DiffusionAD: Denoising Diffusion for Anomaly Detection ( http://arxiv.org/abs/2303.08730v2 )

ライセンス: Link先を確認
Hui Zhang, Zheng Wang, Zuxuan Wu, Yu-Gang Jiang(参考訳) 異常検出は、実世界の産業生産のニーズを満たすための顕著な効果と効率のために広く適用されている。 異常検出のための新しいパイプラインである diffusionad を導入する。 我々は, 異常検出を‘noise-to-norm’パラダイムとみなし, 異常を問合せ画像とその不完全近似の不整合として識別する。 我々のパイプラインは、ノイズの多いクエリ画像から異常領域を復元し、通常の領域を変更せずにこれを実現する。 DiffusionADには分別サブネットワークとセグメンテーションサブネットワークがあり、複雑な後処理ステップを必要とせずに、直感的な異常検出とローカライゼーションをエンドツーエンドで提供する。 興味深いことに、このフレームワークは、一般的な拡散法よりも数十倍から数百倍高速な1つの拡散逆プロセスステップで満足できる性能を提供する。 VisA や DAGM などの標準および挑戦的なベンチマークに対する広範な評価は、DiffusionAD が現在の最先端パラダイムより優れており、提案されたパイプラインの有効性と一般化性を示していることを示している。

Anomaly detection is widely applied due to its remarkable effectiveness and efficiency in meeting the needs of real-world industrial manufacturing. We introduce a new pipeline, DiffusionAD, to anomaly detection. We frame anomaly detection as a ``noise-to-norm'' paradigm, in which anomalies are identified as inconsistencies between a query image and its flawless approximation. Our pipeline achieves this by restoring the anomalous regions from the noisy corrupted query image while keeping the normal regions unchanged. DiffusionAD includes a denoising sub-network and a segmentation sub-network, which work together to provide intuitive anomaly detection and localization in an end-to-end manner, without the need for complicated post-processing steps. Remarkably, during inference, this framework delivers satisfactory performance with just one diffusion reverse process step, which is tens to hundreds of times faster than general diffusion methods. Extensive evaluations on standard and challenging benchmarks including VisA and DAGM show that DiffusionAD outperforms current state-of-the-art paradigms, demonstrating the effectiveness and generalizability of the proposed pipeline.
翻訳日:2023-03-23 22:32:45 公開日:2023-03-19
# トランスダクティブゼロショット学習のための双方向分布アライメント

Bi-directional Distribution Alignment for Transductive Zero-Shot Learning ( http://arxiv.org/abs/2303.08698v2 )

ライセンス: Link先を確認
Zhicai Wang, Yanbin Hao, Tingting Mu, Ouxiang Li, Shuo Wang, Xiangnan He(参考訳) ゼロショット学習(ZSL)がドメインシフトの問題に深刻な障害を負うことはよく知られている。 トランスダクティブZSL (TZSL) は、未確認クラスから未実装の例を使用することで、この問題を改善しようとしているが、それでも高いレベルの分散シフトがある。 本研究では,視覚空間と補助空間の配置アライメントの強化によりシフトを大幅に改善する新しいtzslモデル(bi-vaegan)を提案する。 モデル設計の重要な提案は,(1)双方向分布アライメント,(2)単純かつ効果的なl_2ノルム型特徴正規化アプローチ,(3)より洗練された非seenクラス事前推定手法である。 4つのデータセットを用いたベンチマーク評価において、Bi-VAEGANは、標準および一般化されたTZSL設定の両方の下で、芸術の新たな状態を達成する。 コードはhttps://github.com/Zhicaiwww/Bi-VAEGANで見つけることができる。

It is well-known that zero-shot learning (ZSL) can suffer severely from the problem of domain shift, where the true and learned data distributions for the unseen classes do not match. Although transductive ZSL (TZSL) attempts to improve this by allowing the use of unlabelled examples from the unseen classes, there is still a high level of distribution shift. We propose a novel TZSL model (named as Bi-VAEGAN), which largely improves the shift by a strengthened distribution alignment between the visual and auxiliary spaces. The key proposal of the model design includes (1) a bi-directional distribution alignment, (2) a simple but effective L_2-norm based feature normalization approach, and (3) a more sophisticated unseen class prior estimation approach. In benchmark evaluation using four datasets, Bi-VAEGAN achieves the new state of the arts under both the standard and generalized TZSL settings. Code could be found at https://github.com/Zhicaiwww/Bi-VAEGAN
翻訳日:2023-03-23 22:32:23 公開日:2023-03-19
# 顔表情認識を支援する大規模未ラベル顔の探索

Exploring Large-scale Unlabeled Faces to Enhance Facial Expression Recognition ( http://arxiv.org/abs/2303.08617v2 )

ライセンス: Link先を確認
Jun Yu, Zhongpeng Cai, Renda Li, Gongpeng Zhao, Guochen Xie, Jichao Zhu, Wangyuan Zhu(参考訳) 顔表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、インテリジェントセキュリティ、感情分析、その他の分野に広く応用されている。 しかし、FERデータセットの限られたサイズは、表現認識モデルの一般化能力を制限し、非効率なモデル性能をもたらす。 この問題に対処するために,ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。 提案手法は動的しきい値モジュール (\textbf{DTM}) を用いて、信頼度を適応的に調整し、顔認識(FR)データをフル活用して擬似ラベルを生成することにより、表情をモデル化するモデルの能力を向上させる。 ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。

Facial Expression Recognition (FER) is an important task in computer vision and has wide applications in human-computer interaction, intelligent security, emotion analysis, and other fields. However, the limited size of FER datasets limits the generalization ability of expression recognition models, resulting in ineffective model performance. To address this problem, we propose a semi-supervised learning framework that utilizes unlabeled face data to train expression recognition models effectively. Our method uses a dynamic threshold module (\textbf{DTM}) that can adaptively adjust the confidence threshold to fully utilize the face recognition (FR) data to generate pseudo-labels, thus improving the model's ability to model facial expressions. In the ABAW5 EXPR task, our method achieved excellent results on the official validation set.
翻訳日:2023-03-23 22:31:53 公開日:2023-03-19
# 顔行動単位検出のための特徴融合を組み合わせた局所的知覚と関係学習

Local Region Perception and Relationship Learning Combined with Feature Fusion for Facial Action Unit Detection ( http://arxiv.org/abs/2303.08545v2 )

ライセンス: Link先を確認
Jun Yu, Renda Li, Zhongpeng Cai, Gongpeng Zhao, Guochen Xie, Jichao Zhu, Wangyuan Zhu(参考訳) ヒトの感情行動分析は、ヒトとコンピュータの相互作用(HCI)システムにおいて重要な役割を果たす。 本稿では, CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) について紹介する。 単段学習型AU検出フレームワークを提案する。 具体的には,au検出に関連する顔局所特徴を効果的に抽出するために,局所知覚モジュールを用いて異なるauの特徴を効果的に抽出する。 一方、グラフニューラルネットワークに基づく関係学習モジュールを用いて、AU間の関係を捉える。 また、ターゲット顔の全体的な特徴がAU検出に与える影響を考慮し、特徴融合モジュールを用いて、バックボーンネットワークによって抽出された特徴情報と、関係学習モジュールによって抽出されたAU特徴情報を融合させる。 また,モデルの性能をさらに向上させるために,サンプリング手法,データ拡張手法,後処理戦略も採用した。

Human affective behavior analysis plays a vital role in human-computer interaction (HCI) systems. In this paper, we introduce our submission to the CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW). We propose a single-stage trained AU detection framework. Specifically, in order to effectively extract facial local region features related to AU detection, we use a local region perception module to effectively extract features of different AUs. Meanwhile, we use a graph neural network-based relational learning module to capture the relationship between AUs. In addition, considering the role of the overall feature of the target face on AU detection, we also use the feature fusion module to fuse the feature information extracted by the backbone network and the AU feature information extracted by the relationship learning module. We also adopted some sampling methods, data augmentation techniques and post-processing strategies to further improve the performance of the model.
翻訳日:2023-03-23 22:31:37 公開日:2023-03-19
# Transformer-based Fusion Networks と Dynamic Smpling を用いたマルチモーダル表情認識

Multi Modal Facial Expression Recognition with Transformer-Based Fusion Networks and Dynamic Sampling ( http://arxiv.org/abs/2303.08419v2 )

ライセンス: Link先を確認
Jun-Hwa Kim, Namho Kim, Chee Sun Won(参考訳) 表情認識は、感情検出、メンタルヘルス分析、人間と機械の相互作用など、さまざまな応用において不可欠なタスクである。 本稿では,音声情報と顔画像を用いたマルチモーダル表情認識手法を提案し,不明瞭な表情を識別するための重要な手がかりを提供する。 具体的には、Swin Transformerから画像と音声の特徴を抽出するモーダル・フュージョン・モジュール(MFM)を導入する。 さらに、動的データ再サンプリングを用いてデータセット内の不均衡問題に取り組む。 本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。

Facial expression recognition is an essential task for various applications, including emotion detection, mental health analysis, and human-machine interactions. In this paper, we propose a multi-modal facial expression recognition method that exploits audio information along with facial images to provide a crucial clue to differentiate some ambiguous facial expressions. Specifically, we introduce a Modal Fusion Module (MFM) to fuse audio-visual information, where image and audio features are extracted from Swin Transformer. Additionally, we tackle the imbalance problem in the dataset by employing dynamic data resampling. Our model has been evaluated in the Affective Behavior in-the-wild (ABAW) challenge of CVPR 2023.
翻訳日:2023-03-23 22:30:36 公開日:2023-03-19
# 不確実性を考慮した肺結節分節と低信頼領域予測

Lung Nodule Segmentation and Low-Confidence Region Prediction with Uncertainty-Aware Attention Mechanism ( http://arxiv.org/abs/2303.08416v2 )

ライセンス: Link先を確認
Han Yang, Qiuli Wang, Yue Zhang, Zhulin An, Chen Liu(参考訳) 放射線医は訓練と臨床経験が異なるため、肺結節に対して様々なセグメンテーションアノテーションを提供し、複数のアノテーション間でセグメンテーションの不確実性を引き起こす可能性がある。 従来の手法は通常、学習対象として単一のアノテーションを選択したり、様々なアノテーションの潜在空間を学習しようとしたりした。 それでも、複数のアノテーションの中で合意や意見の不一致の貴重な情報を無駄にした。 本稿では,アノテーション間のコンセンサスや不一致を利用してセグメンテーションを改善する不確実性意識機構(UAAM)を提案する。 UAAMでは、低信頼(LC)マスクと高信頼(HC)マスクを組み合わせたマルチ信頼マスク(MCM)を提案する。 LCマスクはセグメンテーションの信頼性が低い領域を指し、放射線技師の間でセグメンテーションの選択肢が異なる可能性がある。 UAAMの後、我々はさらに3つのモジュールを含むUncertainty-Guide Segmentation Network (UGS-Net)を設計した。 Uncertainty-Aware Moduleはアノテーションの結合、交差、アノテーションセットの3つの機能を生成する。 最後に、Intersection-Union Constraining Moduleは、最終セグメンテーション、LCマスク、HCマスクの予測のバランスをとるために、3つの特徴間の距離を使用する。 そこで本研究では, ugs-net の肺結節における分節性能を, u-net で分節することが困難である ugs-net の分節性能を試験する lidc-idri の複雑な結節課題を提案する。 実験の結果,本手法はu-netによるセグメンテーションが不十分な結節のセグメンテーション性能を著しく向上できることがわかった。

Radiologists have different training and clinical experiences, so they may provide various segmentation annotations for a lung nodule, which causes segmentation uncertainty among multiple annotations. Conventional methods usually chose a single annotation as the learning target or tried to learn a latent space of various annotations. Still, they wasted the valuable information of consensus or disagreements ingrained in the multiple annotations. This paper proposes an Uncertainty-Aware Attention Mechanism (UAAM), which utilizes consensus or disagreements among annotations to produce a better segmentation. In UAAM, we propose a Multi-Confidence Mask (MCM), which is a combination of a Low-Confidence (LC) Mask and a High-Confidence (HC) Mask. LC mask indicates regions with low segmentation confidence, which may cause different segmentation options among radiologists. Following UAAM, we further design an Uncertainty-Guide Segmentation Network (UGS-Net), which contains three modules:Feature Extracting Module captures a general feature of a lung nodule. Uncertainty-Aware Module produce three features for the annotations' union, intersection, and annotation set. Finally, Intersection-Union Constraining Module use distances between three features to balance the predictions of final segmentation, LC mask, and HC mask. To fully demonstrate the performance of our method, we propose a Complex Nodule Challenge on LIDC-IDRI, which tests UGS-Net's segmentation performance on the lung nodules that are difficult to segment by U-Net. Experimental results demonstrate that our method can significantly improve the segmentation performance on nodules with poor segmentation by U-Net.
翻訳日:2023-03-23 22:30:25 公開日:2023-03-19
# ベルの定理からの完全ユニタリ量子力学のためのノーゴー;「ウィグナーの友人の物理と形物学:測定前でも結果は出ない」

No-go for fully unitary quantum mechanics from Bell's Theorem; comment on "Physics and Metaphysics of Wigner's Friends: Even performed pre-measurements have no results'' ( http://arxiv.org/abs/2303.12087v1 )

ライセンス: Link先を確認
Konrad Schlichtholz(参考訳) このコメントの目的は、手紙からの結果を再解釈することである:「ウィグナーの友人の物理とメタフィジカル: 測定済みの事前測定結果でさえも結果がない」は、「測定前の測定結果にはresulがない」(arxiv:2003.07464])という結論に達することができる。 さらに、ベルの定理に基づく補足的推論により、ユニタリデコヒーレンスが量子-古典遷移にのみ責任を負わないことを示すことができ、その完全な記述には追加の可逆性モデルが必要である。 したがって、ブラックホール情報パラドックスは物理的根拠を持たない。

The purpose of this comment is to show that a reinterpretation of the results from the Letter: "Physics and Metaphysics of Wigner's Friends: Even performed pre-measurements have no results" allows for reaching the conclusion "pre-measurements have no resul" [arXiv:2003.07464] based only on postulates of quantum mechanics without additional assumptions on irreversibility. Additionally, with supplementary reasoning based on Bell's theorem, one can show that unitary decoherence cannot be solely responsible for the quantum-to-classical transition, and an additional irreversibility model is required for its full description. Consequently, the black hole information paradox has no physical basis.
翻訳日:2023-03-23 16:33:03 公開日:2023-03-19
# less is more: 最小限の手動セグメンテーションによる教師なしマスク付アノテーテッドct画像合成

Less is More: Unsupervised Mask-guided Annotated CT Image Synthesis with Minimum Manual Segmentations ( http://arxiv.org/abs/2303.12747v1 )

ライセンス: Link先を確認
Xiaodan Xing, Giorgos Papanastasiou, Simon Walsh, Guang Yang(参考訳) 実用的データ拡張ツールとして、データ合成は一般的に、深層学習に基づく医用画像分析のパフォーマンスの配当を返している。 しかし,合成医用画像に対応するセグメンテーションマスクの生成は困難で主観的である。 合成医療画像とセグメンテーションの組合せを得るために,セグメンテーションマスクを合成条件として用いる条件生成モデルを提案した。 しかし、これらのセグメンテーションマスク条件による生成モデルは、大きな、様々な、ラベル付きトレーニングデータセットに依存しており、人間の解剖学的構造に限定的な制約を与えるだけで、非現実的な画像の特徴をもたらす。 さらに、不変画素レベル条件は、合成病変の多様性を減少させ、データ拡張の有効性を低下させる可能性がある。 これらの課題に対処するため,本研究では,手動セグメンテーションラベルを用いた医用画像合成,すなわちunsupervised Mask(UM)誘導合成の新たな戦略を提案する。 まず,教師なし構造誘導を生成するスーパーピクセルベースのアルゴリズムを開発し,さらに条件付き生成モデルを設計し,教師なしマスクから教師なしのマルチタスク環境で画像とアノテーションを同時に合成する。 さらに,マルチスケールマルチタスク・インセプション・ディスタンス (MM-FID) とマルチスケールマルチタスク標準偏差 (MM-STD) を考案し,合成CT画像の忠実度と多様な評価を両立させた。 異なるスケールで複数の解析を行うことで、高い再現性を持つ安定した画像品質測定が可能となった。 セグメンテーションマスクによる合成と比較すると, UM誘導合成は高品質な合成画像を提供し, 忠実度, 多様性, 有用性(Wilcoxon Signed Ranked testによるp<0.05$)を示した。

As a pragmatic data augmentation tool, data synthesis has generally returned dividends in performance for deep learning based medical image analysis. However, generating corresponding segmentation masks for synthetic medical images is laborious and subjective. To obtain paired synthetic medical images and segmentations, conditional generative models that use segmentation masks as synthesis conditions were proposed. However, these segmentation mask-conditioned generative models still relied on large, varied, and labeled training datasets, and they could only provide limited constraints on human anatomical structures, leading to unrealistic image features. Moreover, the invariant pixel-level conditions could reduce the variety of synthetic lesions and thus reduce the efficacy of data augmentation. To address these issues, in this work, we propose a novel strategy for medical image synthesis, namely Unsupervised Mask (UM)-guided synthesis, to obtain both synthetic images and segmentations using limited manual segmentation labels. We first develop a superpixel based algorithm to generate unsupervised structural guidance and then design a conditional generative model to synthesize images and annotations simultaneously from those unsupervised masks in a semi-supervised multi-task setting. In addition, we devise a multi-scale multi-task Fr\'echet Inception Distance (MM-FID) and multi-scale multi-task standard deviation (MM-STD) to harness both fidelity and variety evaluations of synthetic CT images. With multiple analyses on different scales, we could produce stable image quality measurements with high reproducibility. Compared with the segmentation mask guided synthesis, our UM-guided synthesis provided high-quality synthetic images with significantly higher fidelity, variety, and utility ($p<0.05$ by Wilcoxon Signed Ranked test).
翻訳日:2023-03-23 13:30:19 公開日:2023-03-19
# 遺伝子発現モデルのための統合勾配による説明可能性の限界の研究

Studying Limits of Explainability by Integrated Gradients for Gene Expression Models ( http://arxiv.org/abs/2303.11336v1 )

ライセンス: Link先を確認
Myriam Bontonou, Ana\"is Haget, Maria Boulougouri, Jean-Michel Arbona, Benjamin Audit, Pierre Borgnat(参考訳) 細胞生活を駆動する分子過程を理解することは、生物学的研究において基本的な問題である。 野心的なプログラムは、多数の集団で多くの分子データセットを集めている。 複雑な細胞相互作用を解読するために、最近の研究は教師付き機械学習手法に変わった。 科学的質問は表データやグラフ上の古典的学習問題(例えば遺伝子発現データからの表現型予測)として定式化されている。 これらの研究において、個々の予測が主に基づいている入力特徴は、がんの識別などの表現型の原因を示すものとしてしばしば解釈される。 本稿では,機械学習における特徴帰属の説明可能性手法であるIntegrated Gradientsによるバイオマーカーの関連性を検討する。 The Cancer Genome Atlasのモチベーションの例を通して、重要度によるランク付けはバイオマーカーの同定に十分ではないことを示す。 バイオマーカーが関連する原因を反映するかどうかを既知の事実なしに評価することは困難であり、潜在ディリクレ割当モデルに基づく階層モデルを提案することで遺伝子発現データをシミュレートする。 また、ゲノムデータの説明を評価するための良い実践を強調し、これらの説明からより多くの洞察を得るための方向性を提案する。

Understanding the molecular processes that drive cellular life is a fundamental question in biological research. Ambitious programs have gathered a number of molecular datasets on large populations. To decipher the complex cellular interactions, recent work has turned to supervised machine learning methods. The scientific questions are formulated as classical learning problems on tabular data or on graphs, e.g. phenotype prediction from gene expression data. In these works, the input features on which the individual predictions are predominantly based are often interpreted as indicative of the cause of the phenotype, such as cancer identification. Here, we propose to explore the relevance of the biomarkers identified by Integrated Gradients, an explainability method for feature attribution in machine learning. Through a motivating example on The Cancer Genome Atlas, we show that ranking features by importance is not enough to robustly identify biomarkers. As it is difficult to evaluate whether biomarkers reflect relevant causes without known ground truth, we simulate gene expression data by proposing a hierarchical model based on Latent Dirichlet Allocation models. We also highlight good practices for evaluating explanations for genomics data and propose a direction to derive more insights from these explanations.
翻訳日:2023-03-22 17:52:47 公開日:2023-03-19
# スケルトン回帰:マニフォールド構造を用いたグラフに基づく推定手法

Skeleton Regression: A Graph-Based Approach to Estimation with Manifold Structure ( http://arxiv.org/abs/2303.11786v1 )

ライセンス: Link先を確認
Zeyu Wei, Yen-Chi Chen(参考訳) 低次元多様体を囲む大規模で複雑なデータを扱うために設計された新しい回帰フレームワークを導入する。 提案手法はまず,基礎となる幾何学的構造を捉えるために,スケルトンと呼ばれるグラフ表現を構築する。 次に、スケルトングラフ上のメトリクスを定義し、非パラメトリック回帰手法と、グラフに基づく特徴変換を適用して回帰関数を推定する。 包含された非パラメトリック法に加えて、スケルトングラフのような一般的な計量空間に関して、いくつかの非パラメトリック回帰器の制限についても論じる。 提案する回帰フレームワークは、次元の呪いを回避し、複数の多様体の結合を処理でき、付加ノイズやノイズ観測に頑健である追加の利点を提供する。 提案手法を統計的に保証し,シミュレーションおよび実データ例を用いてその有効性を示す。

We introduce a new regression framework designed to deal with large-scale, complex data that lies around a low-dimensional manifold. Our approach first constructs a graph representation, referred to as the skeleton, to capture the underlying geometric structure. We then define metrics on the skeleton graph and apply nonparametric regression techniques, along with feature transformations based on the graph, to estimate the regression function. In addition to the included nonparametric methods, we also discuss the limitations of some nonparametric regressors with respect to the general metric space such as the skeleton graph. The proposed regression framework allows us to bypass the curse of dimensionality and provides additional advantages that it can handle the union of multiple manifolds and is robust to additive noise and noisy observations. We provide statistical guarantees for the proposed method and demonstrate its effectiveness through simulations and real data examples.
翻訳日:2023-03-22 15:15:59 公開日:2023-03-19
# 軽量コントラストタンパク質構造-配列変換

Lightweight Contrastive Protein Structure-Sequence Transformation ( http://arxiv.org/abs/2303.11783v1 )

ライセンス: Link先を確認
Jiangbin Zheng, Ge Wang, Yufei Huang, Bozhen Hu, Siyuan Li, Cheng Tan, Xinwen Fan, Stan Z. Li(参考訳) ラベルのないタンパク質構造モデルが、下流のほとんどの用途において重要な基礎となっている。 従来の構造事前学習法では,非正規化復元やマスキング言語モデリングなどの成熟した自然言語事前学習法に従うが,通常は空間構造の実表現は破壊される。 他の一般的な事前訓練手法は、所定の対象カテゴリの固定セットを予測し、制限された教師付き方法でそれらの一般化と使用性を制限し、他のタンパク質の概念を指定するために追加ラベル付きデータが必要である。 本稿では,ロバストなタンパク質言語モデルを用いた新しい教師なしタンパク質構造表現について紹介する。 特に,既存の事前学習言語モデルを用いて,教師なしコントラストアライメントを通して構造モデル学習を指導することを提案する。 さらに,構造に関する本質的な情報を知るために,自己教師構造制約を提案する。 光トレーニングデータだけで、事前訓練された構造モデルはより優れた一般化能力を得ることができる。 提案する構造モデルを定量的に評価するために,内部タスク(コンタクトマップ予測,分布アライメント品質など)や外部/下流タスク(タンパク質設計など)を含む一連の合理的評価手法を設計する。 複数のタスクおよび特定のデータセット上で行った広範な実験結果から,提案するシーケンス構造変換フレームワークの優位性が示された。

Pretrained protein structure models without labels are crucial foundations for the majority of protein downstream applications. The conventional structure pretraining methods follow the mature natural language pretraining methods such as denoised reconstruction and masked language modeling but usually destroy the real representation of spatial structures. The other common pretraining methods might predict a fixed set of predetermined object categories, where a restricted supervised manner limits their generality and usability as additional labeled data is required to specify any other protein concepts. In this work, we introduce a novel unsupervised protein structure representation pretraining with a robust protein language model. In particular, we first propose to leverage an existing pretrained language model to guide structure model learning through an unsupervised contrastive alignment. In addition, a self-supervised structure constraint is proposed to further learn the intrinsic information about the structures. With only light training data, the pretrained structure model can obtain better generalization ability. To quantitatively evaluate the proposed structure models, we design a series of rational evaluation methods, including internal tasks (e.g., contact map prediction, distribution alignment quality) and external/downstream tasks (e.g., protein design). The extensive experimental results conducted on multiple tasks and specific datasets demonstrate the superiority of the proposed sequence-structure transformation framework.
翻訳日:2023-03-22 15:15:46 公開日:2023-03-19
# 凸ポリトープへの原点投影としての重み付き平均平滑化の定式化

Formulation of Weighted Average Smoothing as a Projection of the Origin onto a Convex Polytope ( http://arxiv.org/abs/2303.11958v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究は,2乗損失下での重み付き移動平均平滑化に最適なウインドウを決定することに焦点を当てた。 我々は,その中心付近に対称な最適重み窓が存在することを示す。 中心から遠ざかるにつれて重量が減少するテーパー重み窓の分類について検討した。 対応する最小二乗問題を二次プログラムとして、最終的に凸多面体への原点の射影として定式化する。 さらに、入力データ上で条件が満たされた場合、最良のウィンドウにいくつかの解析的ソリューションを提供する。

Our study focuses on determining the best weight windows for a weighted moving average smoother under squared loss. We show that there exists an optimal weight window that is symmetrical around its center. We study the class of tapered weight windows, which decrease in weight as they move away from the center. We formulate the corresponding least squares problem as a quadratic program and finally as a projection of the origin onto a convex polytope. Additionally, we provide some analytical solutions to the best window when some conditions are met on the input data.
翻訳日:2023-03-22 14:22:45 公開日:2023-03-19
# 新型コロナウイルスのパンデミックに関連するパターンを見つけるために米国諸国をクラスタ化

Clustering US Counties to Find Patterns Related to the COVID-19 Pandemic ( http://arxiv.org/abs/2303.11936v1 )

ライセンス: Link先を確認
Cora Brown, Sarah Milstein, Tianyi Sun, Cooper Zhao(参考訳) 新型コロナウイルス(covid-19)の感染拡大と検疫が開始されると、ミネソタ大学トウィンシティー校の産業応用数学研究会(siam)学生支部はecolabと協力して、パンデミックに関連するデータから有用な洞察を抽出すべく、データサイエンティストや数学者としての我々のスキルを活用した。 このコラボレーションは複数のグループが異なるプロジェクトに取り組んでいます。 この書き込みでは、米国内の類似する郡グループを見つけ、パンデミックを理解するのにクラスタ技術を使うことに重点を置いています。 このプロジェクトのチームはミネソタ大学の学生cora brown、sarah milstein、tianyi sun、cooper zhao、ecolabのデータサイエンティストjimmy broomfield、ミネソタ大学の学生skye keの協力を得ていた。 以下のセクションでは、このプロジェクトのために行われたすべての作業について説明します。 第2節では、収集したデータと、実行した機能エンジニアリングをリストアップしています。 第3節では、モデルの評価に使用したメトリクスについて説明する。 第4節では、様々なクラスタリングアプローチの結果を解釈するために使った方法を説明します。 第5節では、実装した異なるクラスタリング方法について説明します。 第6節では、クラスタリング技術の結果を示し、関連する解釈を提供する。 最後に、第7節では、異なるクラスタリング手法を比較した結論付けを提供する。

When COVID-19 first started spreading and quarantine was implemented, the Society for Industrial and Applied Mathematics (SIAM) Student Chapter at the University of Minnesota-Twin Cities began a collaboration with Ecolab to use our skills as data scientists and mathematicians to extract useful insights from relevant data relating to the pandemic. This collaboration consisted of multiple groups working on different projects. In this write-up we focus on using clustering techniques to help us find groups of similar counties in the US and use that to help us understand the pandemic. Our team for this project consisted of University of Minnesota students Cora Brown, Sarah Milstein, Tianyi Sun, and Cooper Zhao, with help from Ecolab Data Scientist Jimmy Broomfield and University of Minnesota student Skye Ke. In the sections below we describe all of the work done for this project. In Section 2, we list the data we gathered, as well as the feature engineering we performed. In Section 3, we describe the metrics we used for evaluating our models. In Section 4, we explain the methods we used for interpreting the results of our various clustering approaches. In Section 5, we describe the different clustering methods we implemented. In Section 6, we present the results of our clustering techniques and provide relevant interpretation. Finally, in Section 7, we provide some concluding remarks comparing the different clustering methods.
翻訳日:2023-03-22 14:20:01 公開日:2023-03-19
# 進化的処理に基づく化学療法計画のための意思決定手法

A Decision Making Approach for Chemotherapy Planning based on Evolutionary Processing ( http://arxiv.org/abs/2303.10535v1 )

ライセンス: Link先を確認
Mina Jafari, Behnam Ghavami, Vahid Sattari Naeini(参考訳) 化学療法治療最適化の問題は、患者の健康を危険にさらすことなく腫瘍の大きさを最小化するために定義できるため、同時に多くの目的を達成する必要がある。 このため、最適化問題は多目的問題となる。 本稿では,毒性の量と癌細胞の数という2つの目的のバランスをとることを目的として,がん化学療法のための多目的メタヒューリスティックな手法を提案する。 提案法は, 薬物濃度, 腫瘍増殖量, 毒性量を測定するために, 数学的モデルを用いた。 本手法は多目的粒子群最適化(MOPSO)アルゴリズムを用いて,細胞周期特異的薬物を用いたがん化学療法計画の最適化を行う。 提案手法は、異なる目的間でバランスをとる出力として一連のソリューションを返却し、患者の状態に関する情報に基づいて最も適切な治療計画を選択することができるため、パーソナライズ医療にとって良いモデルとなり得る。 実験の結果, 探索空間を効率的に探索でき, 副作用の少ない適切な治療計画を見出すことができた。 この主な目的は、化学療法薬の望ましい設計と、投与量を制御することである。 さらに, 提案手法は, より最近の類似手法である[1]と比較して, 治療性能が向上することを示した。

The problem of chemotherapy treatment optimization can be defined in order to minimize the size of the tumor without endangering the patient's health; therefore, chemotherapy requires to achieve a number of objectives, simultaneously. For this reason, the optimization problem turns to a multi-objective problem. In this paper, a multi-objective meta-heuristic method is provided for cancer chemotherapy with the aim of balancing between two objectives: the amount of toxicity and the number of cancerous cells. The proposed method uses mathematical models in order to measure the drug concentration, tumor growth and the amount of toxicity. This method utilizes a Multi-Objective Particle Swarm Optimization (MOPSO) algorithm to optimize cancer chemotherapy plan using cell-cycle specific drugs. The proposed method can be a good model for personalized medicine as it returns a set of solutions as output that have balanced between different objectives and provided the possibility to choose the most appropriate therapeutic plan based on some information about the status of the patient. Experimental results confirm that the proposed method is able to explore the search space efficiently in order to find out the suitable treatment plan with minimal side effects. This main objective is provided using a desirable designing of chemotherapy drugs and controlling the injection dose. Moreover, results show that the proposed method achieve to a better therapeutic performance compared to a more recent similar method [1].
翻訳日:2023-03-21 18:51:54 公開日:2023-03-19
# マルチパラメトリックMRIを用いたグリオーマセグメンテーションのための放射能内蔵深層アンサンブル学習モデル

A Radiomics-Incorporated Deep Ensemble Learning Model for Multi-Parametric MRI-based Glioma Segmentation ( http://arxiv.org/abs/2303.10533v1 )

ライセンス: Link先を確認
Yang Chen, Zhenyu Yang, Jingtong Zhao, Justus Adamson, Yang Sheng, Fang-Fang Yin, Chunhao Wang(参考訳) マルチパラメトリックMRI(mp-MRI)を用いたグリオーマ分割精度を向上させるため,放射能空間符号化による深層アンサンブル学習モデルを開発した。 このモデルは,T1,T1(T1-Ce),T2,FLAIRの4つのモード性mp-MRIプロトコルを用いた369名のグリオーマ患者を用いて開発された。 各モダリティボリュームにおいて、画像の多様性を捉えるために3dスライディングカーネルが脳全体に実装され、56の放射能特徴がカーネル内で抽出され、結果として4次テンソルとなった。 それぞれの放射能特徴を3D画像ボリューム、すなわち放射能特徴写像(RFM)として符号化することができる。 PCAはデータ次元の削減に使われ、最初の4つのPCが選択された。 U-Netアーキテクチャに従った4つのディープニューラルネットワークが関心領域(ROI)のセグメンテーションのために訓練され、各サブモデルはmp-MRIと4台のPCの1を5チャンネル入力として2次元実行に利用する。 u-netアンサンブルにより得られた4つのソフトマックス確率結果は, 大津法で重畳され, 分節化された。 3種類のアンサンブルモデルを用いて, 造影腫瘍 (ET), 腫瘍コア (TC), 腫瘍全体 (WT) の分節を訓練した。 提案した深層アンサンブルモデルの実証に繋がる画像不均一性情報を利用して, mp-MRIを用いた医用画像分割のための新しいツールを提供する。

We developed a deep ensemble learning model with a radiomics spatial encoding execution for improved glioma segmentation accuracy using multi-parametric MRI (mp-MRI). This model was developed using 369 glioma patients with a 4-modality mp-MRI protocol: T1, contrast-enhanced T1 (T1-Ce), T2, and FLAIR. In each modality volume, a 3D sliding kernel was implemented across the brain to capture image heterogeneity: fifty-six radiomic features were extracted within the kernel, resulting in a 4th order tensor. Each radiomic feature can then be encoded as a 3D image volume, namely a radiomic feature map (RFM). PCA was employed for data dimension reduction and the first 4 PCs were selected. Four deep neural networks as sub-models following the U-Net architecture were trained for the segmenting of a region-of-interest (ROI): each sub-model utilizes the mp-MRI and 1 of the 4 PCs as a 5-channel input for a 2D execution. The 4 softmax probability results given by the U-net ensemble were superimposed and binarized by Otsu method as the segmentation result. Three ensemble models were trained to segment enhancing tumor (ET), tumor core (TC), and whole tumor (WT). The adopted radiomics spatial encoding execution enriches the image heterogeneity information that leads to the successful demonstration of the proposed deep ensemble model, which offers a new tool for mp-MRI based medical image segmentation.
翻訳日:2023-03-21 18:51:30 公開日:2023-03-19
# Z. Van Herstraeten と N.J. Cerf による量子ウィグナーエントロピーの最近の予想について

On a recent conjecture by Z. Van Herstraeten and N.J. Cerf for the quantum Wigner entropy ( http://arxiv.org/abs/2303.10531v1 )

ライセンス: Link先を確認
Nuno Costa Dias and Jo\~ao Nuno Prata(参考訳) Z. Van Herstraeten と N.J. Cerf が最近述べた予想に対処する。 正のウィグナー函数に対するシャノンエントロピーは、ガウス純粋状態によってのみ達成できる正の定数によって下界に有界であると主張する。 正のウィグナー函数に対するシャノンエントロピーであるすべての絶対可積分ウィグナー函数に対する別のエントロピーの定義を導入する。 さらに、任意の次元において、このエントロピーが真下に正の定数で有界であることを証明できるが、これはファン・ヘルストレーテンとセルフが提案した定数とそれほど遠くない。 また、同じ著者が正のウィグナー函数の r\'enyi エントロピーについて述べた別の予想に対する類似の結果も証明する。 副産物として、リーブの不等式を想起させるレーダー曖昧性関数(およびウィグナー分布)に対する新しい不等式を証明する。

We address a recent conjecture stated by Z. Van Herstraeten and N.J. Cerf. They claim that the Shannon entropy for positive Wigner functions is bounded below by a positive constant, which can be attained only by Gaussian pure states. We introduce an alternative definition of entropy for all absolutely integrable Wigner functions, which is the Shannon entropy for positive Wigner functions. Moreover, we are able to prove, in arbitrary dimension, that this entropy is indeed bounded below by a positive constant, which is not very distant from the constant suggested by Van Herstraeten and Cerf. We also prove an analogous result for another conjecture stated by the same authors for the R\'enyi entropy of positive Wigner functions. As a by-product we prove a new inequality for the radar-ambiguity function (and for the Wigner distribution) which is reminiscent of Lieb's inequalities.
翻訳日:2023-03-21 18:51:03 公開日:2023-03-19
# プロトン過剰核からのジプロトン相関と2プロトン放出

Diproton correlation and two-proton emission from proton-rich nuclei ( http://arxiv.org/abs/2303.10529v1 )

ライセンス: Link先を確認
Tomohiro Oishi(参考訳) 論文論文のオープンプリント版。 この論文は、ディプロトン相関と量子エンタングルメントによる2プロトン放出の関係に焦点を当てている。 この目的のために、平均場ポテンシャル内をクーパー対の陽子が移動する時間依存三体(陽子-陽子-コア)モデルを開発した。 3体モデルに基づく時間依存計算は、絡み合ったフェルミオン対の量子力学を記述する直感的な方法を提供する。 2つのプロトンの初期状態におけるクーパー対相関を考慮すると、そのことが示されている。 i)Be-6の実験的2pデカイ幅がよく再現され、 (II)2つのプロトンは、主にダイプロトン様のクラスターとして放出され、放出の初期段階にスピンシンクレットが配置される。 したがって、2プロトン放出はディプロトン相関にアクセスできる。 この論文は、時間依存放射性発光におけるジプロトン相関と量子エンタングルメントを理論的に研究する最初のステップを示した。 [注]このオープンプリント版では著作権やファイルサイズの問題により、いくつかの数字が必然的に削除された。 いくつかのマイナーな修正が行われたが、科学的な議論、結果、そして2014年のオリジナル版からの結論は変更されなかった。

Open-print version of dissertation thesis. This thesis focuses on the relation between the diproton correlation and the two-proton emission with quantum entanglement. For this purpose, I developed a time-dependent three-body (proton-proton-core) model, where one Cooper pair of protons move inside the mean-field potential. The time-dependent calculation based on the three-body model provides an intuitive way to describe the quantum dynamics of the entangled fermionic pair. It has been shown that, by considering the Cooper-pairing correlation in the initial state of the two protons, (i) the experimental 2p-decay width of Be-6 is well reproduced, and (ii) the two protons are emitted mainly as a diproton-like cluster with the spin-singlet configuration in the early stage of the emission. Hence, the two-proton emission can provide an access to the diproton correlation. This thesis presented the first step to theoretically investigate the diproton correlation as well as quantum entanglement in the time-dependent radioactive emission. [NOTE] In this open-print version, several Figures were inevitably eliminated, because of the copyright and/or file-size problems. Several minor corrections have been done, but without changing the scientific discussions, results, and conclusions from the original version in 2014.
翻訳日:2023-03-21 18:50:46 公開日:2023-03-19
# LNO:微分方程式の解法のためのラプラスニューラル演算子

LNO: Laplace Neural Operator for Solving Differential Equations ( http://arxiv.org/abs/2303.10528v1 )

ライセンス: Link先を確認
Qianying Cao, Somdatta Goswami, George Em Karniadakis(参考訳) 入力空間を分解するためにLaplace変換を利用するLaplace Neural operator (LNO)を導入する。 フーリエニューラル演算子(FNO)とは異なり、LNOは非周期的な信号を扱うことができ、過渡応答を考慮に入れ、指数収束を示す。 LNOは入力と出力空間の間の極-残差関係を取り入れ、解釈可能性の向上と一般化能力の向上を可能にする。 本稿では,3つのode(ダフィング振動子,駆動重力振子,ロレンツ系)と3つのpdes(オイラー・ベルヌーリビーム,拡散方程式,反応拡散系)の解を近似して,fno内の4つのフーリエ加群上のlno内の1つのラプラス層の優れた近似精度を示す。 特にLNOは、損傷のないシナリオにおける過渡応答のキャプチャにおいてFNOよりも優れています。 線形オイラー・ベルヌーリビームと拡散方程式では、lno の極抵抗公式の正確な表現は fno よりもかなり良い結果が得られる。 非線形反応拡散系では、LNOの誤差はFNOよりも小さく、演算子学習のネットワークパラメータとしてシステム極と残余を用いることの有効性を示す。 全体として、LNOは無限次元空間間の関数をマッピングするニューラル演算子を学習するための、有望な新しいアプローチであることを示唆している。

We introduce the Laplace neural operator (LNO), which leverages the Laplace transform to decompose the input space. Unlike the Fourier Neural Operator (FNO), LNO can handle non-periodic signals, account for transient responses, and exhibit exponential convergence. LNO incorporates the pole-residue relationship between the input and the output space, enabling greater interpretability and improved generalization ability. Herein, we demonstrate the superior approximation accuracy of a single Laplace layer in LNO over four Fourier modules in FNO in approximating the solutions of three ODEs (Duffing oscillator, driven gravity pendulum, and Lorenz system) and three PDEs (Euler-Bernoulli beam, diffusion equation, and reaction-diffusion system). Notably, LNO outperforms FNO in capturing transient responses in undamped scenarios. For the linear Euler-Bernoulli beam and diffusion equation, LNO's exact representation of the pole-residue formulation yields significantly better results than FNO. For the nonlinear reaction-diffusion system, LNO's errors are smaller than those of FNO, demonstrating the effectiveness of using system poles and residues as network parameters for operator learning. Overall, our results suggest that LNO represents a promising new approach for learning neural operators that map functions between infinite-dimensional spaces.
翻訳日:2023-03-21 18:50:26 公開日:2023-03-19
# 2種類のリコール

Two Kinds of Recall ( http://arxiv.org/abs/2303.10527v1 )

ライセンス: Link先を確認
Yoav Goldberg(参考訳) パターンベースのモデルは精度が良く、学習ベースのモデルはリコールの精度が良いという確固たる仮定である。 しかし、本当にそうなのか? d-recall, reflecting diversity, e-recall, reflecting exhaustivenessの2種類があります。 私は実験を通じて、神経メソッドがd-recallでかなり優れているのに対して、パターンベースのメソッドがe-recallでかなり優れている場合もあります。 理想的手法は両方の種類を目標とすべきであり、この理想は我々の評価に反映されるべきである。

It is an established assumption that pattern-based models are good at precision, while learning based models are better at recall. But is that really the case? I argue that there are two kinds of recall: d-recall, reflecting diversity, and e-recall, reflecting exhaustiveness. I demonstrate through experiments that while neural methods are indeed significantly better at d-recall, it is sometimes the case that pattern-based methods are still substantially better at e-recall. Ideal methods should aim for both kinds, and this ideal should in turn be reflected in our evaluations.
翻訳日:2023-03-21 18:49:58 公開日:2023-03-19
# ダイヤモンドの量子欠陥からの効率的な光収集のためのフレネル型固体浸漬レンズ

Fresnel-type Solid Immersion Lens for efficient light collection from quantum defects in diamond ( http://arxiv.org/abs/2303.10524v1 )

ライセンス: Link先を確認
SungJoon Park, Gyeonghun Kim, Kiho Kim and Dohun Kim(参考訳) ダイヤモンドの量子欠陥は量子科学の有望な資源として研究されている。 光子収集効率を向上させるための減算的製造プロセスは、しばしば製造精度に悪影響を及ぼすような過剰なミリング時間を必要とする。 集束イオンビームを用いたフレネル型固体浸漬レンズの設計と製作を行った。 深度5.8の窒素空孔(NV-)中心では、ミリング時間は、半球構造に比べて1/3減少し、光子収集効率は高い(平らな表面に比べて2.24)。 数値シミュレーションでは, 広範囲の精錬深度に対して, 提案手法の利点が期待できる。

Quantum defects in diamonds have been studied as a promising resource for quantum science. The subtractive fabrication process for improving photon collection efficiency often require excessive milling time that can adversely affect the fabrication accuracy. We designed and fabricated a Fresnel-type solid immersion lens using the focused ion beam. For a 5.8 um-deep Nitrogen-vacancy (NV-) center, the milling time was highly reduced (1/3 compared to a hemispherical structure), while retaining high photon collection efficiency (> 2.24 compared to a flat surface). In numerical simulation, this benefit of the proposed structure is expected for a wide range of milling depths.
翻訳日:2023-03-21 18:49:47 公開日:2023-03-19
# 概念に基づく視覚的説明のための教師なし解釈型基底抽出

Unsupervised Interpretable Basis Extraction for Concept-Based Visual Explanations ( http://arxiv.org/abs/2303.10523v1 )

ライセンス: Link先を確認
Alexandros Doumanoglou, Stylianos Asteriadis, Dimitrios Zarpalas(参考訳) CNN画像分類器の予測と中間層表現を人間の理解可能な概念の観点から説明しようとする研究の行である。 本研究では、注釈付き概念データセットを用いて解釈可能な特徴空間方向を抽出する文献において、従来の研究を拡張し、画素アクティベーションのスパースな1ホット閾値変換表現を説明する特徴空間の回転を求めることにより、非教師なしの解釈可能な基礎を抽出するポストホック法を提案する。 我々は既存のcnnを実験し、ネットワークアーキテクチャとデータセットをまたいで解釈可能な基底を抽出する手法の有効性を実証する。 そこで本研究では,本手法で抽出したベースに変換すると,中間層表現が解釈可能になることを示す。 最後に,本手法から抽出したベースと,教師付きアプローチから抽出したベースを比較した結果,教師なしアプローチには,教師付き手法の限界を構成する強度があり,今後の研究の方向性が示唆されることがわかった。

An important line of research attempts to explain CNN image classifier predictions and intermediate layer representations in terms of human understandable concepts. In this work, we expand on previous works in the literature that use annotated concept datasets to extract interpretable feature space directions and propose an unsupervised post-hoc method to extract a disentangling interpretable basis by looking for the rotation of the feature space that explains sparse one-hot thresholded transformed representations of pixel activations. We do experimentation with existing popular CNNs and demonstrate the effectiveness of our method in extracting an interpretable basis across network architectures and training datasets. We make extensions to the existing basis interpretability metrics found in the literature and show that, intermediate layer representations become more interpretable when transformed to the bases extracted with our method. Finally, using the basis interpretability metrics, we compare the bases extracted with our method with the bases derived with a supervised approach and find that, in one aspect, the proposed unsupervised approach has a strength that constitutes a limitation of the supervised one and give potential directions for future research.
翻訳日:2023-03-21 18:49:36 公開日:2023-03-19
# カメラキャリブレーションとそれ以上の深層学習:サーベイ

Deep Learning for Camera Calibration and Beyond: A Survey ( http://arxiv.org/abs/2303.10559v1 )

ライセンス: Link先を確認
Kang Liao, Lang Nie, Shujuan Huang, Chunyu Lin, Jing Zhang, Yao Zhao, Moncef Gabbouj, Dacheng Tao(参考訳) カメラのキャリブレーションでは、カメラのパラメータを推定し、キャプチャされたシーケンスから幾何学的特徴を推測する。 しかし、従来の校正は厳格であり、専用の収集を必要とする。 近年の取り組みは、手動キャリブレーションの繰り返し作業に代えて、学習ベースのソリューションが利用される可能性を示している。 これらのソリューションのうち、様々な学習戦略、ネットワーク、幾何学的優先順位、データセットが研究されている。 本稿では,学習に基づくカメラキャリブレーション技術に関する総合的な調査を行い,その強度と限界を分析した。 一般的なピンホールカメラモデル,歪みカメラモデル,クロスビューモデル,クロスセンサモデルなど,研究動向や応用例に準じたキャリブレーションのカテゴリを主な対象としています。 このコミュニティにはベンチマークがないので、既存のメソッドの一般化を評価するためのパブリックプラットフォームとして機能する総合的なキャリブレーションデータセットを収集します。 合成データと実世界のデータの両方からなり、さまざまな場面でさまざまなカメラが撮影した画像とビデオがある。 本稿の終了に向けて,課題を議論し,さらなる研究の方向性を提供する。 われわれの知る限り、これは学習に基づくカメラキャリブレーション(8年)の初めての調査だ。 要約されたメソッド、データセット、ベンチマークはhttps://github.com/KangLiao929/Awesome-Deep-Camera-Calibrationで定期的に更新される。

Camera calibration involves estimating camera parameters to infer geometric features from captured sequences, which is crucial for computer vision and robotics. However, conventional calibration is laborious and requires dedicated collection. Recent efforts show that learning-based solutions have the potential to be used in place of the repeatability works of manual calibrations. Among these solutions, various learning strategies, networks, geometric priors, and datasets have been investigated. In this paper, we provide a comprehensive survey of learning-based camera calibration techniques, by analyzing their strengths and limitations. Our main calibration categories include the standard pinhole camera model, distortion camera model, cross-view model, and cross-sensor model, following the research trend and extended applications. As there is no benchmark in this community, we collect a holistic calibration dataset that can serve as a public platform to evaluate the generalization of existing methods. It comprises both synthetic and real-world data, with images and videos captured by different cameras in diverse scenes. Toward the end of this paper, we discuss the challenges and provide further research directions. To our knowledge, this is the first survey for the learning-based camera calibration (spanned 8 years). The summarized methods, datasets, and benchmarks are available and will be regularly updated at https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration.
翻訳日:2023-03-21 18:42:28 公開日:2023-03-19
# 物体検出に対するLiDARスポーフィング攻撃能力の再検討:改善,測定,新たな攻撃

Revisiting LiDAR Spoofing Attack Capabilities against Object Detection: Improvements, Measurement, and New Attack ( http://arxiv.org/abs/2303.10555v1 )

ライセンス: Link先を確認
Takami Sato, Yuki Hayakawa, Ryo Suzuki, Yohsuke Shiiki, Kentaro Yoshioka, Qi Alfred Chen(参考訳) LiDAR(Light Detection and Ranging)は、近頃の自動運転(AD)の迅速な展開の恩恵を直接受けられる、正確な長距離3Dセンシングに必要なセンサーである。 一方、このような安全クリティカルなアプリケーションは、セキュリティ研究を強く動機付けている。 最近の研究では、LiDARに対して悪意のあるレーザーを発射することで、LiDAR点雲を操作でき、オブジェクト検出を馬鹿にすることができることが示されている。 しかしながら、これらの取り組みは、(1)特定のLiDAR(VLP-16)のみを評価すること、(2)無効な攻撃能力を仮定すること、(3)限られたデータセットで訓練されたモデルを用いて評価すること、の3つの重要な研究ギャップに直面している。 これらの重要な研究ギャップを埋めるために、我々は、9つの人気のあるLiDARと3つの主要なオブジェクト検出器を持つ物体検出器に対するLiDARスプーフィング攻撃能力に関する、最初の大規模な測定を行った。 この測定をするために、より注意深い光学系と機能性エレクトロニクスを用いてLiDARスプーフィング能力を大幅に改善し、先行研究で想定される主要な攻撃能力を初めて明確に実証し定量化することを可能にする。 しかし、近年のLiDARの特徴により、VLP-16より新しい他のLiDAR(9つ中8つ)については、そのような重要な仮定はもはや保持できないことが判明した。 この目的のために、我々はさらに改善可能な新しいタイプのLiDARスプーフィング攻撃を特定し、より汎用的で最近のLiDARの集合に適用することができる。 その攻撃能力は,(1)シミュレーションADシナリオにおいてエンド・ツー・エンドの安全性を損なうのに十分であり,(2)物理世界における実際の車両を除去する。 防衛面についても議論する。

LiDAR (Light Detection And Ranging) is an indispensable sensor for precise long- and wide-range 3D sensing, which directly benefited the recent rapid deployment of autonomous driving (AD). Meanwhile, such a safety-critical application strongly motivates its security research. A recent line of research demonstrates that one can manipulate the LiDAR point cloud and fool object detection by firing malicious lasers against LiDAR. However, these efforts face 3 critical research gaps: (1) evaluating only on a specific LiDAR (VLP-16); (2) assuming unvalidated attack capabilities; and (3) evaluating with models trained on limited datasets. To fill these critical research gaps, we conduct the first large-scale measurement study on LiDAR spoofing attack capabilities on object detectors with 9 popular LiDARs in total and 3 major types of object detectors. To perform this measurement, we significantly improved the LiDAR spoofing capability with more careful optics and functional electronics, which allows us to be the first to clearly demonstrate and quantify key attack capabilities assumed in prior works. However, we further find that such key assumptions actually can no longer hold for all the other (8 out of 9) LiDARs that are more recent than VLP-16 due to various recent LiDAR features. To this end, we further identify a new type of LiDAR spoofing attack that can improve on this and be applicable to a much more general and recent set of LiDARs. We find that its attack capability is enough to (1) cause end-to-end safety hazards in simulated AD scenarios, and (2) remove real vehicles in the physical world. We also discuss the defense side.
翻訳日:2023-03-21 18:42:08 公開日:2023-03-19
# 弾性相互作用エネルギーに基づく生成モデル:特徴空間の近似

Elastic Interaction Energy-Based Generative Model: Approximation in Feature Space ( http://arxiv.org/abs/2303.10553v1 )

ライセンス: Link先を確認
Chuqi Chen, Yue Wu, Yang Xiang(参考訳) 本稿では, 結晶中の欠陥間の弾性的相互作用に触発された弾性相互作用エネルギー(eie)に基づく損失関数を用いた生成的モデリング手法を提案する。 EIEに基づく計量の利用は、分布のグローバルな情報を考慮した長距離特性など、いくつかの利点を示す。 さらに、自己相互作用項を含むことにより、モード崩壊を防ぎ、全てのモードの分布をキャプチャする。 高次元データの比較的散在する分布の難しさを克服するために,まずデータを潜在特徴空間にマッピングし,データ分布の代わりに特徴分布を近似する。 我々は、GANフレームワークを採用し、識別器を特徴変換ネットワークに置き換えて、データを潜在空間にマッピングする。 また、GANベースのアルゴリズムにおける不安定なトレーニングの問題を効果的に解決する機能変換ネットワークの喪失に安定化用語を加える。 MNIST、FashionMNIST、CIFAR-10、CelebAなどの一般的なデータセットに対する実験結果から、EIEG GANモデルがモード崩壊を緩和し、安定性を向上し、モデル性能を向上させることを示した。

In this paper, we propose a novel approach to generative modeling using a loss function based on elastic interaction energy (EIE), which is inspired by the elastic interaction between defects in crystals. The utilization of the EIE-based metric presents several advantages, including its long range property that enables consideration of global information in the distribution. Moreover, its inclusion of a self-interaction term helps to prevent mode collapse and captures all modes of distribution. To overcome the difficulty of the relatively scattered distribution of high-dimensional data, we first map the data into a latent feature space and approximate the feature distribution instead of the data distribution. We adopt the GAN framework and replace the discriminator with a feature transformation network to map the data into a latent space. We also add a stabilizing term to the loss of the feature transformation network, which effectively addresses the issue of unstable training in GAN-based algorithms. Experimental results on popular datasets, such as MNIST, FashionMNIST, CIFAR-10, and CelebA, demonstrate that our EIEG GAN model can mitigate mode collapse, enhance stability, and improve model performance.
翻訳日:2023-03-21 18:41:34 公開日:2023-03-19
# 特徴流予測による車両・インフラ協調3次元物体検出

Vehicle-Infrastructure Cooperative 3D Object Detection via Feature Flow Prediction ( http://arxiv.org/abs/2303.10552v1 )

ライセンス: Link先を確認
Haibao Yu, Yingjuan Tang, Enze Xie, Jilei Mao, Jirui Yuan, Ping Luo, Zaiqing Nie(参考訳) ego-vehicleとインフラストラクチャセンサデータの両方を活用することで、自動運転の認識能力を大幅に向上させることができる。 しかし、交通環境における時間的非同期性や無線通信の制限は、融合ミスアライメントや影響検出性能につながる可能性がある。 本稿では,これらの問題に対処するために,特徴フロー予測モジュールを用いた新しい協調検出フレームワークであるFeature Flow Net(FFNet)を提案する。 FFNetは静止画像から抽出した特徴マップを送信するのではなく、逐次的なインフラストラクチャフレームの時間的コヒーレンスを利用して将来の特徴を予測し、非同期を補償する特徴フローを送信する。 さらに,FFNetが特徴予測機能を備えた特徴フローを生成するための自己教師型アプローチを導入する。 提案手法は, 時間同期が200$ms$を超える場合, DAIR-V2Xデータセット上での生データの送信コストを1/10以下に抑えながら, 既存の協調検出手法よりも優れていることを示す。 コードは \href{https://github.com/haibao-yu/FFNet-VIC3D}{https://github.com/haibao-yu/FFNet-VIC3D} で公開されている。

Cooperatively utilizing both ego-vehicle and infrastructure sensor data can significantly enhance autonomous driving perception abilities. However, temporal asynchrony and limited wireless communication in traffic environments can lead to fusion misalignment and impact detection performance. This paper proposes Feature Flow Net (FFNet), a novel cooperative detection framework that uses a feature flow prediction module to address these issues in vehicle-infrastructure cooperative 3D object detection. Rather than transmitting feature maps extracted from still-images, FFNet transmits feature flow, which leverages the temporal coherence of sequential infrastructure frames to predict future features and compensate for asynchrony. Additionally, we introduce a self-supervised approach to enable FFNet to generate feature flow with feature prediction ability. Experimental results demonstrate that our proposed method outperforms existing cooperative detection methods while requiring no more than 1/10 transmission cost of raw data on the DAIR-V2X dataset when temporal asynchrony exceeds 200$ms$. The code is available at \href{https://github.com/haibao-yu/FFNet-VIC3D}{https://github.com/haibao-yu/FFNet-VIC3D}.
翻訳日:2023-03-21 18:41:14 公開日:2023-03-19
# 拡張現実によるピギーバック型共焦点レジャー活動支援

Supporting Piggybacked Co-Located Leisure Activities via Augmented Reality ( http://arxiv.org/abs/2303.10546v1 )

ライセンス: Link先を確認
Samantha Reig, Erica Principe Cruz, Melissa M. Powers, Jennifer He, Timothy Chong, Yu Jiang Tham, Sven Kratz, Ava Robinson, Brian A. Smith, Rajan Vaish and Andr\'es Monroy-Hern\'andez(参考訳) テクノロジー、特にスマートフォンは、人間同士のやりとりから意味と時間を取り除き、人々を「デジタルバブル」へと引き離すことで悪名高い。 これはデジタルガジェットの固有の特性ではなく、テクノロジーデザインにおける想像力の欠如の証拠だと考えています。 この目的に向けて拡張現実(AR)を活用することで、複数の人々、彼らのペット、そして彼らの環境に対するエクスペリエンスを創造できます。 本研究では,日々の余暇を「ピギーバック」し,密接な関係(他人やペットと)の相互関係を育むar技術の設計について検討する。 3つのarアプリケーションを設計,開発,デプロイし,41項目と19-petのユーザースタディで評価した。 我々は、新しいチャネルでのインタラクションを刺激し、強化するARの能力、カスタマイズの重要性、ARデバイスの物理的側面(例えばスマートフォンの保持)を設計する上での課題について、重要な洞察を得た。 これらの知見は、共同位置ARの新しい研究領域における設計上の意味を導く。

Technology, especially the smartphone, is villainized for taking meaning and time away from in-person interactions and secluding people into "digital bubbles". We believe this is not an intrinsic property of digital gadgets, but evidence of a lack of imagination in technology design. Leveraging augmented reality (AR) toward this end allows us to create experiences for multiple people, their pets, and their environments. In this work, we explore the design of AR technology that "piggybacks" on everyday leisure to foster co-located interactions among close ties (with other people and pets. We designed, developed, and deployed three such AR applications, and evaluated them through a 41-participant and 19-pet user study. We gained key insights about the ability of AR to spur and enrich interaction in new channels, the importance of customization, and the challenges of designing for the physical aspects of AR devices (e.g., holding smartphones). These insights guide design implications for the novel research space of co-located AR.
翻訳日:2023-03-21 18:40:56 公開日:2023-03-19
# 超軽量タッチによる量子因果推論

Quantum Causal Inference with Extremely Light Touch ( http://arxiv.org/abs/2303.10544v1 )

ライセンス: Link先を確認
Xiangjing Liu, Yixian Qiu, Oscar Dahlsten, Vlatko Vedral(参考訳) 事象間の因果関係を推定する量子バージョンを考える。 必要最小限の介入と観察を特定するための最近の進歩がある。 ここで、明示的なスキームを構築することによって、量子観測だけでは2回測定された二成分量子システムの場合の量子因果推論に十分であることを示す。 我々のスキームは、多くの時間と量子ビットに付随する時空間擬似密度行列に対する閉形式表現の導出を伴う。 この行列は粗い粒度の量子観測だけで決定できる。 この行列から因果単音と呼ばれる特定の関数の符号を通して因果構造を推測できることを示す。 その結果,量子プロセスでは,異なる時間における観測間の相関のみから因果構造を推測できることがわかった。

We consider the quantum version of inferring the causal relation between events. There has been recent progress towards identifying minimal interventions and observations needed. We here show, by means of constructing an explicit scheme, that quantum observations alone are sufficient for quantum causal inference for the case of a bipartite quantum system with measurements at two times. Our scheme involves the derivation of a closed-form expression for the space-time pseudo-density matrix associated with many times and qubits. This matrix can be determined by coarse-grained quantum observations alone. We show that from this matrix one can infer the causal structure via the sign of a particular function called a causal monotone. Our results show that for quantum processes one can infer the causal structure solely from correlations between observations at different times.
翻訳日:2023-03-21 18:40:40 公開日:2023-03-19
# GAM : 点雲解析のための最適化の勾配注意モジュール

GAM : Gradient Attention Module of Optimization for Point Clouds Analysis ( http://arxiv.org/abs/2303.10543v1 )

ライセンス: Link先を確認
Haotian Hu, Fanyi Wang, Jingwen Su, Hongtao Zhou, Yaonong Wang, Laifeng Hu, Yanhao Zhang, Zhiwang Zhang(参考訳) 点雲解析タスクでは、既存のローカル特徴集約記述子(LFAD)は中心点近傍の情報を完全に活用できない。 従来の手法はユークリッド距離のみに頼って局所的な凝集過程を制限しており、これは異常な点の影響を受けやすく、点雲の元々の幾何学に適切に適合できない。 局所的な特徴の集約には,微細な幾何情報(FGGI)が重要であると考えられる。 そこで,上記の問題に対処するために,グラデーションアテンションモジュール (gam) と呼ばれる勾配ベースの局所アテンションモジュールを提案する。 提案したGAMは,近傍の勾配情報を抽出するプロセスを単純化し,Zenith Angle行列とAzimuth Angle行列を明示的表現として使用し,モジュールを35倍高速化する。 3dポイントクラウド解析に提案するgamの有効性と一般化性を示すため,5つのベンチマークデータセットで包括的な実験を行った。 特にS3DISデータセットにおいて、GAMは、それぞれ74.4%/90.6%/83.2%のmIoU/OA/mAccを持つ現在の点ベースモデルの中で最高のパフォーマンスを達成する。

In point cloud analysis tasks, the existing local feature aggregation descriptors (LFAD) are unable to fully utilize information in the neighborhood of central points. Previous methods rely solely on Euclidean distance to constrain the local aggregation process, which can be easily affected by abnormal points and cannot adequately fit with the original geometry of the point cloud. We believe that fine-grained geometric information (FGGI) is significant for the aggregation of local features. Therefore, we propose a gradient-based local attention module, termed as Gradient Attention Module (GAM), to address the aforementioned problem. Our proposed GAM simplifies the process that extracts gradient information in the neighborhood and uses the Zenith Angle matrix and Azimuth Angle matrix as explicit representation, which accelerates the module by 35X. Comprehensive experiments were conducted on five benchmark datasets to demonstrate the effectiveness and generalization capability of the proposed GAM for 3D point cloud analysis. Especially on S3DIS dataset, GAM achieves the best performance among current point-based models with mIoU/OA/mAcc of 74.4%/90.6%/83.2%, respectively.
翻訳日:2023-03-21 18:40:30 公開日:2023-03-19
# 畳み込みニューラルネットワークを用いた密度マップ推定による小麦頭数推定

Wheat Head Counting by Estimating a Density Map with Convolutional Neural Networks ( http://arxiv.org/abs/2303.10542v1 )

ライセンス: Link先を確認
Hongyu Guo(参考訳) 小麦は最も重要な作物の1つであり、毎年7億トンの穀物を生産している。 小麦スパイクの生産を評価することは、穀物生産を測定するのに役立つ。 したがって、小麦の育種過程において、小麦畑の画像からスパイクを検出し特徴付けることが必須成分である。 本研究では,コムギ頭数を個々の画像から正確に推定する3つのコムギ頭数計数ネットワーク (whcnet\_1, whcnet\_2, whcnet\_3) を提案し,画像中のコムギ頭数分布を示す高品質密度マップを構築する。 WHCNetは、小麦の頭部画像の特徴抽出のフロントエンドである畳み込みニューラルネットワーク(CNN)と、高品質な密度マップを生成するためにバックエンドのスキップ接続を備えたCNNの2つの主要コンポーネントで構成されている。 本研究で使用されるデータセットはglobal wheat head detection(gwhd)データセットであり、コムギ画像の大規模で多様で十分にラベルが付けられたデータセットであり、共同国際協力によって構築されている。 我々は,高度に混雑したシーンの理解と正確なカウント推定を行うとともに,高品質な密度マップを提示する深層学習手法であるCSRNetと比較した。 CNN層間のスキップ接続を利用して、WHCNetは低CNN層から高CNN層への機能を統合し、出力密度マップは高空間分解能と入力画像の詳細な表現の両方を有する。 実験の結果,提案手法はモデルサイズが小さい平均絶対誤差 (MAE) とルート平均二乗誤差 (RMSE) でCSRNetより優れていた。 コードはGitHubに保管されている(\url{https://github.com/hyguozz})。

Wheat is one of the most significant crop species with an annual worldwide grain production of 700 million tonnes. Assessing the production of wheat spikes can help us measure the grain production. Thus, detecting and characterizing spikes from images of wheat fields is an essential component in a wheat breeding process. In this study, we propose three wheat head counting networks (WHCNet\_1, WHCNet\_2 and WHCNet\_3) to accurately estimate the wheat head count from an individual image and construct high quality density map, which illustrates the distribution of wheat heads in the image. The WHCNets are composed of two major components: a convolutional neural network (CNN) as the front-end for wheat head image feature extraction and a CNN with skip connections for the back-end to generate high-quality density maps. The dataset used in this study is the Global Wheat Head Detection (GWHD) dataset, which is a large, diverse, and well-labelled dataset of wheat images and built by a joint international collaborative effort. We compare our methods with CSRNet, a deep learning method which developed for highly congested scenes understanding and performing accurate count estimation as well as presenting high quality density maps. By taking the advantage of the skip connections between CNN layers, WHCNets integrate features from low CNN layers to high CNN layers, thus, the output density maps have both high spatial resolution and detailed representations of the input images. The experiments showed that our methods outperformed CSRNet in terms of the evaluation metrics, mean absolute error (MAE) and the root mean squared error (RMSE) with smaller model sizes. The code has been deposited on GitHub (\url{https://github.com/hyguozz}).
翻訳日:2023-03-21 18:40:09 公開日:2023-03-19
# 旅行セールスマン問題解決のための教師なし学習

Unsupervised Learning for Solving the Travelling Salesman Problem ( http://arxiv.org/abs/2303.10538v1 )

ライセンス: Link先を確認
Yimeng Min, Yiwei Bai, Carla P. Gomes(参考訳) 本稿では,トラベリングセールスマン問題(TSP)を解決するための,教師なし学習(UL)フレームワークUTSPを提案する。 代理損失を用いてグラフニューラルネットワーク(GNN)を訓練する。 GNNは、各エッジが最適経路の一部である確率を表すヒートマップを出力する。 そして、ヒートマップに基づいて最終予測を生成するためにローカル検索を適用します。 損失関数は2つの部分からなる: 1つは最短経路を見つけるためにモデルを押し、もう1つは経路がハミルトニアンサイクルを形成するという制約の代理として機能する。 実験の結果,UTSPは既存のデータ駆動型TSPヒューリスティックよりも優れていた。 我々のアプローチはパラメータ効率とデータ効率である:モデルはパラメータの数を$\sim$10\%、トレーニングサンプルを$\sim$0.2\%、強化学習や教師付き学習法と比較して$\sim$0.2\%を取る。

We propose UTSP, an unsupervised learning (UL) framework for solving the Travelling Salesman Problem (TSP). We train a Graph Neural Network (GNN) using a surrogate loss. The GNN outputs a heat map representing the probability for each edge to be part of the optimal path. We then apply local search to generate our final prediction based on the heat map. Our loss function consists of two parts: one pushes the model to find the shortest path and the other serves as a surrogate for the constraint that the route should form a Hamiltonian Cycle. Experimental results show that UTSP outperforms the existing data-driven TSP heuristics. Our approach is parameter efficient as well as data efficient: the model takes $\sim$ 10\% of the number of parameters and $\sim$ 0.2\% of training samples compared with reinforcement learning or supervised learning methods.
翻訳日:2023-03-21 18:39:38 公開日:2023-03-19
# TempT: テスト時間適応のための時間整合性

TempT: Temporal consistency for Test-time adaptation ( http://arxiv.org/abs/2303.10536v1 )

ライセンス: Link先を確認
Onur Cezmi Mutlu, Mohammadmahdi Honarmand, Saimourya Surabhi, Dennis P. Wall(参考訳) 本報告では,逐次フレーム間における予測の時間的コヒーレンスを確保することにより,ビデオ上での新しいテスト時間適応手法である tempt を紹介する。 TempTは、ビデオの表情認識(FER)を含むコンピュータビジョンタスクに幅広い応用を持つ強力なツールである。 The 5th Workshop and Competition on Affective Behavior Analysis in the wild (ABAW)における表現分類チャレンジの一環として,AffWild2データセット上でのTempTの性能を評価した。 我々のアプローチは、データの一様視覚的側面にのみ焦点をあて、より大規模なシーケンシャルまたは注意に基づくモデルとは対照的に、一般的な2D CNNバックボーンを利用する。 実験の結果,TempTは過去の報告した性能と比較して競争力のある性能を示し,その有効性は実世界の様々な応用における概念実証に有益であることがわかった。

In this technical report, we introduce TempT, a novel method for test time adaptation on videos by ensuring temporal coherence of predictions across sequential frames. TempT is a powerful tool with broad applications in computer vision tasks, including facial expression recognition (FER) in videos. We evaluate TempT's performance on the AffWild2 dataset as part of the Expression Classification Challenge at the 5th Workshop and Competition on Affective Behavior Analysis in the wild (ABAW). Our approach focuses solely on the unimodal visual aspect of the data and utilizes a popular 2D CNN backbone, in contrast to larger sequential or attention based models. Our experimental results demonstrate that TempT has competitive performance in comparison to previous years reported performances, and its efficacy provides a compelling proof of concept for its use in various real world applications.
翻訳日:2023-03-21 18:39:22 公開日:2023-03-19
# 非連結部分空間を持つ双極子ファシリケートガラスモデルにおける非熱的絡み合いダイナミクス

Nonthermal entanglement dynamics in a dipole-facilitated glassy model with disconnected subspaces ( http://arxiv.org/abs/2303.10582v1 )

ライセンス: Link先を確認
Guanhua Chen and Yao Yao(参考訳) 三角形状のフラストレーションを持つ準一次元スピン1/2鎖について検討し,双極子結合運動論的制約を持つガラス系を実現するように相互作用を設定した。 この簡潔なモデルの注目すべき特徴は、3つの切り離された部分空間であり、ヒルベルト空間のブロック構造と絡み合う力学を理解することができる。 ベル状態とグリーンバーガー・ホーン・サイレンジャー状態から始め、共起、忠実性、および2-r\'{e}nyiエントロピーによって定量化された量子エンタングルメントは非熱力学的挙動を示し、つまり拡散したエンタングルメントは自発的に回復することができ、他のスピンモデルにはない。 このエンタングルメントの周期的ダイナミクスはランダムな反転ノイズに対する高い忠実性を示す。 我々の研究は、エルゴード性破壊とフォールトトレラントな量子計算の健全な方法を提供する。

We study a quasi-one-dimensional spin-1/2 chain with frustrated triangular form, in which the interaction is set to realize a glassy system with dipole-facilitated kinetic constraints. A notable feature of this concise model turns out to be the three disconnected subspaces, allowing us to comprehend entanglement dynamics with blocked structure of Hilbert space. Initially from the Bell state and the Greenberger-Horne-Zeilinger state, it is found that the quantum entanglement, quantified by concurrence, fidelity and 2-R\'{e}nyi entropy, exhibits a nonthermal dynamic behavior, i.e. the diffused entanglement can be spontaneously recovered which is absent in other spin models. This appealing periodic dynamics of entanglement manifests high fidelity against random flipping noise. Our work offers a sound way of ergodicity breaking and fault-tolerant quantum computations.
翻訳日:2023-03-21 18:33:18 公開日:2023-03-19
# 大規模モバイルエッジコンピューティングネットワーク上での階層型パーソナライズされた連合学習

Hierarchical Personalized Federated Learning Over Massive Mobile Edge Computing Networks ( http://arxiv.org/abs/2303.10580v1 )

ライセンス: Link先を確認
Chaoqun You, Kun Guo, Howard H. Yang, Tony Q. S. Quek(参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は新たなフェデレーション・ラーニング(FL)パラダイムであり、特にモバイルエッジ・コンピューティング(MEC)ネットワークにおける様々なモバイル・ユーザー・デバイス(UE)がもたらす不均一性問題に対処する。 しかし、UEの増大とそれがもたらす複雑な管理作業により、PFLアルゴリズムを従来の2層フレームワークから複数層フレームワークに切り替えることが望ましい。 本稿では,大規模なMECネットワーク上にPFLをデプロイするアルゴリズムである階層型PFL(HPFL)を提案する。 hpflのuesは複数のクラスタに分割され、各クラスタのuesはエッジモデルアグリゲーションのためにローカルアップデートをエッジサーバ(es)に同期させ、essはエッジモデルを半同期的にクラウドサーバに転送してグローバルモデルアグリゲーションを行う。 上記のトレーニング方法は、各ラウンドのトレーニング損失とラウンドレイテンシとのトレードオフにつながる。 hpflは、トレーニング損失の最小化とラウンドレイテンシの最小化という目標を組み合わせて、階層的学習フレームワークにおける最適な帯域割り当てとesスケジューリングポリシーを共同で決定する。 HPFLは階層的な集約フレームワークの収束を保証するだけでなく、ラウンドトレーニング損失の最大化やラウンドレイテンシの最小化にも利点がある。

Personalized Federated Learning (PFL) is a new Federated Learning (FL) paradigm, particularly tackling the heterogeneity issues brought by various mobile user equipments (UEs) in mobile edge computing (MEC) networks. However, due to the ever-increasing number of UEs and the complicated administrative work it brings, it is desirable to switch the PFL algorithm from its conventional two-layer framework to a multiple-layer one. In this paper, we propose hierarchical PFL (HPFL), an algorithm for deploying PFL over massive MEC networks. The UEs in HPFL are divided into multiple clusters, and the UEs in each cluster forward their local updates to the edge server (ES) synchronously for edge model aggregation, while the ESs forward their edge models to the cloud server semi-asynchronously for global model aggregation. The above training manner leads to a tradeoff between the training loss in each round and the round latency. HPFL combines the objectives of training loss minimization and round latency minimization while jointly determining the optimal bandwidth allocation as well as the ES scheduling policy in the hierarchical learning framework. Extensive experiments verify that HPFL not only guarantees convergence in hierarchical aggregation frameworks but also has advantages in round training loss maximization and round latency minimization.
翻訳日:2023-03-21 18:32:59 公開日:2023-03-19
# 部分グラフ上でGNNを走らせることなくGNNによる部分構造を効率的にカウントする

Efficiently Counting Substructures by Subgraph GNNs without Running GNN on Subgraphs ( http://arxiv.org/abs/2303.10576v1 )

ライセンス: Link先を確認
Zuoyu Yan, Junru Zhou, Liangcai Gao, Zhi Tang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)を用いてグラフサブ構造をカウントするといった特定の関数を近似することは、グラフ学習における最近のトレンドである。 これらの研究の中で一般的な方法は、入力グラフをサブグラフの集合に分解し、個々のサブグラフにGNNを適用することでグラフの表現を強化するサブグラフGNNを使うことである。 サブグラフGNNは複雑なサブ構造を数えることができるが、計算とメモリのコストが高い。 本稿では,非自明な問題に対処し,GNNを用いて,部分構造を効率的に数えることができるか? この疑問に答えるために、まず、サブグラフ内のルートノード間の距離が、サブグラフGNNのカウント能力を高める鍵であることを理論的に示す。 そして、それらの情報を構造埋め込みにエンコードし、埋め込みを事前計算することで、gnnによる全てのサブグラフの情報抽出を繰り返すのを避ける。 様々なベンチマーク実験により,提案手法は,桁違いに高速に実行しながら,サブグラフgnnのカウントパワーを維持できることが示された。

Using graph neural networks (GNNs) to approximate specific functions such as counting graph substructures is a recent trend in graph learning. Among these works, a popular way is to use subgraph GNNs, which decompose the input graph into a collection of subgraphs and enhance the representation of the graph by applying GNN to individual subgraphs. Although subgraph GNNs are able to count complicated substructures, they suffer from high computational and memory costs. In this paper, we address a non-trivial question: can we count substructures efficiently with GNNs? To answer the question, we first theoretically show that the distance to the rooted nodes within subgraphs is key to boosting the counting power of subgraph GNNs. We then encode such information into structural embeddings, and precompute the embeddings to avoid extracting information over all subgraphs via GNNs repeatedly. Experiments on various benchmarks show that the proposed model can preserve the counting power of subgraph GNNs while running orders of magnitude faster.
翻訳日:2023-03-21 18:32:33 公開日:2023-03-19
# ANMS: イベントストリームにおける非同期非最大抑圧

ANMS: Asynchronous Non-Maximum Suppression in Event Stream ( http://arxiv.org/abs/2303.10575v1 )

ライセンス: Link先を確認
Qianang Zhou, JunLin Xiong, Youfu Li(参考訳) 非最大抑圧(NMS)は、フレームベースのタスクにおいて重要な後処理アルゴリズムとして広く使われている。 しかし、イベントベースのNMSは高い計算複雑性を持つか、頻繁に不連続を引き起こす。 その結果,イベントベースコーナー検出器の性能は制限された。 本稿では,汎用非同期非最大抑制パイプライン(anms)を提案し,コーナーイベント検出に適用する。 提案するパイプラインは、元の検出器の出力から細かな特徴ストリームを抽出し、動作速度に適応する。 ANMSは、非常に低レイテンシで非同期イベントストリーム上で直接実行されるため、元の検出器の速度にはほとんど影響しない。 さらに, フレームとイベント間のギャップを埋めるために, DAVISに基づく地中構造ラベリング手法の評価を行った。 公開データセットの評価では、提案したANMSパイプラインは、無視できるレイテンシを持つ3つの古典的非同期検出器の性能を大幅に改善することを示している。 さらに重要なことは、提案されたANMSフレームワークはNMSの自然な拡張であり、イベントカメラの他の非同期スコアリングタスクに適用できる。

The non-maximum suppression (NMS) is widely used in frame-based tasks as an essential post-processing algorithm. However, event-based NMS either has high computational complexity or leads to frequent discontinuities. As a result, the performance of event-based corner detectors is limited. This paper proposes a general-purpose asynchronous non-maximum suppression pipeline (ANMS), and applies it to corner event detection. The proposed pipeline extract fine feature stream from the output of original detectors and adapts to the speed of motion. The ANMS runs directly on the asynchronous event stream with extremely low latency, which hardly affects the speed of original detectors. Additionally, we evaluate the DAVIS-based ground-truth labeling method to fill the gap between frame and event. Evaluation on public dataset indicates that the proposed ANMS pipeline significantly improves the performance of three classical asynchronous detectors with negligible latency. More importantly, the proposed ANMS framework is a natural extension of NMS, which is applicable to other asynchronous scoring tasks for event cameras.
翻訳日:2023-03-21 18:32:14 公開日:2023-03-19
# MeTooポストからのインシデント・エフェクト・リクエストアドバイザの抽出

Extracting Incidents, Effects, and Requested Advice from MeToo Posts ( http://arxiv.org/abs/2303.10573v1 )

ライセンス: Link先を確認
Vaibhav Garg, Jiaqing Yuan, Rujie Xi, and Munindar P. Singh(参考訳) セクハラの生き残りはしばしばソーシャルメディアで経験を共有し、感情や感情を明らかにし、アドバイスを求める。 私たちはRedditで、生存者が定期的に長い投稿を共有しているのを観察した。 (i)セクハラ事件。 (ii)その感情や感情を含む生存者への影響 (iii)求められているアドバイス。 このような投稿をmetoo postと呼んでいますが、タグ付けされていなくても、さまざまなサブredditに表示されます。 将来の支援者(カウンセラーやカジュアル読者など)は、そのようなポストから生存者のニーズを理解する必要がある。 しかし、長い投稿は読むのに時間がかかる。 したがって、長いMeToo投稿からキー情報を抽出する問題に対処する。 上記の3つのカテゴリのいずれかを記述する投稿から文を識別する自然言語モデルを開発した。 データセットの10倍のクロスバリデーションでは、マクロF1スコアが0.82である。 methreeはredditの投稿から抽出された8,947のラベル付き文章からなるデータセットだ。 liwc-22 ツールキットを methree に適用して,3つのカテゴリの文の異なる言語パターンが,感情的トーンや真正性,その他の側面の差異をいかに顕在化するかを理解する。

Survivors of sexual harassment frequently share their experiences on social media, revealing their feelings and emotions and seeking advice. We observed that on Reddit, survivors regularly share long posts that describe a combination of (i) a sexual harassment incident, (ii) its effect on the survivor, including their feelings and emotions, and (iii) the advice being sought. We term such posts MeToo posts, even though they may not be so tagged and may appear in diverse subreddits. A prospective helper (such as a counselor or even a casual reader) must understand a survivor's needs from such posts. But long posts can be time-consuming to read and respond to. Accordingly, we address the problem of extracting key information from a long MeToo post. We develop a natural language-based model to identify sentences from a post that describe any of the above three categories. On ten-fold cross-validation of a dataset, our model achieves a macro F1 score of 0.82. In addition, we contribute MeThree, a dataset comprising 8,947 labeled sentences extracted from Reddit posts. We apply the LIWC-22 toolkit on MeThree to understand how different language patterns in sentences of the three categories can reveal differences in emotional tone, authenticity, and other aspects.
翻訳日:2023-03-21 18:31:59 公開日:2023-03-19
# CLIP4MC:Minecraft用のRLフレンドリーなビジョンランゲージモデル

CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft ( http://arxiv.org/abs/2303.10571v1 )

ライセンス: Link先を確認
Ziluo Ding, Hao Luo, Ke Li, Junpeng Yue, Tiejun Huang, and Zongqing Lu(参考訳) AI研究コミュニティにおける重要なミッションの1つは、幅広いタスクにわたるハイレベルなパフォーマンスを達成できる、自律的な実施エージェントを構築することである。 しかしながら、すべてのオープンエンドタスクにおける報酬/ペナルティの獲得は非現実的であり、強化学習(rl)トレーニング手順は不可能である。 本稿では,オープンエンドタスクの報酬関数として機能するRLフレンドリな視覚言語モデルを学習することを目的とした,新しいクロスモーダル・コントラスト学習フレームワークアーキテクチャであるCLIP4MCを提案する。 そのため、タスク固有の報酬設計は不要である。 直感的には、アクションレベルとエンティティレベルの両方において、ビデオスニペットと言語プロンプトの類似性に対処することがモデルにとってより合理的である。 この目的のために、異なる間隔にまたがる動き埋め込みをキャプチャするモーションエンコーダが提案されている。 次に相関スコアを用いてRLエージェントの補助報酬信号を構成する。 さらに,MineDojoが提供する大規模YouTubeデータベースに基づいて,適切なYouTubeデータセットを構築する。 具体的には、2ラウンドのフィルタリング操作により、データセットが十分な必須情報をカバーし、ビデオテキストペアが高い相関性を持つことを保証する。 実験により,提案手法はベースラインよりもRLタスクの性能がよいことを示す。

One of the essential missions in the AI research community is to build an autonomous embodied agent that can attain high-level performance across a wide spectrum of tasks. However, acquiring reward/penalty in all open-ended tasks is unrealistic, making the Reinforcement Learning (RL) training procedure impossible. In this paper, we propose a novel cross-modal contrastive learning framework architecture, CLIP4MC, aiming to learn an RL-friendly vision-language model that serves as a reward function for open-ended tasks. Therefore, no further task-specific reward design is needed. Intuitively, it is more reasonable for the model to address the similarity between the video snippet and the language prompt at both the action and entity levels. To this end, a motion encoder is proposed to capture the motion embeddings across different intervals. The correlation scores are then used to construct the auxiliary reward signal for RL agents. Moreover, we construct a neat YouTube dataset based on the large-scale YouTube database provided by MineDojo. Specifically, two rounds of filtering operations guarantee that the dataset covers enough essential information and that the video-text pair is highly correlated. Empirically, we show that the proposed method achieves better performance on RL tasks compared with baselines.
翻訳日:2023-03-21 18:31:42 公開日:2023-03-19
# 変動リカレントニューラルネットワークを用いた動的ハイパースペクトルアンミックス

Dynamical Hyperspectral Unmixing with Variational Recurrent Neural Networks ( http://arxiv.org/abs/2303.10566v1 )

ライセンス: Link先を確認
Ricardo Augusto Borsoi, Tales Imbiriba, Pau Closas(参考訳) MTHU(Multitemporal hyperspectral unmixing)は、ハイパースペクトル画像解析の基本的なツールである。 これは、あるシーンにおける素材(エンドメンバー)とそれらの比率(冗長性)の動的進化を明らかにする。 しかし、MTHUのエンドメンバーの空間的・時間的変動を適切に考慮することは困難であり、これまでは教師なしのフレームワークでは十分に対処されていない。 そこで本研究では,変分リカレントニューラルネットワークに基づく教師なしMTHUアルゴリズムを提案する。 第一に、エンドメンバーの動的進化とその存在量と混合過程の両方を表す確率的モデルが提案されている。 さらに,低次元パラメトリゼーションに基づく新しいモデルを用いて,空間的および時間的終端変動を表現し,推定する変数の量を著しく削減する。 ベイズ推論問題として MTHU を定式化することを提案する。 しかし、この問題の解はモデルの非線形性と非ガウス性のために解析解を持たない。 そこで本研究では,リカレントニューラルネットワークと物理的モチベーションモデルを組み合わせたモデルを用いて,推定量と端部の後方分布を表現した深い変動推定に基づく解を提案する。 モデルのパラメータは確率的バックプロパゲーションを用いて学習される。 実験の結果,提案手法はMTHUアルゴリズムの精度に優れていた。

Multitemporal hyperspectral unmixing (MTHU) is a fundamental tool in the analysis of hyperspectral image sequences. It reveals the dynamical evolution of the materials (endmembers) and of their proportions (abundances) in a given scene. However, adequately accounting for the spatial and temporal variability of the endmembers in MTHU is challenging, and has not been fully addressed so far in unsupervised frameworks. In this work, we propose an unsupervised MTHU algorithm based on variational recurrent neural networks. First, a stochastic model is proposed to represent both the dynamical evolution of the endmembers and their abundances, as well as the mixing process. Moreover, a new model based on a low-dimensional parametrization is used to represent spatial and temporal endmember variability, significantly reducing the amount of variables to be estimated. We propose to formulate MTHU as a Bayesian inference problem. However, the solution to this problem does not have an analytical solution due to the nonlinearity and non-Gaussianity of the model. Thus, we propose a solution based on deep variational inference, in which the posterior distribution of the estimated abundances and endmembers is represented by using a combination of recurrent neural networks and a physically motivated model. The parameters of the model are learned using stochastic backpropagation. Experimental results show that the proposed method outperforms state of the art MTHU algorithms.
翻訳日:2023-03-21 18:31:22 公開日:2023-03-19
# ゼロサム行列ゲームのためのインスタンス依存サンプル複素境界

Instance-dependent Sample Complexity Bounds for Zero-sum Matrix Games ( http://arxiv.org/abs/2303.10565v1 )

ライセンス: Link先を確認
Arnab Maiti, Kevin Jamieson, Lillian J. Ratliff(参考訳) 2人プレイヤゼロサム$n\times 2$行列ゲームに対する近似平衡を同定するサンプル複雑性について検討する。 つまり、繰り返しプレイするゲームでは、2人のプレーヤーが近似均衡(例えばナッシュ)に達する前に何ラウンドプレイしなければならないのか? 我々は、あるゲームのダイナミクスが他のゲームよりも早く収束するという直感を捉えるゲーム行列の順序付けを定義するインスタンス依存境界を導出する。 具体的には、2人のプレーヤーがそれぞれアクションを$i$と$j$を選択すると、それぞれが互いのプレイアクションを観察し、確率的観察を$X_{ij}$が$\mathbb E[X_{ij}] = A_{ij}$とする確率的観察モデルを考える。 我々の知る限り、我々の研究は、ゲームマトリックス $a$ の特定の特性と所望の精度に依存するという意味で、プレイヤーが近似平衡に達する前にプレイしなければならないラウンド数に対するインスタンス依存下限の最初のケースである。 我々はまた、逆の言明を証明している: この下限を達成するプレイヤー戦略が存在する。

We study the sample complexity of identifying an approximate equilibrium for two-player zero-sum $n\times 2$ matrix games. That is, in a sequence of repeated game plays, how many rounds must the two players play before reaching an approximate equilibrium (e.g., Nash)? We derive instance-dependent bounds that define an ordering over game matrices that captures the intuition that the dynamics of some games converge faster than others. Specifically, we consider a stochastic observation model such that when the two players choose actions $i$ and $j$, respectively, they both observe each other's played actions and a stochastic observation $X_{ij}$ such that $\mathbb E[ X_{ij}] = A_{ij}$. To our knowledge, our work is the first case of instance-dependent lower bounds on the number of rounds the players must play before reaching an approximate equilibrium in the sense that the number of rounds depends on the specific properties of the game matrix $A$ as well as the desired accuracy. We also prove a converse statement: there exist player strategies that achieve this lower bound.
翻訳日:2023-03-21 18:31:03 公開日:2023-03-19
# 感情行動分析のための時空間変圧器

Spatial-temporal Transformer for Affective Behavior Analysis ( http://arxiv.org/abs/2303.10561v1 )

ライセンス: Link先を確認
Peng Zou, Rui Wang, Kehua Wen, Yasi Peng and Xiao Sun(参考訳) 野生の感情行動分析は重要な研究である。 本稿では,第5回ワークショップにおいて,v-a推定,表情分類,au検出サブチャングを含む感情的行動分析(abaw)に関するソリューションを提示する。 空間的特徴と時間的特徴の両方の分布を学習するためのマルチヘッドアテンションフレームワークを備えたトランスフォーマーエンコーダを提案する。 さらに、モデルトレーニング中のサンプル不均衡の問題を軽減するために、有効なデータ拡張戦略が採用されている。 aff-wild2データセットに基づく提案モデルの有効性を完全に実証した。

The in-the-wild affective behavior analysis has been an important study. In this paper, we submit our solutions for the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW), which includes V-A Estimation, Facial Expression Classification and AU Detection Sub-challenges. We propose a Transformer Encoder with Multi-Head Attention framework to learn the distribution of both the spatial and temporal features. Besides, there are virious effective data augmentation strategies employed to alleviate the problems of sample imbalance during model training. The results fully demonstrate the effectiveness of our proposed model based on the Aff-Wild2 dataset.
翻訳日:2023-03-21 18:30:44 公開日:2023-03-19
# Twitter上でのCOVID-19パンデミックに対する人々の反応:米国とインドからの感情表現の比較分析

How People Respond to the COVID-19 Pandemic on Twitter: A Comparative Analysis of Emotional Expressions from US and India ( http://arxiv.org/abs/2303.10560v1 )

ライセンス: Link先を確認
Brandon Siyuan Loh, Raj Kumar Gupta, Ajay Vishwanath, Andrew Ortony, Yinping Yang(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界中の数百万人の命と感情の高まりを訴えてきた。 本研究は、2020年2月から2021年4月までの15カ月間をカバーし、2021年3月にインドを荒廃させた新型コロナウイルス(COVID-19)の大規模かつ壊滅的な増加の始まりを含む、米国とインドにおける5500万以上のツイートに表される様々な感情の表現について検討した。 事前学習した感情分析とトピックモデリングアルゴリズムを用いて,4種類の感情(怒り,怒り,幸福,悲しみ)とその時間的・場所的変化を検討した。 その結果、恐怖、怒り、幸福の相対的な割合の国差と時間的変化が明らかとなり、恐怖の減少と怒りと幸福は、2021年前半の4カ月間の新たな状況が逆転するまで、2020年に変動した。 検出された差異は,感情評価理論のレンズを通して明らかにされた潜在トピックの観点で簡単に議論され,その結果の意義について考察する。

The COVID-19 pandemic has claimed millions of lives worldwide and elicited heightened emotions. This study examines the expression of various emotions pertaining to COVID-19 in the United States and India as manifested in over 54 million tweets, covering the fifteen-month period from February 2020 through April 2021, a period which includes the beginnings of the huge and disastrous increase in COVID-19 cases that started to ravage India in March 2021. Employing pre-trained emotion analysis and topic modeling algorithms, four distinct types of emotions (fear, anger, happiness, and sadness) and their time- and location-associated variations were examined. Results revealed significant country differences and temporal changes in the relative proportions of fear, anger, and happiness, with fear declining and anger and happiness fluctuating in 2020 until new situations over the first four months of 2021 reversed the trends. Detected differences are discussed briefly in terms of the latent topics revealed and through the lens of appraisal theories of emotions, and the implications of the findings are discussed.
翻訳日:2023-03-21 18:30:34 公開日:2023-03-19
# 機械学習を用いた血液量パルス(BVP)信号からの痛覚自動認識

Automatic pain recognition from Blood Volume Pulse (BVP) signal using machine learning techniques ( http://arxiv.org/abs/2303.10607v1 )

ライセンス: Link先を確認
Fatemeh Pouromran, Yingzi Lin, and Sagar Kamarthi(参考訳) 痛みに対する生理的反応は、痛み認識センシングシステムを開発する研究者の間で注目を集めている。 BVP(Blood Volume Pulse)は、客観的な痛み評価に役立つ生理学的指標の1つである。 本研究では,BVP信号に機械学習技術を適用し,非侵襲的な痛覚モダリティを計測した。 対象は健常者32名であった。 まず, 痛みに敏感な新しい時間領域, 周波数領域, 非線形ダイナミクスの特徴について検討した。 これらには、BVP信号からの24のフィーチャと、同じBVP信号から派生したIBI(Inter-beat Intervals)からの20の追加機能が含まれる。 これらの特徴を利用して、痛みの有無とその強度を検出する機械学習モデルを構築した。 Logistic Regression, Random Forest, Support Vector Machines, Adaptive Boosting (AdaBoost), Extreme Gradient Boosting (XGBoost)など,さまざまな機械学習モデルについて検討した。 その中でも,xgboostは痛み分類と痛み強度推定タスクの両方において,最高のモデル性能を提供した。 低痛,中痛,高痛を基準として検出するxgboostモデルのroc-aucはそれぞれ80.06%,85.81%,90.05%であった。 また,XGboost分類器は中度痛とROC-AUC91%の高痛を区別した。 XGBoostは3つの痛みレベルの中で、F1スコアの平均80.03%で最高のパフォーマンスを示した。 以上の結果から,bvp信号と機械学習アルゴリズムは,痛みの自動評価に有望な生理的指標であることが示唆された。 この研究は、正確な痛み評価、効果的な痛み管理、患者間の薬物探索行動の低減、オピオイド危機に対する国家的影響をもたらす。

Physiological responses to pain have received increasing attention among researchers for developing an automated pain recognition sensing system. Though less explored, Blood Volume Pulse (BVP) is one of the candidate physiological measures that could help objective pain assessment. In this study, we applied machine learning techniques on BVP signals to device a non-invasive modality for pain sensing. Thirty-two healthy subjects participated in this study. First, we investigated a novel set of time-domain, frequency-domain and nonlinear dynamics features that could potentially be sensitive to pain. These include 24 features from BVP signals and 20 additional features from Inter-beat Intervals (IBIs) derived from the same BVP signals. Utilizing these features, we built machine learning models for detecting the presence of pain and its intensity. We explored different machine learning models, including Logistic Regression, Random Forest, Support Vector Machines, Adaptive Boosting (AdaBoost) and Extreme Gradient Boosting (XGBoost). Among them, we found that the XGBoost offered the best model performance for both pain classification and pain intensity estimation tasks. The ROC-AUC of the XGBoost model to detect low pain, medium pain and high pain with no pain as the baseline were 80.06 %, 85.81 %, and 90.05 % respectively. Moreover, the XGboost classifier distinguished medium pain from high pain with ROC-AUC of 91%. For the multi-class classification among three pain levels, the XGBoost offered the best performance with an average F1-score of 80.03%. Our results suggest that BVP signal together with machine learning algorithms is a promising physiological measurement for automated pain assessment. This work will have a national impact on accurate pain assessment, effective pain management, reducing drug-seeking behavior among patients, and addressing national opioid crisis.
翻訳日:2023-03-21 18:24:07 公開日:2023-03-19
# CTRAN:CNN変換器を用いた自然言語理解ネットワーク

CTRAN: CNN-Transformer-based Network for Natural Language Understanding ( http://arxiv.org/abs/2303.10606v1 )

ライセンス: Link先を確認
Mehrdad Rafiepour, Javad Salimi Sartakhti(参考訳) インテント検出とスロットフィルは、自然言語理解における2つの主なタスクである。 本研究では,新しいエンコーダデコーダCNN-TransformerアーキテクチャであるCTRANを提案する。 エンコーダでは、BERTといくつかの畳み込み層を使用し、ウィンドウ特徴系列を用いて出力を並べ替える。 ウィンドウ特徴系列の後、スタック化されたTransformerエンコーダを使用する。 インテント検出デコーダでは,セルフアテンションと線形層を併用する。 スロット充填デコーダでは,ゼロ対角マスクを用いたアライメントトランスデコーダを導入し,出力タグを入力トークンにアライメントする。 我々はATISとSNIPSにネットワークを適用し、両方のデータセットのスロットフィリングにおける現在の最先端技術を上回る。 さらに,言語モデルを単語埋め込みとして組み込んで,エンコーダとしての言語モデルと比較して,この戦略がよりよい結果をもたらすことを示す。

Intent-detection and slot-filling are the two main tasks in natural language understanding. In this study, we propose CTRAN, a novel encoder-decoder CNN-Transformer-based architecture for intent-detection and slot-filling. In the encoder, we use BERT, followed by several convolutional layers, and rearrange the output using window feature sequence. We use stacked Transformer encoders after the window feature sequence. For the intent-detection decoder, we utilize self-attention followed by a linear layer. In the slot-filling decoder, we introduce the aligned Transformer decoder, which utilizes a zero diagonal mask, aligning output tags with input tokens. We apply our network on ATIS and SNIPS, and surpass the current state-of-the-art in slot-filling on both datasets. Furthermore, we incorporate the language model as word embeddings, and show that this strategy yields a better result when compared to the language model as an encoder.
翻訳日:2023-03-21 18:23:38 公開日:2023-03-19
# 胸部x線二値分類問題における転送学習法

Transfer learning method in the problem of binary classification of chest X-rays ( http://arxiv.org/abs/2303.10601v1 )

ライセンス: Link先を確認
Kolesnikov Dmitry(参考訳) 胸部X線所見の迅速かつ迅速な検出が可能であり,早期に肺炎の発生を検出し,即時治療を開始することができる。 人工知能は、X線分析の手順を迅速かつ質的に改善し、不審な画像のさらなる考慮のために医師に勧告を与える。 本研究の目的は,少量のトレーニングデータが存在する場合のバイナリ分類問題において,転送学習手法の最良のモデルと実装を決定することである。 本稿では,白黒x線画像に対するresnetおよびdrknetモデルのトレーニングにおける初期データの強化方法と手法について検討し,肺炎症例の判定精度と検査段階での基準値の最大値を得るのに寄与する手法について検討する。

The possibility of high-precision and rapid detection of pathologies on chest X-rays makes it possible to detect the development of pneumonia at an early stage and begin immediate treatment. Artificial intelligence can speed up and qualitatively improve the procedure of X-ray analysis and give recommendations to the doctor for additional consideration of suspicious images. The purpose of this study is to determine the best models and implementations of the transfer learning method in the binary classification problem in the presence of a small amount of training data. In this article, various methods of augmentation of the initial data and approaches to training ResNet and DenseNet models for black-and-white X-ray images are considered, those approaches that contribute to obtaining the highest results of the accuracy of determining cases of pneumonia and norm at the testing stage are identified.
翻訳日:2023-03-21 18:23:23 公開日:2023-03-19
# 変分モンテカルロ法の証明可能な収束

Provable Convergence of Variational Monte Carlo Methods ( http://arxiv.org/abs/2303.10599v1 )

ライセンス: Link先を確認
Tianyou Li, Fan Chen, Huajie Chen and Zaiwen Wen(参考訳) 変分モンテカルロ(VMC)は、多体量子問題の基底状態エネルギーを計算するための有望なアプローチであり、機械学習の開発によりますます関心を集めている。 VMCの最近のパラダイムは、実験波動関数としてニューラルネットワークを構築し、マルコフ連鎖モンテカルロ(MCMC)を用いたサンプル量子構成と確率勾配降下(SGD)法によるトレーニングニューラルネットワークを構築している。 しかし、sgdがよく設計された試行波関数を与えられたmcmcサンプリングと相互作用するとき、vmcの理論的収束はまだ不明である。 MCMCは勾配推定の難しさを減らすため、実際には避けられない偏見を持つ。 さらに、局所エネルギーは非有界であり、MCMCサンプリングの誤差を分析するのが難しくなる。 したがって、局所エネルギーは部分指数であり、非定常マルコフ鎖に対してベルンシュタイン不等式を用いてMCMC推定器の誤差境界を導出する。 したがって、VMC は 1 次収束率 $O(\log K/\sqrt{n K})$ と $K$ の反復とサンプルサイズ $n$ を持つことが証明されている。 MCMCがSGDの挙動にどのように影響するかを部分的に説明している。 さらに,いわゆる相関負曲率条件を検証し,固有値関数の解法におけるゼロ分散現象と関連づける。 VMC はサドル点から脱出して $(\epsilon,\epsilon^{1/4})$ -approximate 2次定常点または $\epsilon^{1/2}$-variance points in least $O(\epsilon^{-11/2}\log^{2}(1/\epsilon))$ steps with high probability に達する。 我々の分析は,VMCの収束の方法の理解を深め,物理学や統計学における一般的な変分法に適用することができる。

The Variational Monte Carlo (VMC) is a promising approach for computing the ground state energy of many-body quantum problems and attracts more and more interests due to the development of machine learning. The recent paradigms in VMC construct neural networks as trial wave functions, sample quantum configurations using Markov chain Monte Carlo (MCMC) and train neural networks with stochastic gradient descent (SGD) method. However, the theoretical convergence of VMC is still unknown when SGD interacts with MCMC sampling given a well-designed trial wave function. Since MCMC reduces the difficulty of estimating gradients, it has inevitable bias in practice. Moreover, the local energy may be unbounded, which makes it harder to analyze the error of MCMC sampling. Therefore, we assume that the local energy is sub-exponential and use the Bernstein inequality for non-stationary Markov chains to derive error bounds of the MCMC estimator. Consequently, VMC is proven to have a first order convergence rate $O(\log K/\sqrt{n K})$ with $K$ iterations and a sample size $n$. It partially explains how MCMC influences the behavior of SGD. Furthermore, we verify the so-called correlated negative curvature condition and relate it to the zero-variance phenomena in solving eigenvalue functions. It is shown that VMC escapes from saddle points and reaches $(\epsilon,\epsilon^{1/4})$ -approximate second order stationary points or $\epsilon^{1/2}$-variance points in at least $O(\epsilon^{-11/2}\log^{2}(1/\epsilon) )$ steps with high probability. Our analysis enriches the understanding of how VMC converges efficiently and can be applied to general variational methods in physics and statistics.
翻訳日:2023-03-21 18:23:09 公開日:2023-03-19
# スタイルRF:Zero-shot 3Dスタイルの神経放射場移動

StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields ( http://arxiv.org/abs/2303.10598v1 )

ライセンス: Link先を確認
Kunhao Liu, Fangneng Zhan, Yiwen Chen, Jiahui Zhang, Yingchen Yu, Abdulmotaleb El Saddik, Shijian Lu, Eric Xing(参考訳) 3dスタイル転送は、3dシーンのスタイル化されたノベルビューをマルチビュー一貫性で描画することを目的としている。 しかし、既存の作品の多くは正確な幾何学的再構成、高品質なスタイライゼーション、任意の新しいスタイルに一般化された3方向のジレンマに苦しめられている。 放射場の特徴空間内でスタイル変換を行うことで3方向ジレンマを解消する3次元スタイル転送技術であるStyleRF(Style Radiance Fields)を提案する。 StyleRFは3Dシーンを表現するために高精細な特徴の明示的なグリッドを採用しており、ボリュームレンダリングによって高精細な形状を確実に復元することができる。 さらに、グリッド機能は参照スタイルに従って変換され、高品質なゼロショットスタイル転送に直接繋がる。 StyleRFは2つの革新的な設計で構成されている。 1つ目はサンプリング不変なコンテンツ変換であり、この変換はサンプル化された3D点の全体統計に不変であり、したがってマルチビュー整合性を保証する。 2つ目は、3Dポイントの変換と同等の2D特徴写像の遅延型変換であるが、マルチビューの一貫性を損なうことなくメモリフットプリントを大幅に削減する。 広範な実験により、stylerfは正確な形状再構成により優れた3dスタイライゼーション品質を達成し、ゼロショット方式で様々な新しいスタイルに一般化できることを示した。

3D style transfer aims to render stylized novel views of a 3D scene with multi-view consistency. However, most existing work suffers from a three-way dilemma over accurate geometry reconstruction, high-quality stylization, and being generalizable to arbitrary new styles. We propose StyleRF (Style Radiance Fields), an innovative 3D style transfer technique that resolves the three-way dilemma by performing style transformation within the feature space of a radiance field. StyleRF employs an explicit grid of high-level features to represent 3D scenes, with which high-fidelity geometry can be reliably restored via volume rendering. In addition, it transforms the grid features according to the reference style which directly leads to high-quality zero-shot style transfer. StyleRF consists of two innovative designs. The first is sampling-invariant content transformation that makes the transformation invariant to the holistic statistics of the sampled 3D points and accordingly ensures multi-view consistency. The second is deferred style transformation of 2D feature maps which is equivalent to the transformation of 3D points but greatly reduces memory footprint without degrading multi-view consistency. Extensive experiments show that StyleRF achieves superior 3D stylization quality with precise geometry reconstruction and it can generalize to various new styles in a zero-shot manner.
翻訳日:2023-03-21 18:22:30 公開日:2023-03-19
# 部分的ネットワーククローニング

Partial Network Cloning ( http://arxiv.org/abs/2303.10597v1 )

ライセンス: Link先を確認
Jingwen Ye, Songhua Liu, Xinchao Wang(参考訳) 本稿では,事前学習モデルから部分的知識伝達を可能にする新しい課題について検討し,これを部分的ネットワーククローニング (pnc) と呼ぶ。 知識伝達プロセスを通じてターゲットネットワーク内のパラメータの全てまたは少なくとも一部を更新する以前の方法とは異なり、PNCはソースネットワークから部分パラメトリックな"クローニング"を実行し、そのパラメータを変更することなくクローン化されたモジュールをターゲットに注入する。 転送されたモジュールのおかげで、ターゲットネットワークは、新しいクラスでの推論のような追加機能を得ることが期待されている。 具体的には、ソースからコピーされるコンポーネントと、ターゲットネットワーク内に挿入される位置を同時に識別し、最適な性能を確保するための革新的な学習手法を提案する。 いくつかのデータセットにおける実験結果から,本手法はパラメータチューニング法と比較して精度5%,局所性50%の大幅な改善が得られた。 私たちのコードはhttps://github.com/jngwenye/pncloningで入手できる。

In this paper, we study a novel task that enables partial knowledge transfer from pre-trained models, which we term as Partial Network Cloning (PNC). Unlike prior methods that update all or at least part of the parameters in the target network throughout the knowledge transfer process, PNC conducts partial parametric "cloning" from a source network and then injects the cloned module to the target, without modifying its parameters. Thanks to the transferred module, the target network is expected to gain additional functionality, such as inference on new classes; whenever needed, the cloned module can be readily removed from the target, with its original parameters and competence kept intact. Specifically, we introduce an innovative learning scheme that allows us to identify simultaneously the component to be cloned from the source and the position to be inserted within the target network, so as to ensure the optimal performance. Experimental results on several datasets demonstrate that, our method yields a significant improvement of 5% in accuracy and 50% in locality when compared with parameter-tuning based methods. Our code is available at https://github.com/JngwenYe/PNCloning.
翻訳日:2023-03-21 18:22:06 公開日:2023-03-19
# AdaptGuard: モデル適応のためのユニバーサルアタックを擁護

AdaptGuard: Defending Against Universal Attacks for Model Adaptation ( http://arxiv.org/abs/2303.10594v1 )

ライセンス: Link先を確認
Lijun Sheng, Jian Liang, Ran He, Zilei Wang, Tieniu Tan(参考訳) モデル適応は、事前訓練されたソースモデルのみにアクセスするという制約の下で、ドメイン転送問題を解決することを目的としている。 データプライバシーと送信効率の考慮が高まり、このパラダイムは近年人気を集めている。 本稿では,悪意のあるプロバイダの存在によるモデル適応アルゴリズムにおいて,ソースドメインから転送されるユニバーサルアタックの脆弱性について検討する。 我々は、ソース側の抜け穴として、普遍的な敵対的摂動とバックドア攻撃の両方を調べ、それらが適応後もターゲットモデルで生き残ることを発見する。 そこで本研究では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。 AdaptGuardは、知識蒸留による危険源パラメータの直接使用を回避し、調整された半径の下で擬似敵検体を用いてロバスト性を高める。 adaptguardはプラグインアンドプレイモジュールで、堅牢な事前トレーニングされたモデルや、以下のモデル適応アルゴリズムの変更を必要としない。 一般的に使用される3つのデータセットと2つの一般的な適応方法に関する広範な結果は、adaptguardが効果的なユニバーサルアタックに対する防御と、ターゲットドメインにおけるクリーンな正確性を同時に維持できることを検証している。 この研究が、トランスファーラーニングの安全性と堅牢性に光を当てることを願っている。

Model adaptation aims at solving the domain transfer problem under the constraint of only accessing the pretrained source models. With the increasing considerations of data privacy and transmission efficiency, this paradigm has been gaining recent popularity. This paper studies the vulnerability to universal attacks transferred from the source domain during model adaptation algorithms due to the existence of the malicious providers. We explore both universal adversarial perturbations and backdoor attacks as loopholes on the source side and discover that they still survive in the target models after adaptation. To address this issue, we propose a model preprocessing framework, named AdaptGuard, to improve the security of model adaptation algorithms. AdaptGuard avoids direct use of the risky source parameters through knowledge distillation and utilizes the pseudo adversarial samples under adjusted radius to enhance the robustness. AdaptGuard is a plug-and-play module that requires neither robust pretrained models nor any changes for the following model adaptation algorithms. Extensive results on three commonly used datasets and two popular adaptation methods validate that AdaptGuard can effectively defend against universal attacks and maintain clean accuracy in the target domain simultaneously. We hope this research will shed light on the safety and robustness of transfer learning.
翻訳日:2023-03-21 18:21:49 公開日:2023-03-19
# 第5回愛着行動分析コンペティションにおける大規模事前学習モデルを用いたマルチモーダル顔行動単位検出

Multi-modal Facial Action Unit Detection with Large Pre-trained Models for the 5th Competition on Affective Behavior Analysis in-the-wild ( http://arxiv.org/abs/2303.10590v1 )

ライセンス: Link先を確認
Yufeng Yin, Minh Tran, Di Chang, Xinrui Wang, Mohammad Soleymani(参考訳) 顔面行動単位検出は表情分析において重要な課題として現れており、口唇の締め付けや頬の上げなど、特定の定義済みの客観的な表情を検出することを目的としている。 本稿では,ABAW (Affective Behavior Analysis in-wild) 2023 Competition for AU Detectionについて述べる。 本研究では,大規模事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔行動単位検出のためのマルチモーダル手法を提案する。 視覚的特徴抽出のための高品質な詳細を提供するために,超解像度と顔アライメントをトレーニングデータに適用し,潜在的な性能向上を示す。 本手法は,第5回ABAWチャレンジの公式検証セットにおいて52.3\%のF1スコアを達成する。

Facial action unit detection has emerged as an important task within facial expression analysis, aimed at detecting specific pre-defined, objective facial expressions, such as lip tightening and cheek raising. This paper presents our submission to the Affective Behavior Analysis in-the-wild (ABAW) 2023 Competition for AU detection. We propose a multi-modal method for facial action unit detection with visual, acoustic, and lexical features extracted from the large pre-trained models. To provide high-quality details for visual feature extraction, we apply super-resolution and face alignment to the training data and show potential performance gain. Our approach achieves the F1 score of 52.3\% on the official validation set of the 5th ABAW Challenge.
翻訳日:2023-03-21 18:21:29 公開日:2023-03-19
# ラベル名はMantra:不均一データセット間のポイントクラウドセグメンテーションの統合

Label Name is Mantra: Unifying Point Cloud Segmentation across Heterogeneous Datasets ( http://arxiv.org/abs/2303.10585v1 )

ライセンス: Link先を確認
Yixun Liang, Hao He, Shishi Xiao, Hao Lu and Yingcong Chen(参考訳) ポイントクラウドセグメンテーションは、幅広いアプリケーションを提供する3dビジョンの基本的なタスクである。 近年は大きな進歩を遂げているものの、トレーニングデータの可用性によって実用性は依然として制限されている。 既存のアプローチでは、異なるデータセット間のラベルミスマッチのために、複数のデータセットを完全に使用することはできない。 本稿では,ラベル集合が異なる異種データセットからの学習を支援する原則付きアプローチを提案する。 我々の考えは、学習済みの言語モデルを用いて、ラベル名を用いて離散ラベルを連続的な潜在空間に埋め込むことである。 これにより、さまざまなデータセットのラベルを統一し、共同トレーニングが可能である。 一方、その語彙トークンによる連続3次元空間の点の分類は、固定デコーダアーキテクチャを持つ既存のアプローチと比較してモデルの一般化能力を大幅に向上させる。 さらに,異なるデータソース間のデータシフトを軽減するために,フレームワークに即時学習を統合しています。 大規模な実験により、我々のモデルは最先端技術よりも大きなマージンで優れていることが示された。

Point cloud segmentation is a fundamental task in 3D vision that serves a wide range of applications. Although great progresses have been made these years, its practical usability is still limited by the availability of training data. Existing approaches cannot make full use of multiple datasets on hand due to the label mismatch among different datasets. In this paper, we propose a principled approach that supports learning from heterogeneous datasets with different label sets. Our idea is to utilize a pre-trained language model to embed discrete labels to a continuous latent space with the help of their label names. This unifies all labels of different datasets, so that joint training is doable. Meanwhile, classifying points in the continuous 3D space by their vocabulary tokens significantly increase the generalization ability of the model in comparison with existing approaches that have fixed decoder architecture. Besides, we also integrate prompt learning in our framework to alleviate data shifts among different data sources. Extensive experiments demonstrate that our model outperforms the state-of-the-art by a large margin.
翻訳日:2023-03-21 18:21:17 公開日:2023-03-19
# 人間中心設計のための人工共感に向けて:フレームワーク

Toward Artificial Empathy for Human-Centered Design: A Framework ( http://arxiv.org/abs/2303.10583v1 )

ライセンス: Link先を確認
Qihao Zhu and Jianxi Luo(参考訳) 設計プロセスの初期段階では、デザイナは未完成のニーズを発見し、潜在的な解決策として革新的な概念を開発することで機会を探る。 人間中心のデザインの観点からは、デザイナーはニーズを真に理解するために、人々と共感しなくてはならない。 しかし、共感の発達は、デザイナーの共感能力に大きく依存する複雑で主観的なプロセスである。 したがって、共感的理解の発達は直感的であり、基礎となるニーズの発見はしばしばセレンディピティである。 本稿では,AIによる人間中心設計の今後の方向性を示すために,人工知能研究からの洞察を提供することを目的としている。 具体的には,データ駆動ユーザ研究,共感理解開発,人為的共感研究などの研究分野を学際的に調査する。 本稿では,人間中心設計において人工共感が果たす役割を論じ,人間中心設計のための人工共感フレームワークを提案する。 共感の背後にあるメカニズムと共感設計の研究からの洞察に基づいて、このフレームワークは共感のかなり複雑で主観的な概念を計算的にモデル化できるコンポーネントとモジュールに分解することを目的としている。 さらに,このようなシステムを開発することの期待できる利点を議論し,今後の研究努力を促進するための現在の研究ギャップを明らかにする。

In the early stages of the design process, designers explore opportunities by discovering unmet needs and developing innovative concepts as potential solutions. From a human-centered design perspective, designers must develop empathy with people to truly understand their needs. However, developing empathy is a complex and subjective process that relies heavily on the designer's empathetic capability. Therefore, the development of empathetic understanding is intuitive, and the discovery of underlying needs is often serendipitous. This paper aims to provide insights from artificial intelligence research to indicate the future direction of AI-driven human-centered design, taking into account the essential role of empathy. Specifically, we conduct an interdisciplinary investigation of research areas such as data-driven user studies, empathetic understanding development, and artificial empathy. Based on this foundation, we discuss the role that artificial empathy can play in human-centered design and propose an artificial empathy framework for human-centered design. Building on the mechanisms behind empathy and insights from empathetic design research, the framework aims to break down the rather complex and subjective concept of empathy into components and modules that can potentially be modeled computationally. Furthermore, we discuss the expected benefits of developing such systems and identify current research gaps to encourage future research efforts.
翻訳日:2023-03-21 18:21:03 公開日:2023-03-19
# イベントベースラベルフリーフローサイトメトリーデータセットを用いたスパイクニューラルネットワークのトレーニング

Training a spiking neural network on an event-based label-free flow cytometry dataset ( http://arxiv.org/abs/2303.10632v1 )

ライセンス: Link先を確認
Muhammed Gouda, Steven Abreu, Alessio Lugnan, Peter Bienstman(参考訳) イメージングフローサイトメトリーシステムは、その物理的特性に基づいて大量の細胞や微小粒子を解析することを目的としている。 現在のシステムの大部分は、ディープニューラルネットワークのトレーニングに使用される大量の画像を取得している。 しかし、このアプローチは最終装置のレイテンシと消費電力を増加させる。 本研究では,イベントベースのカメラと自由空間光学セットアップを組み合わせることで,マイクロ流体チャネル内を通過する粒子のスパイクを得る。 収集されたデータセットに基づいてスパイクニューラルネットワークをトレーニングし、97.7%がトレーニング精度、93.5%が完全なイベントベースの分類パイプラインのテスト精度である。

Imaging flow cytometry systems aim to analyze a huge number of cells or micro-particles based on their physical characteristics. The vast majority of current systems acquire a large amount of images which are used to train deep artificial neural networks. However, this approach increases both the latency and power consumption of the final apparatus. In this work-in-progress, we combine an event-based camera with a free-space optical setup to obtain spikes for each particle passing in a microfluidic channel. A spiking neural network is trained on the collected dataset, resulting in 97.7% mean training accuracy and 93.5% mean testing accuracy for the fully event-based classification pipeline.
翻訳日:2023-03-21 18:15:05 公開日:2023-03-19
# 非IIDシナリオにおけるフェデレーション学習における正規化層の実験

Experimenting with Normalization Layers in Federated Learning on non-IID scenarios ( http://arxiv.org/abs/2303.10630v1 )

ライセンス: Link先を確認
Bruno Casella, Roberto Esposito, Antonio Sciarappa, Carlo Cavazzoni, Marco Aldinucci(参考訳) ディープラーニング(dl)モデルのトレーニングには、大規模で高品質なデータセットが必要となる。 フェデレーション学習(federated learning, fl)は,ローカルトレーニングされたモデルをグローバルに集約することで,さまざまな機関による協調トレーニングを活用した,プライバシ保護型データセットプールの方法として注目されている。 FLの重要なパフォーマンス上の課題の1つは、フェデレーション参加者間で独立ではなく、同一の(非IID)データセットで運用することである。 このフレギリティは排除できないが、層正規化法と協調周波数選択の2つのハイパーパラメータの適切な最適化によって排除することができる。 本研究では、ニューラルネットワーク(NN)のトレーニングのための5つの異なる正規化レイヤ、非IIDデータスキューの2つのファミリー、および2つのデータセットをベンチマークする。 その結果,集中型DLに広く採用されているバッチ正規化がFLの最適選択ではないことが明らかとなった。 同様に、頻繁なモデル集約は収束速度とモード品質を低下させる。

Training Deep Learning (DL) models require large, high-quality datasets, often assembled with data from different institutions. Federated Learning (FL) has been emerging as a method for privacy-preserving pooling of datasets employing collaborative training from different institutions by iteratively globally aggregating locally trained models. One critical performance challenge of FL is operating on datasets not independently and identically distributed (non-IID) among the federation participants. Even though this fragility cannot be eliminated, it can be debunked by a suitable optimization of two hyper-parameters: layer normalization methods and collaboration frequency selection. In this work, we benchmark five different normalization layers for training Neural Networks (NNs), two families of non-IID data skew, and two datasets. Results show that Batch Normalization, widely employed for centralized DL, is not the best choice for FL, whereas Group and Layer Normalization consistently outperform Batch Normalization. Similarly, frequent model aggregation decreases convergence speed and mode quality.
翻訳日:2023-03-21 18:14:55 公開日:2023-03-19
# PFSL: シンクライアントのためのデータとラベルのプライバシによるパーソナライズされた公正な学習

PFSL: Personalized & Fair Split Learning with Data & Label Privacy for thin clients ( http://arxiv.org/abs/2303.10624v1 )

ライセンス: Link先を確認
Manas Wadhwa, Gagan Raj Gupta, Ashutosh Sahu, Rahul Saini, Vidhi Mittal(参考訳) 従来のFL(Federated Learning)フレームワークでは、各クライアントが反復毎にモデルをトレーニングする必要があるため、リソース制約のあるモバイルデバイスがディープラーニング(DL)モデルをトレーニングすることは不可能である。 スプリットラーニング(SL)は、モデルのサブセットに対するアクティベーションと勾配の計算をオフロードするために集中サーバを使用することで代替手段を提供するが、収束の遅い問題と精度の低下に悩む。 本稿では,データやラベルを中央サーバと共有することなく,事前学習されたdlモデルから開始し,多数の薄型クライアントが並列に転送学習を行う分散分割学習の新しいフレームワークpfslを実装した。 クライアントモデルのパーソナライズを行うための軽量なステップを実装し,それぞれのデータ分布に対して高いパフォーマンスを実現する。 さらに、不平等なデータ分布や不平等なサンプルサイズといった様々なシナリオに対する作業公正性制約の下で、クライアント間の性能公正性を評価する。 我々の精度は現在のSLアルゴリズムをはるかに上回り、いくつかの実生活ベンチマークにおける集中学習に非常に近い。 FLの亜種に比べて計算コストが非常に低く、非常に薄くリソースに制約のあるクライアントにDLの利点をフルに提供することを約束します。

The traditional framework of federated learning (FL) requires each client to re-train their models in every iteration, making it infeasible for resource-constrained mobile devices to train deep-learning (DL) models. Split learning (SL) provides an alternative by using a centralized server to offload the computation of activations and gradients for a subset of the model but suffers from problems of slow convergence and lower accuracy. In this paper, we implement PFSL, a new framework of distributed split learning where a large number of thin clients perform transfer learning in parallel, starting with a pre-trained DL model without sharing their data or labels with a central server. We implement a lightweight step of personalization of client models to provide high performance for their respective data distributions. Furthermore, we evaluate performance fairness amongst clients under a work fairness constraint for various scenarios of non-i.i.d. data distributions and unequal sample sizes. Our accuracy far exceeds that of current SL algorithms and is very close to that of centralized learning on several real-life benchmarks. It has a very low computation cost compared to FL variants and promises to deliver the full benefits of DL to extremely thin, resource-constrained clients.
翻訳日:2023-03-21 18:14:39 公開日:2023-03-19
# リカレントニューラルネットワークとモデル自由強化学習を用いた未知環境におけるアクティブ仮説テスト

Active hypothesis testing in unknown environments using recurrent neural networks and model free reinforcement learning ( http://arxiv.org/abs/2303.10623v1 )

ライセンス: Link先を確認
George Stamatelis, Nicholas Kalouptsidis(参考訳) 完全未知環境における能動逐次仮説検証問題に対して,深層強化学習と教師付き学習の組み合わせを提案する。 我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。 本手法は,連続的な観測や動作をともなう環境でも,有限地平線問題と無限地平線問題の両方において,チャーンオフテストよりも競争的かつ時として優れた性能を発揮する。

A combination of deep reinforcement learning and supervised learning is proposed for the problem of active sequential hypothesis testing in completely unknown environments. We make no assumptions about the prior probability, the action and observation sets, and the observation generating process. Our method can be used in any environment even if it has continuous observations or actions, and performs competitively and sometimes better than the Chernoff test, in both finite and infinite horizon problems, despite not having access to the environment dynamics.
翻訳日:2023-03-21 18:14:13 公開日:2023-03-19
# 熱電場浴中における移動2レベル原子の絡み合い状態ダイナミクス

Entangled states dynamics of moving two-level atoms in a thermal field bath ( http://arxiv.org/abs/2303.10618v1 )

ライセンス: Link先を確認
Nikolaos Papadatos, Dimitris Moustos(参考訳) 熱状態において質量のないスカラー場と相互作用しながら、一定速度のワードラインに従う2段階の原子を考える。 (i)Unruh-DeWitt結合、及び (ii)場の時間微分を含む結合。 我々は、原子をオープン量子系として扱い、場が環境の役割を担い、その時間進化を記述するためにマスター方程式を用いる。 本研究では, 移動原子と(二次)量子ビットの静止状態における絡み合いのダイナミクスについて検討し, 熱場から分離した。 標準のUnruh-DeWitt結合や高温の環境では、原子の動きによって絡み合いの減衰が遅れることが判明した。 代わりに、誘導体結合の場合、原子の動きは常に絡み合いの急激な死を引き起こす。

We consider a two-level atom that follows a wordline of constant velocity, while interacting with a massless scalar field in a thermal state through: (i) an Unruh-DeWitt coupling, and (ii) a coupling that involves the time derivative of the field. We treat the atom as an open quantum system, with the field playing the role of the environment, and employ a master equation to describe its time evolution. We study the dynamics of entanglement between the moving atom and a (auxiliary) qubit at rest and isolated from the thermal field. We find that in the case of the standard Unruh-DeWitt coupling and for high temperatures of the environment the decay of entanglement is delayed due to the atom's motion. Instead, in the derivative coupling case, the atom's motion always causes the rapid death of entanglement.
翻訳日:2023-03-21 18:13:55 公開日:2023-03-19
# SECAD-Net:Sketch-Extrude操作の学習による自己改善CAD再構成

SECAD-Net: Self-Supervised CAD Reconstruction by Learning Sketch-Extrude Operations ( http://arxiv.org/abs/2303.10613v1 )

ライセンス: Link先を確認
Pu Li, Jianwei Guo, Xiaopeng Zhang, Dong-ming Yan(参考訳) 原形状からのリバースエンジニアリングCADモデルは古典的だが強烈な研究課題である。 従来の学習ベースの手法は、教師付きデザインパターンや編集が容易でないCAD形状の再構築によってラベルに大きく依存していた。 本研究では,コンパクトで使いやすいCADモデルを自己教師型で再構築することを目的とした,エンドツーエンドのニューラルネットワークSECAD-Netを紹介する。 最新のCADソフトウェアでよく使われているモデリング言語からインスピレーションを得て、2次元のスケッチと3次元の押出パラメータを生の形状から学習し、2次元の平面から3次元の本体へ各スケッチを押出することで、一連の押出シリンダーを生成することを提案する。 ブール演算(すなわち和)を組み込むことで、これらのシリンダーを結合してターゲット幾何学を近似することができる。 我々はスケッチ表現における暗黙のフィールドの使用を提唱し、スケッチ潜在空間における潜在符号を補間することでCADのバリエーションを作成することができる。 ABCとFusion 360の両方のデータセットに対する大規模な実験は,本手法の有効性を実証し,CAD再構成に密接に関連する手法を含む最先端の代替手法よりも優れていることを示す。 さらに,CAD編集とシングルビューCAD再構成にアプローチを適用した。 コードはhttps://github.com/bunnysocrazy/secad-netでリリースされる。

Reverse engineering CAD models from raw geometry is a classic but strenuous research problem. Previous learning-based methods rely heavily on labels due to the supervised design patterns or reconstruct CAD shapes that are not easily editable. In this work, we introduce SECAD-Net, an end-to-end neural network aimed at reconstructing compact and easy-to-edit CAD models in a self-supervised manner. Drawing inspiration from the modeling language that is most commonly used in modern CAD software, we propose to learn 2D sketches and 3D extrusion parameters from raw shapes, from which a set of extrusion cylinders can be generated by extruding each sketch from a 2D plane into a 3D body. By incorporating the Boolean operation (i.e., union), these cylinders can be combined to closely approximate the target geometry. We advocate the use of implicit fields for sketch representation, which allows for creating CAD variations by interpolating latent codes in the sketch latent space. Extensive experiments on both ABC and Fusion 360 datasets demonstrate the effectiveness of our method, and show superiority over state-of-the-art alternatives including the closely related method for supervised CAD reconstruction. We further apply our approach to CAD editing and single-view CAD reconstruction. The code is released at https://github.com/BunnySoCrazy/SECAD-Net.
翻訳日:2023-03-21 18:13:33 公開日:2023-03-19
# T5変換器モデルを用いたバングラ文法誤差検出

Bangla Grammatical Error Detection Using T5 Transformer Model ( http://arxiv.org/abs/2303.10612v1 )

ライセンス: Link先を確認
H.A.Z. Sameen Shahgir, Khondker Salman Sayeed(参考訳) 本稿では,t5言語モデルであるtext-to-text transfer transformer (t5) を用いたバングラ語における文法的誤りの検出法について述べる。 T5モデルは、主に翻訳用に設計されており、このタスクのためには特別に設計されていないため、エラー検出のタスクに適応するためには広範な後処理が必要である。 実験の結果,T5モデルはバングラの文法的誤りを検出できるが,処理後処理は最適性能を実現するために不可欠であることがわかった。 細調整モデルの出力を後処理した後のLevenshtein Distanceの最終的な平均値は5000文の試験セットで1.0394であった。 また, モデルが検出した誤りの詳細な解析を行い, 文法に翻訳モデルを適用する際の課題について考察する。 我々のアプローチは他の言語にも拡張でき、幅広い言語で文法的誤りを検出するT5モデルの可能性を実証することができる。

This paper presents a method for detecting grammatical errors in Bangla using a Text-to-Text Transfer Transformer (T5) Language Model, using the small variant of BanglaT5, fine-tuned on a corpus of 9385 sentences where errors were bracketed by the dedicated demarcation symbol. The T5 model was primarily designed for translation and is not specifically designed for this task, so extensive post-processing was necessary to adapt it to the task of error detection. Our experiments show that the T5 model can achieve low Levenshtein Distance in detecting grammatical errors in Bangla, but post-processing is essential to achieve optimal performance. The final average Levenshtein Distance after post-processing the output of the fine-tuned model was 1.0394 on a test set of 5000 sentences. This paper also presents a detailed analysis of the errors detected by the model and discusses the challenges of adapting a translation model for grammar. Our approach can be extended to other languages, demonstrating the potential of T5 models for detecting grammatical errors in a wide range of languages.
翻訳日:2023-03-21 18:13:07 公開日:2023-03-19
# DuDoRNeXt : 二重領域アンダーサンプルMRIのハイブリッドモデル

DuDoRNeXt: A hybrid model for dual-domain undersampled MRI reconstruction ( http://arxiv.org/abs/2303.10611v1 )

ライセンス: Link先を確認
Ziqi Gao, S. Kevin Zhou(参考訳) MRIのアンダーサンプル化は, 臨床検査の高速化に不可欠である。 近年のMRI再建における深層学習法は,CNNやViTをバックボーンとして採用しており,CNNとViTの相補的特性を欠いている。 本稿では,DuDoRNeXtを提案する。DuDoRNeXtは,背骨がCNNとViTをドメイン固有の,ステージ内方法でハイブリダイズする。 ハイブリッドな垂直レイアウト設計の他に,デュアルドメイン再構築のためのドメイン固有モジュール,すなわち,イメージドメイン並列局所詳細拡張とk空間グローバル初期化を導入する。 我々は,画像領域,k領域,二重領域再構成などのMRI再構成の規則を,IXIデータセットと社内マルチコントラストデータセットの参照プロトコルを用いて評価した。 DuDoRNeXtは競合するディープラーニングメソッドよりも大幅に改善されている。

Undersampled MRI reconstruction is crucial for accelerating clinical scanning procedures. Recent deep learning methods for MRI reconstruction adopt CNN or ViT as backbone, which lack in utilizing the complementary properties of CNN and ViT. In this paper, we propose DuDoRNeXt, whose backbone hybridizes CNN and ViT in an domain-specific, intra-stage way. Besides our hybrid vertical layout design, we introduce domain-specific modules for dual-domain reconstruction, namely image-domain parallel local detail enhancement and k-space global initialization. We evaluate different conventions of MRI reconstruction including image-domain, k-space-domain, and dual-domain reconstruction with a reference protocol on the IXI dataset and an in-house multi-contrast dataset. DuDoRNeXt achieves significant improvements over competing deep learning methods.
翻訳日:2023-03-21 18:12:49 公開日:2023-03-19
# DiffMIC:医療画像分類のためのデュアルガイド拡散ネットワーク

DiffMIC: Dual-Guidance Diffusion Network for Medical Image Classification ( http://arxiv.org/abs/2303.10610v1 )

ライセンス: Link先を確認
Yijun Yang, Huazhu Fu, Angelica Aviles-Rivero, Carola-Bibiane Sch\"onlieb, Lei Zhu(参考訳) 拡散確率モデルは最近、生成的画像モデリングにおいて顕著な性能を示し、コンピュータビジョンコミュニティで大きな注目を集めている。 しかしながら、多くの拡散に基づく研究が生成タスクに焦点をあてているが、一般的な医用画像分類に拡散モデルを適用した研究はほとんどない。 本稿では,医用画像における予期せぬノイズや摂動を除去し,ロバストに意味表現を捉えることで,一般医用画像分類に対応する最初の拡散ベースモデル(diffmic)を提案する。 この目的を達成するために,各拡散ステップを複数の粒度で条件付けし,段階的な局所的注意力を向上させる2条件誘導戦略を考案する。 さらに,拡散前進過程における最大平均離散度正規化を強制することにより,各粒度の相互情報を学習することを提案する。 超音波画像における胎盤成熟度評価,皮膚病変分類,眼底画像を用いた糖尿病網膜症評価の3つの医用分類課題におけるdiffmicの有用性について検討した。 実験の結果,DiffMICは最先端手法よりも高い性能を示し,提案モデルの普遍性と有効性を示した。

Diffusion Probabilistic Models have recently shown remarkable performance in generative image modeling, attracting significant attention in the computer vision community. However, while a substantial amount of diffusion-based research has focused on generative tasks, few studies have applied diffusion models to general medical image classification. In this paper, we propose the first diffusion-based model (named DiffMIC) to address general medical image classification by eliminating unexpected noise and perturbations in medical images and robustly capturing semantic representation. To achieve this goal, we devise a dual conditional guidance strategy that conditions each diffusion step with multiple granularities to improve step-wise regional attention. Furthermore, we propose learning the mutual information in each granularity by enforcing Maximum-Mean Discrepancy regularization during the diffusion forward process. We evaluate the effectiveness of our DiffMIC on three medical classification tasks with different image modalities, including placental maturity grading on ultrasound images, skin lesion classification using dermatoscopic images, and diabetic retinopathy grading using fundus images. Our experimental results demonstrate that DiffMIC outperforms state-of-the-art methods by a significant margin, indicating the universality and effectiveness of the proposed model.
翻訳日:2023-03-21 18:12:34 公開日:2023-03-19
# モデルは数万の例に値します

A model is worth tens of thousands of examples ( http://arxiv.org/abs/2303.10608v1 )

ライセンス: Link先を確認
Thomas Dag\`es, Laurent D. Cohen, Alfred M. Bruckstein(参考訳) 数学的データ生成モデルに依存する従来の信号処理手法は、大量のデータを必要とするディープニューラルネットワークに取って代わられた。 理論的なサンプル複雑性は評価がほとんど不可能であるため、これらの量のサンプルは通常、親指の粗い規則で推定される。 しかし、これらのルールはネットワークが動作すべき時のみ示唆するが、従来の方法とは関係がない。 特に興味深い疑問は、ニューラルネットワークが従来型のモデルベースメソッドと同等かそれ以上になるために、どれだけのデータが必要か、という点だ。 本研究では, この問題を, 正確に定義された数学的モデルに基づいて生成し, 最適解や最先端の数学的解が知られている2つの簡単な例で実証的に検討する。 第1の問題は1次元ガウス信号のデコンボリューションであり、第2の問題はディスクのランダムグレースケール画像における円半径と位置の推定である。 各種ネットワークを訓練することにより,ネットワークがゼロからトレーニングされるか,あるいは移動学習やファインタニングによってトレーニングされるか,といった従来の手法と比較して,ネットワークには数万の例が必要であることが判明した。

Traditional signal processing methods relying on mathematical data generation models have been cast aside in favour of deep neural networks, which require vast amounts of data. Since the theoretical sample complexity is nearly impossible to evaluate, these amounts of examples are usually estimated with crude rules of thumb. However, these rules only suggest when the networks should work, but do not relate to the traditional methods. In particular, an interesting question is: how much data is required for neural networks to be on par or outperform, if possible, the traditional model-based methods? In this work, we empirically investigate this question in two simple examples, where the data is generated according to precisely defined mathematical models, and where well-understood optimal or state-of-the-art mathematical data-agnostic solutions are known. A first problem is deconvolving one-dimensional Gaussian signals and a second one is estimating a circle's radius and location in random grayscale images of disks. By training various networks, either naive custom designed or well-established ones, with various amounts of training data, we find that networks require tens of thousands of examples in comparison to the traditional methods, whether the networks are trained from scratch or even with transfer-learning or finetuning.
翻訳日:2023-03-21 18:12:10 公開日:2023-03-19
# 平均場制御によるマルチエージェント強化学習:共通雑音,主要エージェント,近似特性

Multi-Agent Reinforcement Learning via Mean Field Control: Common Noise, Major Agents and Approximation Properties ( http://arxiv.org/abs/2303.10665v1 )

ライセンス: Link先を確認
Kai Cui, Christian Fabian, Heinz Koeppl(参考訳) 近年,平均場制御 (mfc) は, 難解な協調型マルチエージェント制御に対して, 誘導可能かつ理論的に確立されたアプローチを提供している。 しかし、多くの独立で均質なエージェントの厳密な仮定は実際には厳密すぎるかもしれない。 本研究では、マルコフ決定過程とMFCの離散時間一般化を、多くのマイナーエージェントと潜在的に複雑なメジャーエージェント(M3FC)の両方に提案する。 決定論的MFCとは対照的に、M3FCはマイナーエージェント間の強い相関関係を持つ確率的マイナーエージェント分布を主要なエージェント状態を通じて許容する。 理論的には、有限マルチエージェント問題において、M3FCモデルと既存のMFCモデルの両方に対する新しい証明を伴う厳密な近似特性と、そのような問題を解決するための動的プログラミング原理を与える。 無限ホリゾンディスカウントの場合、最適な定常ポリシーの存在は次のようになる。 アルゴリズムとして,新しいマルチエージェント強化学習アルゴリズムとして,m3fppoを提案するとともに,m3fc型問題におけるその成功を実証する。

Recently, mean field control (MFC) has provided a tractable and theoretically founded approach to otherwise difficult cooperative multi-agent control. However, the strict assumption of many independent, homogeneous agents may be too stringent in practice. In this work, we propose a novel discrete-time generalization of Markov decision processes and MFC to both many minor agents and potentially complex major agents -- major-minor mean field control (M3FC). In contrast to deterministic MFC, M3FC allows for stochastic minor agent distributions with strong correlation between minor agents through the major agent state, which can model arbitrary problem details not bound to any agent. Theoretically, we give rigorous approximation properties with novel proofs for both M3FC and existing MFC models in the finite multi-agent problem, together with a dynamic programming principle for solving such problems. In the infinite-horizon discounted case, existence of an optimal stationary policy follows. Algorithmically, we propose the major-minor mean field proximal policy optimization algorithm (M3FPPO) as a novel multi-agent reinforcement learning algorithm and demonstrate its success in illustrative M3FC-type problems.
翻訳日:2023-03-21 18:05:03 公開日:2023-03-19
# Deutsch-Jozsa問題に対する分散完全量子アルゴリズム

Distributed exact quantum algorithms for Deutsch-Jozsa problem ( http://arxiv.org/abs/2303.10663v1 )

ライセンス: Link先を確認
Hao Li, Daowen Qiu, Le Luo(参考訳) Deutsch-Jozsa問題(DJ)は、量子アルゴリズムのパワーを示す最も重要な問題の1つである。 DJ問題は Boolean 関数 $f$: $\{0,1\}^n\rightarrow \{0,1\}$ と記述できる。 djアルゴリズムは1つのクエリで正確に解くことができる。 本稿では、まず、分散シナリオにおけるDJ問題の固有構造を、$f$が定数であること(平衡)と、$f$のサブファンクションのいくつかの特性の間の同値な特徴を与え、次に、DJ問題を解決するために3つの分散完全量子アルゴリズムを提案する。 我々のアルゴリズムは分散古典的決定論的アルゴリズムよりも重要な加速度を持ち、複数の計算ノードに拡張することができる。 DJアルゴリズムと比較して、我々のアルゴリズムは単一のクエリ演算子を実装する回路の深さとキュービット数を削減できる。 したがって, 分散量子アルゴリズムを設計するためには, 問題の構造を明らかにする必要がある。

Deutsch-Jozsa (DJ) problem is one of the most important problems demonstrating the power of quantum algorithm. DJ problem can be described as a Boolean function $f$: $\{0,1\}^n\rightarrow \{0,1\}$ with promising it is either constant or balanced, and the purpose is to determine which type it is. DJ algorithm can solve it exactly with one query. In this paper, we first discover the inherent structure of DJ problem in distributed scenario by giving a number of equivalence characterizations between $f$ being constant (balanced) and some properties of $f$'s subfunctions, and then we propose three distributed exact quantum algorithms for solving DJ problem. Our algorithms have essential acceleration over distributed classical deterministic algorithm, and can be extended to the case of multiple computing nodes. Compared with DJ algorithm, our algorithms can reduce the number of qubits and the depth of circuit implementing a single query operator. Therefore, we find that the structure of problem should be clarified for designing distributed quantum algorithm to solve it.
翻訳日:2023-03-21 18:04:44 公開日:2023-03-19
# 連続的プロンプトで回答したTwitterからのCOVID-19イベント抽出

COVID-19 event extraction from Twitter via extractive question answering with continuous prompts ( http://arxiv.org/abs/2303.10659v1 )

ライセンス: Link先を確認
Yuhang Jiang and Ramakanth Kavuluru(参考訳) 新型コロナウイルス(covid-19)が世界を席巻する中、ソーシャルメディア分析は、パンデミックがどのように発展するかを評価する従来の調査を強化し、医療機関がそれに取り組むのに役立つ消費者の会話を捉える可能性がある。 これは典型的には、予防または治療の選択肢に関する認識や信念に関する、疾患や議論に対して陽性であるテストに言及する開示イベントをマイニングする。 2020年のCOVID-19イベント抽出タスク(EMNLPカンファレンスでW-NUTワークショップの一環として実施された)は、新型コロナウイルスのツイートからイベント抽出をベンチマークする新しいTwitterデータセットを導入した。 本稿では,言語モデルにおける連続的プロンプトの最近の進歩を用いて,イベント抽出の問題を抽出的質問応答として位置づける。 共有タスクテストデータセットでは、当社のアプローチは、すべてのCOVID-19イベントスロットにおいて、以前の最高の結果よりも5%以上の絶対的なマイクロ平均F1スコアの改善につながります。 我々のアブレーション調査は、連続的なプロンプトが最終的なパフォーマンスに大きな影響を与えることを示している。

As COVID-19 ravages the world, social media analytics could augment traditional surveys in assessing how the pandemic evolves and capturing consumer chatter that could help healthcare agencies in addressing it. This typically involves mining disclosure events that mention testing positive for the disease or discussions surrounding perceptions and beliefs in preventative or treatment options. The 2020 shared task on COVID-19 event extraction (conducted as part of the W-NUT workshop during the EMNLP conference) introduced a new Twitter dataset for benchmarking event extraction from COVID-19 tweets. In this paper, we cast the problem of event extraction as extractive question answering using recent advances in continuous prompting in language models. On the shared task test dataset, our approach leads to over 5% absolute micro-averaged F1-score improvement over prior best results, across all COVID-19 event slots. Our ablation study shows that continuous prompts have a major impact on the eventual performance.
翻訳日:2023-03-21 18:04:22 公開日:2023-03-19
# 情報共有組織学データのための自己監督型知識蒸留法

More From Less: Self-Supervised Knowledge Distillation for Information-Sparse Histopathology Data ( http://arxiv.org/abs/2303.10656v1 )

ライセンス: Link先を確認
Lucas Farndale, Robert Insall and Ke Yuan(参考訳) 医療画像技術は、ますます大量の高品質な情報密度データを生み出している。 進歩にもかかわらず、研究・診断に先進的な画像技術の実用化は、コストと可用性によって制限されているため、H&E染色などの情報分散データは実際は頼っている。 疾患組織の研究には、これらの情報密度データを利用して、日常的な情報分離データからより多くの価値を抽出する手法が必要である。 自己教師付き深層学習を用いて,学習中の知識を情報伝達データから推論のための情報スパースデータのみを必要とするモデルに分化できることを実証する。 これにより、情報スパースデータの下流分類精度が向上し、完全な教師付きベースラインに匹敵する。 学習した表現にかなりの効果があり、この学習プロセスは検出されない微妙な特徴を識別する。 このアプローチは、ルーチンイメージのみを必要とするが、最先端のデータからの洞察を含むモデルの設計を可能にする。

Medical imaging technologies are generating increasingly large amounts of high-quality, information-dense data. Despite the progress, practical use of advanced imaging technologies for research and diagnosis remains limited by cost and availability, so information-sparse data such as H\&E stains are relied on in practice. The study of diseased tissue requires methods which can leverage these information-dense data to extract more value from routine, information-sparse data. Using self-supervised deep learning, we demonstrate that it is possible to distil knowledge during training from information-dense data into models which only require information-sparse data for inference. This improves downstream classification accuracy on information-sparse data, making it comparable with the fully-supervised baseline. We find substantial effects on the learned representations, and this training process identifies subtle features which otherwise go undetected. This approach enables the design of models which require only routine images, but contain insights from state-of-the-art data, allowing better use of the available resources.
翻訳日:2023-03-21 18:04:03 公開日:2023-03-19
# 量子メロジ、臨界および古典的ブラキストロン問題

Quantum metrology, criticality, and classical brachistochrone problem ( http://arxiv.org/abs/2303.10655v1 )

ライセンス: Link先を確認
Rui Zhang, Zhucheng Zhang, Lei Shao, Yuyu Zhang, and Xiaoguang Wang(参考訳) 量子論と臨界性の間には常に曖昧な関係があり、それは神秘的で興味深い。 Su(1,1) リー代数が支配するハミルトニアンとのユニタリパラメトリゼーション過程において、この関係を明らかにする。 このタイプのハミルトニアンに基づいて、位相遷移点に近い量子ラビモデルにおける結合強度の量子Cram\'{e}r-Rao境界について検討する。 ユニタリパラメトリゼーション過程のエルミート作用素は、$x-y$平面上の拡張ブラキストロン問題と$z$方向の時間の線形関数として扱うことができることを示す。 さらに、量子フィッシャー情報の値は、系が相転移点に近接しているときの進化時間の6番目のパワーに比例することがわかった。

There has always been an ambiguous connection between quantum metrology and criticality, which is mysterious and fascinating. We clarify this relationship in a unitary parametrization process with a Hamiltonian governed by su(1,1) Lie algebra. Based on this type of Hamiltonian, we investigate the quantum Cram\'{e}r-Rao bound of the coupling strength in the quantum Rabi model close to the phase transition point. We show that the Hermitian operator of the unitary parametrization process can be treated as an extended brachistochrone problem on the $x-y$ plane and a linear function of time in the $z$ direction. In addition, we find that the value of quantum Fisher information is proportional to the sixth power of the evolution time when the system is close to the phase transition point.
翻訳日:2023-03-21 18:03:44 公開日:2023-03-19
# マーカーレスモーションキャプチャと生体力学的解析パイプライン

Markerless Motion Capture and Biomechanical Analysis Pipeline ( http://arxiv.org/abs/2303.10654v1 )

ライセンス: Link先を確認
R. James Cotton, Allison DeLillo, Anthony Cimorelli, Kunal Shah, J.D. Peiffer, Shawana Anarwala, Kayan Abdou, Tasos Karakostas(参考訳) コンピュータビジョンとヒューマンポーズ推定(HPE)を用いたマーカーレスモーションキャプチャーは、正確な動き分析へのアクセスを拡大する可能性がある。 これは、結果のより正確な追跡を可能にし、研究のためのより敏感なツールを提供することで、リハビリに大いに役立つ。 ビデオの取得と正確な生体力学的結果の抽出と、パイプラインにおける多くの重要な設計決定を導くための限定的な研究の間には、多くの段階がある。 本研究では,キーポイントとキーポイントセットを検出するアルゴリズム,生体力学的逆運動学の軌道再構成手法,ikプロセスの最適化など,いくつかのステップを分析した。 重要な機能をいくつか挙げます 1) バイオメカニカルに動機付けられたキーポイントの集合を生成する多くのデータセットで訓練された最近のアルゴリズムを用いて。 2) ikの滑らかで解剖学的に制約されたマーカー軌跡を再構成するために暗黙の表現を用いる。 3) 高密度マーカーに適合する生体力学的モデルを反復的に最適化する。 4) IKプロセスの適正な正則化。 当パイプラインは,リハビリテーション病院における運動の正確なバイオメカニカル推定を容易にする。

Markerless motion capture using computer vision and human pose estimation (HPE) has the potential to expand access to precise movement analysis. This could greatly benefit rehabilitation by enabling more accurate tracking of outcomes and providing more sensitive tools for research. There are numerous steps between obtaining videos to extracting accurate biomechanical results and limited research to guide many critical design decisions in these pipelines. In this work, we analyze several of these steps including the algorithm used to detect keypoints and the keypoint set, the approach to reconstructing trajectories for biomechanical inverse kinematics and optimizing the IK process. Several features we find important are: 1) using a recent algorithm trained on many datasets that produces a dense set of biomechanically-motivated keypoints, 2) using an implicit representation to reconstruct smooth, anatomically constrained marker trajectories for IK, 3) iteratively optimizing the biomechanical model to match the dense markers, 4) appropriate regularization of the IK process. Our pipeline makes it easy to obtain accurate biomechanical estimates of movement in a rehabilitation hospital.
翻訳日:2023-03-21 18:03:30 公開日:2023-03-19
# Taylor Expansion によるランダムな対人訓練

Randomized Adversarial Training via Taylor Expansion ( http://arxiv.org/abs/2303.10653v1 )

ライセンス: Link先を確認
Gaojie Jin, Xinping Yi, Dengyu Wu, Ronghui Mu, Xiaowei Huang(参考訳) 近年、敵の例に対してより堅牢なディープニューラルネットワークを開発する研究が爆発的に進んでいる。 敵の訓練は最も成功した方法の1つである。 敵の例に対する堅牢性とクリーンな例に対する精度の両方に対処するため、多くの研究が敵の訓練方法を改良し、それらの間のトレードオフを達成した。 トレーニング中にウェイトをスムーズに更新した研究は、フラットなミニマを見つけ、一般化を改善するのに役立ち、ロバストネスと精度のトレードオフ、すなわちランダムノイズを決定論的ウェイトに加えることによって、別の観点から和解することを提案する。 ランダムな重み付けにより、小さなガウス雑音のテイラー展開による新しい対向訓練法の設計が可能となり、新しい対向訓練法は損失景観を平坦化し、平坦な最小値を求めることができることを示す。 PGD,CW,オートアタックでは,我々の手法が最先端の対人訓練手法を強化し,堅牢性とクリーンな精度の向上を図っている。 コードはhttps://github.com/alexkael/randomized-adversarial-trainingで入手できる。

In recent years, there has been an explosion of research into developing more robust deep neural networks against adversarial examples. Adversarial training appears as one of the most successful methods. To deal with both the robustness against adversarial examples and the accuracy over clean examples, many works develop enhanced adversarial training methods to achieve various trade-offs between them. Leveraging over the studies that smoothed update on weights during training may help find flat minima and improve generalization, we suggest reconciling the robustness-accuracy trade-off from another perspective, i.e., by adding random noise into deterministic weights. The randomized weights enable our design of a novel adversarial training method via Taylor expansion of a small Gaussian noise, and we show that the new adversarial training method can flatten loss landscape and find flat minima. With PGD, CW, and Auto Attacks, an extensive set of experiments demonstrate that our method enhances the state-of-the-art adversarial training methods, boosting both robustness and clean accuracy. The code is available at https://github.com/Alexkael/Randomized-Adversarial-Training.
翻訳日:2023-03-21 18:03:14 公開日:2023-03-19
# 微分可能論理の論理:dlの一様意味論に向けて

Logic of Differentiable Logics: Towards a Uniform Semantics of DL ( http://arxiv.org/abs/2303.10650v1 )

ライセンス: Link先を確認
Natalia \'Slusarz, Ekaterina Komendantskaya, Matthew L. Daggitt, Robert Stewart, Kathrin Stark(参考訳) 近年、論理仕様を満たすためにニューラルネットワークをトレーニングする方法として微分論理(DL)が提案されている。 DLは仕様が記述される構文と、構文の式を損失関数に変換する解釈関数から構成される。 これらの損失関数は、標準勾配降下アルゴリズムでトレーニング中に使用できる。 既存のDLの多様性とそれらが扱われる形式レベルの違いは、それらの特性と実装に関する体系的な比較研究を困難にしている。 本稿では、微分可能論理学(LDL)と呼ばれるDLを定義するメタ言語を提案することにより、この問題を是正する。 構文的には、既存のDLの構文をFOLに一般化し、ベクトルと学習者について推論するフォーマリズムを初めて導入する。 意味的には、既存のDLから生じる損失関数を定義するためにインスタンス化できる一般的な解釈関数を導入する。 我々はLDLを用いて、既存のDLの理論的特性を確立し、ニューラルネットワーク検証における実証的研究を行う。

Differentiable logics (DL) have recently been proposed as a method of training neural networks to satisfy logical specifications. A DL consists of a syntax in which specifications are stated and an interpretation function that translates expressions in the syntax into loss functions. These loss functions can then be used during training with standard gradient descent algorithms. The variety of existing DLs and the differing levels of formality with which they are treated makes a systematic comparative study of their properties and implementations difficult. This paper remedies this problem by suggesting a meta-language for defining DLs that we call the Logic of Differentiable Logics, or LDL. Syntactically, it generalises the syntax of existing DLs to FOL, and for the first time introduces the formalism for reasoning about vectors and learners. Semantically, it introduces a general interpretation function that can be instantiated to define loss functions arising from different existing DLs. We use LDL to establish several theoretical properties of existing DLs, and to conduct their empirical study in neural network verification.
翻訳日:2023-03-21 18:02:47 公開日:2023-03-19
# 顔行動単位検出のための時空間AU関係グラフ表現学習

Spatio-Temporal AU Relational Graph Representation Learning For Facial Action Units Detection ( http://arxiv.org/abs/2303.10644v1 )

ライセンス: Link先を確認
Zihan Wang, Siyang Song, Cheng Luo, Yuzhi Zhou, shiling Wu, Weicheng Xie, Linlin Shen(参考訳) 本稿では,第5回ABAW(Affective Behavior Analysis in-the-wild Competition)へのAU(Facial Action Units)認定申請について述べる。 私たちのアプローチは3つの主要なモジュールで構成されています。 (i)入力シーケンスの各入力顔画像から強い顔表現を生成する予め訓練された顔表現エンコーダ (ii)顔表現からAU特徴の集合を特に学習するAU特有特徴生成装置、及び (iii)時空間グラフ表現を構成する時空間グラフ学習モジュール。 このグラフ表現は、すべてのフレームに含まれるAUを記述し、対応する顔内のモデル化された空間情報とフレーム間の学習時間ダイナミクスの両方に基づいて、各AUの発生を予測する。 実験の結果,本手法がベースラインを上回り,時空間グラフ表現学習により全アブレーションシステムにおいて最良結果を生成することができた。

This paper presents our Facial Action Units (AUs) recognition submission to the fifth Affective Behavior Analysis in-the-wild Competition (ABAW). Our approach consists of three main modules: (i) a pre-trained facial representation encoder which produce a strong facial representation from each input face image in the input sequence; (ii) an AU-specific feature generator that specifically learns a set of AU features from each facial representation; and (iii) a spatio-temporal graph learning module that constructs a spatio-temporal graph representation. This graph representation describes AUs contained in all frames and predicts the occurrence of each AU based on both the modeled spatial information within the corresponding face and the learned temporal dynamics among frames. The experimental results show that our approach outperformed the baseline and the spatio-temporal graph representation learning allows the model to generate the best results among all ablation systems.
翻訳日:2023-03-21 18:02:31 公開日:2023-03-19
# 3D Gaze Vis:VR環境における協調作業のための視線追跡データの可視化

3D Gaze Vis: Sharing Eye Tracking Data Visualization for Collaborative Work in VR Environment ( http://arxiv.org/abs/2303.10635v1 )

ライセンス: Link先を確認
Song Zhao, Shiwei Cheng, Chenshuang Zhu(参考訳) バーチャルリアリティ(VR)におけるマルチユーザーゲームのような協調的なタスクを実行することで、より没入的で効果的な体験を探索することができる。 しかし、現在のVRシステムでは、ユーザは視線ポイントを介して適切に通信することができず、ユーザの意図に対する相互理解に干渉する可能性がある。 本研究では,認知的干渉を最小化し,ユーザ間の視覚的注意と意図の理解を深める,視線追跡データ可視化の最適化を目指す。 われわれは、視線カーソル、視線スポットライト、視線軌跡の3つの異なる視線追跡データ可視化を設計し、医師による視線カーソルが、複雑な3D心臓モデルをより効果的に学習するのに役立つことを発見した。 さらに,2人の学生が,視線カーソルを互いに共有して,VR環境におけるクイズを仕上げるよう依頼され,効率とスコアが向上した。 視線追跡データ可視化の共有は,vr環境における協調作業の品質と効率を向上できることが示唆された。

Conducting collaborative tasks, e.g., multi-user game, in virtual reality (VR) could enable us to explore more immersive and effective experience. However, for current VR systems, users cannot communicate properly with each other via their gaze points, and this would interfere with users' mutual understanding of the intention. In this study, we aimed to find the optimal eye tracking data visualization , which minimized the cognitive interference and improved the understanding of the visual attention and intention between users. We designed three different eye tracking data visualizations: gaze cursor, gaze spotlight and gaze trajectory in VR scene for a course of human heart , and found that gaze cursor from doctors could help students learn complex 3D heart models more effectively. To further explore, two students as a pair were asked to finish a quiz in VR environment, with sharing gaze cursors with each other, and obtained more efficiency and scores. It indicated that sharing eye tracking data visualization could improve the quality and efficiency of collaborative work in the VR environment.
翻訳日:2023-03-21 18:02:16 公開日:2023-03-19
# 月面における人間の操作サービスにおける拡張現実:バーチャルテストベッドからの洞察

Augmented Reality in Service of Human Operations on the Moon: Insights from a Virtual Testbed ( http://arxiv.org/abs/2303.10686v1 )

ライセンス: Link先を確認
Leonie Becker, Tommy Nilsson, Paul Topf Aguiar de Medeiros, Flavie Rometsch(参考訳) 将来の宇宙飛行士は、運用上の安全性と性能を損なう極端な環境条件に直面するだろう。 拡張現実(ar)ヘッドアップディスプレイ(hud)は、こうした逆境を緩和する可能性があると示唆されているが、ユニークな月の文脈におけるarの適用性は未検討のままである。 この制限に対処するため、我々はvr(virtual reality)における月面設定の正確な表現を作成し、航空宇宙の専門家による今後の運用シナリオの探索のためのテストベッドを形成しました。 そこで本研究では,最初の6名の被験者による定性的反射に基づく実験を行った。 arはナビゲーションやリスク認識のサポートなど、いくつかのユースケースで有用であることが判明した。 冗長性の重要性やコンテキスト的適切性など、主要な設計上の課題も同様に特定された。 これらの結果を踏まえ、月面に合わせたarベースのアシストソリューションの開発に向けた今後の研究の方向性を概説する。

Future astronauts living and working on the Moon will face extreme environmental conditions impeding their operational safety and performance. While it has been suggested that Augmented Reality (AR) Head-Up Displays (HUDs) could potentially help mitigate some of these adversities, the applicability of AR in the unique lunar context remains underexplored. To address this limitation, we have produced an accurate representation of the lunar setting in virtual reality (VR) which then formed our testbed for the exploration of prospective operational scenarios with aerospace experts. Herein we present findings based on qualitative reflections made by the first 6 study participants. AR was found instrumental in several use cases, including the support of navigation and risk awareness. Major design challenges were likewise identified, including the importance of redundancy and contextual appropriateness. Drawing on these findings, we conclude by outlining directions for future research aimed at developing AR-based assistive solutions tailored to the lunar setting.
翻訳日:2023-03-21 17:56:44 公開日:2023-03-19
# マルチモードマイクロストリップ共振器を用いたサブミクロン$\rm Nb$/$\rm TEOS-SiO_2$配線の異方性超伝導体と誘電体マイクロ波損失

Disentangling superconductor and dielectric microwave losses in sub-micron $\rm Nb$/$\rm TEOS-SiO_2$ interconnects using a multi-mode microstrip resonator ( http://arxiv.org/abs/2303.10685v1 )

ライセンス: Link先を確認
Cougar A. T. Garcia, Nancyjane Bailey, Chris Kirby, Joshua A. Strong, Anna Yu. Herr, Steven M. Anlage, Vladimir V. Talanov(参考訳) 超伝導配線における電力損失の起源を理解することは、超伝導デジタル論理のエネルギー効率とスケーラビリティに不可欠である。 マイクロ波周波数では、誘電体と超伝導線の両方で電力が散逸し、これらの損失は等しく大きい。 幾何係数の概念と3次元超伝導有限要素法(fem)モデルにより支持されたマルチモード伝送線路共振器を用いて、周波数依存性を生かして損失を正確に解消する新しい手法について述べる。 本手法を用いて,4.2KおよびGHz周波数での相互接続損失に対して,相互量子論理(RQL)の平面化処理を最適化した。 インターコネクトは、テトラエチルオルソシリケート前駆体(テトラエチルTEOS-SiO_2$)で作られた二酸化ケイ素で絶縁されたニオブ(\rm Nb$)からなる。 2つのプロセス世代はダマスセン製造を使用し、3つ目はClisonn\'{e}製造を使用する。 3つすべてに対して、$\rm TEOS-SiO_2$は誘電損失タンジェント$\tan \delta = 0.0012 \pm 0.0001$を示し、$\rm Nb$のワイヤ幅$0.25 - 4 \: \mu m$とは独立である。 $\rm Nb$損失は、処理とワイヤ幅の両方によって異なる。 ダマスセン製造では、走査透過電子顕微鏡(STEM)とエネルギー分散X線分光法(EDS)により、Nb酸化物とNb結晶成長方位がバーディーン・クーパー・シュリーファー(BCS)最小抵抗$R _{BCS}$以上の損失を増大させることが示された。 Cloisonn\'{e} の製作において、$0.25 \: \mu m$ wide $\rm Nb$ wires は固有の抵抗である $R_s = 13 \pm 1.4 \: \mu \Omega$ at 10 GHz を示し、$R_{BCS} \approx 17 \: \mu \Omega$ 以下である。 これはおそらく$\rm nb$で報告される最も低い抵抗損失である。

Understanding the origins of power loss in superconducting interconnects is essential for the energy efficiency and scalability of superconducting digital logic. At microwave frequencies, power dissipates in both the dielectrics and superconducting wires, and these losses can be of comparable magnitude. A novel method to accurately disentangle such losses by exploiting their frequency dependence using a multi-mode transmission line resonator, supported by a geometric factor concept and a 3D superconductor finite element method (FEM) modeling, is described. Using the method we optimized a planarized fabrication process of reciprocal quantum logic (RQL) for the interconnect loss at 4.2 K and GHz frequencies. The interconnects are composed of niobium ($\rm Nb$) insulated by silicon dioxide made with a tetraethyl orthosilicate precursor ($\rm TEOS-SiO_2$). Two process generations use damascene fabrication, and the third one uses Cloisonn\'{e} fabrication. For all three, $\rm TEOS-SiO_2$ exhibits a dielectric loss tangent $\tan \delta = 0.0012 \pm 0.0001$, independent of $\rm Nb$ wire width over $0.25 - 4 \: \mu m$. The $\rm Nb$ loss varies with both the processing and the wire width. For damascene fabrication, scanning transmission electron microscopy (STEM) and energy dispersive X-ray spectroscopy (EDS) reveal that Nb oxide and Nb grain growth orientation increase the loss above the Bardeen Cooper Schrieffer (BCS) minimum theoretical resistance $R _{BCS}$. For Cloisonn\'{e} fabrication, the $0.25 \: \mu m$ wide $\rm Nb$ wires exhibit an intrinsic resistance $R_s = 13 \pm 1.4 \: \mu \Omega$ at 10 GHz, which is below $R_{BCS} \approx 17 \: \mu \Omega$. That is arguably the lowest resistive loss reported for $\rm Nb$.
翻訳日:2023-03-21 17:56:29 公開日:2023-03-19
# 量子チャネルの因果順序の重ね合わせ上の高次元における絡み合い分布と量子テレポーテーション

Entanglement Distribution and Quantum Teleportation in Higher Dimension over the Superposition of Causal Orders of Quantum Channels ( http://arxiv.org/abs/2303.10683v1 )

ライセンス: Link先を確認
Indrakshi Dey and Nicola Marchetti(参考訳) 多重フォトニック自由度は、高次元の量子状態を生成するために探索することができる。 quditsは、情報容量、ノイズレジリエンス、データスループット、および従来のqubitsベースの通信システムと比較して異なる伝播媒体(自由空間、光ファイバー、水中)における情報損失の低減など、量子通信のいくつかの利点を提供する。 しかし、クォーディットは送信と検出が困難であったため、文学ではほとんど利用されていない。 本稿では,2つの量子チャネル上の量子チャネルの絡み合い分布を通じて,古典情報の伝達に関する理論的枠組みを初めて開発し,定式化する。 初めて i) 2-quditシステムにおける量子スイッチ操作 二 量子スイッチによる四重項の絡み合い分布の定式化理論系モデル 結果,quditの絡み合い分布は,雑音が増大しても忠実度がかなり向上することがわかった。

Multiple photonic degrees of freedom can be explored to generate high-dimensional quantum states; commonly referred to as `qudits'. Qudits offer several advantages for quantum communications, including higher information capacity, noise resilience and data throughput, and lower information loss over different propagation mediums (free space, optical fibre, underwater) as compared to conventional qubits based communication system. However, qudits have been little exploited in literature, owing to their difficulty in transmission and detection. In this paper, for the first time, we develop and formulate the theoretical framework for transmission of classical information through entanglement distribution of qudits over two quantum channels in superposition of alternative causal order. For the first time we i) engineer quantum switch operation for 2-qudit systems and ii) formulate theoretical system model for entanglement distribution of qudits via quantum switch. Results show that entanglement distribution of a qudit provides a considerable gain in fidelity even with increase in noise.
翻訳日:2023-03-21 17:55:42 公開日:2023-03-19
# 生成的逆分類ネットワークとネットワークトラフィック分類への応用

Generative Adversarial Classification Network with Application to Network Traffic Classification ( http://arxiv.org/abs/2303.10681v1 )

ライセンス: Link先を確認
Rozhina Ghanavi, Ben Liang, Ali Tizghadam(参考訳) 機械学習における大規模なデータセットは、しばしば欠落したデータを含み、欠落したデータ値の計算を必要とする。 本研究では,従来のデータインプテーション手法ではうまく動作しないネットワークトラフィックの分類にモチベーションを与える。 既存の手法では,データ計算中の分類精度を直接考慮していない。 そこで本稿では,ジェネレータネットワーク,識別器ネットワーク,分類ネットワークを含むGACN(Generative Adversarial Classification Network)という,分類精度の最終的な目的に向けて反復的に最適化された共同データ計算とデータ分類手法を提案する。 さらに,いくつかのデータサンプルがラベル付けされていないシナリオに対して,部分ラベル付きデータを用いて分類精度を向上させる半教師付きGACN(SSGACN)の拡張を提案する。 実世界のネットワークトラフィックデータトレースを用いて実験を行い、GACNとSS-GACNは、分類においてより重要なデータ特徴をより正確に解釈し、分類精度において既存の手法より優れていることを示す。

Large datasets in machine learning often contain missing data, which necessitates the imputation of missing data values. In this work, we are motivated by network traffic classification, where traditional data imputation methods do not perform well. We recognize that no existing method directly accounts for classification accuracy during data imputation. Therefore, we propose a joint data imputation and data classification method, termed generative adversarial classification network (GACN), whose architecture contains a generator network, a discriminator network, and a classification network, which are iteratively optimized toward the ultimate objective of classification accuracy. For the scenario where some data samples are unlabeled, we further propose an extension termed semi-supervised GACN (SSGACN), which is able to use the partially labeled data to improve classification accuracy. We conduct experiments with real-world network traffic data traces, which demonstrate that GACN and SS-GACN can more accurately impute data features that are more important for classification, and they outperform existing methods in terms of classification accuracy.
翻訳日:2023-03-21 17:55:23 公開日:2023-03-19
# バック励起ナノアンテナにおけるコロイド量子ドットとSiV中心を用いた室温ファイバ結合単一光子デバイス

Room Temperature Fiber-Coupled single-photon devices based on Colloidal Quantum Dots and SiV centers in Back Excited Nanoantennas ( http://arxiv.org/abs/2303.10679v1 )

ライセンス: Link先を確認
Boaz Lubotzky, Alexander Nazarov, Hamza Abudayyeh, Lukas Antoniuk, Niklas Lettner, Viatcheslav Agafonov, Anastasia V. Bennett, Jennifer A. Hollingsworth, Alexander Kubanek and Ronen Rapaport(参考訳) 我々は、指向性量子エミッタの室温ファイバ結合で動作する単一光子源のチップ統合とバック励起への重要な一歩を示す。 指向性はハイブリッドの金属誘電性ブルジーアンテナで達成され、バック励起はブルジー中心に位置するサブ波長のホールにエミッタを配置することで許容される。 全体として、このユニークな設計により、オンチップ装置の背面から直接レーザー励起が可能となり、高いコリメートされた光子放出を低数値開口(na)自由空間光学または正面からの光ファイバに直接結合することができる。 この概念の汎用性を示すため、ナノダイアモンドを含むコロイド量子ドットまたはシリコン空孔中心を含むデバイスを2つの異なるナノ配置法を用いてナノアンテナに正確に結合する。 両装置とも, NAsでは前向き収集効率が約70%, 0.5%であった。 さらに、バック励起とフォワード低NA方向の組み合わせにより、光子を結合光学を必要とせずに近光ファイバーに直結させ、将来の統合を容易にし、大幅に単純化することができる。

We demonstrate an important step towards on chip integration of single photon sources operating at room temperature fiber coupling of a directional quantum emitter with back-excitation. Directionality is achieved with a hybrid metal-dielectric bullseye antenna, while back-excitation is permitted by placement of the emitter at or in a sub-wavelength hole positioned at the bullseye center. Overall, the unique design enables a direct laser excitation from the back of the on-chip device and very efficient coupling of the highly collimated photon emission to either low numerical aperture (NA) free space optics or directly to an optical fiber from the front. To show the versatility of the concept, we fabricate devices containing either a colloidal quantum dot or a silicon-vacancy center containing nanodiamond, which are accurately coupled to the nano-antenna using two different nano-positioning methods. Both back-excited devices display front collection efficiencies of about 70 % at NAs as low as 0.5. Moreover, the combination of back-excitation with forward low-NA directionality enables direct coupling of the emitted photons into a proximal optical fiber without the need of any coupling optics, thereby facilitating and greatly simplifying future integration.
翻訳日:2023-03-21 17:55:05 公開日:2023-03-19
# 連系・自動車両のフェデレーション学習に関する調査

A Survey of Federated Learning for Connected and Automated Vehicles ( http://arxiv.org/abs/2303.10677v1 )

ライセンス: Link先を確認
Vishnu Pandi Chellapandi, Liangqi Yuan, Stanislaw H /.Zak and Ziran Wang(参考訳) コネクテッド・アンド・オートマチック・ビークルズ (CAV) は、事故や交通渋滞、汚染物質排出の問題を緩和し、安全で効率的で持続可能な輸送システムを実現する可能性を持つ、自動車分野における新興技術の1つである。 機械学習ベースの手法は、認識、モーションプランニング、モーションコントロールといった重要なタスクにおいて、CAVにおいて機械学習モデルがローカルな車両データのみを使用してトレーニングされており、新しい環境や目に見えない状況に晒された場合のパフォーマンスは不明確である。 フェデレートラーニング(FL)は、分散ラーニングフレームワークにおける複数の車両との協調モデル開発を可能にする、CAVの効果的なソリューションである。 FLは、CAVが幅広い運転環境から学び、ローカルな車両データのプライバシーとセキュリティを確保しながら、全体的なパフォーマンスを改善することを可能にする。 本稿では,FLをCAVに適用する研究者の進歩を概観する。 CAVに実装された様々なデータモダリティとアルゴリズムのより広範なビューを提供する。 flの具体的応用を詳細に検討し,研究の課題と今後の展望について考察する。

Connected and Automated Vehicles (CAVs) are one of the emerging technologies in the automotive domain that has the potential to alleviate the issues of accidents, traffic congestion, and pollutant emissions, leading to a safe, efficient, and sustainable transportation system. Machine learning-based methods are widely used in CAVs for crucial tasks like perception, motion planning, and motion control, where machine learning models in CAVs are solely trained using the local vehicle data, and the performance is not certain when exposed to new environments or unseen conditions. Federated learning (FL) is an effective solution for CAVs that enables a collaborative model development with multiple vehicles in a distributed learning framework. FL enables CAVs to learn from a wide range of driving environments and improve their overall performance while ensuring the privacy and security of local vehicle data. In this paper, we review the progress accomplished by researchers in applying FL to CAVs. A broader view of the various data modalities and algorithms that have been implemented on CAVs is provided. Specific applications of FL are reviewed in detail, and an analysis of the challenges and future scope of research are presented.
翻訳日:2023-03-21 17:54:44 公開日:2023-03-19
# URM4DMU:ダークネット市場ユーザーのためのユーザー表現モデル

URM4DMU: an user represention model for darknet markets users ( http://arxiv.org/abs/2303.10674v1 )

ライセンス: Link先を確認
Hongmeng Liu, Jiapeng Zhao, Yixuan Huo, Yuyan Wang, Chun Liao, Liyan Shen, Shiyao Cui, Jinqiao Shi(参考訳) ダークネット市場は匿名性のために違法品やサービスを取引するための大きなプラットフォームを提供している。 異なるマーケットでの投稿に基づいて各ユーザの不変表現を学ぶことで、異なるプラットフォームにまたがるユーザ情報を集約することが容易になり、匿名ユーザを特定するのに役立ちます。 従来のユーザ表現手法は、主に投稿のテキスト情報をモデル化し、記事の時間的内容やフォーラムのやりとりを捉えることができない。 最近の作品は、主にcnnを使って投稿のテキスト情報をモデル化しているが、エピソードで頻繁に変化する投稿を効果的にモデル化できていない。 上記の問題に対処するため,我々は,畳み込み演算子と適応ゲート機構による自己注意を増強することにより,主にポスト表現を改善するURM4DMU(User Representation Model for Darknet Markets Users)というモデルを提案する。 記事のテンポラリなコンテンツとフォーラムのやりとりを組み合わせると、ずっとうまく機能します。 ダークネット市場におけるURM4DMUの有効性を示す。 MRR値とRecall@10の平均的な改善は、それぞれ22.5%と25.5%である。

Darknet markets provide a large platform for trading illicit goods and services due to their anonymity. Learning an invariant representation of each user based on their posts on different markets makes it easy to aggregate user information across different platforms, which helps identify anonymous users. Traditional user representation methods mainly rely on modeling the text information of posts and cannot capture the temporal content and the forum interaction of posts. While recent works mainly use CNN to model the text information of posts, failing to effectively model posts whose length changes frequently in an episode. To address the above problems, we propose a model named URM4DMU(User Representation Model for Darknet Markets Users) which mainly improves the post representation by augmenting convolutional operators and self-attention with an adaptive gate mechanism. It performs much better when combined with the temporal content and the forum interaction of posts. We demonstrate the effectiveness of URM4DMU on four darknet markets. The average improvements on MRR value and Recall@10 are 22.5% and 25.5% over the state-of-the-art method respectively.
翻訳日:2023-03-21 17:54:23 公開日:2023-03-19
# もっと早く見る: JAX を使用した在庫管理のための GPU アクセラレーション値の反復とシミュレーション

Going faster to see further: GPU-accelerated value iteration and simulation for perishable inventory control using JAX ( http://arxiv.org/abs/2303.10672v1 )

ライセンス: Link先を確認
Joseph Farrington, Kezhi Li, Wai Keong Wong, Martin Utley(参考訳) 価値反復は在庫問題に対する最適補充ポリシーを見つけることができるが、在庫の年齢分布を表すために必要とされる大きな状態空間のために計算的に要求される。 現代のgpuの並列処理能力は、複数の状態を同時に更新することで、値の反復を実行するのに必要な壁時間を削減することができる。 GPUを加速するアプローチの採用は、新しいソフトウェアフレームワークがGPUプログラミングを広く利用できるようにする機械学習のような他の分野と比較して、運用研究において制限されている。 我々はPythonライブラリのJAXを使って、基礎となるMarkov決定プロセスの値イテレーションとシミュレータをハイレベルAPIで実装し、このライブラリの機能変換とコンパイラを使ってGPUハードウェアを効率的に活用しました。 提案手法は,従来は実現不可能あるいは現実的と考えられていた設定に値反復の使用を拡張できる。 我々は,1600万以上の状態を持つ問題や,計算複雑性を増大させる製品間の置換などの追加的な問題機能を含む,最近の3つの研究の例でこれを実証する。 本研究では, JAX におけるシミュレーション最適化を用いて, 何千年もの模擬年数における複数の候補政策パラメータの並列評価を可能にした。 ヒューリスティックな政策は最大最適性差を2.49%とした。 我々の一般的なアプローチは、消費者向けgpuハードウェア上での大規模並列計算の恩恵を受ける運用研究の幅広い問題に適用できるかもしれない。

Value iteration can find the optimal replenishment policy for a perishable inventory problem, but is computationally demanding due to the large state spaces that are required to represent the age profile of stock. The parallel processing capabilities of modern GPUs can reduce the wall time required to run value iteration by updating many states simultaneously. The adoption of GPU-accelerated approaches has been limited in operational research relative to other fields like machine learning, in which new software frameworks have made GPU programming widely accessible. We used the Python library JAX to implement value iteration and simulators of the underlying Markov decision processes in a high-level API, and relied on this library's function transformations and compiler to efficiently utilize GPU hardware. Our method can extend use of value iteration to settings that were previously considered infeasible or impractical. We demonstrate this on example scenarios from three recent studies which include problems with over 16 million states and additional problem features, such as substitution between products, that increase computational complexity. We compare the performance of the optimal replenishment policies to heuristic policies, fitted using simulation optimization in JAX which allowed the parallel evaluation of multiple candidate policy parameters on thousands of simulated years. The heuristic policies gave a maximum optimality gap of 2.49%. Our general approach may be applicable to a wide range of problems in operational research that would benefit from large-scale parallel computation on consumer-grade GPU hardware.
翻訳日:2023-03-21 17:54:05 公開日:2023-03-19
# ベルンシュタイン・ヴァジランの分散完全量子アルゴリズムと探索問題

Distributed exact quantum algorithms for Bernstein-Vazirani and search problems ( http://arxiv.org/abs/2303.10670v1 )

ライセンス: Link先を確認
Xu Zhou, Daowen Qiu, Le Lou(参考訳) 分散量子コンピュータは、ノイズの多い中間スケール量子(nisq)時代に構築されているように見えるため、大きな注目を集めている。 本稿では,$t$計算ノードを持つ分散bernstein-vaziraniアルゴリズム(dbva)と,無順序データベース内の1つの対象項目のみを用いて探索問題を解決する分散完全グローバーアルゴリズム(dega)を提案する。 Though the designing techniques are simple in the light of BV algorithm, Grover's algorithm, the improved Grover's algorithm by Long, and the distributed Grover's algorithm by Qiu et al, in comparison to BV algorithm, the circuit depth of DBVA is not greater than $2^{\text{max}(n_0, n_1, \cdots, n_{t-1})}+3$ instead of $2^{n}+3$, and the circuit depth of DEGA is $8(n~\text{mod}~2)+9$, which is less than the circuit depth of Grover's algorithm, $1 + 8\left\lfloor \frac{\pi}{4}\sqrt{2^n} \right\rfloor$. 特に、我々はMindQuantum(量子ソフトウェア)上でDBVAとDEGAの状況を提供し、我々の手法の正確性と実践性を検証する。 デポーラライズドチャネルで実行されるアルゴリズムをシミュレートすることにより、分散量子アルゴリズムがノイズに耐性を持つことを示す。

Distributed quantum computation has gained extensive attention since small-qubit quantum computers seem to be built more practically in the noisy intermediate-scale quantum (NISQ) era. In this paper, we give a distributed Bernstein-Vazirani algorithm (DBVA) with $t$ computing nodes, and a distributed exact Grover's algorithm (DEGA) that solve the search problem with only one target item in the unordered databases. Though the designing techniques are simple in the light of BV algorithm, Grover's algorithm, the improved Grover's algorithm by Long, and the distributed Grover's algorithm by Qiu et al, in comparison to BV algorithm, the circuit depth of DBVA is not greater than $2^{\text{max}(n_0, n_1, \cdots, n_{t-1})}+3$ instead of $2^{n}+3$, and the circuit depth of DEGA is $8(n~\text{mod}~2)+9$, which is less than the circuit depth of Grover's algorithm, $1 + 8\left\lfloor \frac{\pi}{4}\sqrt{2^n} \right\rfloor$. In particular, we provide situations of our DBVA and DEGA on MindQuantum (a quantum software) to validate the correctness and practicability of our methods. By simulating the algorithms running in the depolarized channel, it further illustrates that distributed quantum algorithm has superiority of resisting noise.
翻訳日:2023-03-21 17:53:41 公開日:2023-03-19
# 開量子系に対する一般化ブラウン粒子としてのディシパトン:ディシパトン埋め込み量子マスター方程式

Dissipatons as generalized Brownian particles for open quantum systems: Dissipaton-embedded quantum master equation ( http://arxiv.org/abs/2303.10666v1 )

ライセンス: Link先を確認
Xiang Li, Yu Su, Zi-Hao Chen, Yao Wang, Rui-Xue Xu, Xiao Zheng, YiJing Yan(参考訳) ディシパトン理論はオープン量子系力学を扱うための正確で非摂動的なアプローチとして提案され、ガウス環境の影響はディシパトンと呼ばれる統計的準粒子によって特徴づけられる。 本研究では、ディシパトン運動方程式を再検討し、同値なディシパトン埋め込み量子マスター方程式(dqme)を確立し、一般化されたブラウン粒子としてディシパトンを生成する。 この論文で説明されているように、dqmeはディシパトンと物理的に支持されるハイブリッドバスモードの統計特性を調べるための直接的なアプローチを提供する。 電子移動モデルを用いて数値実験を行い, 溶媒和座標の過渡的統計特性を示す。

Dissipaton theory had been proposed as an exact and nonperturbative approach to deal with open quantum system dynamics, where the influence of Gaussian environment is characterized by statistical quasi-particles named as dissipatons. In this work, we revisit the dissipaton equation of motion theory and establish an equivalent dissipatons-embedded quantum master equation (DQME), which gives rise to dissipatons as generalized Brownian particles. As explained in this work, the DQME supplies a direct approach to investigate the statistical characteristics of dissipatons and thus the physically supporting hybrid bath modes. Numerical demonstrations are carried out on the electron transfer model, exhibiting the transient statistical properties of the solvation coordinate.
翻訳日:2023-03-21 17:53:17 公開日:2023-03-19
# PseudoBound:擬似異常を用いた一級分類器の異常再構築能力の制限

PseudoBound: Limiting the anomaly reconstruction capability of one-class classifiers using pseudo anomalies ( http://arxiv.org/abs/2303.10704v1 )

ライセンス: Link先を確認
Marcella Astrid, Muhammad Zaigham Zaheer, Seung-Ik Lee(参考訳) 異常事象の頻度が高いため、ビデオ異常検出は通常、一級分類(OCC)問題としてアプローチされる。 通常、OCCでは、オートエンコーダ(AE)が通常のトレーニングデータのみを再構成するために訓練され、テスト時間内には異常データの再構成が不十分である。 しかし、以前の研究では、通常のデータのみを用いて訓練しても、AEsはしばしば異常なデータを再構築することができ、結果として性能が低下することを示した。 この問題を軽減するために,AEのトレーニング中に擬似異常を組み込むことにより,AEの異常再構築能力を制限することを提案する。 5種類の擬似異常を用いた広範囲な実験は,任意の擬似異常に対する訓練機構の堅牢性を示している。 さらに,提案手法を3つのベンチマークビデオ異常データセットに対して提案した擬似異常に基づくトレーニング手法の有効性を実証し,他の再構成に基づくアプローチを2つのデータセットで上回り,他のデータセットで2番目に優れたパフォーマンスを示す。

Due to the rarity of anomalous events, video anomaly detection is typically approached as one-class classification (OCC) problem. Typically in OCC, an autoencoder (AE) is trained to reconstruct the normal only training data with the expectation that, in test time, it can poorly reconstruct the anomalous data. However, previous studies have shown that, even trained with only normal data, AEs can often reconstruct anomalous data as well, resulting in a decreased performance. To mitigate this problem, we propose to limit the anomaly reconstruction capability of AEs by incorporating pseudo anomalies during the training of an AE. Extensive experiments using five types of pseudo anomalies show the robustness of our training mechanism towards any kind of pseudo anomaly. Moreover, we demonstrate the effectiveness of our proposed pseudo anomaly based training approach against several existing state-ofthe-art (SOTA) methods on three benchmark video anomaly datasets, outperforming all the other reconstruction-based approaches in two datasets and showing the second best performance in the other dataset.
翻訳日:2023-03-21 17:47:09 公開日:2023-03-19
# CCTV-Gun:CCTV画像におけるハンドガン検出のベンチマーク

CCTV-Gun: Benchmarking Handgun Detection in CCTV Images ( http://arxiv.org/abs/2303.10703v1 )

ライセンス: Link先を確認
Srikar Yellapragada, Zhenghong Li, Kevin Bhadresh Doshi, Purva Makarand Mhasakar, Heng Fan, Jie Wei, Erik Blasch, Haibin Ling(参考訳) 銃暴力は重要なセキュリティ問題であり、特にCCTV監視データにおいて、現実のシナリオに有効な銃検出アルゴリズムを開発することがコンピュータビジョンコミュニティにとって必須である。 視覚的物体検出の大幅な進歩にもかかわらず、現実のCCTV画像における銃の検出は困難で未調査の課題である。 銃器、特に拳銃は、通常、非常に小さいサイズであり、外観が不十分であり、しばしば他の小物と酷く遮蔽されるか、区別できない。 さらに、標準ベンチマークの欠如と関連するデータセットの収集がアルゴリズム開発を妨げている。 本稿では,実世界のCCTV画像における拳銃検出の課題に対処する,巧妙に製作された注釈付きベンチマーク「textbf{CCTV-Gun}」を提案する。 私たちの貢献は3倍です。 まず,3つのデータセットから実世界のCCTV画像を慎重に選択,分析し,手動で拳銃とその保持者をアノテートし,各画像にぼやけや閉塞などの課題因子を割り当てる。 第2に,実用環境で銃の検知に不可欠な標準データセット内プロトコルに加えて,新たなクロスデータセット評価プロトコルを提案する。 最後に,古典的および最先端の物体検出アルゴリズムを包括的に評価し,一般化能力の詳細な分析を行った。 このベンチマークは、このトピックに関するさらなる研究と開発を促進し、最終的にはセキュリティを強化する。 コード、アノテーション、トレーニングされたモデルはhttps://github.com/srikarym/CCTV-Gun.orgで入手できる。

Gun violence is a critical security problem, and it is imperative for the computer vision community to develop effective gun detection algorithms for real-world scenarios, particularly in Closed Circuit Television (CCTV) surveillance data. Despite significant progress in visual object detection, detecting guns in real-world CCTV images remains a challenging and under-explored task. Firearms, especially handguns, are typically very small in size, non-salient in appearance, and often severely occluded or indistinguishable from other small objects. Additionally, the lack of principled benchmarks and difficulty collecting relevant datasets further hinder algorithmic development. In this paper, we present a meticulously crafted and annotated benchmark, called \textbf{CCTV-Gun}, which addresses the challenges of detecting handguns in real-world CCTV images. Our contribution is three-fold. Firstly, we carefully select and analyze real-world CCTV images from three datasets, manually annotate handguns and their holders, and assign each image with relevant challenge factors such as blur and occlusion. Secondly, we propose a new cross-dataset evaluation protocol in addition to the standard intra-dataset protocol, which is vital for gun detection in practical settings. Finally, we comprehensively evaluate both classical and state-of-the-art object detection algorithms, providing an in-depth analysis of their generalizing abilities. The benchmark will facilitate further research and development on this topic and ultimately enhance security. Code, annotations, and trained models are available at https://github.com/srikarym/CCTV-Gun.
翻訳日:2023-03-21 17:46:51 公開日:2023-03-19
# 32ビットマイクロコントローラを用いた組込みニューラルネットワークの畳み込みプリミティブの評価

Evaluation of Convolution Primitives for Embedded Neural Networks on 32-bit Microcontrollers ( http://arxiv.org/abs/2303.10702v1 )

ライセンス: Link先を確認
Baptiste Nguyen, Pierre-Alain Moellic, Sylvain Blayac(参考訳) 32ビットマイクロコントローラのような制約のあるハードウェアプラットフォームにニューラルネットワークをデプロイすることは、大きなメモリ、コンピューティング、推論プロセスのエネルギー要求のために難しい課題である。 これらの問題に対処するために、標準畳み込みをより計算効率良くするためにいくつかの畳み込みプリミティブが提案されている。 しかし、これらのプリミティブのいくつかは32ビットマイクロコントローラ用に実際に実装されている。 本研究では、さまざまな最先端の畳み込みプリミティブを収集し、オープンソースデプロイメントプラットフォーム(NNoM)を備えたARM Cortex-Mプロセッサファミリの実装を提案する。 次に,これらの実装について実験的キャラクタリゼーション試験を行う。 本ベンチマークでは,理論MACとエネルギー消費の線形関係を明らかにする。 したがって、シフト畳み込みのような計算効率のよいプリミティブを使うことの利点を示す。 我々はSIMD命令の使用による遅延とエネルギー消費の大幅な削減について論じ、これらの性能向上におけるデータ再利用の重要性を強調した。 再現性とさらなる実験のために、コードと実験が公開されている。

Deploying neural networks on constrained hardware platforms such as 32-bit microcontrollers is a challenging task because of the large memory, computing and energy requirements of their inference process. To tackle these issues, several convolution primitives have been proposed to make the standard convolution more computationally efficient. However, few of these primitives are really implemented for 32-bit microcontrollers. In this work, we collect different state-of-the-art convolutional primitives and propose an implementation for ARM Cortex-M processor family with an open source deployment platform (NNoM). Then, we carry out experimental characterization tests on these implementations. Our benchmark reveals a linear relationship between theoretical MACs and energy consumption. Thus showing the advantages of using computationally efficient primitives like shift convolution. We discuss about the significant reduction in latency and energy consumption due to the use of SIMD instructions and highlight the importance of data reuse in those performance gains. For reproducibility purpose and further experiments, codes and experiments are publicly available.
翻訳日:2023-03-21 17:46:24 公開日:2023-03-19
# 空間変数と適応正規化による条件変形可能な画像登録

Conditional Deformable Image Registration with Spatially-Variant and Adaptive Regularization ( http://arxiv.org/abs/2303.10700v1 )

ライセンス: Link先を確認
Yinsong Wang, Huaqi Qiu, Chen Qin(参考訳) 深層学習に基づく画像登録手法は,従来の画像登録法と比較して,競争性能と実行時の優位性を示している。 しかし、既存の学習ベースのアプローチでは、手動のハイパーパラメータ探索のための異なる正規化ハイパーパラメータに関して、主に別々のモデルを訓練する必要がある。 本研究では,これらの課題に対処する条件付き空間適応型インスタンス正規化(CSAIN)に基づく学習ベース登録手法を提案する。 提案手法は, csainを介して超パラメータ行列上に登録ネットワークを条件づけることで, 空間適応正則化を実現する効果を学習する。 これにより、推論における空間適応正規化の変化が、1つの事前学習されたモデルで複数の可算変形を得ることができる。 さらに,手作業によるハイパーパラメータ探索を回避し,自動ハイパーパラメータ最適化を実現する。 実験の結果,提案手法は空間変動および適応正則化を達成しつつ,ベースラインアプローチよりも優れていることがわかった。

Deep learning-based image registration approaches have shown competitive performance and run-time advantages compared to conventional image registration methods. However, existing learning-based approaches mostly require to train separate models with respect to different regularization hyperparameters for manual hyperparameter searching and often do not allow spatially-variant regularization. In this work, we propose a learning-based registration approach based on a novel conditional spatially adaptive instance normalization (CSAIN) to address these challenges. The proposed method introduces a spatially-variant regularization and learns its effect of achieving spatially-adaptive regularization by conditioning the registration network on the hyperparameter matrix via CSAIN. This allows varying of spatially adaptive regularization at inference to obtain multiple plausible deformations with a single pre-trained model. Additionally, the proposed method enables automatic hyperparameter optimization to avoid manual hyperparameter searching. Experiments show that our proposed method outperforms the baseline approaches while achieving spatially-variant and adaptive regularization.
翻訳日:2023-03-21 17:46:10 公開日:2023-03-19
# FVQA 2.0: Fact-based Visual Question Answering における対立サンプルの導入

FVQA 2.0: Introducing Adversarial Samples into Fact-based Visual Question Answering ( http://arxiv.org/abs/2303.10699v1 )

ライセンス: Link先を確認
Weizhe Lin, Zhilin Wang, Bill Byrne(参考訳) 広く使われているFact-based Visual Question Answering (FVQA)データセットには、共通感覚知識グラフを用いた情報検索を必要とする視覚的な質問が含まれている。 元のデータセットは高度に不均衡であり、関連する知識グラフのごく一部に集中している。 本稿では,この不均衡に対処するため,FVQA 2.0を提案する。 従来のFVQAトレインセットでトレーニングされたシステムは、敵のサンプルに対して脆弱であることを示し、人間のアノテーションを使わずにこの脆弱性を減らすための拡張スキームを示す。

The widely used Fact-based Visual Question Answering (FVQA) dataset contains visually-grounded questions that require information retrieval using common sense knowledge graphs to answer. It has been observed that the original dataset is highly imbalanced and concentrated on a small portion of its associated knowledge graph. We introduce FVQA 2.0 which contains adversarial variants of test questions to address this imbalance. We show that systems trained with the original FVQA train sets can be vulnerable to adversarial samples and we demonstrate an augmentation scheme to reduce this vulnerability without human annotations.
翻訳日:2023-03-21 17:45:54 公開日:2023-03-19
# 不完全情報共有下における分散連合学習の収束について

On the Convergence of Decentralized Federated Learning Under Imperfect Information Sharing ( http://arxiv.org/abs/2303.10695v1 )

ライセンス: Link先を確認
Vishnu Pandi Chellapandi, Antesh Upadhyay, Abolfazl Hashemi, and Stanislaw H /.Zak(参考訳) 分散学習と最適化は、フェデレーション学習のような既存および新興のアプリケーションを含む制御における中心的な問題である。 この話題に関する膨大な文献や、著名な平均合意パラダイムを中心とした手法があるが、エージェント間のコミュニケーションが不十分なシナリオにはあまり注目されていない。 そこで本研究では,ノイズの多い通信チャネルとしてモデル化された不完全な情報共有の存在下で,分散フェデレート学習(DFL)の3つの異なるアルゴリズムを提案する。 最初のアルゴリズムであるfederated noise decentralized learning (fedndl1)は、ノイズがパラメータに追加され、ノイズが通信チャネルの存在シナリオをシミュレートする文献から来ている。 このアルゴリズムは、ノイズの多い通信チャネルを介して通信グラフトポロジに基づいてクライアントとコンセンサスを形成するパラメータを共有する。 提案した第2のアルゴリズム(FedNDL2)は第1のアルゴリズムと似ているが,パラメータに雑音を加え,勾配最適化前のゴシップ平均化を行う。 一方,提案する第3のアルゴリズム (FedNDL3) は,パラメータの代わりに雑音の多い通信チャネルを通じて勾配を共有する。 理論的および実験的結果は、不完全な情報共有の下では、勾配を混合する第3のスキームは、パラメータを混合する文献のアルゴリズムと比較してノイズチャネルの存在下でより頑健であることを示している。

Decentralized learning and optimization is a central problem in control that encompasses several existing and emerging applications, such as federated learning. While there exists a vast literature on this topic and most methods centered around the celebrated average-consensus paradigm, less attention has been devoted to scenarios where the communication between the agents may be imperfect. To this end, this paper presents three different algorithms of Decentralized Federated Learning (DFL) in the presence of imperfect information sharing modeled as noisy communication channels. The first algorithm, Federated Noisy Decentralized Learning (FedNDL1), comes from the literature, where the noise is added to their parameters to simulate the scenario of the presence of noisy communication channels. This algorithm shares parameters to form a consensus with the clients based on a communication graph topology through a noisy communication channel. The proposed second algorithm (FedNDL2) is similar to the first algorithm but with added noise to the parameters, and it performs the gossip averaging before the gradient optimization. The proposed third algorithm (FedNDL3), on the other hand, shares the gradients through noisy communication channels instead of the parameters. Theoretical and experimental results demonstrate that under imperfect information sharing, the third scheme that mixes gradients is more robust in the presence of a noisy channel compared with the algorithms from the literature that mix the parameters.
翻訳日:2023-03-21 17:45:42 公開日:2023-03-19
# 近傍共形予測による深層分類器の不確実性定量化:新しいアルゴリズムと理論的解析

Improving Uncertainty Quantification of Deep Classifiers via Neighborhood Conformal Prediction: Novel Algorithm and Theoretical Analysis ( http://arxiv.org/abs/2303.10694v1 )

ライセンス: Link先を確認
Subhankar Ghosh, Taha Belkhouja, Yan Yan, Janardhan Rao Doppa(参考訳) 高度な実世界のアプリケーションにディープニューラルネットワークを安全に配置するには理論的には不確実性定量化が必要である。 コンフォーマル予測(CP)は、ユーザ指定のカバレッジを持つ分類タスク(真のクラスラベルは高い確率で含まれる)の予測セットの形式で、ディープモデルの不確実性定量化のための原則化されたフレームワークである。 本稿では,深部分類器における不確実性定量化の効率を改善するため,NCP(Neighborhood Conformal Prediction)と呼ばれる新しいアルゴリズムを提案する。 ncpの背後にある重要なアイデアは、ニューラルネットワークの学習された表現を使用して、与えられたテスト入力に対するkの最寄りのキャリブレーション例を特定し、それらの距離に比例する重要度重みを割り当てて適応予測セットを作成することである。 理論的には、ニューラルネットワークの学習データ表現がいくつかの穏やかな条件を満たすと、NPPは従来のCPアルゴリズムよりも小さな予測セットを生成する。 多様な深層ニューラルネットワークを用いたCIFAR-10, CIFAR-100, ImageNetデータセットに関する包括的実験により, NCPが従来のCP法よりも予測セットサイズを大幅に小さくすることを示した。

Safe deployment of deep neural networks in high-stake real-world applications requires theoretically sound uncertainty quantification. Conformal prediction (CP) is a principled framework for uncertainty quantification of deep models in the form of prediction set for classification tasks with a user-specified coverage (i.e., true class label is contained with high probability). This paper proposes a novel algorithm referred to as Neighborhood Conformal Prediction (NCP) to improve the efficiency of uncertainty quantification from CP for deep classifiers (i.e., reduce prediction set size). The key idea behind NCP is to use the learned representation of the neural network to identify k nearest-neighbors calibration examples for a given testing input and assign them importance weights proportional to their distance to create adaptive prediction sets. We theoretically show that if the learned data representation of the neural network satisfies some mild conditions, NCP will produce smaller prediction sets than traditional CP algorithms. Our comprehensive experiments on CIFAR-10, CIFAR-100, and ImageNet datasets using diverse deep neural networks strongly demonstrate that NCP leads to significant reduction in prediction set size over prior CP methods.
翻訳日:2023-03-21 17:45:19 公開日:2023-03-19
# マルチエージェント強化学習による境界認識型スーパーボクセルレベルインタラクティブ3次元画像セグメンテーション

Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image Segmentation with Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2303.10692v1 )

ライセンス: Link先を確認
Chaofan Ma, Qisen Xu, Xiangfeng Wang, Bo Jin, Xiaoyun Zhang, Yanfeng Wang, Ya Zhang(参考訳) インタラクティブセグメンテーションは、ユーザヒントを反復的に取り入れることで、高品質セグメンテーションマスクを効果的かつ効率的に得るために近年研究されている。 本質的には反復的であるが、ほとんどの既存の対話的セグメンテーション法は、連続する相互作用のダイナミクスを無視し、それぞれの相互作用を独立に取る傾向がある。 本稿では,マルコフ決定プロセス(MDP)を用いて反復的インタラクティブ画像分割をモデル化し,各ボクセルをエージェントとして扱う強化学習(RL)を用いて解決することを提案する。 セグメンテーションタスクにおけるボクセルの探索空間と近隣のボクセル間の依存性を考慮すると,マルチエージェント強化学習が採用され,エージェント間でボクセルレベルのポリシーが共有される。 境界ボクセルがセグメンテーションにとってより重要であると考えると、さらに、相対クロスエントロピーゲインという形で大域的な報酬と、制約された方向におけるポリシーの更新と、相対的な重みの形での境界報酬とからなる境界認識報酬を導入し、境界予測の正確性を強調している。 様々なタイプの相互作用の利点、すなわち点クリックにシンプルで効率的、スクリブルに安定で堅牢な相互作用設計を組み合わせるために、超ボクセルクリックに基づく相互作用設計を提案する。 4つのベンチマークデータセットによる実験結果から,提案手法はより少ない相互作用,高い精度,強靭性を生かし,最先端技術よりも優れていた。

Interactive segmentation has recently been explored to effectively and efficiently harvest high-quality segmentation masks by iteratively incorporating user hints. While iterative in nature, most existing interactive segmentation methods tend to ignore the dynamics of successive interactions and take each interaction independently. We here propose to model iterative interactive image segmentation with a Markov decision process (MDP) and solve it with reinforcement learning (RL) where each voxel is treated as an agent. Considering the large exploration space for voxel-wise prediction and the dependence among neighboring voxels for the segmentation tasks, multi-agent reinforcement learning is adopted, where the voxel-level policy is shared among agents. Considering that boundary voxels are more important for segmentation, we further introduce a boundary-aware reward, which consists of a global reward in the form of relative cross-entropy gain, to update the policy in a constrained direction, and a boundary reward in the form of relative weight, to emphasize the correctness of boundary predictions. To combine the advantages of different types of interactions, i.e., simple and efficient for point-clicking, and stable and robust for scribbles, we propose a supervoxel-clicking based interaction design. Experimental results on four benchmark datasets have shown that the proposed method significantly outperforms the state-of-the-arts, with the advantage of fewer interactions, higher accuracy, and enhanced robustness.
翻訳日:2023-03-21 17:44:55 公開日:2023-03-19
# MECPformer: 弱教師付きセマンティックセグメンテーションのためのCNN変換器による多重推定補間パッチ

MECPformer: Multi-estimations Complementary Patch with CNN-Transformers for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.10689v1 )

ライセンス: Link先を確認
Chunmeng Liu, Guangyao Li, Yao Shen, Ruiqi Wang(参考訳) 弱教師付き意味セグメンテーションのための畳み込みニューラルネットワーク(cnn)に基づく初期シードは、常に最も識別可能な領域を強調するが、グローバルターゲット情報の識別に失敗する。 長距離特徴表現の利点を活かした変換器に基づく手法が提案されている。 しかし, 変圧器をベースとした贈り物によらず, 欠陥を観察する。 クラスが与えられた場合、トランスフォーマーに基づいて生成された初期種は他のクラスに属する領域に侵入することができる。 上記の問題に触発されて,MECPformerと呼ばれる,MECP戦略と適応競合モジュール(Adaptive Conflict Module, ACM)を用いた簡易かつ効果的な手法を考案した。 画像が与えられた場合、私たちは異なる時代におけるMECP戦略でそれを操作し、ネットワークは異なるレベルで意味情報を深く融合させます。 さらに、ACMは競合するピクセルを適応的に除去し、ネットワークの自己学習能力を利用して潜在的なターゲット情報をマイニングする。 ベルとホイッスルなしで、私たちのMECPformerはPASCAL VOC 2012で72.0% mIoU、MS COCO 2014データセットで42.4%に達した。 コードはhttps://github.com/ChunmengLiu1/MECPformerで入手できる。

The initial seed based on the convolutional neural network (CNN) for weakly supervised semantic segmentation always highlights the most discriminative regions but fails to identify the global target information. Methods based on transformers have been proposed successively benefiting from the advantage of capturing long-range feature representations. However, we observe a flaw regardless of the gifts based on the transformer. Given a class, the initial seeds generated based on the transformer may invade regions belonging to other classes. Inspired by the mentioned issues, we devise a simple yet effective method with Multi-estimations Complementary Patch (MECP) strategy and Adaptive Conflict Module (ACM), dubbed MECPformer. Given an image, we manipulate it with the MECP strategy at different epochs, and the network mines and deeply fuses the semantic information at different levels. In addition, ACM adaptively removes conflicting pixels and exploits the network self-training capability to mine potential target information. Without bells and whistles, our MECPformer has reached new state-of-the-art 72.0% mIoU on the PASCAL VOC 2012 and 42.4% on MS COCO 2014 dataset. The code is available at https://github.com/ChunmengLiu1/MECPformer.
翻訳日:2023-03-21 17:44:26 公開日:2023-03-19
# 創発的集団量子相関による光転移の量子強調センシング

Quantum-enhanced sensing on an optical transition via emergent collective quantum correlations ( http://arxiv.org/abs/2303.10688v1 )

ライセンス: Link先を確認
Johannes Franke, Sean R. Muleady, Raphael Kaubruegger, Florian Kranzl, Rainer Blatt, Ana Maria Rey, Manoj K. Joshi and Christian F. Roos(参考訳) 原子系における量子状態の制御は、これまでで最も正確な光学原子時計を生み出した。 現在、それらの感度は、非相関粒子の量子力学によって設定された標準量子極限によって制限されているが、しかしながら、絡み合った粒子で操作すると克服できる。 しかし、現実世界のセンサーに量子的優位性を示すことは極めて困難であり、LIGOとより最近のHAYSTACの2つの顕著な例を除いては達成できない。 ここでは, イオン分離のパワーロー関数として崩壊する状態依存相互作用を持つ51イオンまでの1d鎖を用いた光遷移におけるスケーラブルな絡み合いを利用する経路を示す。 我々のセンサは、スケーラブルなスクイーズを生成することで知られている象徴的な完全連結モデルである1軸回転(OAT)モデルとして振る舞うことができることを示す。 状態の集合的性質は、全横磁化の保存、有限運動量スピン波励起の減少、OAT(N = 12イオンに対して3.9 \pm 0.3$ dBのワインランドパラメータ)に匹敵するスピンスクイーズの生成、Q分布における原子多頭猫状態の形での非ガウス状態の発達に現れている。 プロトコルの単純さにより、最小限のオーバーヘッドで大規模配列のスケーラビリティを実現し、時間管理の進歩への扉を開くとともに、量子シミュレーションと計算におけるコヒーレンスを保存するための新しい方法も提供する。 我々はラムゼー型干渉計でこれを実証し、N = 51イオンの標準量子限界以下で測定の不確かさを3.2 pm 0.5$ dB削減した。

The control over quantum states in atomic systems has led to the most precise optical atomic clocks to date. Their sensitivity is currently bounded by the standard quantum limit, a fundamental floor set by quantum mechanics for uncorrelated particles, which can nevertheless be overcome when operated with entangled particles. Yet demonstrating a quantum advantage in real world sensors is extremely challenging and remains to be achieved aside from two remarkable examples, LIGO and more recently HAYSTAC. Here we illustrate a pathway for harnessing scalable entanglement in an optical transition using 1D chains of up to 51 ions with state-dependent interactions that decay as a power-law function of the ion separation. We show our sensor can be made to behave as a one-axis-twisting (OAT) model, an iconic fully connected model known to generate scalable squeezing. The collective nature of the state manifests itself in the preservation of the total transverse magnetization, the reduced growth of finite momentum spin-wave excitations, the generation of spin squeezing comparable to OAT (a Wineland parameter of $-3.9 \pm 0.3$ dB for only N = 12 ions) and the development of non-Gaussian states in the form of atomic multi-headed cat states in the Q-distribution. The simplicity of our protocol enables scalability to large arrays with minimal overhead, opening the door to advances in timekeeping as well as new methods for preserving coherence in quantum simulation and computation. We demonstrate this in a Ramsey-type interferometer, where we reduce the measurement uncertainty by $-3.2 \pm 0.5$ dB below the standard quantum limit for N = 51 ions.
翻訳日:2023-03-21 17:44:01 公開日:2023-03-19
# Sparse Ising Machinesを用いたDeep Boltzmann Networksのトレーニング

Training Deep Boltzmann Networks with Sparse Ising Machines ( http://arxiv.org/abs/2303.10728v1 )

ライセンス: Link先を確認
Shaila Niazi, Navid Anjum Aadit, Masoud Mohseni, Shuvro Chowdhury, Yao Qin, and Kerem Y. Camsari(参考訳) ムーアの法則の減速は、組合せ最適化問題を解くのに適した特別なIsingマシンのような非伝統的な計算パラダイムの開発を促した。 本稿では,確率ビット(pビット)ベースのIsingマシンに対して,深層生成AIモデルをトレーニングすることで,新しいアプリケーション領域を提案する。 スパース、非同期、および非常に並列なIsingマシンを使用して、ハイブリッド確率-古典計算設定でディープボルツマンネットワークを訓練する。 モデムサイズのフィールドプログラマブルゲートアレイ (fpga) で実装されたハードウェア対応ネットワークトポロジを,ダウンサンプリングや削減することなく,完全なmnistデータセットを使用する。 我々のマシンは4,264ノード(pビット)と約30,000のパラメータしか使用せず、最適化されたソフトウェアベースの制限されたボルツマンマシン(RBM)と同じ分類精度(90%)を達成する。 さらに、ばらばらなディープボルツマンネットワークは、同じ精度を保ったにもかかわらず、325万パラメータrbmが失敗するタスクである新しい手書きの数字を生成することができる。 私たちのハイブリッドコンピュータは、毎秒50億から64億の確率的フリップを計測します。これは、表面的に類似したグラフィックスおよびテンソル処理ユニット(gpu/tpu)ベースの実装よりも少なくとも1桁高速です。 大規模並列アーキテクチャは、既存のソフトウェア実装の能力を超えて、1回の更新で最大1000万スイープのコントラスト発散アルゴリズム(cd-n)を快適に実行できる。 これらの結果は、伝統的に訓練された深部生成ボルツマンネットワークにIsingマシンを使用することの可能性を示し、さらにナノデバイスベースの実現の可能性を示している。

The slowing down of Moore's law has driven the development of unconventional computing paradigms, such as specialized Ising machines tailored to solve combinatorial optimization problems. In this paper, we show a new application domain for probabilistic bit (p-bit) based Ising machines by training deep generative AI models with them. Using sparse, asynchronous, and massively parallel Ising machines we train deep Boltzmann networks in a hybrid probabilistic-classical computing setup. We use the full MNIST dataset without any downsampling or reduction in hardware-aware network topologies implemented in moderately sized Field Programmable Gate Arrays (FPGA). Our machine, which uses only 4,264 nodes (p-bits) and about 30,000 parameters, achieves the same classification accuracy (90%) as an optimized software-based restricted Boltzmann Machine (RBM) with approximately 3.25 million parameters. Additionally, the sparse deep Boltzmann network can generate new handwritten digits, a task the 3.25 million parameter RBM fails at despite achieving the same accuracy. Our hybrid computer takes a measured 50 to 64 billion probabilistic flips per second, which is at least an order of magnitude faster than superficially similar Graphics and Tensor Processing Unit (GPU/TPU) based implementations. The massively parallel architecture can comfortably perform the contrastive divergence algorithm (CD-n) with up to n = 10 million sweeps per update, beyond the capabilities of existing software implementations. These results demonstrate the potential of using Ising machines for traditionally hard-to-train deep generative Boltzmann networks, with further possible improvement in nanodevice-based realizations.
翻訳日:2023-03-21 17:38:27 公開日:2023-03-19
# ERSAM: エネルギー効率とリアルタイムソーシャルアンビアンス測定のためのニューラルアーキテクチャ検索

ERSAM: Neural Architecture Search For Energy-Efficient and Real-Time Social Ambiance Measurement ( http://arxiv.org/abs/2303.10727v1 )

ライセンス: Link先を確認
Chaojian Li, Wenwan Chen, Jiayi Yuan, Yingyan (Celine) Lin, Ashutosh Sabharwal(参考訳) ソーシャル・アンビアンス(social ambiance)は、社会的相互作用が起こるコンテキストを記述し、同時話者数を数えることで音声を用いて測定することができる。 この測定により、さまざまなメンタルヘルストラッキングと人間中心のIoTアプリケーションが可能になる。 デバイス上のSocal Ambiance Measure(SAM)は、ユーザのプライバシの確保と、前述のアプリケーションの広範な採用を促進するために非常に望ましいものだが、最先端のディープニューラルネットワーク(DNN)を使用したSAMソリューションに必要な計算複雑性は、モバイルデバイス上の制約の多いリソースとは相反する。 さらに、様々なプライバシの制約と必要な人的努力により、SAMの臨床的設定下において限られたラベル付きデータのみが利用可能または実用的であり、オンデバイスSAMソリューションの達成可能な正確性に挑戦する。 そこで本研究では,エネルギー効率とリアルタイムSAM(ERSAM)のためのニューラルネットワーク検索フレームワークを提案する。 具体的には、当社のERSAMフレームワークは、モバイルSAMソリューションのハードウェア効率フロンティアに対して達成可能な精度を推し進めるDNNを自動的に検索することができる。 例えば、ERSAMが配信するDNNは、Pixel 3の5秒の音声セグメントで40mW x 12hエネルギーと0.05秒の処理レイテンシしか消費せず、LibriSpeechが生成した社会環境データセットでは14.3%のエラー率しか達成していない。 当社のERSAMフレームワークは、需要が増大しているデバイス上のSAMソリューションをユビキタスに構築できることを期待しています。

Social ambiance describes the context in which social interactions happen, and can be measured using speech audio by counting the number of concurrent speakers. This measurement has enabled various mental health tracking and human-centric IoT applications. While on-device Socal Ambiance Measure (SAM) is highly desirable to ensure user privacy and thus facilitate wide adoption of the aforementioned applications, the required computational complexity of state-of-the-art deep neural networks (DNNs) powered SAM solutions stands at odds with the often constrained resources on mobile devices. Furthermore, only limited labeled data is available or practical when it comes to SAM under clinical settings due to various privacy constraints and the required human effort, further challenging the achievable accuracy of on-device SAM solutions. To this end, we propose a dedicated neural architecture search framework for Energy-efficient and Real-time SAM (ERSAM). Specifically, our ERSAM framework can automatically search for DNNs that push forward the achievable accuracy vs. hardware efficiency frontier of mobile SAM solutions. For example, ERSAM-delivered DNNs only consume 40 mW x 12 h energy and 0.05 seconds processing latency for a 5 seconds audio segment on a Pixel 3 phone, while only achieving an error rate of 14.3% on a social ambiance dataset generated by LibriSpeech. We can expect that our ERSAM framework can pave the way for ubiquitous on-device SAM solutions which are in growing demand.
翻訳日:2023-03-21 17:37:58 公開日:2023-03-19
# SIESTA: 睡眠を伴う効果的なオンライン連続学習

SIESTA: Efficient Online Continual Learning with Sleep ( http://arxiv.org/abs/2303.10725v1 )

ライセンス: Link先を確認
Md Yousuf Harun, Jhair Gallardo, Tyler L. Hayes, Ronald Kemker, Christopher Kanan(参考訳) 教師付き連続学習では、成長を続けるデータストリームでディープニューラルネットワーク(DNN)が更新される。 データがシャッフルされるオフライン設定とは異なり、データストリームに関する分散的な仮定はできません。 理想的には、計算効率のためにデータセットを通過するのは1つだけです。 しかし、既存の手法は不十分であり、現実のアプリケーションでは実現できない多くの仮定を下し、同時に計算効率の改善に失敗する。 本稿では,新しい手法を提案しない。 代わりに、連続学習アルゴリズムREMINDの漸進的な改良であるSIESTAを提案する。 REMINDとは異なり、SIESTAはウェイク/スリープのフレームワークを使用してトレーニングを行う。 SIESTAは既存の方法よりもはるかに計算効率が良く、1つのGPUで3時間未満でImageNet-1K上で連続的な学習を可能にする。

In supervised continual learning, a deep neural network (DNN) is updated with an ever-growing data stream. Unlike the offline setting where data is shuffled, we cannot make any distributional assumptions about the data stream. Ideally, only one pass through the dataset is needed for computational efficiency. However, existing methods are inadequate and make many assumptions that cannot be made for real-world applications, while simultaneously failing to improve computational efficiency. In this paper, we do not propose a novel method. Instead, we present SIESTA, an incremental improvement to the continual learning algorithm REMIND. Unlike REMIND, SIESTA uses a wake/sleep framework for training, which is well aligned to the needs of on-device learning. SIESTA is far more computationally efficient than existing methods, enabling continual learning on ImageNet-1K in under 3 hours on a single GPU; moreover, in the augmentation-free setting it matches the performance of the offline learner, a milestone critical to driving adoption of continual learning in real-world applications.
翻訳日:2023-03-21 17:37:26 公開日:2023-03-19
# Q-RBSA: 効率的な四元変圧器ネットワークを用いた高分解能3次元EBSDマップ生成

Q-RBSA: High-Resolution 3D EBSD Map Generation Using An Efficient Quaternion Transformer Network ( http://arxiv.org/abs/2303.10722v1 )

ライセンス: Link先を確認
Devendra K. Jangid, Neal R. Brodnik, McLean P. Echlin, Tresa M. Pollock, Samantha H. Daly, B.S. Manjunath(参考訳) 3D素材の微細構造情報の収集には時間を要する。 3次元データの獲得は、連続的切断器機能の発展によって加速されているが、結晶情報では、電子後方散乱回折 (ebsd) の撮像モードは速度制限のままである。 本稿では3次元EBSDマップの収集時間とコストを削減するための物理ベースの効率的なディープラーニングフレームワークを提案する。 本手法では,四元系残差ブロックセルフアテンションネットワーク (qrbsa) を用いて,疎分割した ebsd マップから高分解能 3d ebsd マップを生成する。 QRBSAでは、四元数値の畳み込みは配向空間の局所関係を効果的に学習し、四元数領域における自己注意は長距離相関を捉える。 市販のチタン合金から収集した3dデータに適用し,高分解能地中真実3d ebsdマップと比較して,本手法が欠落サンプル(sparsely sectioned mapping point間のebsd情報)を予測できることを定性的および定量的に示す。

Gathering 3D material microstructural information is time-consuming, expensive, and energy-intensive. Acquisition of 3D data has been accelerated by developments in serial sectioning instrument capabilities; however, for crystallographic information, the electron backscatter diffraction (EBSD) imaging modality remains rate limiting. We propose a physics-based efficient deep learning framework to reduce the time and cost of collecting 3D EBSD maps. Our framework uses a quaternion residual block self-attention network (QRBSA) to generate high-resolution 3D EBSD maps from sparsely sectioned EBSD maps. In QRBSA, quaternion-valued convolution effectively learns local relations in orientation space, while self-attention in the quaternion domain captures long-range correlations. We apply our framework to 3D data collected from commercially relevant titanium alloys, showing both qualitatively and quantitatively that our method can predict missing samples (EBSD information between sparsely sectioned mapping points) as compared to high-resolution ground truth 3D EBSD maps.
翻訳日:2023-03-21 17:37:11 公開日:2023-03-19
# 正しいドキュメント:機械学習で使用される音声データセットドキュメンテーションの実践の特徴

Right the docs: Characterising voice dataset documentation practices used in machine learning ( http://arxiv.org/abs/2303.10721v1 )

ライセンス: Link先を確認
Kathy Reid and Elizabeth T. Williams(参考訳) 音声対応技術は急速に普及しており、音声認識や音声活動検出などの機械学習(ML)対応コンポーネントで構成されている。 しかし、これらのシステムは全員にとってまだうまく機能しない。 彼らは(Friedman & Nissembaum, 1996)、年齢、性別、アクセントなどの軸を越えて、個人または個人の個人に対する体系的かつ不公平な差別の偏見を示す。 mlはトレーニングのために大きなデータセットに依存する。 データセットドキュメンテーションは、MLPractitioners(MLP)がデータセットの特徴をよりよく理解できるように設計されている。 しかし、音声データセットドキュメンテーションに関する実証研究は、特に不足している。 さらに、MLPはフェアネス研究に頻繁に参加する一方で、音声データを扱う人々に焦点を当てる研究はほとんどない。 私たちの仕事は、このギャップに実証的な貢献をする。 ここでは2つの方法を組み合わせて探索研究を行う。 まず、13の半構造化インタビューを行い、音声データセットドキュメンテーションの実践を多面的に検討する。 オープンおよびアキシアルコーディング手法を用いて,役割とトレードオフのレンズを通してmlpのプラクティスを探求する。 この研究から,9つの音声データセットに対して音声データセット文書(vdds)を推定した。 MLPの役割とトレードオフのレンズを用いて,これらの2つの手法を三角測量した。 現在のvddプラクティスは不正確で不十分で不正確である。 音声データセットの特徴は断片化され、しばしばMLPのニーズに合わない不連続な方法で符号化される。 さらに,実践者のバイアス低減への障壁として,簡単に比較することはできない。 次に,これらの知見が音声データや音声技術におけるバイアス実践に与える影響について論じる。 私たちは、これらの発見に対処する将来の研究プログラム、すなわち、どのようにして「ドキュメントを正しくする」かを設定して結論付けます。

Voice-enabled technology is quickly becoming ubiquitous, and is constituted from machine learning (ML)-enabled components such as speech recognition and voice activity detection. However, these systems don't yet work well for everyone. They exhibit bias - the systematic and unfair discrimination against individuals or cohorts of individuals in favour of others (Friedman & Nissembaum, 1996) - across axes such as age, gender and accent. ML is reliant on large datasets for training. Dataset documentation is designed to give ML Practitioners (MLPs) a better understanding of a dataset's characteristics. However, there is a lack of empirical research on voice dataset documentation specifically. Additionally, while MLPs are frequent participants in fairness research, little work focuses on those who work with voice data. Our work makes an empirical contribution to this gap. Here, we combine two methods to form an exploratory study. First, we undertake 13 semi-structured interviews, exploring multiple perspectives of voice dataset documentation practice. Using open and axial coding methods, we explore MLPs' practices through the lenses of roles and tradeoffs. Drawing from this work, we then purposively sample voice dataset documents (VDDs) for 9 voice datasets. Our findings then triangulate these two methods, using the lenses of MLP roles and trade-offs. We find that current VDD practices are inchoate, inadequate and incommensurate. The characteristics of voice datasets are codified in fragmented, disjoint ways that often do not meet the needs of MLPs. Moreover, they cannot be readily compared, presenting a barrier to practitioners' bias reduction efforts. We then discuss the implications of these findings for bias practices in voice data and speech technologies. We conclude by setting out a program of future work to address these findings -- that is, how we may "right the docs".
翻訳日:2023-03-21 17:36:48 公開日:2023-03-19
# ロバスト微調整のためのトレーサブルプロジェクテッドグラデーション法

Trainable Projected Gradient Method for Robust Fine-tuning ( http://arxiv.org/abs/2303.10720v1 )

ライセンス: Link先を確認
Junjiao Tian, Xiaoliang Dai, Chih-Yao Ma, Zecheng He, Yen-Cheng Liu, Zsolt Kira(参考訳) トランスファーラーニングの最近の研究は、各レイヤのサブセットを選択的に微調整したり、各レイヤごとに異なる学習率をカスタマイズすることで、アウト・オブ・ディストリビューション(OOD)データに対するロバスト性を大幅に改善し、事前訓練されたモデルにおける一般化能力を維持できることを示した。 しかし、これらの手法のほとんどは手作業によるヒューリスティックスや高価なハイパーパラメータ検索を採用しており、大規模なデータセットやニューラルネットワークにスケールアップできない。 そこで本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するためのTPGMを提案する。 これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。 具体的には、TPGMは、各層に対して細調整されたモデルと事前訓練されたモデルの間の距離制約という一連の射影半径を維持し、それらを重み予測によって強制する。 制約を学習するために,最善の射影radiiをエンドツーエンドで自動学習する2レベル最適化を提案する。 理論的には、二段階最適化の定式化が各層の異なる制約を学習する鍵であることを示す。 実証的には、超パラメータ探索コストが少なく、TPGMはOOD性能において既存の微調整方法よりも優れており、ID性能が最適である。 例えば、DomainNet-RealとImageNetで微調整された場合、バニラの微調整と比較して、TPGMはスケッチでそれぞれ22\%と10\%のOOD改善を示している。 コードは \url{https://github.com/PotatoTian/TPGM} で入手できる。

Recent studies on transfer learning have shown that selectively fine-tuning a subset of layers or customizing different learning rates for each layer can greatly improve robustness to out-of-distribution (OOD) data and retain generalization capability in the pre-trained models. However, most of these methods employ manually crafted heuristics or expensive hyper-parameter searches, which prevent them from scaling up to large datasets and neural networks. To solve this problem, we propose Trainable Projected Gradient Method (TPGM) to automatically learn the constraint imposed for each layer for a fine-grained fine-tuning regularization. This is motivated by formulating fine-tuning as a bi-level constrained optimization problem. Specifically, TPGM maintains a set of projection radii, i.e., distance constraints between the fine-tuned model and the pre-trained model, for each layer, and enforces them through weight projections. To learn the constraints, we propose a bi-level optimization to automatically learn the best set of projection radii in an end-to-end manner. Theoretically, we show that the bi-level optimization formulation is the key to learning different constraints for each layer. Empirically, with little hyper-parameter search cost, TPGM outperforms existing fine-tuning methods in OOD performance while matching the best in-distribution (ID) performance. For example, when fine-tuned on DomainNet-Real and ImageNet, compared to vanilla fine-tuning, TPGM shows $22\%$ and $10\%$ relative OOD improvement respectively on their sketch counterparts. Code is available at \url{https://github.com/PotatoTian/TPGM}.
翻訳日:2023-03-21 17:36:24 公開日:2023-03-19
# 知識ベースにおけるnexusの類似性:論理ベースのフレームワークとその計算複雑性

Characterizing Nexus of Similarity within Knowledge Bases: A Logic-based Framework and its Computational Complexity Aspects ( http://arxiv.org/abs/2303.10714v1 )

ライセンス: Link先を確認
Giovanni Amendola, Marco Manna, Aldo Ricioppo(参考訳) 実体間の類似性は多くの現実世界のシナリオで頻繁に発生する。 1世紀以上にわたって、異なる分野の研究者は、エンティティ間の類似性を測定するための様々なアプローチを提案してきた。 最近では、"Google Sets"に触発されて、学術的および商業的な取り組みが、同様のエンティティセットの拡張に費やされている。 その結果、現在の既存のアプローチでは、エンティティが共有するプロパティ(以下、nexus of similarity)を考慮に入れることができる。 したがって、機械は類似度対策と設定拡張の両方に対処することができる。 しかし、私たちの知る限りでは、エンティティ間の類似性のnexusを特徴付ける方法はありません。つまり、そのようなnexusを形式的で包括的な方法で識別することで、マシンと人の両方が読めるようにします。 これらのギャップを埋める第一歩として、知識ベース内のエンティティのタプル間の類似点を形式的かつ自動的に特徴付ける新しい論理ベースのフレームワークを開発することにより、既存の文献を補完することを目指している。 さらに,このフレームワークの計算複雑性を解析する。

Similarities between entities occur frequently in many real-world scenarios. For over a century, researchers in different fields have proposed a range of approaches to measure the similarity between entities. More recently, inspired by "Google Sets", significant academic and commercial efforts have been devoted to expanding a given set of entities with similar ones. As a result, existing approaches nowadays are able to take into account properties shared by entities, hereinafter called nexus of similarity. Accordingly, machines are largely able to deal with both similarity measures and set expansions. To the best of our knowledge, however, there is no way to characterize nexus of similarity between entities, namely identifying such nexus in a formal and comprehensive way so that they are both machine- and human-readable; moreover, there is a lack of consensus on evaluating existing approaches for weakly similar entities. As a first step towards filling these gaps, we aim to complement existing literature by developing a novel logic-based framework to formally and automatically characterize nexus of similarity between tuples of entities within a knowledge base. Furthermore, we analyze computational complexity aspects of this framework.
翻訳日:2023-03-21 17:35:54 公開日:2023-03-19
# 不均一関数データに対するセグメンテーションの混合

Mixture of segmentation for heterogeneous functional data ( http://arxiv.org/abs/2303.10712v1 )

ライセンス: Link先を確認
Vincent Brault, \'Emilie Devijver and Charlotte Laclau(参考訳) 本稿では,時間と人口の異質性を持つ関数データについて考察する。 関数構造を維持しつつ, この不均一性を表現するために, 時間分割を伴う混合モデルを提案する。 最大確率推定器は、識別可能で一貫性があることが証明されている。 実際には、最大化ステップのための動的計画法と組み合わせてemアルゴリズムを使用し、最大確率推定器を近似する。 この方法はシミュレーションデータセット上に示され、実際の電力消費データセットで使用される。

In this paper we consider functional data with heterogeneity in time and in population. We propose a mixture model with segmentation of time to represent this heterogeneity while keeping the functional structure. Maximum likelihood estimator is considered, proved to be identifiable and consistent. In practice, an EM algorithm is used, combined with dynamic programming for the maximization step, to approximate the maximum likelihood estimator. The method is illustrated on a simulated dataset, and used on a real dataset of electricity consumption.
翻訳日:2023-03-21 17:35:34 公開日:2023-03-19
# NeRF-LOAM:大規模インクリメンタルLiDARオドメトリーとマッピングのためのニューラルインプシット表現

NeRF-LOAM: Neural Implicit Representation for Large-Scale Incremental LiDAR Odometry and Mapping ( http://arxiv.org/abs/2303.10709v1 )

ライセンス: Link先を確認
Junyuan Deng, Xieyuanli Chen, Songpengcheng Xia, Zhen Sun, Guoqing Liu, Wenxian Yu, Ling Pei(参考訳) 大規模環境での完全な自律性を実現するために,LiDARデータを用いた同時計測とマッピングがモバイルシステムにとって重要な課題である。 しかし、既存のLiDARベースの手法のほとんどは、復元品質よりも品質の追跡を優先している。 最近開発されたneural radiance fields (nerf) は屋内環境における暗黙的再構成に有望な進歩を示しているが、インクリメンタルlidarデータを用いた大規模シナリオの同時オドメトリとマッピングの問題はまだ解明されていない。 本稿では,このギャップを埋めるために,ニューラルオドメトリ,ニューラルマッピング,メッシュ再構成の3つのモジュールからなる,新しいnerfベースのlidarオドメトリおよびマッピング手法であるnerf-loamを提案する。 これらのモジュールはすべて提案したニューラルサイン距離関数を利用しており、LiDAR点を地上と非地上に分離し、Z軸ドリフトを低減し、ドメトリーとボクセルの埋め込みを同時に最適化し、最終的に環境の密集したスムーズなメッシュマップを生成する。 さらに、この共同最適化により、NeRF-LOAMの事前学習を可能とし、異なる環境に適用した場合に強力な一般化能力を示す。 3つの公開データセットに関する広範な評価は、lidarデータを利用した大規模環境での強力な一般化に加えて、最先端のオドメトリとマッピング性能を実現していることを示している。 さらに,ネットワーク設計の有効性を検証するため,複数のアブレーション実験を行った。 このアプローチの実装はhttps://github.com/JunyuanDeng/NeRF-LOAMで公開されます。

Simultaneously odometry and mapping using LiDAR data is an important task for mobile systems to achieve full autonomy in large-scale environments. However, most existing LiDAR-based methods prioritize tracking quality over reconstruction quality. Although the recently developed neural radiance fields (NeRF) have shown promising advances in implicit reconstruction for indoor environments, the problem of simultaneous odometry and mapping for large-scale scenarios using incremental LiDAR data remains unexplored. To bridge this gap, in this paper, we propose a novel NeRF-based LiDAR odometry and mapping approach, NeRF-LOAM, consisting of three modules neural odometry, neural mapping, and mesh reconstruction. All these modules utilize our proposed neural signed distance function, which separates LiDAR points into ground and non-ground points to reduce Z-axis drift, optimizes odometry and voxel embeddings concurrently, and in the end generates dense smooth mesh maps of the environment. Moreover, this joint optimization allows our NeRF-LOAM to be pre-trained free and exhibit strong generalization abilities when applied to different environments. Extensive evaluations on three publicly available datasets demonstrate that our approach achieves state-of-the-art odometry and mapping performance, as well as a strong generalization in large-scale environments utilizing LiDAR data. Furthermore, we perform multiple ablation studies to validate the effectiveness of our network design. The implementation of our approach will be made available at https://github.com/JunyuanDeng/NeRF-LOAM.
翻訳日:2023-03-21 17:35:27 公開日:2023-03-19
# eduvis: 可視化教育・リテラシー・活動に関するワークショップ

EduVis: Workshop on Visualization Education, Literacy, and Activities ( http://arxiv.org/abs/2303.10708v1 )

ライセンス: Link先を確認
Mandy Keck, Samuel Huron, Georgia Panagiotidou, Christina Stoiber, Fateme Rajabiyazdi, Charles Perin, Jonathan C. Roberts, Benjamin Bach(参考訳) 本ワークショップは,可視化教育,リテラシー,活動に焦点を当てる。 視覚化コミュニティのこれまでの取り組みとイニシアチブを合理化し、視覚化における教育とエンゲージメントの実践のためのフォーマットを提供することを目指している。 研究と経験を共有し、新しい活動、指導方法、研究課題を議論するために中高生を集結させることを目的としている。 このワークショップは、教育、学習分析、科学コミュニケーション、心理学、あるいはデータサイエンス、AI、HCIといった隣接する分野の人々など、視覚化コミュニティ内およびその外における学際的な研究者のためのプラットフォームとして機能することを目的としている。 研究論文や実践報告のプレゼンテーションや,ハンズオン活動も含みます。 さらにこのワークショップでは、参加者がデータ視覚化教育で直面する課題について議論し、可視化教育、リテラシー、活動に関する研究課題をスケッチする。

This workshop focuses on visualization education, literacy, and activities. It aims to streamline previous efforts and initiatives of the visualization community to provide a format for education and engagement practices in visualization. It intends to bring together junior and senior scholars to share research and experience and to discuss novel activities, teaching methods, and research challenges. The workshop aims to serve as a platform for interdisciplinary researchers within and beyond the visualization community such as education, learning analytics, science communication, psychology, or people from adjacent fields such as data science, AI, and HCI. It will include presentations of research papers and practical reports, as well as hands-on activities. In addition, the workshop will allow participants to discuss challenges they face in data visualization education and sketch a research agenda of visualization education, literacy, and activities.
翻訳日:2023-03-21 17:34:56 公開日:2023-03-19
# ニューラルネットワークの校正

Calibration of Neural Networks ( http://arxiv.org/abs/2303.10761v1 )

ライセンス: Link先を確認
Ruslan Vasilev, Alexander D'yakonov(参考訳) 実世界の問題を解決するニューラルネットワークはしばしば、正確な予測を行うだけでなく、予測の信頼性レベルを提供するために必要である。 モデルのキャリブレーションは、推定された信頼度が真の確率にどれほど近いかを示す。 本稿では,ニューラルネットワークの文脈における信頼性校正問題を調査し,校正手法を実証的に比較する。 問題文,キャリブレーション定義,評価へのアプローチについて分析する: モデルが適切に調整されているかどうかを推定する可視化とスカラー測定。 ポストプロセッシングやトレーニングの変更をベースとした,現代的なキャリブレーション手法を概観する。 実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。

Neural networks solving real-world problems are often required not only to make accurate predictions but also to provide a confidence level in the forecast. The calibration of a model indicates how close the estimated confidence is to the true probability. This paper presents a survey of confidence calibration problems in the context of neural networks and provides an empirical comparison of calibration methods. We analyze problem statement, calibration definitions, and different approaches to evaluation: visualizations and scalar measures that estimate whether the model is well-calibrated. We review modern calibration techniques: based on post-processing or requiring changes in training. Empirical experiments cover various datasets and models, comparing calibration methods according to different criteria.
翻訳日:2023-03-21 17:28:18 公開日:2023-03-19
# 滑らかな確率凸最適化におけるGDとSGDの低次一般化境界

Lower Generalization Bounds for GD and SGD in Smooth Stochastic Convex Optimization ( http://arxiv.org/abs/2303.10758v1 )

ライセンス: Link先を確認
Peiyuan Zhang, Jiaye Teng, Jingzhao Zhang(参考訳) 近年,学習理論コミュニティによる一般凸損失の勾配法の一般化誤差を特徴づける研究が進んでいる。 本研究では,スムーズな確率凸最適化(SCO)問題において,より長いトレーニングが一般化に与える影響について考察する。 まず、一般実現不可能なSCO問題に対して厳密な下界を与える。 さらに、既存の上限値の結果は、損失が実現可能であると仮定することで、サンプルの複雑さを改善することができることを示唆している。 しかし、この改善は、トレーニング時間が長く、境界が低い場合に妥協される。 本研究は,2つの実現可能な条件下で,勾配降下(GD)と確率勾配降下(SGD)に過剰なリスク低い境界を与えることにより,この観測を検証した。 例えば、$t = o(n)$、$t = \omega(n)$で実現可能、ここで$t$はトレーニングイテレーションの数を表し、$n$はトレーニングデータセットのサイズである。 これらの境界は新しいもので、$t$ と $n$の関係を特徴付ける。 第1の訓練地平線の場合、我々の下限はほぼ一致し、対応する上限に対する最初の最適証明書を提供する。 しかし、$T = \Omega(n)$ の既約の場合、下界と上界の間にギャップが存在する。 この問題に対処するために, 1次元および線形回帰シナリオにおける解析によって支持される上界を改善することで, ギャップを閉じることができると推測する。

Recent progress was made in characterizing the generalization error of gradient methods for general convex loss by the learning theory community. In this work, we focus on how training longer might affect generalization in smooth stochastic convex optimization (SCO) problems. We first provide tight lower bounds for general non-realizable SCO problems. Furthermore, existing upper bound results suggest that sample complexity can be improved by assuming the loss is realizable, i.e. an optimal solution simultaneously minimizes all the data points. However, this improvement is compromised when training time is long and lower bounds are lacking. Our paper examines this observation by providing excess risk lower bounds for gradient descent (GD) and stochastic gradient descent (SGD) in two realizable settings: 1) realizable with $T = O(n)$, and (2) realizable with $T = \Omega(n)$, where $T$ denotes the number of training iterations and $n$ is the size of the training dataset. These bounds are novel and informative in characterizing the relationship between $T$ and $n$. In the first small training horizon case, our lower bounds almost tightly match and provide the first optimal certificates for the corresponding upper bounds. However, for the realizable case with $T = \Omega(n)$, a gap exists between the lower and upper bounds. We provide a conjecture to address this problem, that the gap can be closed by improving upper bounds, which is supported by our analyses in one-dimensional and linear regression scenarios.
翻訳日:2023-03-21 17:28:09 公開日:2023-03-19
# 効率的なオーディオ分類のためのマルチスケールオーディオスペクトログラムトランスフォーマ

Multiscale Audio Spectrogram Transformer for Efficient Audio Classification ( http://arxiv.org/abs/2303.10757v1 )

ライセンス: Link先を確認
Wentao Zhu, Mohamed Omar(参考訳) audio eventは、時間と周波数の両方で階層構造を持ち、より抽象的なセマンティックオーディオクラスを構築するためにグループ化することができる。 本研究では,階層的表現学習を用いて効率的な音声分類を行うマルチスケールオーディオスペクトログラムトランスフォーマ(mast)を開発した。 具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。 mast は、外部のトレーニングデータなしで top-1 の精度で、kinetics-sounds, epic-kitchens-100, vggsound において、ast~\cite{gong2021ast} を 22.2\%, 4.4\%, 4.7\% で有意に上回っている。 ダウンロードされたオーディオセットデータセットには20\%以上の音声が欠けているが、mastはastよりも若干精度が良い。 さらに、MAST は乗算累積 (MAC) の点で 5 倍効率が高く、AST と比較してパラメータ数が 42 % 減少している。 クラスタリングメトリクスと可視化により、提案したMASTが音声信号から意味的により分離可能な特徴表現を学習できることを実証する。

Audio event has a hierarchical architecture in both time and frequency and can be grouped together to construct more abstract semantic audio classes. In this work, we develop a multiscale audio spectrogram Transformer (MAST) that employs hierarchical representation learning for efficient audio classification. Specifically, MAST employs one-dimensional (and two-dimensional) pooling operators along the time (and frequency domains) in different stages, and progressively reduces the number of tokens and increases the feature dimensions. MAST significantly outperforms AST~\cite{gong2021ast} by 22.2\%, 4.4\% and 4.7\% on Kinetics-Sounds, Epic-Kitchens-100 and VGGSound in terms of the top-1 accuracy without external training data. On the downloaded AudioSet dataset, which has over 20\% missing audios, MAST also achieves slightly better accuracy than AST. In addition, MAST is 5x more efficient in terms of multiply-accumulates (MACs) with 42\% reduction in the number of parameters compared to AST. Through clustering metrics and visualizations, we demonstrate that the proposed MAST can learn semantically more separable feature representations from audio signals.
翻訳日:2023-03-21 17:27:39 公開日:2023-03-19
# Defocus Clue による完全自己監督深度推定

Fully Self-Supervised Depth Estimation from Defocus Clue ( http://arxiv.org/abs/2303.10752v1 )

ライセンス: Link先を確認
Haozhe Si, Bin Zhao, Dong Wang, Yupeng Gao, Mulin Chen, Zhigang Wang, Xuelong Li(参考訳) 画像におけるデフォーカスパターンとデフォーカスパターンの関係をモデル化したdepth-from-defocus (DFD)は、深さ推定において有望な性能を示した。 近年,複数の自己監督作業が精度の高い地中精度の確保の困難さを克服しようと試みている。 しかし、実際のシナリオではキャプチャできないオールインフォーカス(AIF)イメージに依存している。 このような制限はDFD法の適用を妨げる。 この問題に対処するため,我々は疎focalスタックから深さを推定する完全自己教師付きフレームワークを提案する。 我々は,この枠組みが深度とAIF画像の基盤構造の必要性を回避し,優れた予測を得られることを示し,DFDの理論的成功と実世界におけるその応用とのギャップを埋めることを示す。 特に,提案する (i)DFDタスクのより現実的な設定で、深度やAIF画像の接地構造は利用できない。 (II)困難条件下での深度とAIF画像の信頼性の高い予測を提供する新しい自己超越フレームワーク。 提案フレームワークは、ニューラルネットワークを用いて深度とAIF画像の予測を行い、光学モデルを用いて予測の検証と精査を行う。 我々は、レンダリングされたfocalスタックと実際のfocalスタックを備えた3つのベンチマークデータセットで、フレームワークを検証する。 定性的および定量的評価は,本手法が自己教師型DFDタスクの強力なベースラインを提供することを示している。

Depth-from-defocus (DFD), modeling the relationship between depth and defocus pattern in images, has demonstrated promising performance in depth estimation. Recently, several self-supervised works try to overcome the difficulties in acquiring accurate depth ground-truth. However, they depend on the all-in-focus (AIF) images, which cannot be captured in real-world scenarios. Such limitation discourages the applications of DFD methods. To tackle this issue, we propose a completely self-supervised framework that estimates depth purely from a sparse focal stack. We show that our framework circumvents the needs for the depth and AIF image ground-truth, and receives superior predictions, thus closing the gap between the theoretical success of DFD works and their applications in the real world. In particular, we propose (i) a more realistic setting for DFD tasks, where no depth or AIF image ground-truth is available; (ii) a novel self-supervision framework that provides reliable predictions of depth and AIF image under the challenging setting. The proposed framework uses a neural model to predict the depth and AIF image, and utilizes an optical model to validate and refine the prediction. We verify our framework on three benchmark datasets with rendered focal stacks and real focal stacks. Qualitative and quantitative evaluations show that our method provides a strong baseline for self-supervised DFD tasks.
翻訳日:2023-03-21 17:27:18 公開日:2023-03-19
# 野生における感情反応強度のコンピュータビジョンによる推定

Computer Vision Estimation of Emotion Reaction Intensity in the Wild ( http://arxiv.org/abs/2303.10741v1 )

ライセンス: Link先を確認
Yang Qian, Ali Kargarandehkordi, Onur Cezmi Mutlu, Saimourya Surabhi, Mohammadmahdi Honarmand, Dennis Paul Wall, Peter Washington(参考訳) 感情は人間のコミュニケーションにおいて重要な役割を果たす。 感情表現の自動認識のためのコンピュータビジョンモデルの開発は、ロボティクス、デジタル行動医療、メディア分析など、さまざまな領域で助けとなる。 感情的な表現は、伝統的に感情的なコンピューティング研究でモデル化されている3つのタイプがある:アクションユニット、ヴァレンス・オーラル(VA)、カテゴリー的感情。 これらの表現をよりきめ細かなラベルへと進める取り組みの一環として、我々は新たに導入された感情反応強度(ERI)推定課題を、ABAW(Affective Behavior Analysis in-the-Wild)の第5回コンペティションで紹介する。 視覚領域で訓練された4つの深層ニューラルネットワークと、感情反応強度を予測するために視覚と音声の両方を訓練したマルチモーダルモデルを開発した。 hume-reactionデータセット上でのベストパフォーマンスモデルは,事前学習されたresnet50モデルを用いて,テストセット上で平均ピアソン相関係数0.4080を達成した。 この研究は、個別の感情カテゴリではなく、感情反応の強度を予測する生産段階モデルの開発に向けた第一歩となる。

Emotions play an essential role in human communication. Developing computer vision models for automatic recognition of emotion expression can aid in a variety of domains, including robotics, digital behavioral healthcare, and media analytics. There are three types of emotional representations which are traditionally modeled in affective computing research: Action Units, Valence Arousal (VA), and Categorical Emotions. As part of an effort to move beyond these representations towards more fine-grained labels, we describe our submission to the newly introduced Emotional Reaction Intensity (ERI) Estimation challenge in the 5th competition for Affective Behavior Analysis in-the-Wild (ABAW). We developed four deep neural networks trained in the visual domain and a multimodal model trained with both visual and audio features to predict emotion reaction intensity. Our best performing model on the Hume-Reaction dataset achieved an average Pearson correlation coefficient of 0.4080 on the test set using a pre-trained ResNet50 model. This work provides a first step towards the development of production-grade models which predict emotion reaction intensities rather than discrete emotion categories.
翻訳日:2023-03-21 17:26:54 公開日:2023-03-19
# MIA-3DCNN:3D CNNによる新型コロナウイルス検出

MIA-3DCNN: COVID-19 Detection Based on a 3D CNN ( http://arxiv.org/abs/2303.10738v1 )

ライセンス: Link先を確認
Igor Kenzo Ishikawa Oshiro Nakashima, Giovanna Vendramini, Helio Pedrini(参考訳) 新型コロナウイルスの早期かつ正確な診断は、パンデミックの急速な拡散を抑え、人口の続編を緩和するために不可欠である。 RT-PCRのような現在の診断法は有効であるが、結果を提供するのに時間が必要であり、臨床を素早く圧倒し、個々の研究室分析を必要とする。 自動検出手法は診断時間を著しく短縮する可能性がある。 この目的のために,肺画像を用いた学習手法が研究されている。 特殊なハードウェアを必要とするが、自動評価を同時に行うことができ、診断がより高速になる。 畳み込みニューラルネットワークは、肺画像中のcovid-19による肺炎を検出するために広く使われている。 本研究は,3次元畳み込みニューラルネットワークに基づく,コンピュータ断層画像中のCOVID-19を検出するアーキテクチャについて述べる。 データセットに存在する困難なシナリオにもかかわらず、私たちのアーキテクチャで得られた結果は、非常に有望であることが分かりました。

Early and accurate diagnosis of COVID-19 is essential to control the rapid spread of the pandemic and mitigate sequelae in the population. Current diagnostic methods, such as RT-PCR, are effective but require time to provide results and can quickly overwhelm clinics, requiring individual laboratory analysis. Automatic detection methods have the potential to significantly reduce diagnostic time. To this end, learning-based methods using lung imaging have been explored. Although they require specialized hardware, automatic evaluation methods can be performed simultaneously, making diagnosis faster. Convolutional neural networks have been widely used to detect pneumonia caused by COVID-19 in lung images. This work describes an architecture based on 3D convolutional neural networks for detecting COVID-19 in computed tomography images. Despite the challenging scenario present in the dataset, the results obtained with our architecture demonstrated to be quite promising.
翻訳日:2023-03-21 17:26:33 公開日:2023-03-19
# SKED:スケッチガイド付きテキストベースの3D編集

SKED: Sketch-guided Text-based 3D Editing ( http://arxiv.org/abs/2303.10735v1 )

ライセンス: Link先を確認
Aryan Mikaeili, Or Perel, Daniel Cohen-Or, Ali Mahdavi-Amiri(参考訳) テキストから画像への拡散モデルは徐々にコンピュータグラフィックスに導入され、最近はオープンドメインでテキストから3Dパイプラインの開発が可能になった。 しかし、インタラクティブな編集のためには、単純なテキストインタフェースによるコンテンツの局所的な操作は困難である。 ユーザガイドによるスケッチをText-to-imageパイプラインに組み込むことで,より直感的なコントロールが可能になる。 それでも、最先端のText-to-3Dパイプラインは任意のレンダリングビューからの勾配を通じてNeRF(Neural Radiance Fields)の最適化に依存しているため、スケッチの条件付けは簡単ではない。 本稿では,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。 本手法は,既存のニューラルフィールドを変化させるために,異なる視点からの2つのガイドスケッチを用いる。 編集された領域は、事前訓練された拡散モデルを通じてプロンプトセマンティクスを尊重する。 生成した出力が提供されるスケッチに確実に準拠するように,ベースインスタンスの密度と放射率を維持しつつ,所望の編集を生成する新しい損失関数を提案する。 提案手法の有効性を, 定性的, 定量的な実験によって実証する。

Text-to-image diffusion models are gradually introduced into computer graphics, recently enabling the development of Text-to-3D pipelines in an open domain. However, for interactive editing purposes, local manipulations of content through a simplistic textual interface can be arduous. Incorporating user guided sketches with Text-to-image pipelines offers users more intuitive control. Still, as state-of-the-art Text-to-3D pipelines rely on optimizing Neural Radiance Fields (NeRF) through gradients from arbitrary rendering views, conditioning on sketches is not straightforward. In this paper, we present SKED, a technique for editing 3D shapes represented by NeRFs. Our technique utilizes as few as two guiding sketches from different views to alter an existing neural field. The edited region respects the prompt semantics through a pre-trained diffusion model. To ensure the generated output adheres to the provided sketches, we propose novel loss functions to generate the desired edits while preserving the density and radiance of the base instance. We demonstrate the effectiveness of our proposed method through several qualitative and quantitative experiments.
翻訳日:2023-03-21 17:26:22 公開日:2023-03-19
# マルチエージェント強化学習における安価発話発見と活用

Cheap Talk Discovery and Utilization in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.10733v1 )

ライセンス: Link先を確認
Yat Long Lo, Christian Schroeder de Witt, Samuel Sokota, Jakob Nicolaus Foerster, Shimon Whiteson(参考訳) エージェント間のコミュニケーションを可能にすることにより,近年の協調型マルチエージェント強化学習(marl)手法により,タスク性能と協調行動が向上した。 既存のほとんどのアプローチは、エージェントが無料の通信チャネル、すなわち安価な通信チャネルを通じてメッセージを送ることによって、エージェント間通信を促進する。 現在の方法では、これらのチャネルは常にアクセスでき、エージェントにa prioriを知っておく必要がある。 この作業では,エージェントが安価なトークチャネルを発見して使用方法を学ぶ必要があるという,これらの要件を取り上げる。 したがって、この問題には、安価なトーク発見(CTD)と安価なトーク利用(CTU)の2つの主要な部分がある。 両部品に新しい概念的枠組みを導入し,CTD/CTU設定において既存のアルゴリズムより優れる相互情報の最大化に基づく新しいアルゴリズムを開発する。 また,CTD/CTUの今後の研究を刺激する新しいベンチマークスイートもリリースした。

By enabling agents to communicate, recent cooperative multi-agent reinforcement learning (MARL) methods have demonstrated better task performance and more coordinated behavior. Most existing approaches facilitate inter-agent communication by allowing agents to send messages to each other through free communication channels, i.e., cheap talk channels. Current methods require these channels to be constantly accessible and known to the agents a priori. In this work, we lift these requirements such that the agents must discover the cheap talk channels and learn how to use them. Hence, the problem has two main parts: cheap talk discovery (CTD) and cheap talk utilization (CTU). We introduce a novel conceptual framework for both parts and develop a new algorithm based on mutual information maximization that outperforms existing algorithms in CTD/CTU settings. We also release a novel benchmark suite to stimulate future research in CTD/CTU.
翻訳日:2023-03-21 17:26:05 公開日:2023-03-19
# AutoEn: 教師付きトラフィック予測のための事前定義された機械学習パイプラインのアンサンブルに基づくAutoMLメソッド

AutoEn: An AutoML method based on ensembles of predefined Machine Learning pipelines for supervised Traffic Forecasting ( http://arxiv.org/abs/2303.10732v1 )

ライセンス: Link先を確認
Juan S. Angarita-Zapata, Antonio D. Masegosa, Isaac Triguero(参考訳) Intelligent Transportation Systemsは、管理が難しいトラフィックデータを大量に生成しており、Traffic Forecasting (TF)のようなデータ駆動アプリケーションに機械学習(ML)を使用する動機となっている。 TFは、将来の交通状況を予測することにより、交通渋滞を緩和する能力により、関連性を高めている。 しかし、TFは、データ前処理技術と異なる交通状況下で収集されたトラフィックデータに対するMLメソッドの最も適した組み合わせを決定する、モデル選択問題(MSP)と呼ばれるMLパラダイムに大きな課題を提起する。 この文脈では、データ前処理からモデルバリデーションまでのMLワークフローの自動化であるAutomated Machine Learning (AutoML)が、専門家のML知識がTFのような常に利用可能なあるいは安価な資産であるとは限らない問題領域において、MSPを扱うための有望な戦略として現れます。 TFでMSPにアプローチするために、さまざまなAutoMLフレームワークが使用されている。 ほとんどが、特定のデータセット上で最高のパフォーマンスのパイプラインを探すためのオンライン最適化プロセスに基づいている。 このオンライン最適化は、検索フェーズをウォームスタートするメタラーニングや、最適化プロセスから派生したパイプラインを使用したアンサンブルの構築で補完することができる。 しかし、探索空間の複雑さとパイプラインのチューニング評価の計算コストの高さを考えると、オンライン最適化は最終的なモデルを得るのに長い時間がかかる場合にのみ有用である。 そこで本稿では,事前に定義されたMLパイプラインの集合から複数分類器のアンサンブルを自動的に生成する,シンプルで効率的なAutoEnを紹介する。 TFでよく使われているAuto-WEKAとAuto-Sklearnを比較した。 実験の結果,AutoEnは汎用ドメインやTFにおいて,より優れた,あるいはより競争的な結果をもたらすことが示された。

Intelligent Transportation Systems are producing tons of hardly manageable traffic data, which motivates the use of Machine Learning (ML) for data-driven applications, such as Traffic Forecasting (TF). TF is gaining relevance due to its ability to mitigate traffic congestion by forecasting future traffic states. However, TF poses one big challenge to the ML paradigm, known as the Model Selection Problem (MSP): deciding the most suitable combination of data preprocessing techniques and ML method for traffic data collected under different transportation circumstances. In this context, Automated Machine Learning (AutoML), the automation of the ML workflow from data preprocessing to model validation, arises as a promising strategy to deal with the MSP in problem domains wherein expert ML knowledge is not always an available or affordable asset, such as TF. Various AutoML frameworks have been used to approach the MSP in TF. Most are based on online optimisation processes to search for the best-performing pipeline on a given dataset. This online optimisation could be complemented with meta-learning to warm-start the search phase and/or the construction of ensembles using pipelines derived from the optimisation process. However, given the complexity of the search space and the high computational cost of tuning-evaluating pipelines generated, online optimisation is only beneficial when there is a long time to obtain the final model. Thus, we introduce AutoEn, which is a simple and efficient method for automatically generating multi-classifier ensembles from a predefined set of ML pipelines. We compare AutoEn against Auto-WEKA and Auto-sklearn, two AutoML methods commonly used in TF. Experimental results demonstrate that AutoEn can lead to better or more competitive results in the general-purpose domain and in TF.
翻訳日:2023-03-21 17:25:52 公開日:2023-03-19
# 高リスク乳がんステージ予測のための事前訓練型ビジョンモデル

Pretrained Vision Models for Predicting High-Risk Breast Cancer Stage ( http://arxiv.org/abs/2303.10730v1 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou and Yenoukoume S. K. Gbenou and Miglanche Ghomsi Nono(参考訳) がんはますます世界的な健康問題になっている。 心臓血管疾患の第二に、がんは世界で2番目に大きな死因であり、毎年数百万人がこの病気に罹患している。 世界保健機関(who)の報告書によると、2020年末までに780万人以上の女性が乳がんと診断され、世界で最も一般的ながんとなっている。 本稿では,乳がんステージ予測タスクにおいて,デジタル病理(breast biopsy)画像のナイチンゲールオープンサイエンスデータセットを用いて,事前学習したコンピュータビジョンモデルの機能を活用した。 個々のモデルがまともなパフォーマンスを実現する一方で、アンサンブルモデルの予測がより効率的であることを見出し、勝利のソリューションである\footnote{https://www.nightingalescience.org/updates/hbc1-results}を提供する。 また,結果を解析し,解釈性と一般化のための経路を探索する。 私たちのコードは、 \url{https://github.com/bonaventuredossou/nightingale_winning_solution}でオープンソースです。

Cancer is increasingly a global health issue. Seconding cardiovascular diseases, cancers are the second biggest cause of death in the world with millions of people succumbing to the disease every year. According to the World Health Organization (WHO) report, by the end of 2020, more than 7.8 million women have been diagnosed with breast cancer, making it the world's most prevalent cancer. In this paper, using the Nightingale Open Science dataset of digital pathology (breast biopsy) images, we leverage the capabilities of pre-trained computer vision models for the breast cancer stage prediction task. While individual models achieve decent performances, we find out that the predictions of an ensemble model are more efficient, and offer a winning solution\footnote{https://www.nightingalescience.org/updates/hbc1-results}. We also provide analyses of the results and explore pathways for better interpretability and generalization. Our code is open-source at \url{https://github.com/bonaventuredossou/nightingale_winning_solution}
翻訳日:2023-03-21 17:25:18 公開日:2023-03-19
# 量子シミュレーションのためのclifford-based circuit cutting

Clifford-based Circuit Cutting for Quantum Simulation ( http://arxiv.org/abs/2303.10788v1 )

ライセンス: Link先を確認
Kaitlin N. Smith, Michael A. Perlin, Pranav Gokhale, Paige Frederick, David Owusu-Antwi, Richard Rines, Victory Omole, Frederic T. Chong(参考訳) 量子コンピューティングは、多くの重要なアプリケーションに対して古典コンピューティングよりも指数関数的なスピードアップを提供する可能性がある。 しかし、今日の量子コンピュータは初期段階にあり、ハードウェア品質の問題によりプログラム実行の規模は低下している。 したがって、古典的コンピュータ上での量子回路のベンチマークとシミュレーションは、量子コンピュータとプログラムの動作を理解するのに不可欠であり、アルゴリズムの発見と、より強力な量子システムを実現するエンジニアリングの改善の両方を可能にする。 残念ながら、量子情報の性質はシミュレーションの複雑さを問題の大きさで指数関数的に拡大させる。 本稿では,高忠実かつスケーラブルな量子回路シミュレーションのための新しいアプローチであるSuper.techのSuperSimフレームワークについて紹介する。 SuperSimは、Cliffordベースのシミュレーションと回路切断という、加速量子回路シミュレーションのための2つの重要な技術を採用している。 より大きな非クリフォード回路内のクリフォード部分回路断片の分離により、資源効率の高いクリフォードシミュレーションが実行可能となり、実行時間が大幅に減少する。 フラグメントが独立に実行されると、回路切断と組換え処理により、フラグメント実行結果から元の回路の最終出力を再構築することができる。 これら2つの最先端技術を組み合わせることで、SuperSimは量子回路評価を現在のシミュレーターのフロンティアを越えてスケールできる量子実践者のための製品である。 その結果,cliffordベースの回路切断は,クリフォード近傍回路のシミュレーションを高速化し,100キュービットの動作を控えめなランタイムで評価できることがわかった。

Quantum computing has potential to provide exponential speedups over classical computing for many important applications. However, today's quantum computers are in their early stages, and hardware quality issues hinder the scale of program execution. Benchmarking and simulation of quantum circuits on classical computers is therefore essential to advance the understanding of how quantum computers and programs operate, enabling both algorithm discovery that leads to high-impact quantum computation and engineering improvements that deliver to more powerful quantum systems. Unfortunately, the nature of quantum information causes simulation complexity to scale exponentially with problem size. In this paper, we debut Super.tech's SuperSim framework, a new approach for high fidelity and scalable quantum circuit simulation. SuperSim employs two key techniques for accelerated quantum circuit simulation: Clifford-based simulation and circuit cutting. Through the isolation of Clifford subcircuit fragments within a larger non-Clifford circuit, resource-efficient Clifford simulation can be invoked, leading to significant reductions in runtime. After fragments are independently executed, circuit cutting and recombination procedures allow the final output of the original circuit to be reconstructed from fragment execution results. Through the combination of these two state-of-art techniques, SuperSim is a product for quantum practitioners that allows quantum circuit evaluation to scale beyond the frontiers of current simulators. Our results show that Clifford-based circuit cutting accelerates the simulation of near-Clifford circuits, allowing 100s of qubits to be evaluated with modest runtimes.
翻訳日:2023-03-21 17:19:04 公開日:2023-03-19
# 拡散に基づく文書レイアウト生成

Diffusion-based Document Layout Generation ( http://arxiv.org/abs/2303.10787v1 )

ライセンス: Link先を確認
Liu He, Yijuan Lu, John Corring, Dinei Florencio, Cha Zhang(参考訳) 様々な文書レイアウトシーケンス生成のための拡散ベース手法を開発した。 レイアウトシーケンスは、文書設計の内容を明示的なフォーマットで指定する。 この新しい拡散ベースアプローチは,より複雑で現実的なレイアウトを可能にするため,画像領域ではなくシーケンス領域で動作する。 また,新たにドキュメンテーションアース・マーバー距離(Doc-EMD)を導入した。 不均一なカテゴリの文書設計の類似性を考慮することで、レイアウトの同一のカテゴリのみを評価する事前文書メトリクスの欠点を扱う。 実験分析の結果,我々の拡散ベースアプローチは,様々な文書データセットをまたいだレイアウト生成手法に匹敵する,あるいは比較できることがわかった。 さらに,本手法では,特定の事例に対する従来の指標よりも文書の識別が優れている。

We develop a diffusion-based approach for various document layout sequence generation. Layout sequences specify the contents of a document design in an explicit format. Our novel diffusion-based approach works in the sequence domain rather than the image domain in order to permit more complex and realistic layouts. We also introduce a new metric, Document Earth Mover's Distance (Doc-EMD). By considering similarity between heterogeneous categories document designs, we handle the shortcomings of prior document metrics that only evaluate the same category of layouts. Our empirical analysis shows that our diffusion-based approach is comparable to or outperforming other previous methods for layout generation across various document datasets. Moreover, our metric is capable of differentiating documents better than previous metrics for specific cases.
翻訳日:2023-03-21 17:18:39 公開日:2023-03-19
# 手話検出におけるシグナー重なりの重要性について

On the Importance of Signer Overlap for Sign Language Detection ( http://arxiv.org/abs/2303.10782v1 )

ライセンス: Link先を確認
Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller(参考訳) 誰かが署名しているかどうかを識別する手話検出は、リモート会議ソフトウェアにおけるアプリケーションや、手話認識や翻訳タスクのトレーニングに有用な手話データを選択するために重要になっている。 我々は,手話検出のための現在のベンチマークデータセットが,列車とテストのパーティション間のシグナの重なり合いによって一般化されない,過度に肯定的な結果となることを論じる。 我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。 DGS corpus と Signing in the Wild の比較では, それぞれ4.17%, 6.27% の精度が相対的に低下した。 さらに,重複をなくし,より現実的な性能評価を可能にする新たなデータセット分割を提案する。 本研究は手話検出システムの精度向上と一般化に寄与することを期待している。

Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.
翻訳日:2023-03-21 17:18:30 公開日:2023-03-19
# スパイキングニューラルネットワークの包括的レビュー : 解釈,最適化,効率,ベストプラクティス

A Comprehensive Review of Spiking Neural Networks: Interpretation, Optimization, Efficiency, and Best Practices ( http://arxiv.org/abs/2303.10780v1 )

ライセンス: Link先を確認
Kai Malcom, Josue Casco-Rodriguez(参考訳) 生物学的ニューラルネットワークは、ニューラルネットワークのパフォーマンスにブレークスルーをもたらし続けている。 しかし、低消費電力、モバイル、その他のハードウェアに制約された設定に特に魅力がある、生物学的に妥当でエネルギー効率のよいスパイクニューラルネットワークは、ニューラルネットワークの重要な領域である。 本稿では,スパイキングニューラルネットワークの解釈,最適化,効率,正確性に関する最近の進歩を概観する。 主要な貢献は、スパイキングニューラルネットワークの最適化、エネルギー効率、評価における最先端の方法の同定、議論、比較であり、最初の原則から始まり、新しい実践者がアクセスできるようにする。

Biological neural networks continue to inspire breakthroughs in neural network performance. And yet, one key area of neural computation that has been under-appreciated and under-investigated is biologically plausible, energy-efficient spiking neural networks, whose potential is especially attractive for low-power, mobile, or otherwise hardware-constrained settings. We present a literature review of recent developments in the interpretation, optimization, efficiency, and accuracy of spiking neural networks. Key contributions include identification, discussion, and comparison of cutting-edge methods in spiking neural network optimization, energy-efficiency, and evaluation, starting from first principles so as to be accessible to new practitioners.
翻訳日:2023-03-21 17:18:15 公開日:2023-03-19
# 配向経路のエンドツーエンド学習のための深部宣言動的時間ワープ

Deep Declarative Dynamic Time Warping for End-to-End Learning of Alignment Paths ( http://arxiv.org/abs/2303.10778v1 )

ライセンス: Link先を確認
Ming Xu and Sourav Garg and Michael Milford and Stephen Gould(参考訳) 本稿では,動的時間ワープ(DTW)による時間的アライメントステップを含む時系列データのエンドツーエンド学習モデルについて述べる。 既存の微分可能DTWに対するアプローチは、固定されたワープパスを通して微分するか、DTW問題を解決するために使われる再帰的なステップにあるmin演算子に微分可能緩和を適用するかのいずれかである。 代わりに、二レベル最適化とDecDTWと呼ばれる深層宣言ネットワークに基づくDTW層を提案する。 DTWを連続的不等式制約最適化問題として定式化することにより、暗黙の微分を用いて最適アライメントの解の勾配を計算することができる。 この定式化の興味深い副産物は、ソフトDTWから回復可能なソフト近似とは対照的に、DecDTWが2つの時系列間の最適なワープ経路を出力することである。 この性質は, 最適アライメント経路上で下流損失関数が定義されるアプリケーションにとって特に有用であることを示す。 これは、例えば、予測されたアライメントと地上の真理アライメントの精度を改善することを学ぶときに自然に起こる。 我々は,音楽情報検索における音声とスコアのアライメントタスクとロボット工学における視覚位置認識タスクという2つの応用についてdecdtwを評価した。

This paper addresses learning end-to-end models for time series data that include a temporal alignment step via dynamic time warping (DTW). Existing approaches to differentiable DTW either differentiate through a fixed warping path or apply a differentiable relaxation to the min operator found in the recursive steps used to solve the DTW problem. We instead propose a DTW layer based around bi-level optimisation and deep declarative networks, which we name DecDTW. By formulating DTW as a continuous, inequality constrained optimisation problem, we can compute gradients for the solution of the optimal alignment (with respect to the underlying time series) using implicit differentiation. An interesting byproduct of this formulation is that DecDTW outputs the optimal warping path between two time series as opposed to a soft approximation, recoverable from Soft-DTW. We show that this property is particularly useful for applications where downstream loss functions are defined on the optimal alignment path itself. This naturally occurs, for instance, when learning to improve the accuracy of predicted alignments against ground truth alignments. We evaluate DecDTW on two such applications, namely the audio-to-score alignment task in music information retrieval and the visual place recognition task in robotics, demonstrating state-of-the-art results in both.
翻訳日:2023-03-21 17:18:02 公開日:2023-03-19
# クロスGAN監査:属性レベルの類似点の教師なし同定と事前学習生成モデルの違い

Cross-GAN Auditing: Unsupervised Identification of Attribute Level Similarities and Differences between Pretrained Generative Models ( http://arxiv.org/abs/2303.10774v1 )

ライセンス: Link先を確認
Matthew L. Olson, Shusen Liu, Rushil Anirudh, Jayaraman J. Thiagarajan, Peer-Timo Bremer, Weng-Keen Wong(参考訳) generative adversarial networks (gans) は、特に複雑な分布や限られたデータのために訓練することが難しいことで悪名高い。 これにより、例えばバイアスの特定や公平性の確保など、トレーニング済みのネットワークを人間の認識可能な形式で監査するツールが必要になった。 既存のGAN監査ツールは、FIDやリコールのような要約統計に基づく粗い粒度のモデルデータ比較に限定されている。 本稿では,新たに開発されたGANを,従来のベースラインと比較する代替手法を提案する。 この目的のために、確立された「参照」GANと新たに提案された「クライアント」GANが与えられた場合、GAN間で共通する、クライアントGANへの新規な、あるいはクライアントGANから欠落する、知的な属性を共同で識別するクロスGAN監査(xGA)を導入する。 これにより、ユーザとモデル開発者の両方が、GAN間の類似性と差異を直感的に評価できる。 我々は,属性に基づくGAN監査手法を評価するための新しい指標を導入し,これらの指標を用いて,xGAがベースラインアプローチより優れていることを示す。 また、様々な画像データセットで訓練されたGANからxGAによって識別される共通、新規、欠落した属性を定性的に記述する。

Generative Adversarial Networks (GANs) are notoriously difficult to train especially for complex distributions and with limited data. This has driven the need for tools to audit trained networks in human intelligible format, for example, to identify biases or ensure fairness. Existing GAN audit tools are restricted to coarse-grained, model-data comparisons based on summary statistics such as FID or recall. In this paper, we propose an alternative approach that compares a newly developed GAN against a prior baseline. To this end, we introduce Cross-GAN Auditing (xGA) that, given an established "reference" GAN and a newly proposed "client" GAN, jointly identifies intelligible attributes that are either common across both GANs, novel to the client GAN, or missing from the client GAN. This provides both users and model developers an intuitive assessment of similarity and differences between GANs. We introduce novel metrics to evaluate attribute-based GAN auditing approaches and use these metrics to demonstrate quantitatively that xGA outperforms baseline approaches. We also include qualitative results that illustrate the common, novel and missing attributes identified by xGA from GANs trained on a variety of image datasets.
翻訳日:2023-03-21 17:17:39 公開日:2023-03-19
# 選択的融合による教師なし歩行認識

Unsupervised Gait Recognition with Selective Fusion ( http://arxiv.org/abs/2303.10772v1 )

ライセンス: Link先を確認
Xuqian Ren, Saihui Hou, Chunshui Cao, Xu Liu and Yongzhen Huang(参考訳) 従来の歩行認識手法は主にラベル付きデータセットに基づいて訓練され、苦しいラベル付け作業が必要になる。 しかし、微調整のない新しいデータセットで事前トレーニングされたモデルを使用することで、パフォーマンスが大幅に低下する可能性がある。 そこで,学習済みの歩行認識モデルをラベルなしデータセットで微調整可能にするために,教師なし歩行認識(ugr)という新しいタスクを提案する。 クラスタレベルのコントラスト学習でUGRを解決するための,新しいクラスタベースベースラインを導入する。 しかし、さらにこのタスクが直面する課題を見つけます。 第一に、異なる服装の同一人物のシーケンスは、顕著な外観の変化により別々に集合する傾向がある。 第2に、0 と 180 のビューから取られたシーケンスは歩行姿勢を欠き、他のビューから取られたシーケンスとクラスタリングしない。 これらの課題に対処するため,SCF(Selective Cluster Fusion)とSSF(Selective Sample Fusion)を含むSelective Fusion法を提案する。 scfでは,クラスタレベルのメモリバンクをマルチクラスタ更新戦略で更新することにより,異なる服装の同一人物のクラスタをマージする。 そして、ssfでは、フロント/バックビューからのシーケンスとカリキュラム学習を徐々に統合します。 広汎な実験により,異なるコート条件と前後視条件で歩行する際のランク1精度を向上させる方法の有効性が示された。

Previous gait recognition methods primarily trained on labeled datasets, which require painful labeling effort. However, using a pre-trained model on a new dataset without fine-tuning can lead to significant performance degradation. So to make the pre-trained gait recognition model able to be fine-tuned on unlabeled datasets, we propose a new task: Unsupervised Gait Recognition (UGR). We introduce a new cluster-based baseline to solve UGR with cluster-level contrastive learning. But we further find more challenges this task meets. First, sequences of the same person in different clothes tend to cluster separately due to the significant appearance changes. Second, sequences taken from 0 and 180 views lack walking postures and do not cluster with sequences taken from other views. To address these challenges, we propose a Selective Fusion method, which includes Selective Cluster Fusion (SCF) and Selective Sample Fusion (SSF). With SCF, we merge matched clusters of the same person wearing different clothes by updating the cluster-level memory bank with a multi-cluster update strategy. And in SSF, we merge sequences taken from front/back views gradually with curriculum learning. Extensive experiments show the effectiveness of our method in improving the rank-1 accuracy in walking with different coats condition and front/back views conditions.
翻訳日:2023-03-21 17:17:14 公開日:2023-03-19
# RetinaNet: イベントベースのビデオ処理のためのReservoir-Enabled Time Integrated Attention Network

RetinaNet: Reservoir-Enabled Time Integrated Attention Network for Event-based Video Processing ( http://arxiv.org/abs/2303.10770v1 )

ライセンス: Link先を確認
Sangmin Yoo, Eric Yeu-Jer Lee, Ziyu Wang, Xinxin Wang, Wei D. Lu(参考訳) イベントベースのカメラは、生物学的視覚システムのスパースかつ非同期なスパイク表現にインスパイアされている。 しかし、偶数データの処理には高価な特徴記述子を使用してスパイクをフレームに変換するか、トレーニングが難しいスパイクニューラルネットワークを使用するかが必要となる。 本研究では,ハードウェアとトレーニングコストの低い動的時間エンコード型貯水池と統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャを提案する。 Reservoir 対応の Time Integrated Attention Network (RetinaNet) により、ネットワークは非同期の時間的特徴を効率的に処理でき、これまで報告された DVS128 Gesture の 99.2% の精度と、より小さなネットワークサイズでの DVS Lip データセットの 67.5% の最高精度を達成する。 memristorの内部ダイナミクスを活用することで、非同期の時間的特徴エンコーディングは、プリプロセッシングや専用メモリや演算ユニットなしで非常に低いハードウェアコストで実装できる。 単純なDNNブロックとバックプロパゲーションベースのトレーニングルールを使用することで、実装コストをさらに削減できる。 コードは公開されます。

Event-based cameras are inspired by the sparse and asynchronous spike representation of the biological visual system. However, processing the even data requires either using expensive feature descriptors to transform spikes into frames, or using spiking neural networks that are difficult to train. In this work, we propose a neural network architecture based on simple convolution layers integrated with dynamic temporal encoding reservoirs with low hardware and training costs. The Reservoir-enabled Time Integrated Attention Network (RetinaNet) allows the network to efficiently process asynchronous temporal features, and achieves the highest accuracy of 99.2% for DVS128 Gesture reported to date, and one of the highest accuracy of 67.5% for DVS Lip dataset at a much smaller network size. By leveraging the internal dynamics of memristors, asynchronous temporal feature encoding can be implemented at very low hardware cost without preprocessing or dedicated memory and arithmetic units. The use of simple DNN blocks and backpropagation based training rules further reduces its implementation cost. Code will be publicly available.
翻訳日:2023-03-21 17:16:53 公開日:2023-03-19
# 視覚関係に基づく画像キャプションにおけるマルチモーダル報酬

Multi-modal reward for visual relationships-based image captioning ( http://arxiv.org/abs/2303.10766v1 )

ライセンス: Link先を確認
Ali Abedi, Hossein Karshenas, Peyman Adibi(参考訳) ディープニューラルネットワークは、効果的な表現学習とコンテキストベースのコンテンツ生成能力により、自動画像キャプションで有望な結果を得た。 近年の多くの画像キャプション手法で用いられる深い特徴として、よく知られたボトムアップ機能は、生画像から直接抽出された特徴マップと比較して、画像の異なるオブジェクトの詳細な表現を提供する。 しかし、これらのオブジェクト間の関係に関するハイレベルな意味情報の欠如は、コストとリソース要求の抽出手順にもかかわらず、ボトムアップ機能の重大な欠点である。 本稿では,キャプション生成における視覚関係の活用を目的として,画像の空間的特徴マップと画像のシーングラフから抽出した視覚関係情報を融合して,画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。 次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案ネットワークの深層強化学習にマルチモーダル報酬関数を導入する。 MSCOCOデータセットを用いた広範囲な実験の結果,提案手法における視覚的関係の有効性が示された。 さらに, 深部強化学習におけるマルチモーダル報酬は, 画像特徴の抽出が容易でありながら, 最新の画像キャプションアルゴリズムよりも優れたモデル最適化をもたらすことが明らかとなった。 また,提案手法を構成する部品について詳細な実験を行った。

Deep neural networks have achieved promising results in automatic image captioning due to their effective representation learning and context-based content generation capabilities. As a prominent type of deep features used in many of the recent image captioning methods, the well-known bottomup features provide a detailed representation of different objects of the image in comparison with the feature maps directly extracted from the raw image. However, the lack of high-level semantic information about the relationships between these objects is an important drawback of bottom-up features, despite their expensive and resource-demanding extraction procedure. To take advantage of visual relationships in caption generation, this paper proposes a deep neural network architecture for image captioning based on fusing the visual relationships information extracted from an image's scene graph with the spatial feature maps of the image. A multi-modal reward function is then introduced for deep reinforcement learning of the proposed network using a combination of language and vision similarities in a common embedding space. The results of extensive experimentation on the MSCOCO dataset show the effectiveness of using visual relationships in the proposed captioning method. Moreover, the results clearly indicate that the proposed multi-modal reward in deep reinforcement learning leads to better model optimization, outperforming several state-of-the-art image captioning algorithms, while using light and easy to extract image features. A detailed experimental study of the components constituting the proposed method is also presented.
翻訳日:2023-03-21 17:16:34 公開日:2023-03-19
# 深部画像指紋 : 高精度・低予算合成画像検出装置

Deep Image Fingerprint: Accurate And Low Budget Synthetic Image Detector ( http://arxiv.org/abs/2303.10762v1 )

ライセンス: Link先を確認
Sergey Sinitsa and Ohad Fried(参考訳) 高品質な画像の生成は、広くアクセスしやすくなり、急速に進化するプロセスである。 その結果、誰でも実際のものと区別できない画像を生成することができる。 これは幅広いアプリケーションにつながり、詐欺を念頭において悪意のある使用法も含んでいる。 生成画像の検出技術の進歩にもかかわらず、ロバストな検出手法はいまだに我々を導いてくれる。 本研究では,畳み込みニューラルネットワーク(cnns)のインダクティブバイアスを利用して,少量のトレーニングサンプルを必要とする新しい検出法を開発し,現在の最先端手法と同等以上の精度を達成する。

The generation of high-quality images has become widely accessible and is a rapidly evolving process. As a result, anyone can generate images that are indistinguishable from real ones. This leads to a wide range of applications, which also include malicious usage with deception in mind. Despite advances in detection techniques for generated images, a robust detection method still eludes us. In this work, we utilize the inductive bias of convolutional neural networks (CNNs) to develop a new detection method that requires a small amount of training samples and achieves accuracy that is on par or better than current state-of-the-art methods.
翻訳日:2023-03-21 17:16:11 公開日:2023-03-19
# OARセグメンテーションのための不確実性駆動型ボトルネック注意U-net

Uncertainty Driven Bottleneck Attention U-net for OAR Segmentation ( http://arxiv.org/abs/2303.10796v1 )

ライセンス: Link先を確認
Abdullah Nazib, Riad Hassan, Nosin Ibn Mahbub, Zahidul Islam, Clinton Fookes(参考訳) CT画像におけるオルガン・アット・リスク・セグメンテーション(OAR)は,自動セグメンテーション法では難しい課題であり,下流放射線治療計画において重要である。 u-netは医用画像セグメンテーションのデファクトスタンダードとなり、医用画像セグメンテーションタスクの共通ベースラインとして頻繁に使用される。 本稿では、雑音分割を生成するためにノイズ補助デコーダを使用するマルチデコーダU-netアーキテクチャを開発する。 メインブランチからのセグメンテーションと補助ブランチからのノイズセグメンテーションを合わせて、注目度を推定する。 我々の貢献は、2つのデコーダブランチのソフトマックス確率から注目を引き出す新しいアテンションモジュールの開発である。 2つの分岐からの2つのセグメンテーションマスクの結合と交差は、双方のデコーダが同意し、同意する情報を運ぶ。 合意と不一致の領域からのソフトマックス確率は、低い、高い不確実性の指標である。 これにより、選択された領域の確率は、エンコーダのボトルネック層において注目され、セグメンテーションのためのメインデコーダのみを通過する。 正確な輪郭セグメンテーションのために,CT強度統合正規化損失も開発した。 私たちは、SegthorとLCTSCの2つの公開OARチャレンジデータセットでモデルをテストしました。 提案するアテンションモデルと正規化損失を用いて各データセットに12モデルをトレーニングし,アテンションモジュールの有効性と正規化損失を確認した。 実験では,両データセットの精度向上(2 %から 5 % dice)を実証した。 実験のコードは、公開が承認されたら利用可能になる。

Organ at risk (OAR) segmentation in computed tomography (CT) imagery is a difficult task for automated segmentation methods and can be crucial for downstream radiation treatment planning. U-net has become a de-facto standard for medical image segmentation and is frequently used as a common baseline in medical image segmentation tasks. In this paper, we develop a multiple decoder U-net architecture where a noisy auxiliary decoder is used to generate noisy segmentation. The segmentation from the main branch and the noisy segmentation from the auxiliary branch are used together to estimate the attention. Our contribution is the development of a new attention module which derives the attention from the softmax probabilities of two decoder branches. The union and intersection of two segmentation masks from two branches carry the information where both decoders agree and disagree. The softmax probabilities from regions of agreement and disagreement are the indicators of low and high uncertainty. Thus, the probabilities of those selected regions are used as attention in the bottleneck layer of the encoder and passes only through the main decoder for segmentation. For accurate contour segmentation, we also developed a CT intensity integrated regularization loss. We tested our model on two publicly available OAR challenge datasets, Segthor and LCTSC respectively. We trained 12 models on each dataset with and without the proposed attention model and regularization loss to check the effectiveness of the attention module and the regularization loss. The experiments demonstrate a clear accuracy improvement (2\% to 5\% Dice) on both datasets. Code for the experiments will be made available upon the acceptance for publication.
翻訳日:2023-03-21 17:07:33 公開日:2023-03-19
# pheme:マルチモーダルデータから表現型予測を改善するための深層アンサンブルフレームワーク

PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data ( http://arxiv.org/abs/2303.10794v1 )

ライセンス: Link先を確認
Shenghan Zhang, Haoxuan Li, Ruixiang Tang, Sirui Ding, Laila Rasmy, Degui Zhi, Na Zou, Xia Hu(参考訳) 詳細な表現型情報は、疾患の正確な診断とリスク推定に不可欠である。 表現型情報の豊富な情報源として、電子健康記録(EHR)は診断の変種解釈を強化することを約束する。 しかし,不均質なehrデータから表現型を正確かつ効率的に抽出する方法は課題である。 本稿では, 構造化EHRのマルチモーダルデータと非構造化臨床ノートを用いたアンサンブルフレームワークであるPheMEについて述べる。 まず,複数の深層ニューラルネットワークを用いてsparse structured ehrデータと冗長な臨床記録から信頼性の高い表現を学習する。 マルチモーダルモデルは、複数のモーダル特徴を同じ潜在空間にアライメントし、表現型を予測する。 第2に,シングルモーダルモデルとマルチモーダルモデルからのアウトプットを組み合わせて,表現型予測を改善するためにアンサンブル学習を利用する。 提案フレームワークの表現型性能を評価するために7つの疾患を選択する。 実験結果から,マルチモーダルデータを用いることで,すべての疾患の表現型予測が大幅に向上することが示唆された。

Detailed phenotype information is fundamental to accurate diagnosis and risk estimation of diseases. As a rich source of phenotype information, electronic health records (EHRs) promise to empower diagnostic variant interpretation. However, how to accurately and efficiently extract phenotypes from the heterogeneous EHR data remains a challenge. In this work, we present PheME, an Ensemble framework using Multi-modality data of structured EHRs and unstructured clinical notes for accurate Phenotype prediction. Firstly, we employ multiple deep neural networks to learn reliable representations from the sparse structured EHR data and redundant clinical notes. A multi-modal model then aligns multi-modal features onto the same latent space to predict phenotypes. Secondly, we leverage ensemble learning to combine outputs from single-modal models and multi-modal models to improve phenotype predictions. We choose seven diseases to evaluate the phenotyping performance of the proposed framework. Experimental results show that using multi-modal data significantly improves phenotype prediction in all diseases, the proposed ensemble learning framework can further boost the performance.
翻訳日:2023-03-21 17:07:06 公開日:2023-03-19
# 肺がんスクリーニングにおけるCNN-RNNハイブリッド法による生存分析

A hybrid CNN-RNN approach for survival analysis in a Lung Cancer Screening study ( http://arxiv.org/abs/2303.10789v1 )

ライセンス: Link先を確認
Yaozhi Lu, Shahab Aslani, An Zhao, Ahmed Shahin, David Barber, Mark Emberton, Daniel C. Alexander, Joseph Jacob(参考訳) 本研究では, 肺癌検診における長期生存について, cnn-rnn法を併用して検討する。 心血管障害および呼吸障害で死亡した被験者は,CTスキャンでCNNモデルを用いて画像の特徴を撮像し,RNNモデルを用いて時系列および大域的情報の調査を行った。 モデルは、心血管系および呼吸系死を患った被験者と、参加者の年齢、性別、喫煙歴にマッチするコントロールコホートを訓練した。 組み合わせたモデルは0.76のAUCを達成でき、心臓血管の死亡予測において人間より優れている。 対応するF1とMatthews相関係数はそれぞれ0.63と0.42である。 モデルの一般化性はさらに「外部」コホート上で検証される。 同じモデルをCox Proportional Hazardモデルを用いて生存分析に適用した。 追跡履歴を組み込むことで生存予測が改善されることが実証された。 coxニューラルネットワークは、内部データセットで0.75、外部データセットで0.69のicpwcインデックスを実現できる。 長期生存に関連する画像特徴の強調は、予防的介入、特に未認識の病理について適切に焦点を合わせるのに役立つため、患者の病状を減少させる可能性がある。

In this study, we present a hybrid CNN-RNN approach to investigate long-term survival of subjects in a lung cancer screening study. Subjects who died of cardiovascular and respiratory causes were identified whereby the CNN model was used to capture imaging features in the CT scans and the RNN model was used to investigate time series and thus global information. The models were trained on subjects who underwent cardiovascular and respiratory deaths and a control cohort matched to participant age, gender, and smoking history. The combined model can achieve an AUC of 0.76 which outperforms humans at cardiovascular mortality prediction. The corresponding F1 and Matthews Correlation Coefficient are 0.63 and 0.42 respectively. The generalisability of the model is further validated on an 'external' cohort. The same models were applied to survival analysis with the Cox Proportional Hazard model. It was demonstrated that incorporating the follow-up history can lead to improvement in survival prediction. The Cox neural network can achieve an IPCW C-index of 0.75 on the internal dataset and 0.69 on an external dataset. Delineating imaging features associated with long-term survival can help focus preventative interventions appropriately, particularly for under-recognised pathologies thereby potentially reducing patient morbidity.
翻訳日:2023-03-21 17:06:49 公開日:2023-03-19
# MATIS:手術器具分割用マスケアテンショントランス

MATIS: Masked-Attention Transformers for Surgical Instrument Segmentation ( http://arxiv.org/abs/2303.09514v2 )

ライセンス: Link先を確認
Nicol\'as Ayobi, Alejandra P\'erez-Rond\'on, Santiago Rodr\'iguez, Pablo Arbel\'aez(参考訳) そこで本研究では,2段階の完全トランスフォーマティブ法であるmatis(手術用インスツルメンテーションセグメンテーション)のためのマスク付きアテンショントランスフォーマを提案する。 MATISは、タスクのインスタンスレベルの性質を利用して、一連の細かな機器領域の提案を生成・分類するマスク付きアテンションモジュールを使用する。 本手法は,映像変換器による長期映像レベル情報を取り入れ,時間的整合性の向上とマスク分類の強化を図る。 当社のアプローチは、Endovis 2017とEndovis 2018の2つの標準公開ベンチマークで検証しています。 実験により,matisのフレーム単位のベースラインが従来の最先端のメソッドよりも優れており,時間的一貫性モジュールを含めれば,モデルの性能がさらに向上することを示した。

We propose Masked-Attention Transformers for Surgical Instrument Segmentation (MATIS), a two-stage, fully transformer-based method that leverages modern pixel-wise attention mechanisms for instrument segmentation. MATIS exploits the instance-level nature of the task by employing a masked attention module that generates and classifies a set of fine instrument region proposals. Our method incorporates long-term video-level information through video transformers to improve temporal consistency and enhance mask classification. We validate our approach in the two standard public benchmarks, Endovis 2017 and Endovis 2018. Our experiments demonstrate that MATIS' per-frame baseline outperforms previous state-of-the-art methods and that including our temporal consistency module boosts our model's performance further.
翻訳日:2023-03-21 11:30:34 公開日:2023-03-19
# 肺セグメンテーションを用いたct検査によるcovid-19検出の増強と重症度

Enhanced detection of the presence and severity of COVID-19 from CT scans using lung segmentation ( http://arxiv.org/abs/2303.09440v2 )

ライセンス: Link先を確認
Robert Turnbull(参考訳) 医療画像の自動解析の改善は、患者にケアを提供するためのより多くの選択肢を提供する。 2023年のAI対応医療画像分析ワークショップとコビッド-19診断コンペティション(AI-MIA-COV19D)は、CTスキャンから新型コロナウイルスの存在と重症度を検出する機械学習手法を試験、洗練する機会を提供する。 本稿では2022年大会に提出されたディープラーニングモデルであるCov3dのバージョン2を示す。 モデルは、CTスキャンの肺を分画し、この領域への入力を収穫する前処理ステップによって改善されている。 その結果、CTスキャンにおけるCOVID-19の存在を予測するための検証マクロF1スコアが93.2%となり、ベースラインの74.%を大きく上回っている。 タスク2の検証セットにおけるcovid-19の重症度を予測するマクロf1スコアを72.8%と、ベースラインの38%を上回っている。

Improving automated analysis of medical imaging will provide clinicians more options in providing care for patients. The 2023 AI-enabled Medical Image Analysis Workshop and Covid-19 Diagnosis Competition (AI-MIA-COV19D) provides an opportunity to test and refine machine learning methods for detecting the presence and severity of COVID-19 in patients from CT scans. This paper presents version 2 of Cov3d, a deep learning model submitted in the 2022 competition. The model has been improved through a preprocessing step which segments the lungs in the CT scan and crops the input to this region. It results in a validation macro F1 score for predicting the presence of COVID-19 in the CT scans at 93.2% which is significantly above the baseline of 74\%. It gives a macro F1 score for predicting the severity of COVID-19 on the validation set for task 2 as 72.8% which is above the baseline of 38%.
翻訳日:2023-03-21 11:30:20 公開日:2023-03-19
# インフォメーション行動分析におけるトランスフォーマティブに基づく映像フレームレベルの予測

A transformer-based approach to video frame-level prediction in Affective Behaviour Analysis In-the-wild ( http://arxiv.org/abs/2303.09293v2 )

ライセンス: Link先を確認
Dang-Khanh Nguyen, Ngoc-Huynh Ho, Sudarshan Pant, Hyung-Jeong Yang(参考訳) 近年、インフルエンサーコンピューティングを含む多くのアプリケーションにおいて、トランスフォーマーアーキテクチャが支配的なパラダイムとなっている。 本報告では,第5回情動行動分析における感情分類タスクを処理するトランスフォーマティブモデルを提案する。 注意モデルと合成データセットを利用することで、オーガナイザが提供するデータセットであるAff-Wild2の検証セットでスコア0.4775を得る。

In recent years, transformer architecture has been a dominating paradigm in many applications, including affective computing. In this report, we propose our transformer-based model to handle Emotion Classification Task in the 5th Affective Behavior Analysis In-the-wild Competition. By leveraging the attentive model and the synthetic dataset, we attain a score of 0.4775 on the validation set of Aff-Wild2, the dataset provided by the organizer.
翻訳日:2023-03-21 11:29:40 公開日:2023-03-19