このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220706となっている論文です。

PDF登録状況(公開日: 20220706)

TitleAuthorsAbstract論文公表日・翻訳日
# フェデレーションニューラルアーキテクチャ探索

Federated Neural Architecture Search ( http://arxiv.org/abs/2002.06352v5 )

ライセンス: Link先を確認
Jinliang Yuan, Mengwei Xu, Yuxin Zhao, Kaigui Bian, Gang Huang, Xuanzhe Liu and Shangguang Wang(参考訳) モバイルインテリジェンスを有効にしながらユーザのプライバシを保護するため、分散データ上でディープニューラルネットワークをトレーニングするテクニックが提案されている。 しかし、分散データによるトレーニングは、ニューラルネットワークの設計を以前と同じように非常に難しくする。 このような難しさは、異種モバイルプラットフォーム向けの異なるニューラルアーキテクチャの設計とデプロイにおいてさらに増幅される。 本研究では,連合型ニューラルネットワーク探索と呼ばれる新しいdnnトレーニングパラダイムであるフェデレーションnasとして,分散トレーニングへの自動ニューラルアーキテクチャ探索を提案する。 オンクライアントの計算リソースと通信リソースを制限するという課題に対処するため,我々は,効率のよいフェデレーションnasのための高度に最適化されたフレームワークであるfeednasを提案する。 fednasは、アーキテクチャ検索プロセス中にモデル候補の再トレーニングが不十分な重要な機会をフル活用し、部分クライアントでの並列候補トレーニング、パフォーマンスが劣る早期ドロップ候補、動的ラウンド番号の3つの重要な最適化を取り入れている。 大規模なデータセットと典型的なCNNアーキテクチャでテストされたFedNASは、集中型データでモデルをトレーニングする最先端NASアルゴリズムと同等のモデル精度を実現し、フェデレートNASの単純な設計に比べて、クライアントコストを最大2桁削減する。

To preserve user privacy while enabling mobile intelligence, techniques have been proposed to train deep neural networks on decentralized data. However, training over decentralized data makes the design of neural architecture quite difficult as it already was. Such difficulty is further amplified when designing and deploying different neural architectures for heterogeneous mobile platforms. In this work, we propose an automatic neural architecture search into the decentralized training, as a new DNN training paradigm called Federated Neural Architecture Search, namely federated NAS. To deal with the primary challenge of limited on-client computational and communication resources, we present FedNAS, a highly optimized framework for efficient federated NAS. FedNAS fully exploits the key opportunity of insufficient model candidate re-training during the architecture search process, and incorporates three key optimizations: parallel candidates training on partial clients, early dropping candidates with inferior performance, and dynamic round numbers. Tested on large-scale datasets and typical CNN architectures, FedNAS achieves comparable model accuracy as state-of-the-art NAS algorithm that trains models with centralized data, and also reduces the client cost by up to two orders of magnitude compared to a straightforward design of federated NAS.
翻訳日:2022-12-31 23:19:29 公開日:2022-07-06
# MoTiAC: リアルタイム入札のための多目的アクタークリティカル

MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding ( http://arxiv.org/abs/2002.07408v2 )

ライセンス: Link先を確認
Haolin Zhou, Chaoqi Yang, Xiaofeng Gao, Qiong Chen, Gongshen Liu and Guihai Chen(参考訳) オンラインリアルタイム入札(英語: Online Real-Time Bidding, RTB)は、広告主が広告インプレッションを競う複雑なオークションゲームである。 ディスプレイコストやROI(Return on Investment)、その他の影響力のあるキーパフォーマンス指標(KPI)を考慮すると、大きな広告プラットフォームは、ダイナミックスにおけるさまざまな目標間のトレードオフのバランスをとろうとします。 この課題を解決するために,MoTiACと呼ばれる強化学習(RL)に基づくマルチObjecTive Actor-Criticsアルゴリズムを提案する。 MoTiACでは、客観的なエージェントが異なる目標と視点でグローバルネットワークを非同期に更新し、堅牢な入札ポリシーにつながる。 従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。 さらに、我々のモデルがパレート最適性に収束することを数学的に証明する。 最後に、Tencentの大規模実世界の商用データセットの実験は、MoTiACの有効性と最近の一連のアプローチの有効性を検証する。

Online Real-Time Bidding (RTB) is a complex auction game among which advertisers struggle to bid for ad impressions when a user request occurs. Considering display cost, Return on Investment (ROI), and other influential Key Performance Indicators (KPIs), large ad platforms try to balance the trade-off among various goals in dynamics. To address the challenge, we propose a Multi-ObjecTive Actor-Critics algorithm based on reinforcement learning (RL), named MoTiAC, for the problem of bidding optimization with various goals. In MoTiAC, objective-specific agents update the global network asynchronously with different goals and perspectives, leading to a robust bidding policy. Unlike previous RL models, the proposed MoTiAC can simultaneously fulfill multi-objective tasks in complicated bidding environments. In addition, we mathematically prove that our model will converge to Pareto optimality. Finally, experiments on a large-scale real-world commercial dataset from Tencent verify the effectiveness of MoTiAC versus a set of recent approaches
翻訳日:2022-12-30 19:15:25 公開日:2022-07-06
# アンカーフリー物体検出のための位置不確かさ推定

Localization Uncertainty Estimation for Anchor-Free Object Detection ( http://arxiv.org/abs/2006.15607v6 )

ライセンス: Link先を確認
Youngwan Lee, Joong-won Hwang, Hyung-Il Kim, Kimin Yun, Yongjin Kwon, Yuseok Bae, Sung Ju Hwang(参考訳) センサノイズや不完全なデータを含む不安定な環境では, 手術ロボットや自律走行車などの安全上重要なシステムが動作しているため, 物体検出装置が位置不確実性を考慮することが望ましい。 しかし、アンカーベース物体検出のための既存の不確実性推定手法にはいくつかの制限がある。 1) 位置 (中心点) やスケール (幅, 高さ) などの特性やスケールが異なる異種物体特性の不確かさをモデル化し, 推定が困難であった。 2) それらのボックスオフセットはガウス分布としてモデル化され、ディラックのデルタ分布に従う基底真理境界ボックスとは相容れない。 3) アンカーベース法はアンカーハイパーパラメータに敏感であるため, 局所化の不確かさはハイパーパラメータの選択に非常に敏感である。 これらの制約に対処するために, アンカーフリー物体検出のためのUADと呼ばれる新しい位置不確実性推定手法を提案する。 本手法は, ボックスオフセット(左, 右, トップ, ボトム)の4方向の不確かさを均一に捉え, いずれの方向が不確かであるかを判断し, [0, 1] における不確かさの定量的値を与える。 このような不確実性推定を可能にするため、我々は、モデル不特定化問題を緩和するIoUによる可能性損失の重み付けにより、新しい不確実性損失、負の電力対数類似性損失を計測する。 さらに,推定不確かさを分類スコアに反映する不確実性認識焦点損失を提案する。 COCOデータセットを用いた実験結果から,計算効率を犠牲にすることなくFCOSを最大1.8ポイント向上することを確認した。

Since many safety-critical systems, such as surgical robots and autonomous driving cars operate in unstable environments with sensor noise and incomplete data, it is desirable for object detectors to take the localization uncertainty into account. However, there are several limitations of the existing uncertainty estimation methods for anchor-based object detection. 1) They model the uncertainty of the heterogeneous object properties with different characteristics and scales, such as location (center point) and scale (width, height), which could be difficult to estimate. 2) They model box offsets as Gaussian distributions, which is not compatible with the ground truth bounding boxes that follow the Dirac delta distribution. 3) Since anchor-based methods are sensitive to anchor hyper-parameters, their localization uncertainty could also be highly sensitive to the choice of hyper-parameters. To tackle these limitations, we propose a new localization uncertainty estimation method called UAD for anchor-free object detection. Our method captures the uncertainty in four directions of box offsets (left, right, top, bottom) that are homogeneous, so that it can tell which direction is uncertain, and provide a quantitative value of uncertainty in [0, 1]. To enable such uncertainty estimation, we design a new uncertainty loss, negative power log-likelihood loss, to measure the localization uncertainty by weighting the likelihood loss by its IoU, which alleviates the model misspecification problem. Furthermore, we propose an uncertainty-aware focal loss for reflecting the estimated uncertainty to the classification score. Experimental results on COCO datasets demonstrate that our method significantly improves FCOS, by up to 1.8 points, without sacrificing computational efficiency.
翻訳日:2022-11-16 02:52:54 公開日:2022-07-06
# 大域的確率的最適化粒子フィルタアルゴリズム

A Global Stochastic Optimization Particle Filter Algorithm ( http://arxiv.org/abs/2007.04803v9 )

ライセンス: Link先を確認
Mathieu Gerber and Randal Douc(参考訳) 目的関数がマルチモーダルあるいはサドル点を持つ状況において、G-PFSO(G-PFSO)と呼ぶ新しいオンラインアルゴリズムを導入する。 G-PFSOを支える鍵要素は確率分布である (a) サンプルサイズが大きくなるにつれて対象パラメータ値に集中することが示される。 b) を標準粒子フィルタアルゴリズムを用いて効率的に推定することができる。 この分布は学習速度に依存するが、学習速度が速いほど検索空間の所望の要素に集中するが、G-PFSOは目的関数の局所的な最適化から逃れる可能性が低い。 学習速度が遅い高速収束率を達成するために、G-PFSOは確率勾配の文献でよく知られる平均化の加速度特性を利用する。 いくつかの挑戦的な推定問題を考えると、G-PFSOは高い確率で目的関数の最高モードを見つけ、最適速度でその大域的最大値に収束することを示した。 この研究の焦点は対数的な最大化であるが、提案手法とその理論は期待によって定義される関数を最適化するためにより一般的に適用される。

We introduce a new online algorithm for expected log-likelihood maximization in situations where the objective function is multi-modal and/or has saddle points, that we term G-PFSO. The key element underpinning G-PFSO is a probability distribution which (a) is shown to concentrate on the target parameter value as the sample size increases and (b) can be efficiently estimated by means of a standard particle filter algorithm. This distribution depends on a learning rate, where the faster the learning rate the quicker it concentrates on the desired element of the search space, but the less likely G-PFSO is to escape from a local optimum of the objective function. In order to achieve a fast convergence rate with a slow learning rate, G-PFSO exploits the acceleration property of averaging, well-known in the stochastic gradient literature. Considering several challenging estimation problems, the numerical experiments show that, with high probability, G-PFSO successfully finds the highest mode of the objective function and converges to its global maximizer at the optimal rate. While the focus of this work is expected log-likelihood maximization, the proposed methodology and its theory apply more generally for optimizing a function defined through an expectation.
翻訳日:2022-11-12 05:20:21 公開日:2022-07-06
# 深層学習とロボット状態を用いたロボット支援手術における力推定に向けて

Toward Force Estimation in Robot-Assisted Surgery using Deep Learning with Vision and Robot State ( http://arxiv.org/abs/2011.02112v4 )

ライセンス: Link先を確認
Zonghe Chua, Anthony M. Jarc, Allison M. Okamura(参考訳) 遠隔操作型ロボット支援手術における相互作用力の知識は、人間の操作者への力フィードバックを可能にし、組織ハンドリングスキルを評価するために使用できる。 しかし、生体適合性、殺菌性、コスト効率のよいセンサーを必要とするため、エンドエフェクターでの直接力センシングは困難である。 畳み込みニューラルネットワークを用いた視覚ベースのディープラーニングは、新しいシナリオへの一般化とリアルタイム推論に関して疑問が残るが、有用な力推定を提供するための有望なアプローチである。 本稿では,RGB画像とロボット状態を入力として使用する力推定ニューラルネットワークを提案する。 自己収集したデータセットを用いて、ネットワークを単一の入力タイプのみを含む変種と比較し、新たな視点、ワークスペースの位置、材料、ツールへの一般化方法を評価した。 視覚ベースのネットワークは視点の変化に敏感であり、一方、状態のみのネットワークは作業空間の変化に頑健であった。 状態と視覚の両方の入力を持つネットワークは、見えないツールにとって最も精度が高く、視点の変化に対して適度に堅牢であった。 特徴除去実験により, 位置特徴のみを用いることで, 力特徴のみを入力として使用するよりも精度が高いことがわかった。 状態入力と視覚入力の両方のネットワークは、物理ベースのベースラインモデルよりも精度が高い。 これは、ベースラインリカレントニューラルネットワークよりも精度は高いが計算時間が速いため、リアルタイムアプリケーションに適している。

Knowledge of interaction forces during teleoperated robot-assisted surgery could be used to enable force feedback to human operators and evaluate tissue handling skill. However, direct force sensing at the end-effector is challenging because it requires biocompatible, sterilizable, and cost-effective sensors. Vision-based deep learning using convolutional neural networks is a promising approach for providing useful force estimates, though questions remain about generalization to new scenarios and real-time inference. We present a force estimation neural network that uses RGB images and robot state as inputs. Using a self-collected dataset, we compared the network to variants that included only a single input type, and evaluated how they generalized to new viewpoints, workspace positions, materials, and tools. We found that vision-based networks were sensitive to shifts in viewpoints, while state-only networks were robust to changes in workspace. The network with both state and vision inputs had the highest accuracy for an unseen tool, and was moderately robust to changes in viewpoints. Through feature removal studies, we found that using only position features produced better accuracy than using only force features as input. The network with both state and vision inputs outperformed a physics-based baseline model in accuracy. It showed comparable accuracy but faster computation times than a baseline recurrent neural network, making it better suited for real-time applications.
翻訳日:2022-09-29 23:08:12 公開日:2022-07-06
# HALO 1.0: ハードウェア非依存型HPCのためのハードウェア非依存型プログラミングと真のパフォーマンスポータビリティを実現するハードウェア非依存型アクセラレータオーケストレーションフレームワーク

HALO 1.0: A Hardware-agnostic Accelerator Orchestration Framework for Enabling Hardware-agnostic Programming with True Performance Portability for Heterogeneous HPC ( http://arxiv.org/abs/2011.10896v5 )

ライセンス: Link先を確認
Michael Riera, Erfan Bank Tavakoli, Masudul Hassan Quraishi, Fengbo Ren(参考訳) 本稿では,ハードウェアに依存しないアクセラレータオーケストレーション(HALO)の原則を実装した,オープンな拡張可能なマルチエージェントソフトウェアフレームワークであるHALO 1.0を提案する。 haloは新しいcompute-centric message passing interface (c^2mpi)仕様を実装し、ヘテロジニアスアクセラレータ間でハードウェアに依存しないホストアプリケーションのパフォーマンスポータブルな実行を可能にする。 Intel Xeon E5-2620 CPU、Intel Arria 10 GX FPGA、NVIDIA GeForce RTX 2080 Ti GPUをベースとした8つの広く使われているHPCサブルーチンの評価実験の結果、HALO 1.0はホストプログラムが、OpenCLベースのソリューションよりも最大5桁高いパフォーマンスのポータビリティスコアで、すべてのコンピュータデバイス上で実行するための統一的な制御フローを可能にする。

This paper presents HALO 1.0, an open-ended extensible multi-agent software framework that implements a set of proposed hardware-agnostic accelerator orchestration (HALO) principles. HALO implements a novel compute-centric message passing interface (C^2MPI) specification for enabling the performance portable execution of a hardware-agnostic host application across heterogeneous accelerators. The experiment results of evaluating eight widely used HPC subroutines based on Intel Xeon E5-2620 CPUs, Intel Arria 10 GX FPGAs, and NVIDIA GeForce RTX 2080 Ti GPUs show that HALO 1.0 allows for a unified control flow for host programs to run across all the computing devices with a consistently top performance portability score, which is up to five orders of magnitude higher than the OpenCL-based solution.
翻訳日:2022-09-22 12:07:55 公開日:2022-07-06
# GraphCFC:マルチモーダル会話感情認識のための直接グラフに基づくクロスモーダル特徴補完手法

GraphCFC: A Directed Graph based Cross-modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition ( http://arxiv.org/abs/2207.12261v1 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng(参考訳) Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。 マルチモーダルERCはユニモーダルアプローチの欠点を軽減することができる。 近年、グラフニューラルネットワーク(GNN)は、関係モデリングにおける優れた性能のため、様々な分野で広く利用されている。 マルチモーダルERCでは、GNNは長距離コンテキスト情報とモーダル間対話情報の両方を抽出することができる。 残念ながら、mmgcnのような既存のメソッドは複数のモーダルを直接融合するので、冗長な情報を生成し、異種情報を失う可能性がある。 本稿では,コンテキスト情報やインタラクティブな情報を効率的にモデル化できる有向グラフ型クロスモーダル機能補完(graphcfc)モジュールを提案する。 graphcfcは、複数の部分空間抽出器とペアワイズクロスモーダル補完(paircc)戦略を利用して、マルチモーダル融合における異種ギャップの問題を緩和する。 構築したグラフから様々なエッジを抽出してエンコードすることで、gnnがメッセージパッシングを行う際に重要な文脈的およびインタラクティブな情報をより正確に抽出することができる。 さらに,GAT-MLPと呼ばれるGNN構造を設計し,マルチモーダル学習のための新しいネットワークフレームワークを提供する。 2つのベンチマークデータセットの実験結果は、GraphCFCが最先端(SOTA)アプローチより優れていることを示している。

Emotion Recognition in Conversation (ERC) plays a significant part in Human-Computer Interaction (HCI) systems since it can provide empathetic services. Multimodal ERC can mitigate the drawbacks of uni-modal approaches. Recently, Graph Neural Networks (GNNs) have been widely used in a variety of fields due to their superior performance in relation modeling. In multimodal ERC, GNNs are capable of extracting both long-distance contextual information and inter-modal interactive information. Unfortunately, since existing methods such as MMGCN directly fuse multiple modalities, redundant information may be generated and heterogeneous information may be lost. In this work, we present a directed Graph based Cross-modal Feature Complementation (GraphCFC) module that can efficiently model contextual and interactive information. GraphCFC alleviates the problem of heterogeneity gap in multimodal fusion by utilizing multiple subspace extractors and Pair-wise Cross-modal Complementary (PairCC) strategy. We extract various types of edges from the constructed graph for encoding, thus enabling GNNs to extract crucial contextual and interactive information more accurately when performing message passing. Furthermore, we design a GNN structure called GAT-MLP, which can provide a new unified network framework for multimodal learning. The experimental results on two benchmark datasets show that our GraphCFC outperforms the state-of-the-art (SOTA) approaches.
翻訳日:2022-07-31 14:43:15 公開日:2022-07-06
# (参考訳) Ant Hill Colonization Optimization Algorithm(AHCOA)を用いた線形アンテナアレイの最適パターン合成

Optimal Pattern synthesis of linear antenna array using Ant Hill Colonization Optimization algorithm(AHCOA) ( http://arxiv.org/abs/2207.04046v1 )

ライセンス: CC BY 4.0
Sunit Shantanu Digamber Fulari, Harbinder Singh(参考訳) 本研究の目的は電磁・アンテナコミュニティにAHCOAを導入することである。 AHCOAは新しい自然にインスパイアされたメタヒューリスティックアルゴリズムで、アリの丘の植民には階層構造と部門がある。 制約のない最適化問題だけでなく、制約付き最適化問題を解く確率的ポテンシャルも高い。 本稿では,アンテナ要素の均等間隔を考慮した一様励起により,線形アンテナアレイのパターン合成にahcoaを適用した。 AHCOAは、最小サイドローブレベルを達成する配列パターンを得るのに使用される。 結果は、アリライオンオプティマイザのような芸術性に基づく他のアルゴリズムと比較され、AHCOAは大幅に改善されている。

The aim of this paper is to introduce AHCOA to the electromagnetic and antenna community. AHCOA is a new nature inspired meta heuristic algorithm inspired by how there is a hierarchy and departments in the ant hill colonization. It has high probabilistic potential in solving not only unconstrained but also constrained optimization problems. In this paper the AHCOA is applied to linear antenna array for better pattern synthesis in the following ways : By uniform excitation considering equal spacing of the antenna elements with respect to the uniform array. AHCOA is used in obtaining an array pattern to achieve minimum side lobe levels. The results are compared to other state of the art nature based algorithms such as ant lion optimizer, which show a considerable improvement in AHCOA.
翻訳日:2022-07-17 17:59:00 公開日:2022-07-06
# 動的多目的最適化のための世代・環境対応戦略に基づく枠組み

A Framework Based on Generational and Environmental Response Strategies for Dynamic Multi-objective Optimization ( http://arxiv.org/abs/2207.04047v1 )

ライセンス: Link先を確認
Qingya Li, Xiangzhi Liu, Fuqiang Wang, Shuai Wang, Peng Zhang, Xiaoming Wu(参考訳) 動的多目的最適化問題(DMOP)のダイナミクスと不確実性のため、アルゴリズムが次の環境変化、特に複雑な環境において設定された満足な解を見つけることは困難である。 一つの理由は、環境静的な段階の情報は従来の枠組みではうまく利用できないためかもしれない。 本稿では, 環境変化段階と環境静的段階の両方において, 世代・環境対応戦略(FGERS)に基づく新たな枠組みを提案し, 両段階の個体群進化情報を得る。 従来のフレームワークとは異なり、応答戦略は環境変化の段階でのみ実行される。 シンプルにするために、フィードフォワードセンターポイント戦略が、新しい動的フレームワーク(FGERS-CPS)の応答戦略に選ばれた。 fgers-cpsは, 環境変化段階における最適解の変動傾向を予測するだけでなく, 環境変動段階における数世代後における個体群の進化傾向を予測する。 フィードフォワードセンターポイント戦略と合わせて、シンプルなメモリ戦略と適応的な多様性維持戦略を用いて、完全なFGERS-CPSを形成した。 様々な特徴を持つ13のDMOPにおいて、FGERS-CPSは従来のフレームワークの4つの古典的応答戦略と比較された。 FGERS-CPSはDMOPに有効である。

Due to the dynamics and uncertainty of the dynamic multi-objective optimization problems (DMOPs), it is difficult for algorithms to find a satisfactory solution set before the next environmental change, especially for some complex environments. One reason may be that the information in the environmental static stage can not be used well in the traditional framework. In this paper, a novel framework based on generational and environmental response strategies (FGERS) is proposed, in which response strategies are run both in the environmental change stage and the environmental static stage to obtain population evolution information of those both stages. Unlike in the traditional framework, response strategies are only run in the environmental change stage. For simplicity, the feed-forward center point strategy was chosen to be the response strategy in the novel dynamic framework (FGERS-CPS). FGERS-CPS is not only to predict change trend of the optimum solution set in the environmental change stage, but to predict the evolution trend of the population after several generations in the environmental static stage. Together with the feed-forward center point strategy, a simple memory strategy and adaptive diversity maintenance strategy were used to form the complete FGERS-CPS. On 13 DMOPs with various characteristics, FGERS-CPS was compared with four classical response strategies in the traditional framework. Experimental results show that FGERS-CPS is effective for DMOPs.
翻訳日:2022-07-17 16:04:26 公開日:2022-07-06
# 次の購入予測のための逐次レコメンデーションモデル

Sequential Recommendation Model for Next Purchase Prediction ( http://arxiv.org/abs/2207.06225v1 )

ライセンス: Link先を確認
Xin Chen, Alex Reibman, Sanjay Arora(参考訳) 現代のデジタルマーケティング体験を提供する際に、タイムラインと推奨のコンテキストの正確さがますます重要になっている。 従来のレコメンデーションシステム(rs)は、過去の購入を考慮し、関連するが時間不変な項目をユーザに提案している。 これらのレコメンデーションは、購入直前の顧客の特定のニーズよりも、顧客の一般的な嗜好にのみ対応します。 対照的に、進化する好みを測定するためのトランザクション、購入、または経験の順番を考えるrssは、顧客に対してより有意義で効果的な推奨を提供する: 逐次rssは、ユーザの現在のニーズに対するより優れた行動的理解から利益を得るだけでなく、予測力も得る。 本稿では,46Kカード保有者を対象とした270万枚以上のクレジットカード取引データを用いて,シーケンシャルレコメンデーションシステムの有効性を実証・ランク付けする。 まず、生のトランザクションデータにオートエンコーダを使用し、観測されたトランザクションエンコーディングをGRUベースのシーケンシャルモデルに送信する。 シーケンシャルモデルは、既存の研究に従って、サンプル外テストセットでMAP@1メトリックの47%を生成する。 また,スケーラブルで低レイテンシ,イベントベースのディジタルエクスペリエンスアーキテクチャであるnexusにシーケンシャルrsを用いたリアルタイム予測を組み込むことの意味についても論じる。

Timeliness and contextual accuracy of recommendations are increasingly important when delivering contemporary digital marketing experiences. Conventional recommender systems (RS) suggest relevant but time-invariant items to users by accounting for their past purchases. These recommendations only map to customers' general preferences rather than a customer's specific needs immediately preceding a purchase. In contrast, RSs that consider the order of transactions, purchases, or experiences to measure evolving preferences can offer more salient and effective recommendations to customers: Sequential RSs not only benefit from a better behavioral understanding of a user's current needs but also better predictive power. In this paper, we demonstrate and rank the effectiveness of a sequential recommendation system by utilizing a production dataset of over 2.7 million credit card transactions for 46K cardholders. The method first employs an autoencoder on raw transaction data and submits observed transaction encodings to a GRU-based sequential model. The sequential model produces a MAP@1 metric of 47% on the out-of-sample test set, in line with existing research. We also discuss implications for embedding real-time predictions using the sequential RS into Nexus, a scalable, low-latency, event-based digital experience architecture.
翻訳日:2022-07-17 16:04:04 公開日:2022-07-06
# (参考訳) Neural Grasps: 複数のロボットハンドのグラフを学習する

NeuralGrasps: Learning Implicit Representations for Grasps of Multiple Robotic Hands ( http://arxiv.org/abs/2207.02959v1 )

ライセンス: CC BY 4.0
Ninad Khargonkar, Neil Song, Zesheng Xu, Balakrishnan Prabhakaran, Yu Xiang(参考訳) 複数のロボットハンドから物体を把握するための暗黙表現を導入する。 複数のロボットハンドにまたがる異なる把持は、共有潜在空間に符号化される。 各潜在ベクトルは、2つの3d形状の符号付き距離関数の観点で把持ポーズで物体の3d形状とロボットハンドの3d形状に復号するように学習される。 さらに,ロボットハンド間のグリップ間の類似性を保持するために,潜伏空間内の距離測定値が学習され,ロボットハンドの接触領域に応じてグリップの類似性を定義する。 この特性により,人間の手を含む異なるグリッパー間で把持を伝達でき,把持移動はロボット間で把持スキルを共有し,ロボットが人間から把持スキルを学習できる可能性がある。 さらに,対象物の符号付き距離関数と暗黙的表現における把持関数は,部分点雲からの接触最適化による6次元物体ポーズ推定に利用可能であり,実世界でロボットによる把持が可能となる。

We introduce a neural implicit representation for grasps of objects from multiple robotic hands. Different grasps across multiple robotic hands are encoded into a shared latent space. Each latent vector is learned to decode to the 3D shape of an object and the 3D shape of a robotic hand in a grasping pose in terms of the signed distance functions of the two 3D shapes. In addition, the distance metric in the latent space is learned to preserve the similarity between grasps across different robotic hands, where the similarity of grasps is defined according to contact regions of the robotic hands. This property enables our method to transfer grasps between different grippers including a human hand, and grasp transfer has the potential to share grasping skills between robots and enable robots to learn grasping skills from humans. Furthermore, the encoded signed distance functions of objects and grasps in our implicit representation can be used for 6D object pose estimation with grasping contact optimization from partial point clouds, which enables robotic grasping in the real world.
翻訳日:2022-07-16 11:14:00 公開日:2022-07-06
# 幾何学的深層学習のための非線形演算子について

On Non-Linear operators for Geometric Deep Learning ( http://arxiv.org/abs/2207.03485v1 )

ライセンス: Link先を確認
Gr\'egoire Sergeant-Perthuis (LML), Jakob Maier, Joan Bruna (CIMS), Edouard Oyallon (ISIR)(参考訳) この研究は、多様体 $\mathcal{M}$ 上で定義されるベクトルとスカラー場を写像し、微分同相群 $\text{Diff}(\mathcal{M})$ と可換である。 スカラー場 $L^p_\omega(\mathcal{M,\mathbb{R}})$ の場合、これらの作用素は点次非線型性に対応し、$\mathbb{R}^d$ 上の既知結果を復元および拡張する。 $\mathcal{M}$ 上で定義されたニューラルネットワークの文脈では、ポイントワイド非線型作用素が任意の対称性群と通勤する唯一の普遍族であり、特定の対称性と通勤する専用線型作用素と組み合わせてそれらの体系的利用を正当化することを示している。 ベクトル場 $L^p_\omega(\mathcal{M},T\mathcal{M})$ の場合、これらの作用素は単にスカラー乗法であることを示す。 これは$\text{Diff}(\mathcal{M})$ が高すぎることを示し、$\mathcal{M}$ の対称性上のニューラルネットワークの設計を動機付ける非線形作用素の普遍クラスが存在しないことを示している。

This work studies operators mapping vector and scalar fields defined over a manifold $\mathcal{M}$, and which commute with its group of diffeomorphisms $\text{Diff}(\mathcal{M})$. We prove that in the case of scalar fields $L^p_\omega(\mathcal{M,\mathbb{R}})$, those operators correspond to point-wise non-linearities, recovering and extending known results on $\mathbb{R}^d$. In the context of Neural Networks defined over $\mathcal{M}$, it indicates that point-wise non-linear operators are the only universal family that commutes with any group of symmetries, and justifies their systematic use in combination with dedicated linear operators commuting with specific symmetries. In the case of vector fields $L^p_\omega(\mathcal{M},T\mathcal{M})$, we show that those operators are solely the scalar multiplication. It indicates that $\text{Diff}(\mathcal{M})$ is too rich and that there is no universal class of non-linear operators to motivate the design of Neural Networks over the symmetries of $\mathcal{M}$.
翻訳日:2022-07-11 12:47:36 公開日:2022-07-06
# (参考訳) プライバシー保護型モバイルエッジコンピューティングネットワークにおけるエッジ人気予測のための教師なし反復学習

Unsupervised Recurrent Federated Learning for Edge Popularity Prediction in Privacy-Preserving Mobile Edge Computing Networks ( http://arxiv.org/abs/2207.00755v2 )

ライセンス: CC BY 4.0
Chong Zheng, Shengheng Liu, Yongming Huang, Wei Zhang, Luxi Yang(参考訳) 現在、無線通信は業界全体で急速に変化している。 特に、産業用IoT(Industrial Internet of Things, IIoT)の実現技術としてのモバイルエッジコンピューティング(MEC)は、強力なコンピューティング/ストレージインフラストラクチャをモバイル端末に近づけることで、応答レイテンシを大幅に低下させる。 ネットワークエッジにおけるアクティブキャッシュのメリットを享受するためには、エンドデバイス間の人気パターンに関する正確な知識が不可欠である。 しかし、空間や時間のコンテンツの人気と、多くのIIoTシナリオにおけるデータプライバシ要件の複雑さと動的な性質は、買収に難しい課題をもたらしている。 本稿では,MEC対応IIoTのための教師なし,プライバシ保護による人気予測フレームワークを提案する。 ローカルおよびグローバルな人気の概念を導入し、各ユーザの時間変化による人気度をモデルフリーなマルコフ連鎖としてモデル化する。 本研究では,非教師付き再帰的フェデレーション学習(urfl)アルゴリズムを提案し,プライバシ保護と教師なし学習を実現しつつ,分散人気を予測する。 シミュレーションにより,提案フレームワークはルート平均二乗誤差を最大60.5\%-68.7\%$に削減することで予測精度を向上できることが示された。 さらに、手動のラベル付けとユーザのデータプライバシの侵害も避けられる。

Nowadays wireless communication is rapidly reshaping entire industry sectors. In particular, mobile edge computing (MEC) as an enabling technology for industrial Internet of things (IIoT) brings powerful computing/storage infrastructure closer to the mobile terminals and, thereby, significant lowers the response latency. To reap the benefit of proactive caching at the network edge, precise knowledge on the popularity pattern among the end devices is essential. However, the complex and dynamic nature of the content popularity over space and time as well as the data-privacy requirements in many IIoT scenarios pose tough challenges to its acquisition. In this article, we propose an unsupervised and privacy-preserving popularity prediction framework for MEC-enabled IIoT. The concepts of local and global popularities are introduced and the time-varying popularity of each user is modelled as a model-free Markov chain. On this basis, a novel unsupervised recurrent federated learning (URFL) algorithm is proposed to predict the distributed popularity while achieve privacy preservation and unsupervised training. Simulations indicate that the proposed framework can enhance the prediction accuracy in terms of a reduced root-mean-squared error by up to $60.5\%-68.7\%$. Additionally, manual labeling and violation of users' data privacy are both avoided.
翻訳日:2022-07-09 09:45:57 公開日:2022-07-06
# (参考訳) FewSOL:ロボット環境でのFew-Shotオブジェクト学習のためのデータセット

FewSOL: A Dataset for Few-Shot Object Learning in Robotic Environments ( http://arxiv.org/abs/2207.03333v1 )

ライセンス: CC BY 4.0
Jishnu Jaykumar P and Yu-Wei Chao and Yu Xiang(参考訳) 本稿では,Few-Shot Object Learning (FewSOL)データセットを導入し,オブジェクトごとの画像を数枚紹介する。 異なるビューから、オブジェクト毎に9つのrgb-dイメージを持つ336の現実世界オブジェクトをキャプチャした。 オブジェクトセグメンテーションマスク、オブジェクトポーズ、オブジェクト属性が提供される。 さらに、330の3dオブジェクトモデルで生成された合成画像を使用してデータセットを補完する。 調査しました (i)被写体分類、及び (ii)データセットを用いたマイラルショット学習とメタラーニングのための最先端手法による共同オブジェクトセグメンテーションとマイラルショット分類 評価結果から, ロボット環境では, 数発の物体分類において, 改良の余地がまだ大きいことがわかった。 我々のデータセットは、分類、検出とセグメンテーション、形状再構成、ポーズ推定、キーポイント対応、属性認識といった、いくつかのショットオブジェクト認識問題の研究に利用できる。 データセットとコードはhttps://irvlutd.github.io/fewsol.com/で入手できる。

We introduce the Few-Shot Object Learning (FewSOL) dataset for object recognition with a few images per object. We captured 336 real-world objects with 9 RGB-D images per object from different views. Object segmentation masks, object poses and object attributes are provided. In addition, synthetic images generated using 330 3D object models are used to augment the dataset. We investigated (i) few-shot object classification and (ii) joint object segmentation and few-shot classification with the state-of-the-art methods for few-shot learning and meta-learning using our dataset. The evaluation results show that there is still a large margin to be improved for few-shot object classification in robotic environments. Our dataset can be used to study a set of few-shot object recognition problems such as classification, detection and segmentation, shape reconstruction, pose estimation, keypoint correspondences and attribute recognition. The dataset and code are available at https://irvlutd.github.io/FewSOL.
翻訳日:2022-07-09 07:43:30 公開日:2022-07-06
# (参考訳) 深層学習モデルを用いたサルポックス皮膚病変検出の可能性

Monkeypox Skin Lesion Detection Using Deep Learning Models: A Feasibility Study ( http://arxiv.org/abs/2207.03342v1 )

ライセンス: CC BY-SA 4.0
Shams Nafisa Ali, Md. Tazuddin Ahmed, Joydip Paul, Tasnim Jahan, S. M. Sakeef Sani, Nawsabah Noor, Taufiq Hasan(参考訳) 最近のサルポックスの流行は、アフリカ以外の40カ国以上で急速に拡大したため、公衆衛生上の懸念となっている。 早期のモンキーポックスの臨床診断はニワトリポックスと麻疹との類似性から困難である。 PCR検査が手に入らない場合、サルポックス病変のコンピュータ支援による検出は、疑われる症例の監視と迅速同定に有用である可能性がある。 十分なトレーニング例が得られれば,皮膚病変の自動検出に深層学習法が有効であることが判明している。 しかし、現在ではサルポックス病ではそのようなデータセットは利用できない。 本研究では,まず,サルポックス,ニワトリポックス,麻疹の皮膚病変画像からなる『サルポックス皮膚病変データセット』(msld)を開発した。 画像は主にウェブサイト、ニュースポータル、そして一般にアクセス可能なケースレポートから収集される。 データ拡張はサンプルサイズを増やすために使用され、3倍のクロスバリデーション実験が設定される。 次のステップでは、サルポックスや他の病気を分類するために、VGG-16、ResNet50、InceptionV3といった事前訓練されたディープラーニングモデルが使用される。 3つのモデルのアンサンブルも開発されている。 resnet50は最高精度が$2.96(\pm4.57\%)、vgg16とアンサンブルシステムは$81.48(\pm6.87\%)、$79.26(\pm1.05\%)である。 プロトタイプのウェブアプリケーションもオンラインサルポックススクリーニングツールとして開発されている。 この制限付きデータセットの最初の結果は有望だが、これらのモデルの一般化性をさらに高めるには、人口統計学的に多様なデータセットが必要である。

The recent monkeypox outbreak has become a public health concern due to its rapid spread in more than 40 countries outside Africa. Clinical diagnosis of monkeypox in an early stage is challenging due to its similarity with chickenpox and measles. In cases where the confirmatory Polymerase Chain Reaction (PCR) tests are not readily available, computer-assisted detection of monkeypox lesions could be beneficial for surveillance and rapid identification of suspected cases. Deep learning methods have been found effective in the automated detection of skin lesions, provided that sufficient training examples are available. However, as of now, such datasets are not available for the monkeypox disease. In the current study, we first develop the ``Monkeypox Skin Lesion Dataset (MSLD)" consisting skin lesion images of monkeypox, chickenpox, and measles. The images are mainly collected from websites, news portals, and publicly accessible case reports. Data augmentation is used to increase the sample size, and a 3-fold cross-validation experiment is set up. In the next step, several pre-trained deep learning models, namely, VGG-16, ResNet50, and InceptionV3 are employed to classify monkeypox and other diseases. An ensemble of the three models is also developed. ResNet50 achieves the best overall accuracy of $82.96(\pm4.57\%)$, while VGG16 and the ensemble system achieved accuracies of $81.48(\pm6.87\%)$ and $79.26(\pm1.05\%)$, respectively. A prototype web-application is also developed as an online monkeypox screening tool. While the initial results on this limited dataset are promising, a larger demographically diverse dataset is required to further enhance the generalizability of these models.
翻訳日:2022-07-09 07:41:38 公開日:2022-07-06
# (参考訳) 機械学習におけるテンソルネットワーク

Tensor networks in machine learning ( http://arxiv.org/abs/2207.02851v1 )

ライセンス: CC BY 4.0
Richik Sengupta, Soumik Adhikary, Ivan Oseledets, Jacob Biamonte(参考訳) テンソルネットワーク(tensor network)は、大規模なデータの配列を表現および近似するために使用される分解の一種である。 与えられたデータセット、量子状態、あるいは高次元の多重線型写像は、より小さな多重線型写像の合成によって決定され近似される。 これはブール関数をゲート配列に分解する方法を思い起こさせる: これはテンソル分解の特別な場合を表し、テンソルのエントリは 0, 1 に置き換えられ、分解は完全になる。 関連する技術の集合はテンソルネットワーク法(tensor network method)と呼ばれる: 対象はいくつかの異なる研究分野において独立に発展し、近年はテンソルネットワークの言語によって相互に関連している。 この分野でのタンタマウント問題はテンソルネットワークの表現可能性と計算オーバーヘッドの低減に関連している。 テンソルネットワークと機械学習の融合は自然である。 一方、機械学習はデータセットを近似するテンソルネットワークの分解を決定するのに役立つ。 一方、与えられたテンソルネットワーク構造は、機械学習モデルと見なすことができる。 ここでテンソルネットワークパラメータは、データセットを学習または分類するために調整される。 本研究では, テンソルネットワークの基礎を復元し, 機械学習におけるテンソルネットワークの理論の展開について解説する。

A tensor network is a type of decomposition used to express and approximate large arrays of data. A given data-set, quantum state or higher dimensional multi-linear map is factored and approximated by a composition of smaller multi-linear maps. This is reminiscent to how a Boolean function might be decomposed into a gate array: this represents a special case of tensor decomposition, in which the tensor entries are replaced by 0, 1 and the factorisation becomes exact. The collection of associated techniques are called, tensor network methods: the subject developed independently in several distinct fields of study, which have more recently become interrelated through the language of tensor networks. The tantamount questions in the field relate to expressability of tensor networks and the reduction of computational overheads. A merger of tensor networks with machine learning is natural. On the one hand, machine learning can aid in determining a factorization of a tensor network approximating a data set. On the other hand, a given tensor network structure can be viewed as a machine learning model. Herein the tensor network parameters are adjusted to learn or classify a data-set. In this survey we recover the basics of tensor networks and explain the ongoing effort to develop the theory of tensor networks in machine learning.
翻訳日:2022-07-09 07:33:17 公開日:2022-07-06
# (参考訳) マニフォールド仮説の融合とその深部生成モデルへの応用

The Union of Manifolds Hypothesis and its Implications for Deep Generative Modelling ( http://arxiv.org/abs/2207.02862v1 )

ライセンス: CC BY 4.0
Bradley C.A. Brown, Anthony L. Caterini, Brendan Leigh Ross, Jesse C. Cresswell, Gabriel Loaiza-Ganem(参考訳) ディープラーニングは、高次元データの低次元表現を学習することに成功した。 この成功は、興味のあるデータに隠れた低次元構造がなければ不可能であり、この存在は、そのデータが低内在次元の未知多様体上にあることを示す多様体仮説によって仮定される。 本稿では,この仮説が典型的にデータに存在する低次元構造を適切に捉えていないことを論じる。 データが単一の多様体上に存在すると仮定すると、内在次元はデータ空間全体にわたって同一であり、この空間の部分領域が異なる数の変動因子を持つことは許されない。 この欠損に対処するため、我々は非コンスタントな内在次元の存在を許容する多様体仮説の統一を提唱した。 我々は、この仮説を一般的な画像データセット上で実証的に検証し、実際、内在的な次元は変更可能であるべきであることを見出した。 また,本質的次元の大きいクラスでは分類が困難であり,この知見が分類精度の向上にどのように役立つかを示す。 次に、深部生成モデル(DGM)の文脈におけるこの仮説の影響に注目します。 現在のdgmの多くは、いくつかの接続されたコンポーネントと/またはさまざまな固有次元を持つデータセットのモデル化に苦労している。 これらの欠点に対処するために、まずデータをクラスタ化し、次に各クラスタ上でDGMをトレーニングするクラスタ化されたDGMを提案する。 クラスタ化されたdgmは,異なる固有次元の複数の接続コンポーネントをモデル化でき,計算量要求を増加させることなく,その非クラスタコンポーネントを実証的に上回ることができる。

Deep learning has had tremendous success at learning low-dimensional representations of high-dimensional data. This success would be impossible if there was no hidden low-dimensional structure in data of interest; this existence is posited by the manifold hypothesis, which states that the data lies on an unknown manifold of low intrinsic dimension. In this paper, we argue that this hypothesis does not properly capture the low-dimensional structure typically present in data. Assuming the data lies on a single manifold implies intrinsic dimension is identical across the entire data space, and does not allow for subregions of this space to have a different number of factors of variation. To address this deficiency, we put forth the union of manifolds hypothesis, which accommodates the existence of non-constant intrinsic dimensions. We empirically verify this hypothesis on commonly-used image datasets, finding that indeed, intrinsic dimension should be allowed to vary. We also show that classes with higher intrinsic dimensions are harder to classify, and how this insight can be used to improve classification accuracy. We then turn our attention to the impact of this hypothesis in the context of deep generative models (DGMs). Most current DGMs struggle to model datasets with several connected components and/or varying intrinsic dimensions. To tackle these shortcomings, we propose clustered DGMs, where we first cluster the data and then train a DGM on each cluster. We show that clustered DGMs can model multiple connected components with different intrinsic dimensions, and empirically outperform their non-clustered counterparts without increasing computational requirements.
翻訳日:2022-07-09 07:16:12 公開日:2022-07-06
# (参考訳) 履歴に過度に適合するな -- 時系列データ拡張

Don't overfit the history -- Recursive time series data augmentation ( http://arxiv.org/abs/2207.02891v1 )

ライセンス: CC BY 4.0
Amine Mohamed Aboussalah, Min-Jae Kwon, Raj G Patel, Cheng Chi, Chi-Guhn Lee(参考訳) 時系列観測は、我々が通常知らない規則によって支配される基礎となる力学系の実現と見なすことができる。 時系列学習タスクには、利用可能なデータにモデルが適合していることを理解する必要があります。 単一の実現に関する訓練は、しばしば一般化の欠如をひどく引き起こす。 この問題に対処するために,時系列拡張のための一般的な再帰的枠組みを導入し,再帰的補間法をrimと呼ぶ。 新しいサンプルは、全ての前の値の再帰的補間関数を用いて、拡張されたサンプルが元の固有時系列のダイナミクスを保存するように生成される。 提案するRIMを特徴付ける理論解析を行い,その試験性能を保証する。 RIMを実時間時系列の多様な事例に適用し、回帰、分類、強化学習タスクの非強化データよりも高い性能を達成する。

Time series observations can be seen as realizations of an underlying dynamical system governed by rules that we typically do not know. For time series learning tasks, we need to understand that we fit our model on available data, which is a unique realized history. Training on a single realization often induces severe overfitting lacking generalization. To address this issue, we introduce a general recursive framework for time series augmentation, which we call Recursive Interpolation Method, denoted as RIM. New samples are generated using a recursive interpolation function of all previous values in such a way that the enhanced samples preserve the original inherent time series dynamics. We perform theoretical analysis to characterize the proposed RIM and to guarantee its test performance. We apply RIM to diverse real world time series cases to achieve strong performance over non-augmented data on regression, classification, and reinforcement learning tasks.
翻訳日:2022-07-09 06:49:49 公開日:2022-07-06
# (参考訳) 因果推論用ダイアグラムの普遍性と因果再生特性について

On The Universality of Diagrams for Causal Inference and The Causal Reproducing Property ( http://arxiv.org/abs/2207.02917v1 )

ライセンス: CC BY 4.0
Sridhar Mahadevan(参考訳) 普遍因果関係 (Universal Causality) は、圏論に基づいて、基礎となる表現形式主義とは無関係に因果推論を基礎とする普遍性を定義する枠組みである。 より形式的には、普遍因果モデルは、因果的影響を表す対象とそれらの間の射、および介入(実験)を実行し、それらの結果(観察)を評価するための構造からなるカテゴリとして定義される。 関手は同じ2つの圏にまたがる一対の関手の間の圏と自然変換を写像する。 我々のフレームワークにおける抽象因果図は、抽象因果図の極限や共極限を含む圏論からの普遍的な構成を用いて構築される。 普遍因果推論における2つの基礎的結果を示す。 普遍因果性定理 (uct) と呼ばれる最初の結果は、抽象因果図のインデックス化圏から、ノードが確率変数によってラベル付けされ、エッジが機能的あるいは確率的関係を表す実際の因果モデルへの対象と関係の両方をマッピングする関手と見なされる図の普遍性に関するものである。 UCTは、任意の因果推論は、表現可能な対象の抽象因果図のコリミットとして正準的に表現できると述べている。 uctは層の理論の基本的な結果から導かれる。 第二の結果、因果再生特性 (CRP) は、対象 X の他の対象 Y に対する因果影響は、2つの抽象因果図形の間の自然な変換として表すことができると述べている。 CRPは、圏論において最も深い結果の1つである Yoneda Lemma から従う。 CRP特性は、機械学習におけるカーネルメソッドの基盤となった再生カーネルヒルベルト空間の再生特性に類似している。

We propose Universal Causality, an overarching framework based on category theory that defines the universal property that underlies causal inference independent of the underlying representational formalism used. More formally, universal causal models are defined as categories consisting of objects and morphisms between them representing causal influences, as well as structures for carrying out interventions (experiments) and evaluating their outcomes (observations). Functors map between categories, and natural transformations map between a pair of functors across the same two categories. Abstract causal diagrams in our framework are built using universal constructions from category theory, including the limit or co-limit of an abstract causal diagram, or more generally, the Kan extension. We present two foundational results in universal causal inference. The first result, called the Universal Causality Theorem (UCT), pertains to the universality of diagrams, which are viewed as functors mapping both objects and relationships from an indexing category of abstract causal diagrams to an actual causal model whose nodes are labeled by random variables, and edges represent functional or probabilistic relationships. UCT states that any causal inference can be represented in a canonical way as the co-limit of an abstract causal diagram of representable objects. UCT follows from a basic result in the theory of sheaves. The second result, the Causal Reproducing Property (CRP), states that any causal influence of a object X on another object Y is representable as a natural transformation between two abstract causal diagrams. CRP follows from the Yoneda Lemma, one of the deepest results in category theory. The CRP property is analogous to the reproducing property in Reproducing Kernel Hilbert Spaces that served as the foundation for kernel methods in machine learning.
翻訳日:2022-07-09 06:48:45 公開日:2022-07-06
# (参考訳) LSTM最適化フレームワークによる最適解の学習

Learning Optimal Solutions via an LSTM-Optimization Framework ( http://arxiv.org/abs/2207.02937v1 )

ライセンス: CC BY 4.0
Dogacan Yilmaz, \.I. Esra B\"uy\"uktahtak{\i}n(参考訳) 本研究では,動的混合整数プログラムに取り組むための深層学習最適化フレームワークを提案する。 具体的には、情報を前後に処理し、逐次決定問題に対する最適解を学習できる双方向長短期記憶(LSTM)フレームワークを開発する。 そこで本研究では,バイナリ変数が一定期間で生成するか否かを示すCLSP(Single-item Capacitated Lo-Size problem)の最適決定の予測方法を示す。 問題の動的性質のため、CLSPは、繰り返しニューラルネットワークが問題の時間的ダイナミクスをキャプチャできるシーケンスラベリングタスクとして扱うことができる。 計算結果から,LSTM-Opt(LSTM-Optimization)フレームワークはベンチマークCLSP問題の解時間を大幅に短縮し,実現可能性や最適性を損なうことなく実現可能であることが示された。 例えば、85\%レベルの予測では、テストセットにおける最適性ギャップが0.05\%未満と0.4\%の240,000以上のテストインスタンスに対して、平均9倍のCPLEX解時間を減少させる。 また、短い計画地平線を用いて訓練されたモデルは、より長い計画地平線を持つインスタンスの最適解をうまく予測することができる。 最も厳しいデータセットでは、LSTMの25\%レベルでの予測により、最適性ギャップが0.8\%で実現不可能で、70CPU時間の解時間を2CPU分未満に短縮する。 lstm-optフレームワークはソリューションの品質の観点からはロジスティック回帰やランダムフォレストといった古典的なmlアルゴリズムよりも優れており、解時間の改善に関して($\ell$, s)や動的プログラミングベースの不等式のような厳密なアプローチを採用している。 私たちの機械学習アプローチは、繰り返し、頻繁に、高速に解決する必要があるCLSPのようなシーケンシャルな意思決定問題に対処する上で有益である。

In this study, we present a deep learning-optimization framework to tackle dynamic mixed-integer programs. Specifically, we develop a bidirectional Long Short Term Memory (LSTM) framework that can process information forward and backward in time to learn optimal solutions to sequential decision-making problems. We demonstrate our approach in predicting the optimal decisions for the single-item capacitated lot-sizing problem (CLSP), where a binary variable denotes whether to produce in a period or not. Due to the dynamic nature of the problem, the CLSP can be treated as a sequence labeling task where a recurrent neural network can capture the problem's temporal dynamics. Computational results show that our LSTM-Optimization (LSTM-Opt) framework significantly reduces the solution time of benchmark CLSP problems without much loss in feasibility and optimality. For example, the predictions at the 85\% level reduce the CPLEX solution time by a factor of 9 on average for over 240,000 test instances with an optimality gap of less than 0.05\% and 0.4\% infeasibility in the test set. Also, models trained using shorter planning horizons can successfully predict the optimal solution of the instances with longer planning horizons. For the hardest data set, the LSTM predictions at the 25\% level reduce the solution time of 70 CPU hours to less than 2 CPU minutes with an optimality gap of 0.8\% and without any infeasibility. The LSTM-Opt framework outperforms classical ML algorithms, such as the logistic regression and random forest, in terms of the solution quality, and exact approaches, such as the ($\ell$, S) and dynamic programming-based inequalities, with respect to the solution time improvement. Our machine learning approach could be beneficial in tackling sequential decision-making problems similar to CLSP, which need to be solved repetitively, frequently, and in a fast manner.
翻訳日:2022-07-09 06:08:12 公開日:2022-07-06
# (参考訳) 介入予測による臨床リスクスコアの解釈可能性の向上

Boosting the interpretability of clinical risk scores with intervention predictions ( http://arxiv.org/abs/2207.02941v1 )

ライセンス: CC BY 4.0
Eric Loreaux, Ke Yu, Jonas Kemp, Martin Seneviratne, Christina Chen, Subhrajit Roy, Ivan Protsyuk, Natalie Harris, Alexander D'Amour, Steve Yadlowsky, Ming-Jun Chen(参考訳) 機械学習システムは、リスクスコアを通じて患者の有害事象を予測することに大きな期待を示している。 しかし、これらのリスクスコアは、トレーニングデータに存在する介入ポリシーに基づいて、患者が受けるであろう将来の介入に関する仮定を暗黙的にエンコードする。 この重要な文脈がなければ、そのようなシステムからの予測は臨床医には理解できない。 本稿では,今後の介入に関するモデルの仮定を明示的に伝達する手段として,介入政策と有害事象リスクの合同モデルを提案する。 我々は,MIMIC-IIIを用いた介入ポリシーモデルを構築し,本手法の実用性を強調するいくつかのユースケースについて論じる。 死亡率などの典型的なリスクスコアと、将来の介入確率スコアを組み合わせることで、より解釈可能な臨床予測につながるかを示す。

Machine learning systems show significant promise for forecasting patient adverse events via risk scores. However, these risk scores implicitly encode assumptions about future interventions that the patient is likely to receive, based on the intervention policy present in the training data. Without this important context, predictions from such systems are less interpretable for clinicians. We propose a joint model of intervention policy and adverse event risk as a means to explicitly communicate the model's assumptions about future interventions. We develop such an intervention policy model on MIMIC-III, a real world de-identified ICU dataset, and discuss some use cases that highlight the utility of this approach. We show how combining typical risk scores, such as the likelihood of mortality, with future intervention probability scores leads to more interpretable clinical predictions.
翻訳日:2022-07-09 06:06:03 公開日:2022-07-06
# (参考訳) スマートシティデジタル双子のスケーラビリティとデータ可用性問題を解決するための合成データの利用

The use of Synthetic Data to solve the scalability and data availability problems in Smart City Digital Twins ( http://arxiv.org/abs/2207.02953v1 )

ライセンス: CC BY 4.0
Esteve Almirall and Davide Callegaro and Peter Bruins and Mar Santamar\'ia and Pablo Mart\'inez and Ulises Cort\'es(参考訳) A.I.のディスラプションとイノベーションの競争の必要性は、イノベーションホットスポットになるために必要な都市に影響を与える。 しかし、証明された解決策がなければ、しばしば失敗する実験が必要である。 しかし、都市での実験は、市民だけでなく、失敗しても評判にも多くの好ましくない影響がある。 他の分野で人気があるDigital Twinsは、実験の提案を拡大する有望な方法のようだが、シミュレーション環境では、ハーフベイクされたものだけを実際の環境に翻訳し、その結果リスクを最小限に抑える。 しかし、デジタル双子はデータ集約性が高く、高度にローカライズされたデータを必要とするため、特に小さな都市ではスケールが難しく、データ収集にかかるコストも高い。 スマートシティーで非常に一般的な条件を与えられた合成データに基づく代替案として、NO2汚染に基づく概念実証とともに、これらの2つの問題を解くことができる。

The A.I. disruption and the need to compete on innovation are impacting cities that have an increasing necessity to become innovation hotspots. However, without proven solutions, experimentation, often unsuccessful, is needed. But experimentation in cities has many undesirable effects not only for its citizens but also reputational if unsuccessful. Digital Twins, so popular in other areas, seem like a promising way to expand experimentation proposals but in simulated environments, translating only the half-baked ones, the ones with higher probability of success, to real environments and therefore minimizing risks. However, Digital Twins are data intensive and need highly localized data, making them difficult to scale, particularly to small cities, and with the high cost associated to data collection. We present an alternative based on synthetic data that given some conditions, quite common in Smart Cities, can solve these two problems together with a proof-of-concept based on NO2 pollution.
翻訳日:2022-07-09 05:54:56 公開日:2022-07-06
# (参考訳) グラフニューラルネットワークを用いた医用画像の文脈対応自己教師付き学習

Context-aware Self-supervised Learning for Medical Images Using Graph Neural Network ( http://arxiv.org/abs/2207.02957v1 )

ライセンス: CC BY 4.0
Li Sun, Ke Yu, Kayhan Batmanghelich(参考訳) 自己教師付き学習は、ラベルのないデータを利用してトレーニングをブートストラップすることができるが、自然画像の汎用的な自己教師付き手法は、文脈を十分に取り入れていない。 医用画像の場合、解剖学的には各解剖学的領域の正常な組織からの偏差を検出するのに十分な感度が望ましい。 本稿では,地域解剖学レベルと患者レベルの2段階の自己指導型表現学習目標を用いた新しいアプローチを提案する。 グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。 グラフの構造は、各患者と解剖学的アトラスの間の解剖学的対応によって通知される。 さらに、グラフ表現は任意の任意サイズの画像をフル解像度で処理する利点がある。 肺画像の大規模コンピュータ断層撮影(CT)データセットを用いた実験により,本手法は文脈を考慮しないベースライン法と比較した。 我々は、covid-19に関連する肺組織異常のステージングに、学習埋め込みを用いる。

Although self-supervised learning enables us to bootstrap the training by exploiting unlabeled data, the generic self-supervised methods for natural images do not sufficiently incorporate the context. For medical images, a desirable method should be sensitive enough to detect deviation from normal-appearing tissue of each anatomical region; here, anatomy is the context. We introduce a novel approach with two levels of self-supervised representation learning objectives: one on the regional anatomical level and another on the patient-level. We use graph neural networks to incorporate the relationship between different anatomical regions. The structure of the graph is informed by anatomical correspondences between each patient and an anatomical atlas. In addition, the graph representation has the advantage of handling any arbitrarily sized image in full resolution. Experiments on large-scale Computer Tomography (CT) datasets of lung images show that our approach compares favorably to baseline methods that do not account for the context. We use the learned embedding for staging lung tissue abnormalities related to COVID-19.
翻訳日:2022-07-09 05:46:04 公開日:2022-07-06
# (参考訳) SphereVLAD++:アテンションベースおよび信号強化ビューポイント不変記述子

SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant Descriptor ( http://arxiv.org/abs/2207.02958v1 )

ライセンス: CC0 1.0
Shiqi Zhao, Peng Yin, Ge Yi, and Sebastian Scherer(参考訳) LiDARベースのローカライゼーションアプローチは、ラストマイル配送や自動運転といった大規模ナビゲーションタスクの基本的なモジュールであり、ローカライゼーションの堅牢性は視点と3D特徴抽出に大きく依存している。 これまでの研究では、視点差に対処する視点不変な記述子を提供していたが、グローバル記述子は教師なしクラスタリングにおいて低信号雑音比に悩まされ、識別可能な特徴抽出能力が低下する。 本研究では,注意を喚起した視点不変位置認識手法である spherevlad++ を開発した。 spherevlad++は、各ユニークな領域の球面的な視点でpoint cloudをプロジェクトし、ローカル機能とその依存関係と、グローバルな3dジオメトリ分布とのコンテキスト接続をキャプチャする。 その見返りとして、グローバルディスクリプタ内のクラスタ化された要素は、局所的およびグローバルなジオメトリで条件付けられ、SphereVLADの本来の視点不変性をサポートする。 実験では,ピッツバーグ市のパブリックKITTI360データセットと自己生成データセットの両方において,SphereVLAD++のローカライゼーション性能を評価した。 実験の結果、SphereVLAD++は、小さな、あるいは全く逆の視点差の下で、最先端の3D位置認識手法を全て上回っており、検索率0.69%と15.81%が2番目に優れている。 低計算要求と高時間効率もまた、低コストロボットへの応用に役立つ。

LiDAR-based localization approach is a fundamental module for large-scale navigation tasks, such as last-mile delivery and autonomous driving, and localization robustness highly relies on viewpoints and 3D feature extraction. Our previous work provides a viewpoint-invariant descriptor to deal with viewpoint differences; however, the global descriptor suffers from a low signal-noise ratio in unsupervised clustering, reducing the distinguishable feature extraction ability. We develop SphereVLAD++, an attention-enhanced viewpoint invariant place recognition method in this work. SphereVLAD++ projects the point cloud on the spherical perspective for each unique area and captures the contextual connections between local features and their dependencies with global 3D geometry distribution. In return, clustered elements within the global descriptor are conditioned on local and global geometries and support the original viewpoint-invariant property of SphereVLAD. In the experiments, we evaluated the localization performance of SphereVLAD++ on both public KITTI360 datasets and self-generated datasets from the city of Pittsburgh. The experiment results show that SphereVLAD++ outperforms all relative state-of-the-art 3D place recognition methods under small or even totally reversed viewpoint differences and shows 0.69% and 15.81% successful retrieval rates with better than the second best. Low computation requirements and high time efficiency also help its application for low-cost robots.
翻訳日:2022-07-09 05:38:35 公開日:2022-07-06
# (参考訳) 機械学習と文化遺産のための「MLデータとしてのコレクション」チェックリスト

The "Collections as ML Data" Checklist for Machine Learning & Cultural Heritage ( http://arxiv.org/abs/2207.02960v1 )

ライセンス: CC BY 4.0
Benjamin Charles Germain Lee(参考訳) 文化遺産部門では、デジタルコレクションに機械学習技術を適用する際に重要な社会技術的レンズを考えるための努力が増えている。 文化遺産コミュニティは、組織レベルでの図書館その他の文化遺産機関における機械学習の責任を負う業務を詳述する新たな団体を組織的に開発してきたが、機械学習プロジェクトに乗り出す実践者専用のガイドラインが残されている。 文化遺産に機械学習を適用することに関わる多様体の利害と感性は、こうしたガイドラインの開発の重要性を浮き彫りにしている。 本稿では,文化遺産データを活用した機械学習プロジェクトの開発において,活用可能な質問や実践を指導する詳細なチェックリストを作成することで,このニーズに寄与する。 私は、結果のチェックリストを"コレクション・アズ・mlデータ"チェックリストと呼んでいます。 私のプロジェクトであるNewspaper Navigatorを含む既存のプロジェクトを調査して、"Collections as ML Data"チェックリストを正当化し、定式化されたガイドの質問をどのように採用し、運用するかを示します。

Within the cultural heritage sector, there has been a growing and concerted effort to consider a critical sociotechnical lens when applying machine learning techniques to digital collections. Though the cultural heritage community has collectively developed an emerging body of work detailing responsible operations for machine learning in libraries and other cultural heritage institutions at the organizational level, there remains a paucity of guidelines created specifically for practitioners embarking on machine learning projects. The manifold stakes and sensitivities involved in applying machine learning to cultural heritage underscore the importance of developing such guidelines. This paper contributes to this need by formulating a detailed checklist with guiding questions and practices that can be employed while developing a machine learning project that utilizes cultural heritage data. I call the resulting checklist the "Collections as ML Data" checklist, which, when completed, can be published with the deliverables of the project. By surveying existing projects, including my own project, Newspaper Navigator, I justify the "Collections as ML Data" checklist and demonstrate how the formulated guiding questions can be employed and operationalized.
翻訳日:2022-07-09 05:20:11 公開日:2022-07-06
# (参考訳) 古典的シミュラブル回路による量子圧縮

Quantum compression with classically simulatable circuits ( http://arxiv.org/abs/2207.02961v1 )

ライセンス: CC BY 4.0
Abhinav Anand, Jakob S. Kottmann and Al\'an Aspuru-Guzik(参考訳) 現在利用可能なノイズの多いデバイスが従来のものよりも有利なアプリケーションを見つけ続けているため、量子リソースの効率的な利用は極めて望ましい。 量子オートエンコーダの概念は、リソース要求を減らすために量子情報の圧縮方法として提案された。 本稿では,量子情報を低次元表現に変換する進化的アルゴリズムを用いた量子オートエンコーダの設計手法を提案する。 量子状態の異なる族を圧縮するためのアルゴリズムの初期応用を実証することに成功した。 特に,アルゴリズムに制限されたゲート集合を用いることで,生成された回路の効率的なシミュレーションが可能になることを指摘した。 このアプローチは、計算資源の少ない量子データの低表現を見つけるために古典論理を用いる可能性を開く。

As we continue to find applications where the currently available noisy devices exhibit an advantage over their classical counterparts, the efficient use of quantum resources is highly desirable. The notion of quantum autoencoders was proposed as a way for the compression of quantum information to reduce resource requirements. Here, we present a strategy to design quantum autoencoders using evolutionary algorithms for transforming quantum information into lower-dimensional representations. We successfully demonstrate the initial applications of the algorithm for compressing different families of quantum states. In particular, we point out that using a restricted gate set in the algorithm allows for efficient simulation of the generated circuits. This approach opens the possibility of using classical logic to find low representations of quantum data, using fewer computational resources.
翻訳日:2022-07-09 05:19:09 公開日:2022-07-06
# (参考訳) オーバーヘッド画像における対向カモフラージュの弱さ

The Weaknesses of Adversarial Camouflage in Overhead Imagery ( http://arxiv.org/abs/2207.02963v1 )

ライセンス: CC BY-SA 4.0
Adam Van Etten(参考訳) 機械学習は、成長を続けるオーバーヘッド画像のコーパスを分析するためにますます重要になっている。 高度なコンピュータビジョンオブジェクト検出技術は、衛星画像やドローン画像から船舶、自動車、航空機などの興味ある物体を識別することに成功した。 しかし、コンピュータビジョンに頼ることで、敵攻撃に対するオブジェクト検出アルゴリズムの感受性という重大な脆弱性が開ける。 本稿では,画像上における対向カモフラージュの有効性と欠点について考察する。 最近の多くの論文では、ディープラーニングの分類器やオブジェクト検出器を、逆のパッチで確実に騙す能力が実証されているが、この研究のほとんどは、比較的均一なデータセットと単一のオブジェクトで行われている。 この研究では、幅広い視点とオブジェクトサイズを持つvisdroneデータセットを利用しています。 私たちはバス、車、トラック、バンの4つの異なるオブジェクトクラスを調べます。 これらのオブジェクトを偽装するために24の敵対的パッチのライブラリを構築し、パッチにパッチ透過性変数を導入します。 パッチの透過性(またはアルファ値)は、その有効性と高い相関がある。 さらに,悪意のあるパッチは物体検出器を騙す可能性があるが,そのようなパッチの存在は容易に発見されることが多く,パッチが隠そうとしていたオブジェクトよりも平均24%検出可能であった。 これにより、このようなパッチが本当にカモフラージュを構成するかどうかが疑問視される。 ソースコードはhttps://github.com/IQTLabs/camolo.comで入手できる。

Machine learning is increasingly critical for analysis of the ever-growing corpora of overhead imagery. Advanced computer vision object detection techniques have demonstrated great success in identifying objects of interest such as ships, automobiles, and aircraft from satellite and drone imagery. Yet relying on computer vision opens up significant vulnerabilities, namely, the susceptibility of object detection algorithms to adversarial attacks. In this paper we explore the efficacy and drawbacks of adversarial camouflage in an overhead imagery context. While a number of recent papers have demonstrated the ability to reliably fool deep learning classifiers and object detectors with adversarial patches, most of this work has been performed on relatively uniform datasets and only a single class of objects. In this work we utilize the VisDrone dataset, which has a large range of perspectives and object sizes. We explore four different object classes: bus, car, truck, van. We build a library of 24 adversarial patches to disguise these objects, and introduce a patch translucency variable to our patches. The translucency (or alpha value) of the patches is highly correlated to their efficacy. Further, we show that while adversarial patches may fool object detectors, the presence of such patches is often easily uncovered, with patches on average 24% more detectable than the objects the patches were meant to hide. This raises the question of whether such patches truly constitute camouflage. Source code is available at https://github.com/IQTLabs/camolo.
翻訳日:2022-07-09 05:02:03 公開日:2022-07-06
# (参考訳) モデルAgnostic Conformal Hyperparameter Optimization

Model Agnostic Conformal Hyperparameter Optimization ( http://arxiv.org/abs/2207.03017v1 )

ライセンス: CC BY 4.0
Riccardo Doyle(参考訳) ハイパーパラメータ検索のための新しいフレームワークは、ここ10年でいくつか登場したが、ほとんどが厳密で、通常、分散的な仮定に依存し、検索モデルの柔軟性を制限している。 本稿では,共形予測に基づく新しい最適化フレームワークを提案し,交換可能性のみを仮定し,探索モデルアーキテクチャと分散推定のより大きな選択を可能にする。 このようなモデルは、最終的な損失と達成までの時間の両方において一貫したオーバーパフォーマンスを持つ高密度および畳み込みニューラルネットワークのランダムなハイパーパラメータ探索に対して探索およびベンチマークされている。

Several novel frameworks for hyperparameter search have emerged in the last decade, but most rely on strict, often normal, distributional assumptions, limiting search model flexibility. This paper proposes a novel optimization framework based on Conformal prediction, assuming only exchangeability, and allowing for a larger choice of search model architectures and variance estimators. Several such models are explored and benchmarked against random hyperparameter search on both dense and convolutional neural networks with consistent overperformance both in final loss achieved and time to achievement.
翻訳日:2022-07-09 04:53:47 公開日:2022-07-06
# branchformer: 音声認識と理解のためのローカルおよびグローバルコンテキストをキャプチャする並列mlp-attentionアーキテクチャ

Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding ( http://arxiv.org/abs/2207.02971v1 )

ライセンス: Link先を確認
Yifan Peng, Siddharth Dalmia, Ian Lane, Shinji Watanabe(参考訳) conformerは多くの音声処理タスクで有効であることが証明されている。 畳み込みを使ってローカルな依存関係を抽出することの利点と、セルフアテンションを使ってグローバルな依存関係を組み合わせる。 そこで,本稿では,より柔軟で解釈可能でカスタマイズ可能なエンコーダ代替品であるbranchformerを提案する。 各エンコーダ層では、一方のブランチは長距離依存関係をキャプチャするために自己アテンションまたはその変種を使用し、もう一方のブランチは畳み込みゲーティング(cgMLP)を備えたMPPモジュールを使用して局所的な関係を抽出する。 複数の音声認識および音声言語理解ベンチマーク実験を行った。 その結果,本モデルはTransformerとcgMLPのどちらよりも優れていた。 また、Conformerが達成した最先端の結果にマッチする。 さらに,1つのトレーニングモデルにおいて変数推論の複雑さを持つ機能を含む,二分岐アーキテクチャによる計算量を削減するための様々な戦略を示す。 ブランチのマージで学んだ重みは、ローカルとグローバルの依存関係が異なるレイヤでどのように利用されるかを示している。

Conformer has proven to be effective in many speech processing tasks. It combines the benefits of extracting local dependencies using convolutions and global dependencies using self-attention. Inspired by this, we propose a more flexible, interpretable and customizable encoder alternative, Branchformer, with parallel branches for modeling various ranged dependencies in end-to-end speech processing. In each encoder layer, one branch employs self-attention or its variant to capture long-range dependencies, while the other branch utilizes an MLP module with convolutional gating (cgMLP) to extract local relationships. We conduct experiments on several speech recognition and spoken language understanding benchmarks. Results show that our model outperforms both Transformer and cgMLP. It also matches with or outperforms state-of-the-art results achieved by Conformer. Furthermore, we show various strategies to reduce computation thanks to the two-branch architecture, including the ability to have variable inference complexity in a single trained model. The weights learned for merging branches indicate how local and global dependencies are utilized in different layers, which benefits model designing.
翻訳日:2022-07-08 15:07:36 公開日:2022-07-06
# 美術史画像における半教師付きポーズ推定

Semi-supervised Human Pose Estimation in Art-historical Images ( http://arxiv.org/abs/2207.02976v1 )

ライセンス: Link先を確認
Matthias Springstein, Stefanie Schneider, Christian Althaus, Ralph Ewerth(参考訳) 非言語コミュニケーションの<enquote*{language}としてのジェスチャーは、17世紀から理論的に確立されてきた。 しかし、視覚芸術との関係は散発的にしか表現されていない。 これは主に、伝統的に手作業で処理する必要があった膨大な量のデータのためかもしれない。 しかし、デジタル化の着実に進んだ進展に伴い、多くの歴史的遺物がインデックス化され、一般に公開され、類似の身体星座やポーズを持つ美術史的モチーフの自動検索の必要性が生じた。 アート領域は、そのスタイルのばらつきにより、人間のポーズ推定のための既存の実世界のデータセットと大きく異なるため、新しい課題が提示される。 本稿では,美術史画像における人間のポーズを推定する新しい手法を提案する。 事前訓練されたモデルやスタイル転送でドメインギャップを埋めようとする従来の作業とは対照的に、オブジェクトとキーポイントの両方を検出するための半教師付き学習を提案する。 さらに,人間図形のバウンディングボックスとキーポイントアノテーションの両方を含む新しいドメイン固有アートデータセットを導入する。 我々の手法は、事前訓練されたモデルやスタイル転送を使用する方法よりもはるかに優れた結果が得られる。

Gesture as \enquote*{language} of non-verbal communication has been theoretically established since the 17th century. However, its relevance for the visual arts has been expressed only sporadically. This may be primarily due to the sheer overwhelming amount of data that traditionally had to be processed by hand. With the steady progress of digitization, though, a growing number of historical artifacts have been indexed and made available to the public, creating a need for automatic retrieval of art-historical motifs with similar body constellations or poses. Since the domain of art differs significantly from existing real-world data sets for human pose estimation due to its style variance, this presents new challenges. In this paper, we propose a novel approach to estimate human poses in art-historical images. In contrast to previous work that attempts to bridge the domain gap with pre-trained models or through style transfer, we suggest semi-supervised learning for both object and keypoint detection. Furthermore, we introduce a novel domain-specific art data set that includes both bounding box and keypoint annotations of human figures. Our approach achieves significantly better results than methods that use pre-trained models or style transfer.
翻訳日:2022-07-08 15:06:59 公開日:2022-07-06
# 重畳条件変分オートエンコーダと条件生成逆ネットワークを用いたテキスト・画像合成

Text to Image Synthesis using Stacked Conditional Variational Autoencoders and Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2207.03332v1 )

ライセンス: Link先を確認
Haileleol Tibebu, Aadin Malik, Varuna De Silva(参考訳) テキスト記述から現実的なイメージを合成することは、コンピュータビジョンの大きな課題である。 現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。 既存の研究の多くは、GAN (Generative Adversarial Networks) またはVAE (variantal Auto Encoders) に依存している。 GANはよりシャープな画像を生成する能力を持っているが、出力の多様性に欠けており、VAEは多様な出力を生成するのに長けているが、生成される画像はしばしばぼやけている。 GANとVAEの双方の相対的優位性を考慮し,テキスト記述に条件付き画像を合成するための,CVAE(Conditional VAE)とCGAN(Conditional GAN)ネットワークアーキテクチャを提案する。 本研究では条件付きvaesを初期生成器として用い,テキスト記述子の高レベルなスケッチを作成する。 第1ステージから出力される高レベルスケッチ及びテキスト記述子を条件付きganネットワークへの入力として使用する。 第2ステージGANは256x256高解像度画像を生成する。 提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。 CUBとOxford-102データセットを用いて複数の実験を行い、提案手法の結果をStackGANのような最先端技術と比較した。 提案手法がテキスト記述に基づく高分解能画像を生成し,両者のデータセットを用いたインセプションとフレシェットインセプションスコアに基づく競合結果が得られることを示す。

Synthesizing a realistic image from textual description is a major challenge in computer vision. Current text to image synthesis approaches falls short of producing a highresolution image that represent a text descriptor. Most existing studies rely either on Generative Adversarial Networks (GANs) or Variational Auto Encoders (VAEs). GANs has the capability to produce sharper images but lacks the diversity of outputs, whereas VAEs are good at producing a diverse range of outputs, but the images generated are often blurred. Taking into account the relative advantages of both GANs and VAEs, we proposed a new stacked Conditional VAE (CVAE) and Conditional GAN (CGAN) network architecture for synthesizing images conditioned on a text description. This study uses Conditional VAEs as an initial generator to produce a high-level sketch of the text descriptor. This high-level sketch output from first stage and a text descriptor is used as an input to the conditional GAN network. The second stage GAN produces a 256x256 high resolution image. The proposed architecture benefits from a conditioning augmentation and a residual block on the Conditional GAN network to achieve the results. Multiple experiments were conducted using CUB and Oxford-102 dataset and the result of the proposed approach is compared against state-ofthe-art techniques such as StackGAN. The experiments illustrate that the proposed method generates a high-resolution image conditioned on text descriptions and yield competitive results based on Inception and Frechet Inception Score using both datasets
翻訳日:2022-07-08 15:02:49 公開日:2022-07-06
# ハイパーリンク予測に関する調査研究

A Survey on Hyperlink Prediction ( http://arxiv.org/abs/2207.02911v1 )

ライセンス: Link先を確認
Can Chen, Yang-Yu Liu(参考訳) ハイパーリンク予測は、グラフ上のリンク予測の自然な拡張として、ハイパーリンクが2つ以上のノードを接続できるハイパーグラフの欠落したハイパーリンクの推測を目的としている。 ハイパーリンク予測は、化学反応ネットワーク、社会通信ネットワーク、タンパク質-タンパク質相互作用ネットワークなど、幅広いシステムに応用されている。 本稿では,ハイパーリンク予測に関する体系的かつ包括的な調査を行う。 本稿では,既存のハイパーリンク予測手法を類似性に基づく,確率に基づく,行列最適化に基づく,深層学習に基づく4つのカテゴリに分類する。 異なるカテゴリのメソッドの性能を比較するために,各カテゴリの代表手法を用いて,様々なハイパーグラフアプリケーションに関するベンチマーク研究を行う。 特に、ハイパーリンク予測における他の手法よりもディープラーニングベースの手法が一般的である。

As a natural extension of link prediction on graphs, hyperlink prediction aims for the inference of missing hyperlinks in hypergraphs, where a hyperlink can connect more than two nodes. Hyperlink prediction has applications in a wide range of systems, from chemical reaction networks, social communication networks, to protein-protein interaction networks. In this paper, we provide a systematic and comprehensive survey on hyperlink prediction. We propose a new taxonomy to classify existing hyperlink prediction methods into four categories: similarity-based, probability-based, matrix optimization-based, and deep learning-based methods. To compare the performance of methods from different categories, we perform a benchmark study on various hypergraph applications using representative methods from each category. Notably, deep learning-based methods prevail over other methods in hyperlink prediction.
翻訳日:2022-07-08 14:59:34 公開日:2022-07-06
# 高分解能質量分析データによる学習が可能なマルチスケール正弦波埋め込み

Multi-scale Sinusoidal Embeddings Enable Learning on High Resolution Mass Spectrometry Data ( http://arxiv.org/abs/2207.02980v1 )

ライセンス: Link先を確認
Gennady Voronov, Rose Lightheart, Joe Davison, Christoph A. Krettler, David Healey, Thomas Butler(参考訳) 生物試料中の小さな分子は、疾患の状態、環境毒素、天然物医薬品の発見、その他多くの応用に関する情報を提供するために研究されている。 小さな分子混合物の合成における主窓はタンデム質量分析 (Tandem mass spectrometry, MS2) であり、これは高感度で1億倍の分解能を持つデータを生成する。 我々は,MS2データの完全解像度から学習する際の課題を満たすために,MS2のマスデータのマルチスケール正弦波埋め込みを採用する。 これらの埋め込みを用いて,MS2データの初期評価のための標準課題であるスペクトルライブラリ検索のための新しい手法を提案する。 また,MS2データからの化学特性予測という新たな課題を導入し,高スループットMS2実験に自然に適用し,医薬化学者が優先する10種類の化学特性に対して,新規化合物の平均R^2$ of 80\%を達成可能であることを示した。 我々は,MS2データから学習において,多スケールの正弦波埋め込みが果たす重要な役割を,異なる浮動小数点分解法を用いて示す。

Small molecules in biological samples are studied to provide information about disease states, environmental toxins, natural product drug discovery, and many other applications. The primary window into the composition of small molecule mixtures is tandem mass spectrometry (MS2), which produces data that are of high sensitivity and part per million resolution. We adopt multi-scale sinusoidal embeddings of the mass data in MS2 designed to meet the challenge of learning from the full resolution of MS2 data. Using these embeddings, we provide a new state of the art model for spectral library search, the standard task for initial evaluation of MS2 data. We also introduce a new task, chemical property prediction from MS2 data, that has natural applications in high-throughput MS2 experiments and show that an average $R^2$ of 80\% for novel compounds can be achieved across 10 chemical properties prioritized by medicinal chemists. We use dimensionality reduction techniques and experiments with different floating point resolutions to show the essential role multi-scale sinusoidal embeddings play in learning from MS2 data.
翻訳日:2022-07-08 14:59:20 公開日:2022-07-06
# 知識蒸留を用いた低リソース低フットプリントウェイクワード検出

Low-resource Low-footprint Wake-word Detection using Knowledge Distillation ( http://arxiv.org/abs/2207.03331v1 )

ライセンス: Link先を確認
Arindam Ghosh, Mark Fuhs, Deblin Bagchi, Bahman Farahani, Monika Woszczyna(参考訳) 仮想アシスタントが多様化し、専門化されるにつれて、アプリケーションやブランド固有のウェイクワードの需要も高まっている。 しかし、ウェイクワード固有のデータセットは通常、ウェイクワード検出器のトレーニングに使用される。 本稿では,大語彙音声認識のための音響モデルデータを活用するための2つの手法について検討する。 また,検出レイテンシを改善するために,これらの手法が時間同期トレーニングターゲットとどのように相互作用するかについても検討した。 実験は、オープンソースの"hey snips"データセットと、より難しい社内のfar-fieldデータセットで行われている。 音素同期目標と大きな音響モデルからの知識蒸留を用いることで,両データセットのデータセットサイズ間の精度を向上し,レイテンシを低減できる。

As virtual assistants have become more diverse and specialized, so has the demand for application or brand-specific wake words. However, the wake-word-specific datasets typically used to train wake-word detectors are costly to create. In this paper, we explore two techniques to leverage acoustic modeling data for large-vocabulary speech recognition to improve a purpose-built wake-word detector: transfer learning and knowledge distillation. We also explore how these techniques interact with time-synchronous training targets to improve detection latency. Experiments are presented on the open-source "Hey Snips" dataset and a more challenging in-house far-field dataset. Using phone-synchronous targets and knowledge distillation from a large acoustic model, we are able to improve accuracy across dataset sizes for both datasets while reducing latency.
翻訳日:2022-07-08 14:57:01 公開日:2022-07-06
# 空中ロボットを用いた環境の物理的相互作用と操作

Physical Interaction and Manipulation of the Environment using Aerial Robots ( http://arxiv.org/abs/2207.02856v1 )

ライセンス: Link先を確認
Azarakhsh Keipour(参考訳) 航空ロボットと環境の物理的相互作用は数え切れないほどの応用可能性を持ち、多くの課題を抱えた新興分野である。 これらの課題のいくつかに取り組むために、完全に作動するマルチロータが導入された。 位置と方向を完全に制御し、ロボットにマルチDoF操作アームを装着する必要がなくなる。 しかし、現実のアプリケーションで使われる前には、多くのオープンな問題がある。 研究者は限られた環境での物理的相互作用の方法をいくつか導入した。 彼らの実験は主に、実世界のアプリケーションと統合するための効率的なパスなしでプロトタイプレベルのソフトウェアを使用する。 本稿では,これらのロボットを既存のソフトウェアとハードウェアの飛行システムに統合し,実世界のアプリケーションに拡張するためのコスト効率の高い新しいソリューションについて述べる。 一方、完全作動型ロボットの既存の制御アプローチは、ロボットが利用可能な推力とモーメントの保守的な限界を仮定している。 すでに非効率なロボットに保守的な仮定を用いることで、それらの相互作用はより最適ではなくなり、多くの物理的相互作用アプリケーションが実現不可能になる可能性さえある。 本研究は,ロボットが物理的インタラクション性能を最適化するために使用できる,瞬時利用可能な力とモーメントの完全な集合を,リアルタイムに推定する手法を提案する。 最後に、空中ロボットが既存の手動ソリューションを改善して変形可能なオブジェクトを扱う、多くの現実世界のアプリケーションがある。 しかし、その操作に対する認識と計画はまだ難しい。 この研究は、空中の物理的相互作用を変形可能な物体に拡張する方法を探求する。 変形可能な1次元オブジェクトを操作するのに適した検出方法を提供し、これらのオブジェクトの操作を計画する新しい視点を導入する。

The physical interaction of aerial robots with their environment has countless potential applications and is an emerging area with many open challenges. Fully-actuated multirotors have been introduced to tackle some of these challenges. They provide complete control over position and orientation and eliminate the need for attaching a multi-DoF manipulation arm to the robot. However, there are many open problems before they can be used in real-world applications. Researchers have introduced some methods for physical interaction in limited settings. Their experiments primarily use prototype-level software without an efficient path to integration with real-world applications. We describe a new cost-effective solution for integrating these robots with the existing software and hardware flight systems for real-world applications and expand it to physical interaction applications. On the other hand, the existing control approaches for fully-actuated robots assume conservative limits for the thrusts and moments available to the robot. Using conservative assumptions for these already-inefficient robots makes their interactions even less optimal and may even result in many feasible physical interaction applications becoming infeasible. This work proposes a real-time method for estimating the complete set of instantaneously available forces and moments that robots can use to optimize their physical interaction performance. Finally, many real-world applications where aerial robots can improve the existing manual solutions deal with deformable objects. However, the perception and planning for their manipulation is still challenging. This research explores how aerial physical interaction can be extended to deformable objects. It provides a detection method suitable for manipulating deformable one-dimensional objects and introduces a new perspective on planning the manipulation of these objects.
翻訳日:2022-07-08 14:52:52 公開日:2022-07-06
# 3次元未知視線トモグラフィのための空間コンセンサスを用いた直交行列検索

Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View Tomography ( http://arxiv.org/abs/2207.02985v1 )

ライセンス: Link先を確認
Shuai Huang, Mona Zehni, Ivan Dokmani\'c, Zhizhen Zhao(参考訳) 未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。 kam (1980) で始まる一連の作業では、回転不変フーリエ特徴を持つモーメント法 (mom) を用いて周波数領域のuvtを解き、向きが一様分布することを仮定している。 この一連の研究には、行列分解に基づく最近の直交行列探索(OMR)アプローチが含まれており、これはエレガントではあるが、利用できない密度についての側面情報を必要とする。 OMRがこれらの制約から解放されるためには、密度マップと直交行列を相互に整合性を持つことを要求して共同で回復することを提案する。 得られた非凸最適化問題を、離散化された参照射影と非負性制約により正規化する。 これは空間的自己相関機能のための新しいクローズドフォーム式によって実現されている。 さらに,復元問題の非凸性を効果的に緩和する計算容易な初期密度マップを設計する。 実験結果から,空間的コンセンサスを有するOMRは,従来の3次元UVTの低SNRシナリオにおいて,従来のOMRアプローチよりも頑健で,優れた性能を示した。

Unknown-view tomography (UVT) reconstructs a 3D density map from its 2D projections at unknown, random orientations. A line of work starting with Kam (1980) employs the method of moments (MoM) with rotation-invariant Fourier features to solve UVT in the frequency domain, assuming that the orientations are uniformly distributed. This line of work includes the recent orthogonal matrix retrieval (OMR) approaches based on matrix factorization, which, while elegant, either require side information about the density that is not available, or fail to be sufficiently robust. In order for OMR to break free from those restrictions, we propose to jointly recover the density map and the orthogonal matrices by requiring that they be mutually consistent. We regularize the resulting non-convex optimization problem by a denoised reference projection and a nonnegativity constraint. This is enabled by the new closed-form expressions for spatial autocorrelation features. Further, we design an easy-to-compute initial density map which effectively mitigates the non-convexity of the reconstruction problem. Experimental results show that the proposed OMR with spatial consensus is more robust and performs significantly better than the previous state-of-the-art OMR approach in the typical low-SNR scenario of 3D UVT.
翻訳日:2022-07-08 14:52:29 公開日:2022-07-06
# MaiT:より効率的な画像変換のためのレバレッジ注意マスク

MaiT: Leverage Attention Masks for More Efficient Image Transformers ( http://arxiv.org/abs/2207.03006v1 )

ライセンス: Link先を確認
Ling Li, Ali Shafiee Ardestani, Joseph Hassoun(参考訳) 画像トランスフォーマーは、コンピュータビジョンタスクにおける畳み込みニューラルネットワークとの競合結果を示しているが、局所性のような帰納的バイアスの欠如は、特に組み込みアプリケーションではモデル効率の面で問題となる。 本研究では,空間的局所性を自己注意頭部に組み込むために,注意マスクを導入することでこの問題に対処する。 ローカル依存関係は、マスクされたアテンションヘッドで効率的にキャプチャされ、グローバル依存関係は非マストアテンションヘッドでキャプチャされる。 Masked attention image Transformer - MaiTでは、パラメータやFLOPが少ないCaiTと比較してトップ1の精度が最大1.7%向上し、Swinに比べてスループットが1.5倍向上した。 注意マスクによるローカリティの符号化はモデルに依存しないため、モノリシック、階層、その他の新しいトランスフォーマーアーキテクチャに適用できる。

Though image transformers have shown competitive results with convolutional neural networks in computer vision tasks, lacking inductive biases such as locality still poses problems in terms of model efficiency especially for embedded applications. In this work, we address this issue by introducing attention masks to incorporate spatial locality into self-attention heads. Local dependencies are captured efficiently with masked attention heads along with global dependencies captured by unmasked attention heads. With Masked attention image Transformer - MaiT, top-1 accuracy increases by up to 1.7% compared to CaiT with fewer parameters and FLOPs, and the throughput improves by up to 1.5X compared to Swin. Encoding locality with attention masks is model agnostic, and thus it applies to monolithic, hierarchical, or other novel transformer architectures.
翻訳日:2022-07-08 14:10:03 公開日:2022-07-06
# 一階理論を用いた論理ニューラルネットワークの拡張

Extending Logical Neural Networks using First-Order Theories ( http://arxiv.org/abs/2207.02978v1 )

ライセンス: Link先を確認
Aidan Evans and Jorge Blanco(参考訳) 論理ニューラルネットワーク(英: Logical Neural Networks、LNN)は、ニューラルネットワークの学習能力と記号推論を行う形式論理のシステムを組み合わせたアーキテクチャの一種である。 LLNは、論理式を通じてニューラルネットワークの基盤構造を暗黙的に修正する機能を提供する。 本稿では,この抽象化を利用して lnn を拡張し,一階理論による等式と関数記号をサポートする。 この拡張は、対処できる問題のタイプを大きく増やすことで、lnnのパワーを向上させる。 概念実証として、IBMのLNNライブラリに等式の一階理論のサポートを追加し、LNNライブラリの導入によって、ユニークな名前の仮定を必要とせずに式を推論できるようになったことを実証する。

Logical Neural Networks (LNNs) are a type of architecture which combine a neural network's abilities to learn and systems of formal logic's abilities to perform symbolic reasoning. LLNs provide programmers the ability to implicitly modify the underlying structure of the neural network via logical formulae. In this paper, we take advantage of this abstraction to extend LNNs to support equality and function symbols via first-order theories. This extension improves the power of LNNs by significantly increasing the types of problems they can tackle. As a proof of concept, we add support for the first-order theory of equality to IBM's LNN library and demonstrate how the introduction of this allows the LNN library to now reason about expressions without needing to make the unique-names assumption.
翻訳日:2022-07-08 13:58:51 公開日:2022-07-06
# ヒューマンAI協調システム設計用レンズとしてのチームラーニング

Team Learning as a Lens for Designing Human-AI Co-Creative Systems ( http://arxiv.org/abs/2207.02996v1 )

ライセンス: Link先を確認
Frederic Gmeiner, Kenneth Holstein, Nikolas Martelaro(参考訳) 生成的でml駆動のインタラクティブシステムは、人々が創造的なプロセスでコンピュータと対話する方法を変える可能性を秘めている。 しかし,オープンエンドタスク領域において,効果的な人間とAIの連携が実現されるのかは,いまだ不明である。 ml駆動システムとの通信には、いくつかの既知の課題がある。 共同創造システムの設計において見過ごされている側面は、ユーザーがこのようなシステムとコラボレーションするために学習をより良くサポートできる方法である。 ここでは、人間とaiのコラボレーションを学習問題として再編成する: チーム学習の研究に触発され、人間と人間のチームに適用する類似の学習戦略が、共同創造的な生成システムで作業する人間のコラボレーション効率と品質を高めるかもしれないと仮定する。 本稿では,より効果的な人間とAIのコラボレーションを設計するためのレンズとして,チーム学習を推進し,共同創造システムの目標として協調プロセスの品質を強調することを目的とする。 さらに、共同創造型AIシステムにチーム学習サポートを組み込むための予備的なスキーマフレームワークについて概説する。 我々は、研究課題を提案し、創造的なAIシステムと協調する学習における人々を支援するためのさらなる研究のためにオープンな質問をする。

Generative, ML-driven interactive systems have the potential to change how people interact with computers in creative processes - turning tools into co-creators. However, it is still unclear how we might achieve effective human-AI collaboration in open-ended task domains. There are several known challenges around communication in the interaction with ML-driven systems. An overlooked aspect in the design of co-creative systems is how users can be better supported in learning to collaborate with such systems. Here we reframe human-AI collaboration as a learning problem: Inspired by research on team learning, we hypothesize that similar learning strategies that apply to human-human teams might also increase the collaboration effectiveness and quality of humans working with co-creative generative systems. In this position paper, we aim to promote team learning as a lens for designing more effective co-creative human-AI collaboration and emphasize collaboration process quality as a goal for co-creative systems. Furthermore, we outline a preliminary schematic framework for embedding team learning support in co-creative AI systems. We conclude by proposing a research agenda and posing open questions for further study on supporting people in learning to collaborate with generative AI systems.
翻訳日:2022-07-08 13:58:36 公開日:2022-07-06
# 伴奏時の人間社会関係分類

Humans Social Relationship Classification during Accompaniment ( http://arxiv.org/abs/2207.02890v1 )

ライセンス: Link先を確認
Oscar Castro, Ely Repiso, Anais Garrell and Alberto Sanfeliu(参考訳) 本論文は,2人の側方で歩いている2人の社会的関係を,学童・夫婦・家族・友情の4つのカテゴリに分類する深層学習アーキテクチャの設計について述べる。 モデルをニューラルネットワークやリカレントニューラルネットワークを用いて開発し,都市環境下で伴奏処理を行う人間から得られる読みのデータベースを用いて,その分類と評価を行う。 最善のモデルが分類問題において比較的良好な精度を達成し,その結果が先行研究の結果を部分的に向上させる([1])。 さらに,提案モデルでは,その効率性を向上し,実際のロボットに実装する可能性を示す。

This paper presents the design of deep learning architectures which allow to classify the social relationship existing between two people who are walking in a side-by-side formation into four possible categories --colleagues, couple, family or friendship. The models are developed using Neural Networks or Recurrent Neural Networks to achieve the classification and are trained and evaluated using a database of readings obtained from humans performing an accompaniment process in an urban environment. The best achieved model accomplishes a relatively good accuracy in the classification problem and its results enhance partially the outcomes from a previous study [1]. Furthermore, the model proposed shows its future potential to improve its efficiency and to be implemented in a real robot.
翻訳日:2022-07-08 13:36:14 公開日:2022-07-06
# コントラスト学習によるネットワークバイナリ化

Network Binarization via Contrastive Learning ( http://arxiv.org/abs/2207.02970v1 )

ライセンス: Link先を確認
Yuzhang Shang, Dan Xu, Ziliang Zong, Yan Yan(参考訳) ニューラルネットワークのバイナリ化は、重みとアクティベーションを1ビットに量子化することで、深いモデルを加速する。 しかしながら、バイナリニューラルネットワーク(BNN)とフル精度(FP)の間には、依然として大きなパフォーマンスギャップがある。 初期の研究で重み二項化による量子化誤差が減少しているため、活性化二項化は精度をさらに向上させる主要な障害となっている。 BNNは、バイナリと潜在FPの活性化が同じ前方通過(\textit{i.e.} $\text{Binarize}(\mathbf{a}_F) = \mathbf{a}_B$)に存在する、ユニークで興味深い構造を特徴付けている。 FPからバイナリアクティベーションへのバイナライゼーション操作による情報劣化を軽減するため、相互情報(MI)最大化のレンズを用いてBNNをトレーニングしながら、新しいコントラスト学習フレームワークを構築した。 MIは、バイナリとFPのアクティベーション間で共有される情報を計測する指標として導入され、対照的な学習による二項化を支援する。 具体的には、BNNの表現能力は、異なるサンプルから負のペアをプッシュする(負のペアの数は指数関数的に大きい)とともに、同じ入力サンプルから二乗とFPのアクティベーションを持つ正のペアを引いて大幅に強化される。 これは、分類だけでなく、セグメンテーションや深さ推定、~\textit{etc} といった下流タスクに役立つ。 実験結果から,本手法は既存の2値化法に実装でき,cifar-10/100 と imagenet の2値化性能が向上し,nyud-v2 の一般化性も向上した。

Neural network binarization accelerates deep models by quantizing their weights and activations into 1-bit. However, there is still a huge performance gap between Binary Neural Networks (BNNs) and their full-precision (FP) counterparts. As the quantization error caused by weights binarization has been reduced in earlier works, the activations binarization becomes the major obstacle for further improvement of the accuracy. BNN characterises a unique and interesting structure, where the binary and latent FP activations exist in the same forward pass (\textit{i.e.} $\text{Binarize}(\mathbf{a}_F) = \mathbf{a}_B$). To mitigate the information degradation caused by the binarization operation from FP to binary activations, we establish a novel contrastive learning framework while training BNNs through the lens of Mutual Information (MI) maximization. MI is introduced as the metric to measure the information shared between binary and FP activations, which assists binarization with contrastive learning. Specifically, the representation ability of the BNNs is greatly strengthened via pulling the positive pairs with binary and FP activations from the same input samples, as well as pushing negative pairs from different samples (the number of negative pairs can be exponentially large). This benefits the downstream tasks, not only classification but also segmentation and depth estimation,~\textit{etc}. The experimental results show that our method can be implemented as a pile-up module on existing state-of-the-art binarization methods and can remarkably improve the performance over them on CIFAR-10/100 and ImageNet, in addition to the great generalization ability on NYUD-v2.
翻訳日:2022-07-08 13:36:03 公開日:2022-07-06
# 進化戦略を用いたテキスト・画像生成のための生成逆ネットワークの探索

Exploring Generative Adversarial Networks for Text-to-Image Generation with Evolution Strategies ( http://arxiv.org/abs/2207.02907v1 )

ライセンス: Link先を確認
Victor Costa, Nuno Louren\c{c}o, Jo\~ao Correia, Penousal Machado(参考訳) 生成モデルでは, 近年, テキスト・画像生成が顕著な成果を上げている。 異なるアプローチを用いたモデルが提案され、テキストと画像のペアの巨大なデータセットでトレーニングされた。 しかし、いくつかの方法は、生成逆ネットワークのような事前学習されたモデルに依存し、コサイン類似性のような損失関数に依存する潜在ベクトルを更新するために勾配に基づくアプローチを用いて生成モデルの潜在空間を探索する。 本研究では,共分散行列適応進化戦略(covariance matrix adaptation evolution strategy)を用いて,生成型逆ネットワークの潜在空間を探索する手法を提案する。 我々はこのアプローチをAdamとハイブリッド戦略を使ったアプローチと比較する。 本研究では,画像生成のための異なるテキスト入力を用いた3つの手法を比較し,得られたサンプルの投影に基づく評価手法を2次元グリッドに適応させ,分布の多様性を検証した。 結果は、進化的手法がサンプルの生成においてより多様性を達成し、結果として得られる格子の異なる領域を探索することを示す。 さらに, このハイブリッド手法は, グラデーションベースと進化的アプローチの探索領域を組み合わせることで, 結果の質を活用できることを示した。

In the context of generative models, text-to-image generation achieved impressive results in recent years. Models using different approaches were proposed and trained in huge datasets of pairs of texts and images. However, some methods rely on pre-trained models such as Generative Adversarial Networks, searching through the latent space of the generative model by using a gradient-based approach to update the latent vector, relying on loss functions such as the cosine similarity. In this work, we follow a different direction by proposing the use of Covariance Matrix Adaptation Evolution Strategy to explore the latent space of Generative Adversarial Networks. We compare this approach to the one using Adam and a hybrid strategy. We design an experimental study to compare the three approaches using different text inputs for image generation by adapting an evaluation method based on the projection of the resulting samples into a two-dimensional grid to inspect the diversity of the distributions. The results evidence that the evolutionary method achieves more diversity in the generation of samples, exploring different regions of the resulting grids. Besides, we show that the hybrid method combines the explored areas of the gradient-based and evolutionary approaches, leveraging the quality of the results.
翻訳日:2022-07-08 13:34:28 公開日:2022-07-06
# アルゴリズム的公平性の実証的概念に向けて--等機会主義からの規範的指導

Towards Substantive conceptions of Algorithmic Fairness: Normative guidance from Equal Opportunity doctrines ( http://arxiv.org/abs/2207.02912v1 )

ライセンス: Link先を確認
Falaah Arif Khan, Eleni Manis and Julia Stoyanovich(参考訳) 本研究では、政治哲学からの平等オッポチュニティ(EO)の教義を用いて、アルゴリズム的公正性の異なる概念に埋め込まれた規範的判断を明示する。 我々は、個別の意思決定点における公正な競争に狭く焦点をあてる形式的EOアプローチと、人々の公正な生活の機会を生涯を通してより均等に見る実質的なEOドクトリンとを対比する。 我々はこの分類法を用いて、不合理な結果の道徳的解釈を、人々が公正な人生のチャンスを持っていないときに、公正なコンテスト(前向きと後向き)の異なる概念の相違として提供する。 我々はこの結果を用いて、アルゴリズム的公正の実質的な概念を動機付け、EOの運楽主義的教義とRawlsの機会平等の原理に基づく2つの妥当な手続きを概説する。

In this work we use Equal Oppportunity (EO) doctrines from political philosophy to make explicit the normative judgements embedded in different conceptions of algorithmic fairness. We contrast formal EO approaches that narrowly focus on fair contests at discrete decision points, with substantive EO doctrines that look at people's fair life chances more holistically over the course of a lifetime. We use this taxonomy to provide a moral interpretation of the impossibility results as the incompatibility between different conceptions of a fair contest -- foward-looking versus backward-looking -- when people do not have fair life chances. We use this result to motivate substantive conceptions of algorithmic fairness and outline two plausible procedures based on the luck-egalitarian doctrine of EO, and Rawls's principle of fair equality of opportunity.
翻訳日:2022-07-08 13:32:18 公開日:2022-07-06
# 一般関数近似を用いた強化学習におけるモデル選択

Model Selection in Reinforcement Learning with General Function Approximations ( http://arxiv.org/abs/2207.02992v1 )

ライセンス: Link先を確認
Avishek Ghosh and Sayak Ray Chowdhury(参考訳) 古典的強化学習(rl)環境におけるモデル選択 - 多武装バンディット(mabs)とマルコフ決定過程(mdps) -- を一般関数近似のもとで検討する。 モデル選択フレームワークでは、$\mathcal{F}$と$\mathcal{M}$で表される関数クラスを知らない。 その代わり、真のモデルがそのようなクラスに含まれるように、$m$ nested function (hypothesis) クラスが与えられる。 本稿では,MAB と MDP の効率的なモデル選択アルゴリズムを提案し,真に基礎となるモデルを含む最小の関数クラス (ネストされた$M$クラス) に対して \emph{adapt} を提案する。 ネストされた仮説クラス上の分離性仮定の下で、我々の適応アルゴリズムの累積後悔は正しい関数クラス(例えば$\cF$と$\cM$)を知っているオラクルのものと一致することを示す。 さらに, いずれの設定においても, モデル選択のコストは, 学習ホライズンに弱い(対数的)依存を持つ後悔の補足語であることを示す。

We consider model selection for classic Reinforcement Learning (RL) environments -- Multi Armed Bandits (MABs) and Markov Decision Processes (MDPs) -- under general function approximations. In the model selection framework, we do not know the function classes, denoted by $\mathcal{F}$ and $\mathcal{M}$, where the true models -- reward generating function for MABs and and transition kernel for MDPs -- lie, respectively. Instead, we are given $M$ nested function (hypothesis) classes such that true models are contained in at-least one such class. In this paper, we propose and analyze efficient model selection algorithms for MABs and MDPs, that \emph{adapt} to the smallest function class (among the nested $M$ classes) containing the true underlying model. Under a separability assumption on the nested hypothesis classes, we show that the cumulative regret of our adaptive algorithms match to that of an oracle which knows the correct function classes (i.e., $\cF$ and $\cM$) a priori. Furthermore, for both the settings, we show that the cost of model selection is an additive term in the regret having weak (logarithmic) dependence on the learning horizon $T$.
翻訳日:2022-07-08 13:31:13 公開日:2022-07-06
# mp-MRIによる深部前立腺癌検出における灌流像の有用性

Perfusion imaging in deep prostate cancer detection from mp-MRI: can we take advantage of it? ( http://arxiv.org/abs/2207.02854v1 )

ライセンス: Link先を確認
Audrey Duran (MYRIAD), Gaspard Dussert (MYRIAD), Carole Lartizien (MYRIAD)(参考訳) 以上より, 前立腺癌検出のための深部コンピュータ支援診断システム (cad) は, バイパラメトリックmri (bi-parametric magnetic resonance imaging, bp-mri) のみを考慮し, 4次元灌流配列を除外しつつ, t2wおよびadc配列のみを考察した。 本稿では,深部神経アーキテクチャにおける灌流画像情報の統合戦略について考察する。 そこで我々は,U-Netのようなアーキテクチャにおける拡散情報をエンコードする方法を,早期と中期の融合戦略についても検討した。 219 mp-MRIのプライベートデータセットに基づいて,マルチパラメトリックMRI(mp-MRI)モデルとベースラインbp-MRIモデルの比較を行った。 動的造影MR検査から得られた灌流図は,PCa病変のセグメンテーションおよびグレーディング性能,特に洗面曲線の最大傾きに対応する3次元MR体積およびTmax灌流マップに肯定的な影響を及ぼすことが示された。 後者のmp-MRIモデルは、実際は核融合戦略よりも優れており、コーエンのカッパスコアはbp-MRIモデルで0.318$\pm$0.019、最大傾斜と中間核融合戦略で0.378$\pm$0.033であり、またコーエンのカッパスコアは最先端と比較して競合する。

To our knowledge, all deep computer-aided detection and diagnosis (CAD) systems for prostate cancer (PCa) detection consider bi-parametric magnetic resonance imaging (bp-MRI) only, including T2w and ADC sequences while excluding the 4D perfusion sequence,which is however part of standard clinical protocols for this diagnostic task. In this paper, we question strategies to integrate information from perfusion imaging in deep neural architectures. To do so, we evaluate several ways to encode the perfusion information in a U-Net like architecture, also considering early versus mid fusion strategies. We compare performance of multiparametric MRI (mp-MRI) models with the baseline bp-MRI model based on a private dataset of 219 mp-MRI exams. Perfusion maps derived from dynamic contrast enhanced MR exams are shown to positively impact segmentation and grading performance of PCa lesions, especially the 3D MR volume corresponding to the maximum slope of the wash-in curve as well as Tmax perfusion maps. The latter mp-MRI models indeed outperform the bp-MRI one whatever the fusion strategy, with Cohen's kappa score of 0.318$\pm$0.019 for the bp-MRI model and 0.378 $\pm$ 0.033 for the model including the maximum slope with a mid fusion strategy, also achieving competitive Cohen's kappa score compared to state of the art.
翻訳日:2022-07-08 13:30:51 公開日:2022-07-06
# エキスパート, 群衆, アルゴリズムによる皮膚トーンアノテーションを用いた皮膚科画像データセットの透明性向上に向けて

Towards Transparency in Dermatology Image Datasets with Skin Tone Annotations by Experts, Crowds, and an Algorithm ( http://arxiv.org/abs/2207.02942v1 )

ライセンス: Link先を確認
Matthew Groh, Caleb Harris, Roxana Daneshjou, Omar Badri, Arash Koochek(参考訳) 人工知能(AI)は医療提供者のサポートと医療診断の精度向上を約束する一方で、データセットの構成における透明性の欠如は、意図しない、回避可能なミスの可能性にAIモデルを公開する。 特に、皮膚疾患のパブリックおよびプライベート画像データセットには、皮膚の色に関する情報がほとんど含まれていない。 透明性を高めるために、ai研究者は、顔認識や皮膚科診断を含むコンピュータビジョン応用のアルゴリズム監査において、患者の感光性尺度から皮膚トーン推定尺度まで、フィッツパトリックスキンタイプ(fst)の使用を適切とした。 画像上でのFSTアノテーションのばらつきを理解するため,教科書とオンライン皮膚科アトラスの460種類の皮膚状態の画像に対して,いくつかのFSTアノテーション法を比較した。 本研究は,3人の皮膚科医の間でのラッター間信頼性を,2つのクラウドソーシング法とボード認定皮膚科医の間でのラッター間信頼性と比較した。 対照的に, fst (ita-fst) 法に変換された個々のタイポロジー角度は, 専門家のアノテーションが相互に相関するよりも, 専門家のアノテーションとの相関が著しく低いアノテーションを生成することがわかった。 これらの結果から, ITA-FSTに基づくアルゴリズムは大規模画像データセットの注釈付けには信頼性が低いが, 人中心のクラウドベースのプロトコルは皮膚科学データセットに皮膚型透明性を確実に付加できることが示された。 さらに,学習可能なパラメータを含む動的コンセンサスプロトコルの概念を導入し,クラウドワークの可視性を高め,大規模画像データセットのクラウドソースアノテーションのガイダンスを提供する。

While artificial intelligence (AI) holds promise for supporting healthcare providers and improving the accuracy of medical diagnoses, a lack of transparency in the composition of datasets exposes AI models to the possibility of unintentional and avoidable mistakes. In particular, public and private image datasets of dermatological conditions rarely include information on skin color. As a start towards increasing transparency, AI researchers have appropriated the use of the Fitzpatrick skin type (FST) from a measure of patient photosensitivity to a measure for estimating skin tone in algorithmic audits of computer vision applications including facial recognition and dermatology diagnosis. In order to understand the variability of estimated FST annotations on images, we compare several FST annotation methods on a diverse set of 460 images of skin conditions from both textbooks and online dermatology atlases. We find the inter-rater reliability between three board-certified dermatologists is comparable to the inter-rater reliability between the board-certified dermatologists and two crowdsourcing methods. In contrast, we find that the Individual Typology Angle converted to FST (ITA-FST) method produces annotations that are significantly less correlated with the experts' annotations than the experts' annotations are correlated with each other. These results demonstrate that algorithms based on ITA-FST are not reliable for annotating large-scale image datasets, but human-centered, crowd-based protocols can reliably add skin type transparency to dermatology datasets. Furthermore, we introduce the concept of dynamic consensus protocols with tunable parameters including expert review that increase the visibility of crowdwork and provide guidance for future crowdsourced annotations of large image datasets.
翻訳日:2022-07-08 13:28:45 公開日:2022-07-06
# 深層ニューラルネットワークを用いた非ラベル組織の脱焦点自己蛍光像の仮想染色

Virtual staining of defocused autofluorescence images of unlabeled tissue using deep neural networks ( http://arxiv.org/abs/2207.02946v1 )

ライセンス: Link先を確認
Yijie Zhang, Luzhe Huang, Tairan Liu, Keyi Cheng, Kevin de Haan, Yuzhu Li, Bijie Bai, Aydogan Ozcan(参考訳) ディープラーニングに基づく仮想染色は、ラベルのない組織セクションとのイメージコントラストを導入し、組織染色をデジタル的にマッチングするために開発された。 標準の仮想染色では、ラベルのない組織のスライドイメージング全体において高いオートフォーカス精度が要求される。 本稿では,非ラベル組織の脱焦点自己蛍光像を染色し,無焦点ラベル画像の仮想染色と同等の性能を達成し,顕微鏡の自己焦点精度を低下させることにより,大幅な撮像時間を節約できる高速仮想染色フレームワークを提案する。 このフレームワークは、仮想的オートフォーカスニューラルネットワークを組み込んで、デフォーカスイメージをディジタルに再フォーカスし、再フォーカスされたイメージを、連続したネットワークを使用して仮想ステンドイメージに変換する。 これらのカスケードネットワークは協調的推論スキームを形成し、仮想染色モデルはトレーニング中にスタイル損失によって仮想オートフォーカスネットワークを正規化する。 本フレームワークの有効性を実証するために,ヒト肺組織を用いてこれらのネットワークを訓練し,盲目的にテストした。 2倍のフォーカス精度を持つ4倍のフォーカスポイントを用いて、粗焦点の自己蛍光画像を高品質な仮想染色h&e画像に変換し、微細焦点の自己蛍光入力画像を用いた標準的な仮想染色フレームワークに適合させた。 染色品質を犠牲にすることなく、このフレームワークはラベルのない全スライディング画像(WSI)の仮想染色に必要な総画像取得時間を約32%削減し、オートフォーカス時間の約89%を削減し、病理学における退屈で高価な組織化学的染色プロセスを除去する可能性がある。

Deep learning-based virtual staining was developed to introduce image contrast to label-free tissue sections, digitally matching the histological staining, which is time-consuming, labor-intensive, and destructive to tissue. Standard virtual staining requires high autofocusing precision during the whole slide imaging of label-free tissue, which consumes a significant portion of the total imaging time and can lead to tissue photodamage. Here, we introduce a fast virtual staining framework that can stain defocused autofluorescence images of unlabeled tissue, achieving equivalent performance to virtual staining of in-focus label-free images, also saving significant imaging time by lowering the microscope's autofocusing precision. This framework incorporates a virtual-autofocusing neural network to digitally refocus the defocused images and then transforms the refocused images into virtually stained images using a successive network. These cascaded networks form a collaborative inference scheme: the virtual staining model regularizes the virtual-autofocusing network through a style loss during the training. To demonstrate the efficacy of this framework, we trained and blindly tested these networks using human lung tissue. Using 4x fewer focus points with 2x lower focusing precision, we successfully transformed the coarsely-focused autofluorescence images into high-quality virtually stained H&E images, matching the standard virtual staining framework that used finely-focused autofluorescence input images. Without sacrificing the staining quality, this framework decreases the total image acquisition time needed for virtual staining of a label-free whole-slide image (WSI) by ~32%, together with a ~89% decrease in the autofocusing time, and has the potential to eliminate the laborious and costly histochemical staining process in pathology.
翻訳日:2022-07-08 13:28:13 公開日:2022-07-06
# 予測符号化による不変世界状態表現の学習

Learning Invariant World State Representations with Predictive Coding ( http://arxiv.org/abs/2207.02972v1 )

ライセンス: Link先を確認
Avi Ziskind, Sujeong Kim, and Giedrius T. Burachas(参考訳) 自己教師付き学習手法は、ラベル付きデータの限られた可用性という、より有能なAIを構築する上で重要なボトルネックを克服する。 しかし、自己教師付きアーキテクチャの欠点の1つは、彼らが学習する表現が暗黙的であり、深度マップでエンコードされた視覚シーンの3d構造など、エンコードされた世界状態に関する意味のある情報を抽出するのは難しいことである。 さらに、視覚領域では、このような表現は、自動運転車のビジョンのような下流作業に不可欠な評価を受けることは滅多にない。 本稿では,奥行き知覚の文脈における照明不変性に対する視覚表現の評価手法を提案する。 我々は,新しい予測型コーディングベースアーキテクチャと,完全教師付き/自己教師付き学習手法を開発した。 Predictive Lateral bottom-Up と Top-Down Encoder-decoder Network (PreludeNet) は、ビデオフレームから奥行きを推測し予測することを明示的に学習するアーキテクチャである。 preludenetでは、エンコーダのスタックである予測符号化層は自己教師方式で訓練され、予測デコーダは教師方式で訓練され、深さを推測または予測する。 我々は,光条件(全体照明や影の効果など)を,世界の他の側面を一定に保ちながらパラメトリックに調整できるような,新しい合成データセット上でのモデルのロバスト性を評価する。 PreludeNetは競合深度推定性能と次のフレーム予測精度の両方を達成する。 また,この新しいネットワークアーキテクチャと,ハイブリッドな完全教師付き・自己教師型学習手法が組み合わさって,その性能と照明変化の相違を両立させることを示す。 視覚的表現を評価するためのフレームワークは、様々なタスクドメインと不変テストに拡張できる。

Self-supervised learning methods overcome the key bottleneck for building more capable AI: limited availability of labeled data. However, one of the drawbacks of self-supervised architectures is that the representations that they learn are implicit and it is hard to extract meaningful information about the encoded world states, such as 3D structure of the visual scene encoded in a depth map. Moreover, in the visual domain such representations only rarely undergo evaluations that may be critical for downstream tasks, such as vision for autonomous cars. Herein, we propose a framework for evaluating visual representations for illumination invariance in the context of depth perception. We develop a new predictive coding-based architecture and a hybrid fully-supervised/self-supervised learning method. We propose a novel architecture that extends the predictive coding approach: PRedictive Lateral bottom-Up and top-Down Encoder-decoder Network (PreludeNet), which explicitly learns to infer and predict depth from video frames. In PreludeNet, the encoder's stack of predictive coding layers is trained in a self-supervised manner, while the predictive decoder is trained in a supervised manner to infer or predict the depth. We evaluate the robustness of our model on a new synthetic dataset, in which lighting conditions (such as overall illumination, and effect of shadows) can be be parametrically adjusted while keeping all other aspects of the world constant. PreludeNet achieves both competitive depth inference performance and next frame prediction accuracy. We also show how this new network architecture, coupled with the hybrid fully-supervised/self-supervised learning method, achieves balance between the said performance and invariance to changes in lighting. The proposed framework for evaluating visual representations can be extended to diverse task domains and invariance tests.
翻訳日:2022-07-08 12:54:24 公開日:2022-07-06
# トラウマ蘇生のための実行時決定支援の探索

Exploring Runtime Decision Support for Trauma Resuscitation ( http://arxiv.org/abs/2207.02922v1 )

ライセンス: Link先を確認
Keyi Li, Sen Yang, Travis M. Sullivan, Randall S. Burd, Ivan Marsic(参考訳) AIベースの推薦システムは、多くのドメイン(eコマース、フィードランキングなど)でうまく適用されている。 医療専門家は、そのような手法を臨床決定支援システムに組み込むことは、治療過程(例えば、外傷蘇生、外科的プロセス)における医療チームのエラーを減らし、患者の結果を改善するのに役立つと考えている。 しかし、データ駆動型自動治療支援を開発するための研究は限られている。 我々は,次分動作予測を行うための治療レコメンデータシステムの構築の可能性を検討した。 このシステムは、患者のコンテキスト(人口統計やバイタルサインなど)とプロセスコンテキスト(アクティビティなど)を使用して、次の分で実行されるアクティビティを継続的に予測する。 トラウマ蘇生を事前に記録したデータセットを用いて評価し,異なるモデル変種に対するアブレーション試験を行った。 ベストモデルは61種類のF1スコア平均0.67を達成した。 医療チームからのフィードバックも含み、今後の作業について話し合います。

AI-based recommender systems have been successfully applied in many domains (e.g., e-commerce, feeds ranking). Medical experts believe that incorporating such methods into a clinical decision support system may help reduce medical team errors and improve patient outcomes during treatment processes (e.g., trauma resuscitation, surgical processes). Limited research, however, has been done to develop automatic data-driven treatment decision support. We explored the feasibility of building a treatment recommender system to provide runtime next-minute activity predictions. The system uses patient context (e.g., demographics and vital signs) and process context (e.g., activities) to continuously predict activities that will be performed in the next minute. We evaluated our system on a pre-recorded dataset of trauma resuscitation and conducted an ablation study on different model variants. The best model achieved an average F1-score of 0.67 for 61 activity types. We include medical team feedback and discuss the future work.
翻訳日:2022-07-08 12:50:01 公開日:2022-07-06
# 多様性探索を用いたクラスタリングに基づくアクティブラーニングによるラベルデータの不足軽減

Mitigating shortage of labeled data using clustering-based active learning with diversity exploration ( http://arxiv.org/abs/2207.02964v1 )

ライセンス: Link先を確認
Xuyang Yan, Shabnam Nazmi, Biniam Gebru, Mohd Anwar, Abdollah Homaifar, Mrinmoy Sarkar, and Kishor Datta Gupta(参考訳) 本稿では、クラスタリングに基づくアクティブラーニングフレームワーク、すなわち、クラスタリングベースのサンプリング(ALCS)を用いたアクティブラーニングを提案し、ラベル付きデータの不足に対処する。 ALCSはデータからクラスタ構造を探索するために密度に基づくクラスタリング手法を採用している。 重なり合うクラスを分類する学習性能を向上させるために、クラスタ境界に基づくサンプルクエリ手順が導入された。 さらに,クエリーサンプル間の冗長性に対処する効果的な多様性探索手法を開発した。 実験結果は,alcsアプローチの有効性を正当化した。

In this paper, we proposed a new clustering-based active learning framework, namely Active Learning using a Clustering-based Sampling (ALCS), to address the shortage of labeled data. ALCS employs a density-based clustering approach to explore the cluster structure from the data without requiring exhaustive parameter tuning. A bi-cluster boundary-based sample query procedure is introduced to improve the learning performance for classifying highly overlapped classes. Additionally, we developed an effective diversity exploration strategy to address the redundancy among queried samples. Our experimental results justified the efficacy of the ALCS approach.
翻訳日:2022-07-08 12:48:51 公開日:2022-07-06
# ジョイント多次元スケーリングによる教師なし多様体アライメント

Unsupervised Manifold Alignment with Joint Multidimensional Scaling ( http://arxiv.org/abs/2207.02968v1 )

ライセンス: Link先を確認
Dexiong Chen, Bowen Fan, Carlos Oliver, Karsten Borgwardt(参考訳) これは、データセット全体にわたるデータインスタンス間の既知の対応を伴わずに、2つの異なるドメインからのデータセットを共通の低次元ユークリッド空間にマッピングする、教師なし多様体アライメントの新しいアプローチである。 提案手法では,多次元スケーリング(MDS)とワッサースタイン・プロクリスト解析を共同最適化問題に統合し,データの等尺的な埋め込みを同時に生成し,2つの異なるデータセットからインスタンス間の対応を学習する。 このユニークな特徴は,不正確なグラフマッチング問題を解くなど,入力機能にアクセスせずにデータセットに適用することができる。 本稿では,MDS と Wasserstein Procrustes の最適化手法の利点をフルに活用できる最適化手法を提案する。 提案手法の有効性を,2つのデータセットの同時可視化,教師なし不均一領域適応,グラフマッチング,タンパク質構造アライメントなどに適用した。

We introduce Joint Multidimensional Scaling, a novel approach for unsupervised manifold alignment, which maps datasets from two different domains, without any known correspondences between data instances across the datasets, to a common low-dimensional Euclidean space. Our approach integrates Multidimensional Scaling (MDS) and Wasserstein Procrustes analysis into a joint optimization problem to simultaneously generate isometric embeddings of data and learn correspondences between instances from two different datasets, while only requiring intra-dataset pairwise dissimilarities as input. This unique characteristic makes our approach applicable to datasets without access to the input features, such as solving the inexact graph matching problem. We propose an alternating optimization scheme to solve the problem that can fully benefit from the optimization techniques for MDS and Wasserstein Procrustes. We demonstrate the effectiveness of our approach in several applications, including joint visualization of two datasets, unsupervised heterogeneous domain adaptation, graph matching, and protein structure alignment.
翻訳日:2022-07-08 12:47:42 公開日:2022-07-06
# decisionet --バイナリツリー構造化ニューラルネットワーク

DecisioNet -- A Binary-Tree Structured Neural Network ( http://arxiv.org/abs/2207.01127v2 )

ライセンス: Link先を確認
Noam Gottlieb and Michael Werman(参考訳) deep neural networks (dnn) と decision tree (dts) はどちらも最先端の分類器である。 DTは、入力データに依存する1つのルート(root-to-leaf)に沿って推論を行うので、計算効率が良い。 本稿では,二分木構成ニューラルネットワークであるdecisionet(dn)を提案する。 既存のdnnをdnに変換して軽量版のオリジナルモデルを作成する体系的な方法を提案する。 DecisioNetは、ニューラルネットワークを使って表現学習を行い、ツリー構造を利用して計算の一部だけを実行する。 我々は、FashionMNIST、CIFAR10、CIFAR100データセットのベースラインモデルとともに、様々なDNアーキテクチャを評価する。 DNの変種は、元のネットワークの計算コストを大幅に削減しつつ、同様の精度を実現する。

Deep neural networks (DNNs) and decision trees (DTs) are both state-of-the-art classifiers. DNNs perform well due to their representational learning capabilities, while DTs are computationally efficient as they perform inference along one route (root-to-leaf) that is dependent on the input data. In this paper, we present DecisioNet (DN), a binary-tree structured neural network. We propose a systematic way to convert an existing DNN into a DN to create a lightweight version of the original model. DecisioNet takes the best of both worlds - it uses neural modules to perform representational learning and utilizes its tree structure to perform only a portion of the computations. We evaluate various DN architectures, along with their corresponding baseline models on the FashionMNIST, CIFAR10, and CIFAR100 datasets. We show that the DN variants achieve similar accuracy while significantly reducing the computational cost of the original network.
翻訳日:2022-07-08 10:57:11 公開日:2022-07-06
# ICE-NODE:ニューラル常微分方程式と臨床埋め込みの統合

ICE-NODE: Integration of Clinical Embeddings with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2207.01873v2 )

ライセンス: Link先を確認
Asem Alaa, Erik Mayer, Mauricio Barahona(参考訳) 疾患の早期診断は、生存率の向上や治療コストの低下など、健康状態の改善につながる可能性がある。 電子健康記録 (EHRs) に大量の情報が蓄積されていることから, 早期の発症予測や他の結果の予測を目的とした疾患進行のモデル化に機械学習 (ML) 手法を用いる可能性が大きい。 本研究では,ERHの時間的情報をフル活用するために,ニューラルODEの最近のイノベーションを採用する。 本稿では,ERHにおける患者軌跡の学習と予測のために,臨床コードとニューラルネットワークの埋め込みを時間的に統合したICE-NODE(Integration of Clinical Embeddings with Neural Ordinary Differential Equations)を提案する。 本手法を一般に公開されているMIMIC-IIIおよびMIMIC-IVデータセットに適用し、最先端の方法と比較して予測結果の改善を報告した。 また、ICE-NODEは急性腎不全や肺心疾患などの特定の疾患の予測に優れており、さらなる予測に活用できる患者リスクトラジェクタを時間とともに生成可能であることも示している。

Early diagnosis of disease can result in improved health outcomes, such as higher survival rates and lower treatment costs. With the massive amount of information in electronic health records (EHRs), there is great potential to use machine learning (ML) methods to model disease progression aimed at early prediction of disease onset and other outcomes. In this work, we employ recent innovations in neural ODEs to harness the full temporal information of EHRs. We propose ICE-NODE (Integration of Clinical Embeddings with Neural Ordinary Differential Equations), an architecture that temporally integrates embeddings of clinical codes and neural ODEs to learn and predict patient trajectories in EHRs. We apply our method to the publicly available MIMIC-III and MIMIC-IV datasets, reporting improved prediction results compared to state-of-the-art methods, specifically for clinical codes that are not frequently observed in EHRs. We also show that ICE-NODE is more competent at predicting certain medical conditions, like acute renal failure and pulmonary heart disease, and is also able to produce patient risk trajectories over time that can be exploited for further predictions.
翻訳日:2022-07-08 10:54:21 公開日:2022-07-06
# (参考訳) 適応的細粒スケッチに基づく画像検索

Adaptive Fine-Grained Sketch-Based Image Retrieval ( http://arxiv.org/abs/2207.01723v2 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Aneeshan Sain, Parth Shah, Animesh Gupta, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song(参考訳) 最近のFG-SBIR(Fin-Grained Sketch-Based Image Retrieval)の焦点は、トレーニングデータなしで新しいカテゴリにモデルを一般化することへと移行している。 しかし、現実の応用においては、訓練されたFG-SBIRモデルは、新しいカテゴリと異なる人間のスケッチ、すなわち異なる描画スタイルの両方に適用されることが多い。 これは一般化の問題を複雑にしますが、幸いにもいくつかの例が一般的に利用可能で、モデルが新しいカテゴリ/スタイルに適応できるようにしています。 本稿では、新しい視点を提供します -- 一般化するモデルを求めるのではなく、テスト中に(数ショットで)ごくわずかなサンプルで、迅速に適応するモデルを提案します。 この問題を解決するために,モデルに依存しないメタラーニング(MAML)に基づく新しいフレームワークを導入する。(1) マージンベースのコントラスト損失のある検索タスクとして,内部ループでのMAMLトレーニングを簡素化し,より安定かつトラクタブルにする。 (2) 対照的な損失のマージンは、モデルの他の部分ともメタ学習される。 (3) メタ学習型FG-SBIRモデルをカテゴリー/スタイル適応に有効にするため, 外部ループに3つの追加正規化損失が導入された。 公開データセットに関する広範囲な実験は、一般化やゼロショットベースアプローチに対する大きな利益と、少数の強力なマイナショットベースラインを示唆している。

The recent focus on Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) has shifted towards generalising a model to new categories without any training data from them. In real-world applications, however, a trained FG-SBIR model is often applied to both new categories and different human sketchers, i.e., different drawing styles. Although this complicates the generalisation problem, fortunately, a handful of examples are typically available, enabling the model to adapt to the new category/style. In this paper, we offer a novel perspective -- instead of asking for a model that generalises, we advocate for one that quickly adapts, with just very few samples during testing (in a few-shot manner). To solve this new problem, we introduce a novel model-agnostic meta-learning (MAML) based framework with several key modifications: (1) As a retrieval task with a margin-based contrastive loss, we simplify the MAML training in the inner loop to make it more stable and tractable. (2) The margin in our contrastive loss is also meta-learned with the rest of the model. (3) Three additional regularisation losses are introduced in the outer loop, to make the meta-learned FG-SBIR model more effective for category/style adaptation. Extensive experiments on public datasets suggest a large gain over generalisation and zero-shot based approaches, and a few strong few-shot baselines.
翻訳日:2022-07-08 08:36:40 公開日:2022-07-06
# (参考訳) テキストエンリッチな疎双曲グラフ畳み込みネットワーク

Text Enriched Sparse Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2207.02368v1 )

ライセンス: CC BY-SA 4.0
Nurendra Choudhary, Nikhil Rao, Karthik Subbian, Chandan K. Reddy(参考訳) エッジタイプが異なるテキストを含む情報ノードを接続する異種ネットワークは、様々な現実世界のアプリケーションに情報を保存するために日常的に使用される。 グラフニューラルネットワーク(GNN)とその双曲的変種は、それぞれ近傍の集約と階層的特徴抽出を通じて、低次元の潜在空間でそのようなネットワークを符号化する有望なアプローチを提供する。 しかし、これらのアプローチは一般的にメタパス構造や利用可能な意味情報を無視する。 さらに、これらの手法はトレーニングデータに存在するノイズに敏感である。 本稿では,これらの制約に対処するために,意味的信号を用いてグラフのメタパス構造を捕捉し,さらに大きな異種グラフの予測を改善するために,テキスト強化スパースハイパーボリックグラフ畳み込みネットワーク(TESH-GCN)を提案する。 TESH-GCNでは,関係ノードの局所的近傍およびグラフレベルのメタパス特徴を,高次グラフ畳み込み層におけるスパース隣接テンソルから抽出する接続信号として機能する意味ノード情報を抽出する。 これらの抽出された特徴と言語モデルからのセマンティックな特徴(堅牢性のために)が最終ダウンストリームタスクに使用される。 様々な不均一グラフデータセットにおける実験により,本モデルはリンク予測のタスクにおいて,現在の最先端のアプローチよりも大きなマージンを持つことが示された。 また,修正双曲グラフ畳み込みによる既存の双曲的アプローチと比較して,トレーニング時間とモデルパラメータの両方の削減を報告した。 さらに,本モデルのロバスト性について,グラフ構造とテキストの両方において異なるレベルのシミュレーションノイズを実験し,抽出されたメタパスを解析し,tesh-gcnの予測を説明するメカニズムを提案する。

Heterogeneous networks, which connect informative nodes containing text with different edge types, are routinely used to store and process information in various real-world applications. Graph Neural Networks (GNNs) and their hyperbolic variants provide a promising approach to encode such networks in a low-dimensional latent space through neighborhood aggregation and hierarchical feature extraction, respectively. However, these approaches typically ignore metapath structures and the available semantic information. Furthermore, these approaches are sensitive to the noise present in the training data. To tackle these limitations, in this paper, we propose Text Enriched Sparse Hyperbolic Graph Convolution Network (TESH-GCN) to capture the graph's metapath structures using semantic signals and further improve prediction in large heterogeneous graphs. In TESH-GCN, we extract semantic node information, which successively acts as a connection signal to extract relevant nodes' local neighborhood and graph-level metapath features from the sparse adjacency tensor in a reformulated hyperbolic graph convolution layer. These extracted features in conjunction with semantic features from the language model (for robustness) are used for the final downstream task. Experiments on various heterogeneous graph datasets show that our model outperforms the current state-of-the-art approaches by a large margin on the task of link prediction. We also report a reduction in both the training time and model parameters compared to the existing hyperbolic approaches through a reformulated hyperbolic graph convolution. Furthermore, we illustrate the robustness of our model by experimenting with different levels of simulated noise in both the graph structure and text, and also, present a mechanism to explain TESH-GCN's prediction by analyzing the extracted metapaths.
翻訳日:2022-07-08 03:04:11 公開日:2022-07-06
# (参考訳) 無線信号を用いた人間センシングのための教師なし学習

Unsupervised Learning for Human Sensing Using Radio Signals ( http://arxiv.org/abs/2207.02370v1 )

ライセンス: CC BY 4.0
Tianhong Li, Lijie Fan, Yuan Yuan, Dina Katabi(参考訳) 電波周波数(RF)信号を用いて、オクルージョンや照明不足の存在下で重要なコンピュータビジョンタスクを可能にする可能性を示す文献が増えている。 rf信号が壁や咬合を横切ることで、壁越しのポーズ推定、行動認識、シーンキャプション、人間の再識別を提供する。 しかし、人間の作業員によってラベル付けできるRGBデータセットとは異なり、RF信号のラベル付けは人間の解釈不可能な作業である。 しかし、未標識のRF信号の収集は比較的容易である。 このようなラベルのないRFデータを使って、教師なしの方法で有用な表現を学ぶことは、非常に有益である。 そこで本稿では,RGBに基づく教師なし表現学習をRF信号に適用する可能性を検討する。 画像や映像から教師なし表現を学習するための主手法としてコントラスト学習が出現しているが,rf信号を用いた人間知覚に適用すると,その性能は低下する。 対照的に、予測的教師なし学習法は、複数の下流RFベースのセンシングタスクに使用できる高品質な表現を学習する。 実験結果から,このアプローチは様々なタスクにおけるrfベースの人間センシングよりも優れており,この新しいモダリティから教師なし表現学習の可能性も開けている。

There is a growing literature demonstrating the feasibility of using Radio Frequency (RF) signals to enable key computer vision tasks in the presence of occlusions and poor lighting. It leverages that RF signals traverse walls and occlusions to deliver through-wall pose estimation, action recognition, scene captioning, and human re-identification. However, unlike RGB datasets which can be labeled by human workers, labeling RF signals is a daunting task because such signals are not human interpretable. Yet, it is fairly easy to collect unlabelled RF signals. It would be highly beneficial to use such unlabeled RF data to learn useful representations in an unsupervised manner. Thus, in this paper, we explore the feasibility of adapting RGB-based unsupervised representation learning to RF signals. We show that while contrastive learning has emerged as the main technique for unsupervised representation learning from images and videos, such methods produce poor performance when applied to sensing humans using RF signals. In contrast, predictive unsupervised learning methods learn high-quality representations that can be used for multiple downstream RF-based sensing tasks. Our empirical results show that this approach outperforms state-of-the-art RF-based human sensing on various tasks, opening the possibility of unsupervised representation learning from this novel modality.
翻訳日:2022-07-08 02:35:25 公開日:2022-07-06
# (参考訳) 深層監視に関する包括的レビュー:理論と応用

A Comprehensive Review on Deep Supervision: Theories and Applications ( http://arxiv.org/abs/2207.02376v1 )

ライセンス: CC BY 4.0
Renjie Li, Xinyi Wang, Guan Huang, Wenli Yang, Kaining Zhang, Xiaotong Gu, Son N. Tran, Saurabh Garg, Jane Alty, Quan Bai(参考訳) ディープ・監督(Deep supervision)、または「中間的監督」または「補助的監督」とは、ニューラルネットワークの隠された層に監督を加えることである。 この手法は、近年、様々なコンピュータビジョンアプリケーションのための深層ニューラルネットワーク学習システムに適用されてきている。 深い監督の強みの1つとして、勾配の消滅問題を緩和することで、深い監視がニューラルネットワークのパフォーマンス向上に役立つという意見がある。 さらに、異なるコンピュータビジョンアプリケーションでは、深い監視を異なる方法で適用することができる。 異なるアプリケーションにおけるネットワーク性能を改善するために、ディープ・監視を最大限に活用する方法は、十分に研究されていない。 本稿では,理論と応用の両方において深い監督を包括的に検討する。 本稿では,異なる深層監視ネットワークの新たな分類を提案し,コンピュータビジョンアプリケーションにおける現在の深層監視ネットワークの利点と限界について議論する。

Deep supervision, or known as 'intermediate supervision' or 'auxiliary supervision', is to add supervision at hidden layers of a neural network. This technique has been increasingly applied in deep neural network learning systems for various computer vision applications recently. There is a consensus that deep supervision helps improve neural network performance by alleviating the gradient vanishing problem, as one of the many strengths of deep supervision. Besides, in different computer vision applications, deep supervision can be applied in different ways. How to make the most use of deep supervision to improve network performance in different applications has not been thoroughly investigated. In this paper, we provide a comprehensive in-depth review of deep supervision in both theories and applications. We propose a new classification of different deep supervision networks, and discuss advantages and limitations of current deep supervision networks in computer vision applications.
翻訳日:2022-07-08 02:19:17 公開日:2022-07-06
# (参考訳) 教師なし低用量CTのためのパッチワイド深度学習

Patch-wise Deep Metric Learning for Unsupervised Low-Dose CT Denoising ( http://arxiv.org/abs/2207.02377v1 )

ライセンス: CC BY 4.0
Chanyong Jung, Joonhyung Lee, Sunkyoung You, Jong Chul Ye(参考訳) 低線量・高線量CT画像の取得条件は通常異なるため、CT数の変化がしばしば発生する。 したがって、目標画像分布を学習する教師なし深層学習に基づくアプローチでは、ct番号の歪みをしばしば導入し、診断性能に悪影響を及ぼす。 そこで本稿では,パッチワイズ・ディープメトリック・ラーニングを用いた低線量ct再構成のための教師なし学習手法を提案する。 重要なアイデアは、同じ解剖学的構造を共有する正のイメージパッチのペアを引っ張り、同じノイズレベルを持つ負のペアを互いに押すことで、埋め込み空間を学ぶことである。 これにより、ネットワークは、画像翻訳後も元のグローバルCT数分布を保持しながら、ノイズレベルを抑えるように訓練される。 実験の結果,ctナンバーシフトを伴わずに高画質の分別画像を生成する上で,深部メトリック学習が重要な役割を担っていることがわかった。

The acquisition conditions for low-dose and high-dose CT images are usually different, so that the shifts in the CT numbers often occur. Accordingly, unsupervised deep learning-based approaches, which learn the target image distribution, often introduce CT number distortions and result in detrimental effects in diagnostic performance. To address this, here we propose a novel unsupervised learning approach for lowdose CT reconstruction using patch-wise deep metric learning. The key idea is to learn embedding space by pulling the positive pairs of image patches which shares the same anatomical structure, and pushing the negative pairs which have same noise level each other. Thereby, the network is trained to suppress the noise level, while retaining the original global CT number distributions even after the image translation. Experimental results confirm that our deep metric learning plays a critical role in producing high quality denoised images without CT number shift.
翻訳日:2022-07-08 01:51:21 公開日:2022-07-06
# (参考訳) 機械学習に基づく測光画像強調モデル評価のための新しいハイブリッド内視鏡データセット

A Novel Hybrid Endoscopic Dataset for Evaluating Machine Learning-based Photometric Image Enhancement Models ( http://arxiv.org/abs/2207.02396v1 )

ライセンス: CC BY 4.0
Axel Garcia-Vega, Ricardo Espinosa, Gilberto Ochoa-Ruiz, Thomas Bazin, Luis Eduardo Falcon-Morales, Dominique Lamarque, Christian Daul(参考訳) 内視鏡は中空臓器内のがんやポリープの検出に最も広く用いられる医療技術である。 しかし、内視鏡で取得した画像は、啓蒙源方位による照明アーチファクトに影響されることが多い。 内視鏡の光源が突然変化するとき、2つの大きな問題がある:過剰露出と過露出の組織領域が生成される。 これらの2つのシナリオは、非侵襲的な検査で使用される様々なコンピュータビジョン手法(SLAM、動きからの構造、光の流れなど)のパフォーマンスを阻害する、影響ゾーンの情報不足による誤診を引き起こす可能性がある。 この作品の目的は2つある。 一 生成的敵意的手法により生成された新規な合成生成データセットを導入すること。 二 過度の露光及び過度の露光における浅層学習と深層学習に基づく画像強調法の両方を探求すること。 最良定量結果(すなわちメートル法に基づく結果)はdeep-learnnigベースのlmspec法によって得られ、実行時間は7.6 fpsである。

Endoscopy is the most widely used medical technique for cancer and polyp detection inside hollow organs. However, images acquired by an endoscope are frequently affected by illumination artefacts due to the enlightenment source orientation. There exist two major issues when the endoscope's light source pose suddenly changes: overexposed and underexposed tissue areas are produced. These two scenarios can result in misdiagnosis due to the lack of information in the affected zones or hamper the performance of various computer vision methods (e.g., SLAM, structure from motion, optical flow) used during the non invasive examination. The aim of this work is two-fold: i) to introduce a new synthetically generated data-set generated by a generative adversarial techniques and ii) and to explore both shallow based and deep learning-based image-enhancement methods in overexposed and underexposed lighting conditions. Best quantitative results (i.e., metric based results), were obtained by the deep-learnnig-based LMSPEC method,besides a running time around 7.6 fps)
翻訳日:2022-07-08 01:41:51 公開日:2022-07-06
# (参考訳) BioTABQA: バイオメディカルテーブル質問応答のための指導学習

BioTABQA: Instruction Learning for Biomedical Table Question Answering ( http://arxiv.org/abs/2207.02419v1 )

ライセンス: CC BY 4.0
Man Luo, Sharad Saxena, Swaroop Mishra, Mihir Parmar, Chitta Baral(参考訳) TQA(Table Question Answering)は、重要だが未調査の課題である。 既存のQAデータセットのほとんどは構造化されていないテキストフォーマットで、テーブルをコンテキストとして使用するものはほとんどありません。 我々の知る限りでは、TQAデータセットはいずれも、情報の提示に頻繁に使用される生物医学領域には存在しない。 本稿ではまず,22のテンプレートを用いたテーブル質問応答データセットBioTABQAを,生物医学教科書の差分診断のコンテキストからキュレートする。 BioTABQAは、モデルにテーブルからの質問に答える方法を教えるだけでなく、モデルが目に見えない質問にどのように一般化するかを評価することができる。 一般化評価を実現するため,テンプレートを17のトレーニングと5つのクロスタスク評価に分割する。 次に,BioTABQAを用いたシングルタスク学習とマルチタスク学習の2つのベースラインを構築した。 さらに,性能を一般化する近年の手法である指導学習についても考察する。 実験の結果,様々な評価条件において,単タスクおよびマルチタスクのベースラインを平均で23%,6%,さらにクロスタスクでは命令チューニングモデルがベースラインを約5%上回った。

Table Question Answering (TQA) is an important but under-explored task. Most of the existing QA datasets are in unstructured text format and only few of them use tables as the context. To the best of our knowledge, none of TQA datasets exist in the biomedical domain where tables are frequently used to present information. In this paper, we first curate a table question answering dataset, BioTABQA, using 22 templates and the context from a biomedical textbook on differential diagnosis. BioTABQA can not only be used to teach a model how to answer questions from tables but also evaluate how a model generalizes to unseen questions, an important scenario for biomedical applications. To achieve the generalization evaluation, we divide the templates into 17 training and 5 cross-task evaluations. Then, we develop two baselines using single and multi-tasks learning on BioTABQA. Furthermore, we explore instructional learning, a recent technique showing impressive generalizing performance. Experimental results show that our instruction-tuned model outperforms single and multi-task baselines on an average by ~23% and ~6% across various evaluation settings, and more importantly, instruction-tuned model outperforms baselines by ~5% on cross-tasks.
翻訳日:2022-07-08 01:29:28 公開日:2022-07-06
# (参考訳) gama: クロスビュービデオのジオローカライズ

GAMa: Cross-view Video Geo-localization ( http://arxiv.org/abs/2207.02431v1 )

ライセンス: CC BY 4.0
Shruti Vyas, Chen Chen, and Mubarak Shah(参考訳) 地上のパノラマが空中画像と一致している画像に基づいて、クロスビューのジオローカライズに関する既存の研究を行っている。 本研究では,この課題に重要な文脈的手がかりを付加する画像ではなく,地上映像に焦点をあてる。 既存のデータセットは存在しないため,地上映像とそれに対応する空中画像を備えた大規模データセットであるGAMaデータセットを提案する。 また,この問題に対する新しいアプローチを提案する。 クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。 さらに,クリップレベルのジオローカライゼーションをさらに改善するための階層的アプローチを提案する。 これは挑戦的なデータセットであり、不整合で限られた視野であり、提案手法はTop-1リコール率19.4%と45.1%@1.0mileを達成する。 コードとデータセットは以下のリンクで利用可能である。

The existing work in cross-view geo-localization is based on images where a ground panorama is matched to an aerial image. In this work, we focus on ground videos instead of images which provides additional contextual cues which are important for this task. There are no existing datasets for this problem, therefore we propose GAMa dataset, a large-scale dataset with ground videos and corresponding aerial images. We also propose a novel approach to solve this problem. At clip-level, a short video clip is matched with corresponding aerial image and is later used to get video-level geo-localization of a long video. Moreover, we propose a hierarchical approach to further improve the clip-level geolocalization. It is a challenging dataset, unaligned and limited field of view, and our proposed method achieves a Top-1 recall rate of 19.4% and 45.1% @1.0mile. Code and dataset are available at following link: https://github.com/svyas23/GAMa.
翻訳日:2022-07-08 01:12:51 公開日:2022-07-06
# (参考訳) Transformerは適応可能なタスクプランナ

Transformers are Adaptable Task Planners ( http://arxiv.org/abs/2207.02442v1 )

ライセンス: CC BY 4.0
Vidhi Jain, Yixin Lin, Eric Undersander, Yonatan Bisk, Akshara Rai(参考訳) どの家も違うし、誰もが自分のやり方で物事をするのが好きだ。 したがって、未来のホームロボットは、日々のタスクのシーケンシャルな性質を推論し、ユーザの好みに一般化する必要がある。 そこで本研究では,オブジェクト属性に基づく表現を活用し,実演からハイレベルな動作を学習するトランスフォーマティブタスクプランナー(ttp)を提案する。 TTPは複数の選好に基づいて事前訓練が可能であり、シミュレーションされた食器洗い機ロードタスクのプロンプトとして1つのデモを用いて、見知らぬ選好への一般化を示す。 さらに,Franka Pandaロボットアームを用いたTTPを用いた実世界の料理のアレンジメントの実証を行った。

Every home is different, and every person likes things done in their particular way. Therefore, home robots of the future need to both reason about the sequential nature of day-to-day tasks and generalize to user's preferences. To this end, we propose a Transformer Task Planner(TTP) that learns high-level actions from demonstrations by leveraging object attribute-based representations. TTP can be pre-trained on multiple preferences and shows generalization to unseen preferences using a single demonstration as a prompt in a simulated dishwasher loading task. Further, we demonstrate real-world dish rearrangement using TTP with a Franka Panda robotic arm, prompted using a single human demonstration.
翻訳日:2022-07-08 00:55:21 公開日:2022-07-06
# (参考訳) 大規模患者クレームデータベースにおけるリスクモデルのポータビリティ向上のための蒸留法

Distillation to Enhance the Portability of Risk Models Across Institutions with Large Patient Claims Database ( http://arxiv.org/abs/2207.02445v1 )

ライセンス: CC BY 4.0
Steve Nyemba, Chao Yan, Ziqi Zhang, Amol Rajmane, Pablo Meyer, Prithwish Chakraborty, Bradley Malin(参考訳) 人工知能、特に機械学習(ML)は、さまざまな環境で医療をサポートするために開発され、デプロイされている。 しかし、MLに基づく臨床意思決定支援(CDS)技術は、広範囲に採用されるには移植性が必要である。 この点において、ある機関で開発されたモデルは別の機関で再利用されるべきである。 しかし、特にmlモデルのナイーブな適用によるポータビリティ障害の例が数多く存在する。 移植性障害は、最適以下のケアと医療上のエラーにつながる可能性があるため、MLベースのCDSが実際に採用されることを防げる。 ポータビリティ向上の恩恵を受けることができる特定の医療課題は、30日間の寛解リスクの予測である。 これまでの研究で、ディープラーニングモデルはそのようなリスクのモデリングに効果的であることが示されている。 本研究は,可読性予測モデルのクロスサイト評価によるモデルポータビリティの実現性について検討する。 そのため,2つの独立した大規模クレームデータセットに対する可読性予測モデルを構築するために,自己注意で拡張され,専門家機能とブレンドされたリカレントニューラルネットワークを適用する。 さらに,よく知られたボルン・アゲイン・ネットワーク(ban)トレーニング手法を適用した新しい転校学習手法を提案する。 実験の結果、ある機関で訓練・試験されたMLモデルの直接適用は、同一施設で訓練・試験されたMLモデルよりも悪い結果が得られた。 さらに、BANに基づくトランスファー学習アプローチは、単一の機関のデータに基づいてトレーニングされたモデルよりも優れたモデルを生成することを示す。 特に、この改善は両サイト間で一貫しており、単一の再訓練後に発生し、読み出しリスク予測の安価で一般的なモデル転送機構の可能性を示している。

Artificial intelligence, and particularly machine learning (ML), is increasingly developed and deployed to support healthcare in a variety of settings. However, clinical decision support (CDS) technologies based on ML need to be portable if they are to be adopted on a broad scale. In this respect, models developed at one institution should be reusable at another. Yet there are numerous examples of portability failure, particularly due to naive application of ML models. Portability failure can lead to suboptimal care and medical errors, which ultimately could prevent the adoption of ML-based CDS in practice. One specific healthcare challenge that could benefit from enhanced portability is the prediction of 30-day readmission risk. Research to date has shown that deep learning models can be effective at modeling such risk. In this work, we investigate the practicality of model portability through a cross-site evaluation of readmission prediction models. To do so, we apply a recurrent neural network, augmented with self-attention and blended with expert features, to build readmission prediction models for two independent large scale claims datasets. We further present a novel transfer learning technique that adapts the well-known method of born-again network (BAN) training. Our experiments show that direct application of ML models trained at one institution and tested at another institution perform worse than models trained and tested at the same institution. We further show that the transfer learning approach based on the BAN produces models that are better than those trained on just a single institution's data. Notably, this improvement is consistent across both sites and occurs after a single retraining, which illustrates the potential for a cheap and general model transfer mechanism of readmission risk prediction.
翻訳日:2022-07-08 00:31:39 公開日:2022-07-06
# (参考訳) 二項選好による常態回帰と単純回帰:統計的・実験的視点

Ordinal Regression via Binary Preference vs Simple Regression: Statistical and Experimental Perspectives ( http://arxiv.org/abs/2207.02454v1 )

ライセンス: CC BY 4.0
Bin Su, Shaoguang Mao, Frank Soong, Zhiyong Wu(参考訳) 入力刺激の主観的平均評価スコア(mos)を自動的に予測するためにアンカード参照サンプル(orar)を用いた順序回帰が提案されている。 ORARSは、テストサンプルと事前にマークされたアンカード参照サンプルをペアにすることで、MOS予測問題に対処する。 訓練されたバイナリ分類器は、どのサンプル、テストまたはアンカーが統計的に優れているかを予測するために使用される。 次に、二分選好決定の後続者がテストサンプルのMOSを予測するために使用される。 本稿では,単純な回帰よりもorarが有利であることを示すための厳密なフレームワーク,解析,実験について述べる。 この作品の貢献は次のとおりである。 1) 従来の回帰を複数の選好テストに再構成して、より良い性能が得られることを示し、シミュレーションで確認する。 2) ORARSを他の回帰問題に一般化し,その有効性を検証する。 3) ORARSの適切な適用を保証できる前提条件の提供。

Ordinal regression with anchored reference samples (ORARS) has been proposed for predicting the subjective Mean Opinion Score (MOS) of input stimuli automatically. The ORARS addresses the MOS prediction problem by pairing a test sample with each of the pre-scored anchored reference samples. A trained binary classifier is then used to predict which sample, test or anchor, is better statistically. Posteriors of the binary preference decision are then used to predict the MOS of the test sample. In this paper, rigorous framework, analysis, and experiments to demonstrate that ORARS are advantageous over simple regressions are presented. The contributions of this work are: 1) Show that traditional regression can be reformulated into multiple preference tests to yield a better performance, which is confirmed with simulations experimentally; 2) Generalize ORARS to other regression problems and verify its effectiveness; 3) Provide some prerequisite conditions which can insure proper application of ORARS.
翻訳日:2022-07-08 00:22:30 公開日:2022-07-06
# (参考訳) ジェンダーバイアスと探す場所--ムーブメント・プルーニングを用いた事前学習型トランスフォーマー言語モデルにおけるジェンダーバイアスの探索

Gender Biases and Where to Find Them: Exploring Gender Bias in Pre-Trained Transformer-based Language Models Using Movement Pruning ( http://arxiv.org/abs/2207.02463v1 )

ライセンス: CC BY 4.0
Przemyslaw Joniak and Akiko Aizawa(参考訳) 言語モデルのデバイアスはNLPコミュニティにおいて重要な研究分野として現れている。 多くの脱バイアス技術が提案されたが、バイアスアブレーションは未適応の問題のままである。 我々は,事前学習したトランスフォーマー言語モデルにおけるバイアス検査のための新しい枠組みを移動プルーニングを用いて実証する。 モデルとデバイアスの目標が与えられた場合、我々のフレームワークは、元のモデルよりもバイアスが少ないモデルのサブセットを見つける。 モデルを微調整しながらデバイアスの対象にすることで、私たちのフレームワークを実装します。 最適化はプルーニングスコアのみであり、パラメータはゲートとして機能するモデルの重みと結合する。 我々は、注意喚起ヘッド、トランスの重要なビルディングブロックを実験し、正方形ブロックをプルーすると同時に、頭全体をプルーニングする新しい方法を確立しました。 最後に, ジェンダーバイアスを用いたフレームワークの利用を実証し, 既存のデバイアス手法の改善を提案する。 さらに、バイアスパフォーマンスのトレードオフを再発見する: モデルのパフォーマンスが良くなればなるほど、そのバイアスは高まる。

Language model debiasing has emerged as an important field of study in the NLP community. Numerous debiasing techniques were proposed, but bias ablation remains an unaddressed issue. We demonstrate a novel framework for inspecting bias in pre-trained transformer-based language models via movement pruning. Given a model and a debiasing objective, our framework finds a subset of the model containing less bias than the original model. We implement our framework by pruning the model while fine-tuning it on the debiasing objective. Optimized are only the pruning scores - parameters coupled with the model's weights that act as gates. We experiment with pruning attention heads, an important building block of transformers: we prune square blocks, as well as establish a new way of pruning the entire heads. Lastly, we demonstrate the usage of our framework using gender bias, and based on our findings, we propose an improvement to an existing debiasing method. Additionally, we re-discover a bias-performance trade-off: the better the model performs, the more bias it contains.
翻訳日:2022-07-08 00:10:26 公開日:2022-07-06
# (参考訳) 合成画像を用いたマルチコントラストMRI分割

Multi-Contrast MRI Segmentation Trained on Synthetic Images ( http://arxiv.org/abs/2207.02469v1 )

ライセンス: CC BY 4.0
Ismail Irmakci, Zeki Emre Unel, Nazli Ikizler-Cinbis, Ulas Bagci(参考訳) 総合的な実験と評価では、複数のコントラスト(全て合成)を生成し、合成画像を用いて画像セグメンテーションエンジンを訓練できることが示されている。 筋, 脂肪, 骨, 骨髄を, 合成画像で訓練した時に, 実際のマルチコントラストMRIで有望なセグメンテーション結果が得られた。 画像の総合訓練の結果, 筋, 脂肪, 骨, 骨髄の脱ライン化は, 最大93.91\%, 94.11\%, 91.63\%, 95.33\%であった。 実画像を用いた分画訓練では, 94.68\%, 94.67\%, 95.91\%, 96.82\%と有意差はなかった。

In our comprehensive experiments and evaluations, we show that it is possible to generate multiple contrast (even all synthetically) and use synthetically generated images to train an image segmentation engine. We showed promising segmentation results tested on real multi-contrast MRI scans when delineating muscle, fat, bone and bone marrow, all trained on synthetic images. Based on synthetic image training, our segmentation results were as high as 93.91\%, 94.11\%, 91.63\%, 95.33\%, for muscle, fat, bone, and bone marrow delineation, respectively. Results were not significantly different from the ones obtained when real images were used for segmentation training: 94.68\%, 94.67\%, 95.91\%, and 96.82\%, respectively.
翻訳日:2022-07-07 23:59:30 公開日:2022-07-06
# (参考訳) 2段階決定はオープンセットパノプティクスセグメンテーションを改善する

Two-stage Decision Improves Open-Set Panoptic Segmentation ( http://arxiv.org/abs/2207.02504v1 )

ライセンス: CC BY 4.0
Hai-Ming Xu, Hao Chen, Lingqiao Liu, Yufei Yin(参考訳) Open-set Panoptic segmentation (OPS) 問題は、既知のクラスと未知のクラスの両方のセグメンテーションを実行することを目的とした新しい研究方向である。 OPSの主な課題は2つある: 1) 未知のオブジェクトの出現の無限の可能性によって、限られた数のトレーニングデータからそれらをモデル化することが困難になる。 (2) トレーニング時には、基本的に"未知のもの"と"背景"のクラスを混ぜた"ボイド"カテゴリのみを提供しています。 既知のクラスやバックグラウンドの監視に"void"カテゴリを直接使用しても,スクリーニングなしでは満足のいくOPS結果にはならない,という実証的な結果が得られます。 本稿では,OPSの2段階決定プロセスを開発するための分割・分散方式を提案する。 既知のクラス判別器とクラス非依存のオブジェクト予測ヘッドを適切に組み合わせることで、運用性能を大幅に改善できることを示す。 具体的には、まず、既知のカテゴリのみを持つ分類器を作成し、これらのカテゴリから「ボイド」クラスの提案を低予測確率とする。 次に、追加のオブジェクト予測ヘッドを用いて、背景から「未知のもの」を区別する。 性能をさらに高めるために,最新のモデルから生成された擬似ラベル「未知のもの」と,トレーニングセットを豊かにするヒューリスティックルールを導入する。 広範な実験結果から,本手法は既知のパンオプティカル品質を著しく向上し,既存の最良法に比べて30-%以上の相対的改善が得られた。

Open-set panoptic segmentation (OPS) problem is a new research direction aiming to perform segmentation for both \known classes and \unknown classes, i.e., the objects ("things") that are never annotated in the training set. The main challenges of OPS are twofold: (1) the infinite possibility of the \unknown object appearances makes it difficult to model them from a limited number of training data. (2) at training time, we are only provided with the "void" category, which essentially mixes the "unknown thing" and "background" classes. We empirically find that directly using "void" category to supervise \known class or "background" without screening will not lead to a satisfied OPS result. In this paper, we propose a divide-and-conquer scheme to develop a two-stage decision process for OPS. We show that by properly combining a \known class discriminator with an additional class-agnostic object prediction head, the OPS performance can be significantly improved. Specifically, we first propose to create a classifier with only \known categories and let the "void" class proposals achieve low prediction probability from those categories. Then we distinguish the "unknown things" from the background by using the additional object prediction head. To further boost performance, we introduce "unknown things" pseudo-labels generated from up-to-date models and a heuristic rule to enrich the training set. Our extensive experimental evaluation shows that our approach significantly improves \unknown class panoptic quality, with more than 30\% relative improvements than the existing best-performed method.
翻訳日:2022-07-07 23:46:32 公開日:2022-07-06
# (参考訳) 純粋なトランスフォーマーは強力なグラフ学習者です

Pure Transformers are Powerful Graph Learners ( http://arxiv.org/abs/2207.02505v1 )

ライセンス: CC BY 4.0
Jinwoo Kim, Tien Dat Nguyen, Seonwoo Min, Sungjun Cho, Moontae Lee, Honglak Lee, Seunghoon Hong(参考訳) グラフ固有の修正を伴わない標準トランスフォーマーは,理論と実践の両方において,グラフ学習に有望な結果をもたらす可能性がある。 グラフが与えられたら、すべてのノードとエッジを独立トークンとして扱い、トークンの埋め込みを拡大し、Transformerにフィードします。 トークン埋め込みの適切な選択により、このアプローチは理論的に少なくとも同変線形層からなる不変グラフネットワーク(2-ign)のように表現可能であり、これは既に全てのメッセージパッシンググラフニューラルネットワーク(gnn)よりも表現的であることが証明される。 大規模グラフデータセット (PCQM4Mv2) をトレーニングすると,Tokenized Graph Transformer (TokenGT) を作成した手法は,GNNのベースラインや競合結果と比較して,高度なグラフ固有帰納バイアスを持つTransformer 変種と比較して有意に優れた結果が得られる。 実装はhttps://github.com/jw9730/tokengtで利用可能です。

We show that standard Transformers without graph-specific modifications can lead to promising results in graph learning both in theory and practice. Given a graph, we simply treat all nodes and edges as independent tokens, augment them with token embeddings, and feed them to a Transformer. With an appropriate choice of token embeddings, we prove that this approach is theoretically at least as expressive as an invariant graph network (2-IGN) composed of equivariant linear layers, which is already more expressive than all message-passing Graph Neural Networks (GNN). When trained on a large-scale graph dataset (PCQM4Mv2), our method coined Tokenized Graph Transformer (TokenGT) achieves significantly better results compared to GNN baselines and competitive results compared to Transformer variants with sophisticated graph-specific inductive bias. Our implementation is available at https://github.com/jw9730/tokengt.
翻訳日:2022-07-07 22:43:52 公開日:2022-07-06
# (参考訳) 誘導モデルによる基底言語学習における合成一般化

Compositional Generalization in Grounded Language Learning via Induced Model Sparsity ( http://arxiv.org/abs/2207.02518v1 )

ライセンス: CC BY 4.0
Sam Spilsbury and Alexander Ilin(参考訳) 基底型言語学習問題において,モデルスパーシティが構成一般化とサンプル効率の向上にどのように役立つかを検討する。 グリッド環境における単純な言語条件のナビゲーション問題について考察する。 標準のニューラルアーキテクチャは必ずしも合成一般化をもたらすとは限らない。 そこで本研究では,オブジェクトの属性と命令中の単語間の疎相関を助長する目標識別モジュールを具備したエージェントを設計し,それらを組み合わせてゴールを見つける。 目標識別モジュールの出力は、値反復ネットワークプランナへの入力である。 我々のエージェントは、少数のデモンストレーションから学んだ場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。 エージェントの内部表現を調べ,その辞書中の単語と環境における属性との正しい対応を見つけ出す。

We provide a study of how induced model sparsity can help achieve compositional generalization and better sample efficiency in grounded language learning problems. We consider simple language-conditioned navigation problems in a grid world environment with disentangled observations. We show that standard neural architectures do not always yield compositional generalization. To address this, we design an agent that contains a goal identification module that encourages sparse correlations between words in the instruction and attributes of objects, composing them together to find the goal. The output of the goal identification module is the input to a value iteration network planner. Our agent maintains a high level of performance on goals containing novel combinations of properties even when learning from a handful of demonstrations. We examine the internal representations of our agent and find the correct correspondences between words in its dictionary and attributes in the environment.
翻訳日:2022-07-07 22:02:34 公開日:2022-07-06
# (参考訳) 深度マップを用いた3次元ロボットポーズ推定のためのセミパースペクティブデカップリングヒートマップ

Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from Depth Maps ( http://arxiv.org/abs/2207.02519v1 )

ライセンス: CC BY-SA 4.0
Alessandro Simoni, Stefano Pini, Guido Borghi, Roberto Vezzani(参考訳) 協調環境における労働者とロボットの正確な3D位置を知ることで、安全でない状況の検出や統計的および社会的目的のための相互相互作用の研究など、いくつかの実際の応用が可能になる。 本稿では,深層デバイスと深層ニューラルネットワークに基づく非侵襲的,光不変なフレームワークを提案し,外部カメラからロボットの3次元ポーズを推定する。 この方法は、内部状態へのハードウェアアクセスを必要とせずに、任意のロボットに適用することができる。 本研究では,予測されたポーズの表現,すなわちSPDH(Semi-Perspective Decoupled Heatmaps)を導入し,世界座標における3次元関節位置を高精度に計算し,効率的な深層ネットワークを設計した。 提案手法は、XYZ座標に基づく深度表現を入力として、合成深度データに基づいて訓練し、ドメイン適応技術を必要としない実世界の設定に適用することができる。 この目的のために,SimBaデータセットを合成画像と実深度画像の両方に基づいて提示し,実験評価に使用した。 提案手法は,特定の深度マップ表現とSPDHにより構成され,現状を克服していることを示す。

Knowing the exact 3D location of workers and robots in a collaborative environment enables several real applications, such as the detection of unsafe situations or the study of mutual interactions for statistical and social purposes. In this paper, we propose a non-invasive and light-invariant framework based on depth devices and deep neural networks to estimate the 3D pose of robots from an external camera. The method can be applied to any robot without requiring hardware access to the internal states. We introduce a novel representation of the predicted pose, namely Semi-Perspective Decoupled Heatmaps (SPDH), to accurately compute 3D joint locations in world coordinates adapting efficient deep networks designed for the 2D Human Pose Estimation. The proposed approach, which takes as input a depth representation based on XYZ coordinates, can be trained on synthetic depth data and applied to real-world settings without the need for domain adaptation techniques. To this end, we present the SimBa dataset, based on both synthetic and real depth images, and use it for the experimental evaluation. Results show that the proposed approach, made of a specific depth map representation and the SPDH, overcomes the current state of the art.
翻訳日:2022-07-07 21:42:04 公開日:2022-07-06
# (参考訳) 高ダイナミックレンジイメージングのための学習正規化多スケール特徴流

Learning Regularized Multi-Scale Feature Flow for High Dynamic Range Imaging ( http://arxiv.org/abs/2207.02539v1 )

ライセンス: CC BY 4.0
Qian Ye, Masanori Suganuma, Jun Xiao, Takayuki Okatani(参考訳) ゴーストフリー高ダイナミックレンジ(HDR)画像の多重露光画像からの再構成は、特に大きな物体の動きや閉塞で困難な作業であり、既存の手法で見えているアーティファクトに繋がる。 この問題に対処するために,正規化損失によって導かれるマルチスケール特徴流を学習しようとするディープネットワークを提案する。 まず、マルチスケールの特徴を抽出し、非参照画像から特徴を整列する。 アライメント後、異なる画像から特徴をマージするために残留チャネルアテンションブロックを使用する。 大規模定性的および定量的な比較により,本手法は最先端性能を実現し,カラーアーティファクトや幾何歪みを著しく低減する優れた結果が得られた。

Reconstructing ghosting-free high dynamic range (HDR) images of dynamic scenes from a set of multi-exposure images is a challenging task, especially with large object motion and occlusions, leading to visible artifacts using existing methods. To address this problem, we propose a deep network that tries to learn multi-scale feature flow guided by the regularized loss. It first extracts multi-scale features and then aligns features from non-reference images. After alignment, we use residual channel attention blocks to merge the features from different images. Extensive qualitative and quantitative comparisons show that our approach achieves state-of-the-art performance and produces excellent results where color artifacts and geometric distortions are significantly reduced.
翻訳日:2022-07-07 21:24:31 公開日:2022-07-06
# (参考訳) 非パラメトリック時系列回帰のための適応的深層学習

Adaptive deep learning for nonparametric time series regression ( http://arxiv.org/abs/2207.02546v1 )

ライセンス: CC BY 4.0
Daisuke Kurisu, Riku Fukami, Yuta Koike(参考訳) 本稿では,ディープニューラルネットワーク(DNN)を用いた非定常・非線形時系列の平均関数の適応的非パラメトリック推定法を開発した。 まず,非ペナライズドおよびスパースペナライズドdnn推定器の2種類のdnn推定器を検討し,一般の非定常時系列に対する一般化誤差境界を確立する。 次に, 非線形一般化加法AR, 単一指数, しきい値ARモデルを含む, 幅広い非線形自己回帰(AR)モデルに属する平均関数を推定するために, 最小値下界を導出する。 その結果, スパースペナル化DNN推定器は適応的であり, 多くの非線形ARモデルに対して, 最小値の最適値を得ることができた。 数値シミュレーションにより,本理論と整合する固有低次元構造および不連続・粗平均関数を用いた非線形arモデル推定におけるdnn法の有用性を示す。

In this paper, we develop a general theory for adaptive nonparametric estimation of mean functions of nonstationary and nonlinear time series using deep neural networks (DNNs). We first consider two types of DNN estimators, non-penalized and sparse-penalized DNN estimators, and establish their generalization error bounds for general nonstationary time series. We then derive minimax lower bounds for estimating mean functions belonging to a wide class of nonlinear autoregressive (AR) models that include nonlinear generalized additive AR, single index, and threshold AR models. Building upon the results, we show that the sparse-penalized DNN estimator is adaptive and attains the minimax optimal rates up to a poly-logarithmic factor for many nonlinear AR models. Through numerical simulations, we demonstrate the usefulness of the DNN methods for estimating nonlinear AR models with intrinsic low-dimensional structures and discontinuous or rough mean functions, which is consistent with our theory.
翻訳日:2022-07-07 21:08:12 公開日:2022-07-06
# (参考訳) FAST-VQA: フラグメントサンプリングによる効率的なエンドツーエンドビデオ品質評価

FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling ( http://arxiv.org/abs/2207.02595v1 )

ライセンス: CC BY 4.0
Haoning Wu, Chaofeng Chen, Jingwen Hou, Liang Liao, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。 このコストは、エンドツーエンドのトレーニングを通じて、より良いビデオ品質関連の表現を学ぶことを妨げる。 既存のアプローチでは、リサイズや収穫などの計算コストを削減するため、単純サンプリングが一般的である。 しかし、ビデオの品質関連情報は明らかに破損しており、VQAの優れた表現を学ぶのに最適ではない。 したがって、VQAのための新しい品質保持型サンプリングスキームを設計する必要がある。 本稿では,GMS(Grid Mini-patch Sampling)を提案する。GMSは,パッチを原解像度にサンプリングすることで,局所的な品質を考慮し,一様格子にサンプリングされたミニパッチを用いて,世界品質を文脈的関係でカバーする。 これらのミニパッチはスプライシングされ、時間的に並べられ、フラグメントと呼ばれる。 さらに,フラグメントを入力として適合するように特別に設計されたフラグメントアテンションネットワーク(fanet)を構築する。 フラグメントとFANetで構成されたFrAgment Sample Transformer for VQA (FAST-VQA) は、効率的なエンドツーエンドのVQAを実現し、ビデオ品質関連表現を効果的に学習する。 1080P高解像度ビデオでは99.5%のFLOPを削減し、最先端の精度を約10%向上させる。 新たに学習されたビデオ品質関連表現は、より小さなVQAデータセットに転送することもできるため、これらのシナリオのパフォーマンスが向上する。 FAST-VQAは高効率を保ちながら様々な解像度の入力に優れた性能を示す。 コードをhttps://github.com/timothyhtimothy/FAST-VQAで公開しています。

Current deep video quality assessment (VQA) methods are usually with high computational costs when evaluating high-resolution videos. This cost hinders them from learning better video-quality-related representations via end-to-end training. Existing approaches typically consider naive sampling to reduce the computational cost, such as resizing and cropping. However, they obviously corrupt quality-related information in videos and are thus not optimal for learning good representations for VQA. Therefore, there is an eager need to design a new quality-retained sampling scheme for VQA. In this paper, we propose Grid Mini-patch Sampling (GMS), which allows consideration of local quality by sampling patches at their raw resolution and covers global quality with contextual relations via mini-patches sampled in uniform grids. These mini-patches are spliced and aligned temporally, named as fragments. We further build the Fragment Attention Network (FANet) specially designed to accommodate fragments as inputs. Consisting of fragments and FANet, the proposed FrAgment Sample Transformer for VQA (FAST-VQA) enables efficient end-to-end deep VQA and learns effective video-quality-related representations. It improves state-of-the-art accuracy by around 10% while reducing 99.5% FLOPs on 1080P high-resolution videos. The newly learned video-quality-related representations can also be transferred into smaller VQA datasets, boosting performance in these scenarios. Extensive experiments show that FAST-VQA has good performance on inputs of various resolutions while retaining high efficiency. We publish our code at https://github.com/timothyhtimothy/FAST-VQA.
翻訳日:2022-07-07 21:06:46 公開日:2022-07-06
# (参考訳) 予測は理解しない:機械学習における不特定認識と対処

Predicting is not Understanding: Recognizing and Addressing Underspecification in Machine Learning ( http://arxiv.org/abs/2207.02598v1 )

ライセンス: CC BY 4.0
Damien Teney, Maxime Peyrard, Ehsan Abbasnejad(参考訳) 機械学習(ml)モデルは、通常、与えられたデータセットの精度に最適化される。 しかし、この予測基準は、モデルの望ましい特性、特にドメインの専門家のタスクに対する理解とどの程度うまく一致しているかをほとんど捉えない。 アンダー仕様化(Underspecification)とは、オフ・オブ・ディストリビューション(OOD)パフォーマンスなど他の望ましい特性が異なるにもかかわらず、ドメイン内の精度で区別できない複数のモデルの存在を指す。 これらの状況を特定することは、MLモデルの信頼性を評価する上で重要である。 非特異化の概念を定式化し,それを特定し,部分的に対処する手法を提案する。 我々は、異なる関数を実装することを強制する独立制約付きで複数のモデルを訓練する。 彼らは、標準経験的リスク最小化(ERM)によって無視される予測的特徴を発見し、それをOOD性能の優れたグローバルモデルに蒸留する。 重要なのは、モデルが有意義な特徴の発見を確実にするために、データ多様体に合わせるように制約することです。 コンピュータビジョンにおける複数のデータセット(コラージュ、WILDS-Camelyon17、GQA)の手法を実証し、不特定性の一般的な意味について議論する。 とりわけ、ドメイン内パフォーマンスは追加の仮定なしではoodモデルの選択に役立ちません。

Machine learning (ML) models are typically optimized for their accuracy on a given dataset. However, this predictive criterion rarely captures all desirable properties of a model, in particular how well it matches a domain expert's understanding of a task. Underspecification refers to the existence of multiple models that are indistinguishable in their in-domain accuracy, even though they differ in other desirable properties such as out-of-distribution (OOD) performance. Identifying these situations is critical for assessing the reliability of ML models. We formalize the concept of underspecification and propose a method to identify and partially address it. We train multiple models with an independence constraint that forces them to implement different functions. They discover predictive features that are otherwise ignored by standard empirical risk minimization (ERM), which we then distill into a global model with superior OOD performance. Importantly, we constrain the models to align with the data manifold to ensure that they discover meaningful features. We demonstrate the method on multiple datasets in computer vision (collages, WILDS-Camelyon17, GQA) and discuss general implications of underspecification. Most notably, in-domain performance cannot serve for OOD model selection without additional assumptions.
翻訳日:2022-07-07 20:48:50 公開日:2022-07-06
# (参考訳) gfnet:3dポイントクラウドセマンティクスセグメンテーションのための幾何フローネットワーク

GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2207.02605v1 )

ライセンス: CC BY 4.0
Haibo Qiu, Baosheng Yu and Dacheng Tao(参考訳) 射程ビュー (RV) や鳥眼ビュー (BEV) などの投影ビューからのポイントクラウドセマンティックセマンティックセマンティクスを集中的に検討した。 異なるビューは点雲の異なる情報をキャプチャし、互いに補完する。 しかし、最近の射影的クラウドセマンティックセグメンテーションの手法は、通常、異なる視点の予測にバニラララトフュージョン戦略を使用し、表現学習の幾何学的視点から補完的な情報を探索することができない。 本稿では,異なる視点間の幾何学的対応をアライメント・プレ・ヒューズ方式で探究する幾何フローネットワーク(gfnet)を提案する。 具体的には,エンド・ツー・エンドの学習方式において,異なる視点にまたがる補完的情報を双方向に調整・伝達する新たな幾何フローモジュール(gfm)を考案する。 プロジェクトベースのポイントクラウドセマンティクスセグメンテーションにおけるgfnetの有効性を実証するために,semantickittiとnusceneという2つのベンチマークデータセットを広範囲に実験した。 具体的には、GFNetは個々のビューのパフォーマンスを大幅に向上するだけでなく、既存のプロジェクションベースのモデルに対して最先端の結果も達成する。 コードは \url{https://github.com/haibo-qiu/gfnet} で入手できる。

Point cloud semantic segmentation from projected views, such as range-view (RV) and bird's-eye-view (BEV), has been intensively investigated. Different views capture different information of point clouds and thus are complementary to each other. However, recent projection-based methods for point cloud semantic segmentation usually utilize a vanilla late fusion strategy for the predictions of different views, failing to explore the complementary information from a geometric perspective during the representation learning. In this paper, we introduce a geometric flow network (GFNet) to explore the geometric correspondence between different views in an align-before-fuse manner. Specifically, we devise a novel geometric flow module (GFM) to bidirectionally align and propagate the complementary information across different views according to geometric relationships under the end-to-end learning scheme. We perform extensive experiments on two widely used benchmark datasets, SemanticKITTI and nuScenes, to demonstrate the effectiveness of our GFNet for project-based point cloud semantic segmentation. Concretely, GFNet not only significantly boosts the performance of each individual view but also achieves state-of-the-art results over all existing projection-based models. Code is available at \url{https://github.com/haibo-qiu/GFNet}.
翻訳日:2022-07-07 20:20:36 公開日:2022-07-06
# (参考訳) densehybrid: 密閉集合認識のためのハイブリッド異常検出

DenseHybrid: Hybrid Anomaly Detection for Dense Open-set Recognition ( http://arxiv.org/abs/2207.02606v1 )

ライセンス: CC BY-SA 4.0
Matej Grci\'c, Petra Bevandi\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 異常検出は、正規トレーニングデータの生成的モデリングや、負のトレーニングデータに対する識別によって行うことができる。 これら2つのアプローチは、異なる障害モードを示す。 その結果、ハイブリッドアルゴリズムは魅力的な研究目標を示す。 残念なことに、高密度異常検出には翻訳等比と非常に大きな入力分解能が必要である。 これらの要件は、これまでのすべてのハイブリッドアプローチを最善の知識に失格させます。 そこで我々は,非正規化ジョイント分布 $\hat{p}(\mathbf{x}, \mathbf{y})$ の対数として識別的ロジットの再解釈に基づく新しいハイブリッドアルゴリズムを設計する。 私たちのモデルは、3つの密集した予測を復元する共有畳み込み表現に基づいている。 i) 閉集合クラス後続$P(\mathbf{y}|\mathbf{x})$, ii)$P(d_{in}|\mathbf{x})$ iii)非正規化データは$\hat{p}(\mathbf{x})$である。 後者の2つの予測は、標準のトレーニングデータと一般的な負のデータセットの両方でトレーニングされる。 これら2つの予測をハイブリッドな異常スコアに組み合わせ、大きな自然画像に対して密集した開集合認識を可能にする。 引き込み不能な正規化定数 $z(\theta)$ によるバックプロパゲーションを避けるために、データ可能性のカスタムロスを慎重に設計する。 実験では, 高密度オープンセット性能のためのオープンmIoUa新指標と同様に, 標準密度異常検出ベンチマークへのコントリビューションの評価を行った。 標準セマンティクスセグメンテーションベースラインよりも計算オーバーヘッドが無視できるにもかかわらず,提案手法は最先端のパフォーマンスを達成している。

Anomaly detection can be conceived either through generative modelling of regular training data or by discriminating with respect to negative training data. These two approaches exhibit different failure modes. Consequently, hybrid algorithms present an attractive research goal. Unfortunately, dense anomaly detection requires translational equivariance and very large input resolutions. These requirements disqualify all previous hybrid approaches to the best of our knowledge. We therefore design a novel hybrid algorithm based on reinterpreting discriminative logits as a logarithm of the unnormalized joint distribution $\hat{p}(\mathbf{x}, \mathbf{y})$. Our model builds on a shared convolutional representation from which we recover three dense predictions: i) the closed-set class posterior $P(\mathbf{y}|\mathbf{x})$, ii) the dataset posterior $P(d_{in}|\mathbf{x})$, iii) unnormalized data likelihood $\hat{p}(\mathbf{x})$. The latter two predictions are trained both on the standard training data and on a generic negative dataset. We blend these two predictions into a hybrid anomaly score which allows dense open-set recognition on large natural images. We carefully design a custom loss for the data likelihood in order to avoid backpropagation through the untractable normalizing constant $Z(\theta)$. Experiments evaluate our contributions on standard dense anomaly detection benchmarks as well as in terms of open-mIoU - a novel metric for dense open-set performance. Our submissions achieve state-of-the-art performance despite neglectable computational overhead over the standard semantic segmentation baseline.
翻訳日:2022-07-07 19:59:00 公開日:2022-07-06
# (参考訳) 正しい意味を早期に知る:マルチタスク学習による相対方向の接地のための総合的VQAデータセット

Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning ( http://arxiv.org/abs/2207.02624v1 )

ライセンス: CC BY 4.0
Kyra Ahrens, Matthias Kerzel, Jae Hee Lee, Cornelius Weber, Stefan Wermter(参考訳) 空間的推論は知的エージェントにとって特別な課題であり、物理的世界での対話とコミュニケーションを成功させるための前提条件である。 そのような推論課題の1つは、ある参照対象の固有方向に関する対象対象の位置を相対方向を通じて記述することである。 本稿では,抽象オブジェクトに基づく新しい診断ビジュアル質問応答(vqa)データセットgrid-a-3dを提案する。 我々のデータセットは、相対方向に対するエンドツーエンドのVQAモデルの機能を詳細に分析することを可能にする。 同時に、モデルトレーニングは既存のデータセットに比べて計算リソースをかなり少なくするが、同等あるいはそれ以上のパフォーマンスが得られる。 新しいデータセットとともに、grid-a-3dでトレーニングされた2つの広く知られたエンドツーエンドvqaアーキテクチャに基づく詳細な評価を提供する。 本研究では,シーン内の物体の認識や位置推定,固有方向の推定など,相対方向の判断に必要なサブタスクが,相対方向が直感的に処理される順序で学習されることを実証する。

Spatial reasoning poses a particular challenge for intelligent agents and is at the same time a prerequisite for their successful interaction and communication in the physical world. One such reasoning task is to describe the position of a target object with respect to the intrinsic orientation of some reference object via relative directions. In this paper, we introduce GRiD-A-3D, a novel diagnostic visual question-answering (VQA) dataset based on abstract objects. Our dataset allows for a fine-grained analysis of end-to-end VQA models' capabilities to ground relative directions. At the same time, model training requires considerably fewer computational resources compared with existing datasets, yet yields a comparable or even higher performance. Along with the new dataset, we provide a thorough evaluation based on two widely known end-to-end VQA architectures trained on GRiD-A-3D. We demonstrate that within a few epochs, the subtasks required to reason over relative directions, such as recognizing and locating objects in a scene and estimating their intrinsic orientations, are learned in the order in which relative directions are intuitively processed.
翻訳日:2022-07-07 19:39:13 公開日:2022-07-06
# (参考訳) 合理検証の複雑さについて

On the Complexity of Rational Verification ( http://arxiv.org/abs/2207.02637v1 )

ライセンス: CC BY 4.0
Julian Gutierrez, Muhammad Najib, Giuseppe Perelli, Michael Wooldridge(参考訳) 合理的検証とは、システム内のエージェントがゲーム理論平衡を形成する戦略を選択するという仮定の下で、時間論理特性が同時マルチエージェントシステムのどの部分を保持するかをチェックする問題を指す。 有理性検証はマルチエージェントシステムのモデル検査と対応するものとして理解することができるが、古典的モデル検査は、ctlのようないくつかの時相論理仕様言語やltl仕様を持つ多項式空間に対して多項式時間で行うことができるが、有理性検証は、非常に難しい: 有理性検証のための重要な決定問題は、明示的な状態のシステム表現を使用しても、2exptime-complete with ltl仕様である。 この背景に対して、本稿での私たちの貢献は3倍です。 まず, LTL の断片である GR(1) に仕様を限定することで, 合理的検証の複雑さを大幅に低減できることを示す。 特に,関連する多くの設定において,多項式空間や多項式時間においても有理的検証が可能であることを示す。 第2に、平均支払ユーティリティ関数によって与えられるプレイヤーの目標を考えると、合理的な検証のために、複雑性が向上し、並列およびマルチエージェントシステムにおいて、最も広く使われているアプローチである。 最後に,社会福祉の制約を満たす計算結果の問題を考える。 この目的のために、実用的社会福祉と平等的社会福祉の両方を検討し、計算結果がPSPACE完全かNP完全かを示す。

Rational verification refers to the problem of checking which temporal logic properties hold of a concurrent multiagent system, under the assumption that agents in the system choose strategies that form a game-theoretic equilibrium. Rational verification can be understood as a counterpart to model checking for multiagent systems, but while classical model checking can be done in polynomial time for some temporal logic specification languages such as CTL, and polynomial space with LTL specifications, rational verification is much harder: the key decision problems for rational verification are 2EXPTIME-complete with LTL specifications, even when using explicit-state system representations. Against this background, our contributions in this paper are threefold. First, we show that the complexity of rational verification can be greatly reduced by restricting specifications to GR(1), a fragment of LTL that can represent a broad and practically useful class of response properties of reactive systems. In particular, we show that for a number of relevant settings, rational verification can be done in polynomial space and even in polynomial time. Second, we provide improved complexity results for rational verification when considering players' goals given by mean-payoff utility functions; arguably the most widely used approach for quantitative objectives in concurrent and multiagent systems. Finally, we consider the problem of computing outcomes that satisfy social welfare constraints. To this end, we consider both utilitarian and egalitarian social welfare and show that computing such outcomes is either PSPACE-complete or NP-complete.
翻訳日:2022-07-07 19:31:35 公開日:2022-07-06
# (参考訳) ウィキフリーマッチングの改革

Reforming an Envy-Free Matching ( http://arxiv.org/abs/2207.02641v1 )

ライセンス: CC BY 4.0
Takehiro Ito, Yuni Iwamasa, Naonori Kakimura, Naoyuki Kamiyama, Yusuke Kobayashi, Yuta Nozaki, Yoshio Okamoto, Kenta Ozeki(参考訳) 各エージェントが1つのアイテムを割り当てるときに、エンビーフリーマッチングを改革する問題を考える。 エンビーフリーマッチングが与えられた場合、エージェントのアイテムを別のエンビーフリーマッチングをもたらすエージェントが好む未割り当てアイテムと交換する操作を考える。 私たちはできる限りこの手術を繰り返します。 結果のenvy-freeマッチングは、初期envy-freeマッチングの選択によって一意に決定され、多項式時間で見つけることができることを示す。 結果として得られたマッチングを,改革的アンビフリーマッチングと呼び,その後最短シーケンスを研究して,最初のアンビフリーマッチングから改革的アンビフリーマッチングを得る。 各エージェントが最大4項目を受理し、各アイテムが少なくとも3つのエージェントによって受理された場合でも、最も短いシーケンスは計算的に取得しにくいことが証明される。 一方,各エージェントが最大3項目を受け入れるか,あるいは各アイテムが少なくとも2つのエージェントによって受け入れられる場合,多項式時間アルゴリズムを与える。 近似可能性と固定パラメータ(in)引き込み可能性についても論じる。

We consider the problem of reforming an envy-free matching when each agent is assigned a single item. Given an envy-free matching, we consider an operation to exchange the item of an agent with an unassigned item preferred by the agent that results in another envy-free matching. We repeat this operation as long as we can. We prove that the resulting envy-free matching is uniquely determined up to the choice of an initial envy-free matching, and can be found in polynomial time. We call the resulting matching a reformist envy-free matching, and then we study a shortest sequence to obtain the reformist envy-free matching from an initial envy-free matching. We prove that a shortest sequence is computationally hard to obtain even when each agent accepts at most four items and each item is accepted by at most three agents. On the other hand, we give polynomial-time algorithms when each agent accepts at most three items or each item is accepted by at most two agents. Inapproximability and fixed-parameter (in)tractability are also discussed.
翻訳日:2022-07-07 19:04:47 公開日:2022-07-06
# (参考訳) 周波数サンプリングを用いたシーケンスレコメンデーションの効果的かつ効率的なトレーニング

Effective and Efficient Training for Sequential Recommendation using Recency Sampling ( http://arxiv.org/abs/2207.02643v1 )

ライセンス: CC BY 4.0
Aleksandr Petrov and Craig Macdonald(参考訳) 現代のシーケンシャルレコメンダシステムはディープニューラルネットワークを使用して、アイテムの関連性を効果的に見積もるが、トレーニングに多くの時間を要する。 スロートレーニングはコストを増大させ、製品開発のタイムスケールを妨げ、モデルを定期的に更新してユーザの好みを変えるのを防ぐ。 このような逐次モデルをトレーニングするには、過去のユーザインタラクションを適切にサンプリングして、現実的なトレーニング目標を作成する必要がある。 既存の訓練には限界がある。 例えば、次の項目の予測は、学習対象としてシーケンスの開始を決して使わないため、価値あるデータを破棄する可能性がある。 一方、BERT4Recが使用するアイテムマスキングは、シーケンシャルレコメンデーションの目標と弱い関係しかなく、効果的なモデルを得るのに多くの時間を要する。 そこで本研究では,両方の制約に対処するRecency-based Smpling of Sequencesトレーニング目標を提案する。 本稿では, GRU4Rec, Caser, SASRec などの最新かつ最先端のモデルアーキテクチャに適用する。 提案手法により強化されたモデルでは,最先端のBERT4Recに近い性能を達成できるが,トレーニング時間ははるかに少ない。

Many modern sequential recommender systems use deep neural networks, which can effectively estimate the relevance of items but require a lot of time to train. Slow training increases expenses, hinders product development timescales and prevents the model from being regularly updated to adapt to changing user preferences. Training such sequential models involves appropriately sampling past user interactions to create a realistic training objective. The existing training objectives have limitations. For instance, next item prediction never uses the beginning of the sequence as a learning target, thereby potentially discarding valuable data. On the other hand, the item masking used by BERT4Rec is only weakly related to the goal of the sequential recommendation; therefore, it requires much more time to obtain an effective model. Hence, we propose a novel Recency-based Sampling of Sequences training objective that addresses both limitations. We apply our method to various recent and state-of-the-art model architectures - such as GRU4Rec, Caser, and SASRec. We show that the models enhanced with our method can achieve performances exceeding or very close to stateof-the-art BERT4Rec, but with much less training time.
翻訳日:2022-07-07 18:27:02 公開日:2022-07-06
# (参考訳) kaggleコンペティション:車内コマンドのためのカントン音声・視覚音声認識

Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car Commands ( http://arxiv.org/abs/2207.02663v1 )

ライセンス: CC BY 4.0
Wenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J Barezi, Pascale Fung(参考訳) ディープラーニングとインテリジェントな車両の登場により、スマートアシスタントは運転を容易にし、余分な機能を提供する上で不可欠な車内コンポーネントとなった。 車内スマートアシスタントは、運転を楽にし、安全性を向上させるために、一般および車関連コマンドを処理し、対応するアクションを実行することができるべきである。 しかし、この研究分野では、ほとんどのデータセットは英語や中国語などの主要言語で使われている。 低リソース言語には膨大なデータ不足の問題があり、幅広いコミュニティの研究やアプリケーションの開発を妨げている。 したがって、低リソース言語の研究に対する認識とモチベーションを高めるために、より多くのベンチマークを持つことが重要です。 この問題を軽減するために,音声データと映像データを用いた車内音声認識のための新しいデータセット,ci-avsr(cantonese in-car audio-visual speech recognition)を収集した。 そこで本研究では,車内シナリオ下での低音源音声認識に対処するための新たな課題として,車内コマンドのためのCantonese Audio-Visual Speech Recognitionを提案する。

With the rise of deep learning and intelligent vehicles, the smart assistant has become an essential in-car component to facilitate driving and provide extra functionalities. In-car smart assistants should be able to process general as well as car-related commands and perform corresponding actions, which eases driving and improves safety. However, in this research field, most datasets are in major languages, such as English and Chinese. There is a huge data scarcity issue for low-resource languages, hindering the development of research and applications for broader communities. Therefore, it is crucial to have more benchmarks to raise awareness and motivate the research in low-resource languages. To mitigate this problem, we collect a new dataset, namely Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR), for in-car speech recognition in the Cantonese language with video and audio data. Together with it, we propose Cantonese Audio-Visual Speech Recognition for In-car Commands as a new challenge for the community to tackle low-resource speech recognition under in-car scenarios.
翻訳日:2022-07-07 18:07:42 公開日:2022-07-06
# (参考訳) Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022テクニカルレポート

Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022 Technical Report ( http://arxiv.org/abs/2207.02687v1 )

ライセンス: CC BY 4.0
Minghang Zheng, Dejie Yang, Zhongjie Ye, Ting Lei, Yuxin Peng and Yang Liu(参考訳) 本稿では,ACM-MM 2022 における PIC Makeup Temporal Video Grounding (MTVG) Challenge に対する,我々のチーム "PKU-WICT-MIPL" のソリューションについて紹介する。 MTVGは、未トリミングなメイクアップビデオとステップクエリが与えられたとき、ビデオ中のターゲットメイクステップの時間的瞬間をローカライズする。 この課題に対処するために、細粒度句と文全体に関連する時間的局所化関係を利用するフレーズ関係マイニングフレームワークを提案する。 さらに、動的プログラミングアルゴリズムを用いて、異なるステップ文クエリのローカライズ結果を重なり合わないよう制約することを提案する。 実験の結果,本手法の有効性が示された。 最終提案はリーダーボードで2位にランクインし、最初のものから0.55\%の差しかなかった。

In this technical report, we briefly introduce the solutions of our team `PKU-WICT-MIPL' for the PIC Makeup Temporal Video Grounding (MTVG) Challenge in ACM-MM 2022. Given an untrimmed makeup video and a step query, the MTVG aims to localize a temporal moment of the target makeup step in the video. To tackle this task, we propose a phrase relationship mining framework to exploit the temporal localization relationship relevant to the fine-grained phrase and the whole sentence. Besides, we propose to constrain the localization results of different step sentence queries to not overlap with each other through a dynamic programming algorithm. The experimental results demonstrate the effectiveness of our method. Our final submission ranked 2nd on the leaderboard, with only a 0.55\% gap from the first.
翻訳日:2022-07-07 18:02:21 公開日:2022-07-06
# (参考訳) 低ランクとスパース勾配によるプライベートディープラーニングのスケーリング

Scaling Private Deep Learning with Low-Rank and Sparse Gradients ( http://arxiv.org/abs/2207.02699v1 )

ライセンス: CC BY 4.0
Ryuichi Ito, Seng Pei Liew, Tsubasa Takahashi, Yuya Sasaki, Makoto Onizuka(参考訳) 変圧器ベースのモデルのような現代的な大規模ニューラルネットワークのトレーニングに微分プライベート確率勾配(DPSGD)を適用することは、各イテレーションスケールの勾配に付加されるノイズの大きさがモデル次元に大きく影響するため、難しい作業である。 我々は,ニューラルネットワークの低ランク構造とスパース構造を十分に活用し,勾配更新の次元を低減し,dpsgdの負の影響を緩和する統一フレームワークである$\textsf{lsg}$を提案する。 勾配の更新は、まず1対の低ランク行列で近似される。 そして、新たな戦略を用いて勾配を緩和し、ニューラルネットの性能を維持することができる低次元でノイズの少ない更新を実現する。 自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。

Applying Differentially Private Stochastic Gradient Descent (DPSGD) to training modern, large-scale neural networks such as transformer-based models is a challenging task, as the magnitude of noise added to the gradients at each iteration scales with model dimension, hindering the learning capability significantly. We propose a unified framework, $\textsf{LSG}$, that fully exploits the low-rank and sparse structure of neural networks to reduce the dimension of gradient updates, and hence alleviate the negative impacts of DPSGD. The gradient updates are first approximated with a pair of low-rank matrices. Then, a novel strategy is utilized to sparsify the gradients, resulting in low-dimensional, less noisy updates that are yet capable of retaining the performance of neural networks. Empirical evaluation on natural language processing and computer vision tasks shows that our method outperforms other state-of-the-art baselines.
翻訳日:2022-07-07 17:53:35 公開日:2022-07-06
# (参考訳) 病理組織学データセットGAN : 大分解組織学データセットの合成

Histopathology DatasetGAN: Synthesizing Large-Resolution Histopathology Datasets ( http://arxiv.org/abs/2207.02712v1 )

ライセンス: CC BY 4.0
S. A. Rizvi, P. Cicalese, S. V. Seshan, S. Sciascia, J. U.Becker, and H.V. Nguyen(参考訳) 自己教師付き学習(ssl)メソッドは、ラベル取得が難しいドメイン内のイメージデータセット上で、より多くのディープラーニングモデルをトレーニング可能にする。 しかし、これらの手法は医療画像データセットの高分解能化に苦慮しており、ラベルの少ない医療画像データセットの優れた一般化を達成するために重要である。 本研究では,画像生成とセグメント化のためのdatasetgan semi-supervised frameworkの拡張であるhistopathology datasetgan (hdgan)フレームワークを提案する。 生成したバックボーンの更新,ジェネレータからの遅延特徴の選択的抽出,メモリマップされた配列への切り替えなど,オリジナルのフレームワークからいくつかの適応を行う。 これらの変更により、フレームワークのメモリ消費が減少し、医療画像領域への適用性が向上する。 血栓性微小血管症の高分解能タイルデータセット上でHDGANを評価し,高分解能画像アノテーション生成タスクにおいて高い性能を示した。 この取り組みにより、深層学習モデルを医療データセットに適用し、医療画像領域内での自己管理フレームワークの探索を促進できることを期待しています。

Self-supervised learning (SSL) methods are enabling an increasing number of deep learning models to be trained on image datasets in domains where labels are difficult to obtain. These methods, however, struggle to scale to the high resolution of medical imaging datasets, where they are critical for achieving good generalization on label-scarce medical image datasets. In this work, we propose the Histopathology DatasetGAN (HDGAN) framework, an extension of the DatasetGAN semi-supervised framework for image generation and segmentation that scales well to large-resolution histopathology images. We make several adaptations from the original framework, including updating the generative backbone, selectively extracting latent features from the generator, and switching to memory-mapped arrays. These changes reduce the memory consumption of the framework, improving its applicability to medical imaging domains. We evaluate HDGAN on a thrombotic microangiopathy high-resolution tile dataset, demonstrating strong performance on the high-resolution image-annotation generation task. We hope that this work enables more application of deep learning models to medical datasets, in addition to encouraging more exploration of self-supervised frameworks within the medical imaging domain.
翻訳日:2022-07-07 17:37:45 公開日:2022-07-06
# (参考訳) ポリノミアルゾノトープを用いた閉ループニューラルネットワークの検証

Open- and Closed-Loop Neural Network Verification using Polynomial Zonotopes ( http://arxiv.org/abs/2207.02715v1 )

ライセンス: CC BY 4.0
Niklas Kochdumper, Christian Schilling, Matthias Althoff, Stanley Bak(参考訳) 本稿では,ReLU,シグモイド,双曲型タンジェント活性化関数を用いたニューラルネットワークを用いて,画像の厳密な非凸囲いを効率的に計算する手法を提案する。 特に,各ニューロンの入力-出力関係を多項式近似により抽象化し,多項式ゾノトープを用いて設定された方法で評価する。 提案手法は,ニューラルネットワークを通した画像と到達可能な画像の両面において非凸性を捉えることができるため,ニューラルネットワーク制御システムの到達性解析に特に適している。 各種ベンチマークシステムにおける他の手法と比較して,提案手法の優れた性能を示す。

We present a novel approach to efficiently compute tight non-convex enclosures of the image through neural networks with ReLU, sigmoid, or hyperbolic tangent activation functions. In particular, we abstract the input-output relation of each neuron by a polynomial approximation, which is evaluated in a set-based manner using polynomial zonotopes. Our proposed method is especially well suited for reachability analysis of neural network controlled systems since polynomial zonotopes are able to capture the non-convexity in both, the image through the neural network as well as the reachable set. We demonstrate the superior performance of our approach compared to other state of the art methods on various benchmark systems.
翻訳日:2022-07-07 17:29:45 公開日:2022-07-06
# (参考訳) 反応予測を用いた分子特性予測のための予訓練トランス

Pre-training Transformers for Molecular Property Prediction Using Reaction Prediction ( http://arxiv.org/abs/2207.02724v1 )

ライセンス: CC BY 4.0
Johan Broberg, Maria B{\aa}nkestad, Erik Ylip\"a\"a(参考訳) 分子特性予測は化学、特に薬物発見への応用において必須である。 しかし、利用可能な分子特性データは、しばしば制限され、関連するデータからの情報の転送を促進する。 伝達学習はコンピュータビジョンや自然言語処理といった分野に大きな影響を与え、分子特性予測の可能性を秘めている。 本稿では、反応データを用いた分子表現学習のための事前学習手順を提案し、SMILES変換器の事前訓練を行う。 物理化学, 生物物理学, 生理学における分子特性予測タスク12の事前学習モデルを微調整し, 評価し, 非事前学習ベースラインモデルと比較すると, 12タスクのうち5タスクに統計的に有意な正の効果を示した。

Molecular property prediction is essential in chemistry, especially for drug discovery applications. However, available molecular property data is often limited, encouraging the transfer of information from related data. Transfer learning has had a tremendous impact in fields like Computer Vision and Natural Language Processing signaling for its potential in molecular property prediction. We present a pre-training procedure for molecular representation learning using reaction data and use it to pre-train a SMILES Transformer. We fine-tune and evaluate the pre-trained model on 12 molecular property prediction tasks from MoleculeNet within physical chemistry, biophysics, and physiology and show a statistically significant positive effect on 5 of the 12 tasks compared to a non-pre-trained baseline model.
翻訳日:2022-07-07 17:09:41 公開日:2022-07-06
# (参考訳) 生物学的にプラズブルな学習規則と接続に基づく教師なしスパイクニューラルネットワーク

An Unsupervised Spiking Neural Network Inspired By Biologically Plausible Learning Rules and Connections ( http://arxiv.org/abs/2207.02727v1 )

ライセンス: CC BY 4.0
Yiting Dong, Dongcheng Zhao, Yang Li, Yi Zeng(参考訳) バックプロパゲーションアルゴリズムはディープラーニングの急速な発展を促進しているが、大量のラベル付きデータに依存しており、人間の学習方法には依然として大きなギャップがある。 人間の脳は、自己組織的で教師なしの方法で様々な概念知識を迅速に学習することができ、それは、人間の脳内の複数の学習規則と構造を協調することで達成される。 スパイク刺激依存性の可塑性(STDP)は脳内で広く学習される規則であるが、STDPだけで訓練されたスパイクニューラルネットワークは非効率であり、性能が良くない。 本稿では,短期的なシナプス可塑性から着想を得て適応的なシナプスフィルタを設計し,適応しきい値バランスをニューロン可塑性として導入し,snsの表現能力を高める。 また、スパイクバランスを動的に調整し、ネットワークがよりリッチな特徴を学ぶのに役立つ適応的な側方抑制接続を導入する。 教師なしスパイキングニューラルネットワークのトレーニングを加速し,安定させるために,複数サンプルと複数モーメントに基づいて重みを更新するサンプル時間バッチSTDPを設計した。 我々はMNISTとFashionMNISTの実験を行い、STDPに基づく現在の教師なしスパイクニューラルネットワークの最先端性能を実現した。 また,本モデルでは,小サンプル学習において高い優位性を示す。

The backpropagation algorithm has promoted the rapid development of deep learning, but it relies on a large amount of labeled data, and there is still a large gap with the way the human learns. The human brain can rapidly learn various concept knowledge in a self-organized and unsupervised way, which is accomplished through the coordination of multiple learning rules and structures in the human brain. Spike-timing-dependent plasticity (STDP) is a widespread learning rule in the brain, but spiking neural network trained using STDP alone are inefficient and performs poorly. In this paper, taking inspiration from the short-term synaptic plasticity, we design an adaptive synaptic filter, and we introduce the adaptive threshold balance as the neuron plasticity to enrich the representation ability of SNNs. We also introduce an adaptive lateral inhibitory connection to dynamically adjust the spikes balance to help the network learn richer features. To accelerate and stabilize the training of the unsupervised spiking neural network, we design a sample temporal batch STDP which update the weight based on multiple samples and multiple moments. We have conducted experiments on MNIST and FashionMNIST, and have achieved state-of-the-art performance of the current unsupervised spiking neural network based on STDP. And our model also shows strong superiority in small samples learning.
翻訳日:2022-07-07 16:59:32 公開日:2022-07-06
# (参考訳) 注目されるグラフツリー

Graph Trees with Attention ( http://arxiv.org/abs/2207.02760v1 )

ライセンス: CC BY 4.0
Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach(参考訳) 表データを扱う場合、回帰と決定木に基づくモデルは、そのようなタスクで高い精度と、他のモデルクラスと比較してアプリケーションの容易さのため、一般的な選択である。 しかし、グラフ構造データに関しては、現在のツリー学習アルゴリズムは、機能工学以外のデータ構造を管理するためのツールを提供していません。 本研究では,このギャップに対処し,グラフ操作用に設計された木に基づく学習アルゴリズムの新たなファミリであるGraph Trees with Attention (GTA)を導入する。 GTAは頂点におけるグラフ構造と特徴の両方を活用し、グラフのサブ構造に集中する決定を可能にする注意機構を採用している。 我々は, gtaモデルを分析し, 単純な決定木よりも表現力が高いことを示す。 また、複数のグラフおよびノード予測ベンチマークでgtaの利点を実証する。 これらの実験では、GTAは常に他のツリーベースモデルより優れており、グラフニューラルネットワーク(GNN)やグラフカーネルなど、他のタイプのグラフ学習アルゴリズムよりも優れています。 最後に,gtaの説明可能性機構も提供し,直感的な説明ができることを実証する。

When dealing with tabular data, models based on regression and decision trees are a popular choice due to the high accuracy they provide on such tasks and their ease of application as compared to other model classes. Yet, when it comes to graph-structure data, current tree learning algorithms do not provide tools to manage the structure of the data other than relying on feature engineering. In this work we address the above gap, and introduce Graph Trees with Attention (GTA), a new family of tree-based learning algorithms that are designed to operate on graphs. GTA leverages both the graph structure and the features at the vertices and employs an attention mechanism that allows decisions to concentrate on sub-structures of the graph. We analyze GTA models and show that they are strictly more expressive than plain decision trees. We also demonstrate the benefits of GTA empirically on multiple graph and node prediction benchmarks. In these experiments, GTA always outperformed other tree-based models and often outperformed other types of graph-learning algorithms such as Graph Neural Networks (GNNs) and Graph Kernels. Finally, we also provide an explainability mechanism for GTA, and demonstrate it can provide intuitive explanations.
翻訳日:2022-07-07 16:48:28 公開日:2022-07-06
# (参考訳) 電力消費情報を用いた単層NVMクロスバーニューラルネットワークの敵攻撃促進

Enhancing Adversarial Attacks on Single-Layer NVM Crossbar-Based Neural Networks with Power Consumption Information ( http://arxiv.org/abs/2207.02764v1 )

ライセンス: CC BY 4.0
Cory Merkel(参考訳) 最先端の機械学習モデルに対する敵対的な攻撃は、ミッションクリティカルな自律システムの安全性とセキュリティに重大な脅威をもたらす。 本稿では、攻撃者が基盤となるハードウェアプラットフォームの消費電力を計測できる場合の機械学習モデルの脆弱性について考察する。 特に,不揮発性メモリクロスバーベース単層ニューラルネットワークの逆攻撃に対する消費電力情報の有用性について検討する。 MNISTとCIFAR-10データセットを用いた実験の結果,ニューラルネットワークの重み行列に関する重要な情報(列の1ノルムなど)を消費電力によって明らかにできることがわかった。 この情報は、異なる入力に対するネットワークの損失の感度を推測するために使用できる。 また,クロスバーパワー情報を利用したサロゲートベースのブラックボックス攻撃は,攻撃効率の向上につながる可能性がある。

Adversarial attacks on state-of-the-art machine learning models pose a significant threat to the safety and security of mission-critical autonomous systems. This paper considers the additional vulnerability of machine learning models when attackers can measure the power consumption of their underlying hardware platform. In particular, we explore the utility of power consumption information for adversarial attacks on non-volatile memory crossbar-based single-layer neural networks. Our results from experiments with MNIST and CIFAR-10 datasets show that power consumption can reveal important information about the neural network's weight matrix, such as the 1-norm of its columns. That information can be used to infer the sensitivity of the network's loss with respect to different inputs. We also find that surrogate-based black box attacks that utilize crossbar power information can lead to improved attack efficiency.
翻訳日:2022-07-07 16:25:39 公開日:2022-07-06
# (参考訳) ノイズに注意を払わない:デノイジング時系列変圧器を用いた光曲線の自己教師あり表現の学習

Don't Pay Attention to the Noise: Learning Self-supervised Representations of Light Curves with a Denoising Time Series Transformer ( http://arxiv.org/abs/2207.02777v1 )

ライセンス: CC BY-SA 4.0
Mario Morvan, Nikolaos Nikolaou, Kai Hou Yip, Ingo Waldmann(参考訳) 天体の光度曲線は、それらの強度と様々なノイズによって特に困難なデータオブジェクトである。 しかし、天文学的な量の光曲線が利用できるにもかかわらず、それらを処理するアルゴリズムの大部分は、まだサンプル単位で運用されている。 これを改善するために、Denoising Time Series Transformer (DTST)と呼ばれるシンプルなTransformerモデルを提案し、クリーンなターゲットが存在しない場合でも、マスクされた目標でトレーニングされた時系列のデータセットのノイズと外れ値の除去が優れていることを示す。 さらに、自己注意の使用により、学習した表現へのリッチでイラストラティブなクエリが可能になる。 我々は、トランジット系外惑星宇宙衛星(TESS)の実際の恒星光曲線の実験を行い、従来のデノナイジング技術と比較して、我々のアプローチの利点を示す。

Astrophysical light curves are particularly challenging data objects due to the intensity and variety of noise contaminating them. Yet, despite the astronomical volumes of light curves available, the majority of algorithms used to process them are still operating on a per-sample basis. To remedy this, we propose a simple Transformer model -- called Denoising Time Series Transformer (DTST) -- and show that it excels at removing the noise and outliers in datasets of time series when trained with a masked objective, even when no clean targets are available. Moreover, the use of self-attention enables rich and illustrative queries into the learned representations. We present experiments on real stellar light curves from the Transiting Exoplanet Space Satellite (TESS), showing advantages of our approach compared to traditional denoising techniques.
翻訳日:2022-07-07 16:13:35 公開日:2022-07-06
# (参考訳) 放射線画像の固有多様体とその深層学習における役割

The Intrinsic Manifolds of Radiological Images and their Role in Deep Learning ( http://arxiv.org/abs/2207.02797v1 )

ライセンス: CC BY 4.0
Nicholas Konz, Hanxue Gu, Haoyu Dong, Maciej A. Mazurowski(参考訳) 多様体仮説はディープラーニングの成功の核となるメカニズムであり、画像データの内在的多様体構造を理解することは、ニューラルネットワークがデータからどのように学習するかの研究の中心である。 近年, 自然画像の共通領域として固有のデータセット多様体とその学習困難との関係が研究され始めているが, 放射線画像ではそのような研究はほとんど試みられていない。 これについてはここで取り上げます。 まず, 自然画像と放射像の内在多様体次元を比較した。 また,本質的な次元と多種多様なデータセットに対する一般化能力の関係についても検討した。 解析の結果,自然画像データセットは放射線画像よりも固有次元が多いことが判明した。 しかし, 一般化能力と内在的次元性との関係は, 医用画像ではより強く, 学習が困難である内在的特徴を有する放射線画像として説明できる。 これらの結果は、放射線画像が機械学習研究に共通する自然な画像データセットよりも、ディープラーニングを適用することがより難しいという直感に、より根ざしている。 我々は、自然画像のために開発されたモデルを放射線画像領域に直接適用するのではなく、この領域の特定の特性に合わせたアーキテクチャやアルゴリズムの開発にもっと注意する必要があると考えている。 本研究は,これらの特徴と自然画像との相違を実証する上で,この方向への重要な第一歩である。

The manifold hypothesis is a core mechanism behind the success of deep learning, so understanding the intrinsic manifold structure of image data is central to studying how neural networks learn from the data. Intrinsic dataset manifolds and their relationship to learning difficulty have recently begun to be studied for the common domain of natural images, but little such research has been attempted for radiological images. We address this here. First, we compare the intrinsic manifold dimensionality of radiological and natural images. We also investigate the relationship between intrinsic dimensionality and generalization ability over a wide range of datasets. Our analysis shows that natural image datasets generally have a higher number of intrinsic dimensions than radiological images. However, the relationship between generalization ability and intrinsic dimensionality is much stronger for medical images, which could be explained as radiological images having intrinsic features that are more difficult to learn. These results give a more principled underpinning for the intuition that radiological images can be more challenging to apply deep learning to than natural image datasets common to machine learning research. We believe rather than directly applying models developed for natural images to the radiological imaging domain, more care should be taken to developing architectures and algorithms that are more tailored to the specific characteristics of this domain. The research shown in our paper, demonstrating these characteristics and the differences from natural images, is an important first step in this direction.
翻訳日:2022-07-07 15:16:47 公開日:2022-07-06
# (参考訳) オンラインバイレベル最適化:オンライン交互勾配法の後悔分析

Online Bilevel Optimization: Regret Analysis of Online Alternating Gradient Methods ( http://arxiv.org/abs/2207.02829v1 )

ライセンス: CC BY 4.0
Davoud Ataee Tarzanagh and Laura Balzano(参考訳) オンライン最適化は、以前の意思決定タスクに対する正しい答えの知識を前提として、正しい意思決定の連続を目標とする、確立した最適化パラダイムである。 双レベルプログラミングは、内部問題の解集合写像のグラフによって、いわゆる外問題の実現可能な領域が制限される階層的最適化問題を含む。 本稿では、これらの2つのアイデアをまとめて、時間変化の両レベル問題の連続を次々に明らかにするオンラインの双レベル最適化設定について研究する。 我々は、シングルレベルオンラインアルゴリズムの既知の後悔の限界を二レベル設定に拡張する。 具体的には,2段階の後悔という新たな概念を導入し,スムーズさを生かしたオンラインの時間平均勾配法を開発し,内部および外部の最小化シーケンスのパス長による後悔境界を提供する。

Online optimization is a well-established optimization paradigm that aims to make a sequence of correct decisions given knowledge of the correct answer to previous decision tasks. Bilevel programming involves a hierarchical optimization problem where the feasible region of the so-called outer problem is restricted by the graph of the solution set mapping of the inner problem. This paper brings these two ideas together and studies an online bilevel optimization setting in which a sequence of time-varying bilevel problems are revealed one after the other. We extend the known regret bounds for single-level online algorithms to the bilevel setting. Specifically, we introduce new notions of bilevel regret, develop an online alternating time-averaged gradient method that is capable of leveraging smoothness, and provide regret bounds in terms of the path-length of the inner and outer minimizer sequences.
翻訳日:2022-07-07 15:06:22 公開日:2022-07-06
# 多段階世帯エネルギー消費予測のためのカスケード型ディープハイブリッドモデル

Cascaded Deep Hybrid Models for Multistep Household Energy Consumption Forecasting ( http://arxiv.org/abs/2207.02589v1 )

ライセンス: Link先を確認
Lyes Saad Saoud, Hasan AlMarzouqi, Ramy Hussein(参考訳) 持続可能性には、最小限の廃棄物でエネルギー効率を高める必要がある。 将来の電力システムは、エネルギー消費を制御するため、高いレベルの柔軟性を提供するべきである。 エネルギー産業における意思決定者や専門家にとって、集約および個々のサイトレベルでの将来のエネルギー需要/負荷の正確な予測は、非常に重要である。 エネルギー供給者や顧客にとってエネルギー負荷の予測はより有利になり、需要を満たす効率的な生産戦略を確立することができる。 本研究は,多段階家庭電力消費予測のための2つのハイブリッドキャスケードモデルを提案する。 最初のモデルは、効率的な信号前処理技術である静止ウェーブレット変換(SWT)と、畳み込みニューラルネットワークとLong Short Term Memory(LSTM)を統合している。 2つ目のハイブリッドモデルでは、swtとtransformerという自己結合ベースのニューラルネットワークアーキテクチャを組み合わせる。 多段階エネルギー予測問題においてSWTのような時間周波数解析手法を用いる主な制約は、シーケンシャル信号を必要とするため、多段階エネルギー予測アプリケーションでは信号再構成が問題となることである。 実験の結果,提案手法は従来のマルチステップ電力消費予測手法よりも優れた予測性能が得られることがわかった。 結果は、家庭用電力消費のより正確で信頼性の高い予測方法となるだろう。

Sustainability requires increased energy efficiency with minimal waste. The future power systems should thus provide high levels of flexibility iin controling energy consumption. Precise projections of future energy demand/load at the aggregate and on the individual site levels are of great importance for decision makers and professionals in the energy industry. Forecasting energy loads has become more advantageous for energy providers and customers, allowing them to establish an efficient production strategy to satisfy demand. This study introduces two hybrid cascaded models for forecasting multistep household power consumption in different resolutions. The first model integrates Stationary Wavelet Transform (SWT), as an efficient signal preprocessing technique, with Convolutional Neural Networks and Long Short Term Memory (LSTM). The second hybrid model combines SWT with a self-attention based neural network architecture named transformer. The major constraint of using time-frequency analysis methods such as SWT in multistep energy forecasting problems is that they require sequential signals, making signal reconstruction problematic in multistep forecasting applications.The cascaded models can efficiently address this problem through using the recursive outputs. Experimental results show that the proposed hybrid models achieve superior prediction performance compared to the existing multistep power consumption prediction methods. The results will pave the way for more accurate and reliable forecasting of household power consumption.
翻訳日:2022-07-07 15:04:07 公開日:2022-07-06
# BFEとAdaBFE:確率最適化のための学習速度自動化の新しいアプローチ

BFE and AdaBFE: A New Approach in Learning Rate Automation for Stochastic Optimization ( http://arxiv.org/abs/2207.02763v1 )

ライセンス: Link先を確認
Xin Cao(参考訳) 本稿では,学習率を自動的に調整する新しい勾配に基づく最適化手法を提案する。 このアプローチは、非適応学習率と適応学習率の設計に適用できる。 まず,非適応型学習率最適化法であるバイナリフォワード探索法(BFE)を導入し,それに対応する適応型学習率法(Adaptive BFE:AdaBFE)を開発する。 このアプローチは、SGD、運動量、ネステロフといった現在の非適応型学習率法と、AdaGrad、AdaDelta、Adamなどの適応型学習率法に加えて、確率勾配勾配(SGD)アルゴリズムに基づく学習率を最適化する別の方法かもしれない。 本手法の開発の目的は,他の手法のベンチマークを破ることではなく,勾配降下法を最適化するための異なる視点を提供することである。 このアプローチは、従来の手法と組み合わせて勾配に基づく最適化を改善するために、ヒューリスティックあるいはインスピレーションを与えると期待されている。

In this paper, a new gradient-based optimization approach by automatically adjusting the learning rate is proposed. This approach can be applied to design non-adaptive learning rate and adaptive learning rate. Firstly, I will introduce the non-adaptive learning rate optimization method: Binary Forward Exploration (BFE), and then the corresponding adaptive per-parameter learning rate method: Adaptive BFE (AdaBFE) is possible to be developed. This approach could be an alternative method to optimize the learning rate based on the stochastic gradient descent (SGD) algorithm besides the current non-adaptive learning rate methods e.g. SGD, momentum, Nesterov and the adaptive learning rate methods e.g. AdaGrad, AdaDelta, Adam... The purpose to develop this approach is not to beat the benchmark of other methods but just to provide a different perspective to optimize the gradient descent method, although some comparative study with previous methods will be made in the following sections. This approach is expected to be heuristic or inspire researchers to improve gradient-based optimization combined with previous methods.
翻訳日:2022-07-07 15:03:46 公開日:2022-07-06
# 非線形力学系を再構成する気道樹状rnn

Tractable Dendritic RNNs for Reconstructing Nonlinear Dynamical Systems ( http://arxiv.org/abs/2207.02542v1 )

ライセンス: Link先を確認
Manuel Brenner, Florian Hess, Jonas M. Mikhaeil, Leonard Bereska, Zahra Monfared, Po-Chen Kuo, Daniel Durstewitz(参考訳) 多くの科学的分野において、我々は、カオス的な振る舞いやノイズに直面した課題である観測時系列の集合の根底にある非線形力学系を推論することに興味を持っている。 この目標への以前のディープラーニングアプローチは、しばしば解釈可能性と扱いやすさの欠如に苦しめられた。 特に、忠実な埋め込みに必要とされる高次元の潜在空間は、基礎となる力学が低次元多様体上に存在するとしても理論解析を妨げうる。 樹状体計算の新たな原理により,線形スプラインベース展開により動的に解釈可能かつ数学的に抽出可能なPLリカレントニューラルネットワーク(RNN)を増強する。 このアプローチは単純な PLRNN の理論的に魅力的な性質をすべて保持するが、相対的に低次元の任意の非線形力学系を近似する能力を高める。 システムトレーニングには,バックプロパゲーション・スルータイム(bptt)と教師の強制力,高速でスケーラブルな変分推論の2つのフレームワークを用いた。 本研究では, 様々な動的システムベンチマークにおいて, パラメータや次元を少なくして, より高精度な再構成を実現し, トラクタブルかつ解釈可能な構造を維持しつつ, 他の手法と比較した。

In many scientific disciplines, we are interested in inferring the nonlinear dynamical system underlying a set of observed time series, a challenging task in the face of chaotic behavior and noise. Previous deep learning approaches toward this goal often suffered from a lack of interpretability and tractability. In particular, the high-dimensional latent spaces often required for a faithful embedding, even when the underlying dynamics lives on a lower-dimensional manifold, can hamper theoretical analysis. Motivated by the emerging principles of dendritic computation, we augment a dynamically interpretable and mathematically tractable piecewise-linear (PL) recurrent neural network (RNN) by a linear spline basis expansion. We show that this approach retains all the theoretically appealing properties of the simple PLRNN, yet boosts its capacity for approximating arbitrary nonlinear dynamical systems in comparatively low dimensions. We employ two frameworks for training the system, one combining back-propagation-through-time (BPTT) with teacher forcing, and another based on fast and scalable variational inference. We show that the dendritically expanded PLRNN achieves better reconstructions with fewer parameters and dimensions on various dynamical systems benchmarks and compares favorably to other methods, while retaining a tractable and interpretable structure.
翻訳日:2022-07-07 15:03:24 公開日:2022-07-06
# アストロコンフォーマー:変圧器付きステラー光曲線から星の表面重力を推定する

Astroconformer: Inferring Surface Gravity of Stars from Stellar Light Curves with Transformer ( http://arxiv.org/abs/2207.02787v1 )

ライセンス: Link先を確認
Jiashu Pan, Yuan-Sen Ting and Jie Yu(参考訳) 我々は、ケプラーミッションの恒星の光曲線を分析するトランスフォーマモデルであるastroconformerを紹介する。 astrconformerは、恒星表面重力を教師ありタスクとしてロバストに推測できることを実証する。 重要なことに、トランスフォーマーは時系列で長距離情報をキャプチャするので、フィールドにおける最先端のデータ駆動方式よりも優れており、アブレーション実験によって自己照査の重要な役割が証明される。 さらに、astroconformerの注意マップは、モデルによって学習された長距離相関情報を例示し、より解釈可能なアステローシス学の深層学習アプローチへと繋がる。 ケプラーのデータに加え、この手法はルービン天文台のカドレンス光曲線を一般化し、長期間の地上観測からの情報を活用して、新時代のアステロジストロジーの道を開くことも示している。

We introduce Astroconformer, a Transformer-based model to analyze stellar light curves from the Kepler mission. We demonstrate that Astrconformer can robustly infer the stellar surface gravity as a supervised task. Importantly, as Transformer captures long-range information in the time series, it outperforms the state-of-the-art data-driven method in the field, and the critical role of self-attention is proved through ablation experiments. Furthermore, the attention map from Astroconformer exemplifies the long-range correlation information learned by the model, leading to a more interpretable deep learning approach for asteroseismology. Besides data from Kepler, we also show that the method can generalize to sparse cadence light curves from the Rubin Observatory, paving the way for the new era of asteroseismology, harnessing information from long-cadence ground-based observations.
翻訳日:2022-07-07 15:03:01 公開日:2022-07-06
# (参考訳) dpodv2: 高密度対応に基づく6自由度ポーズ推定

DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation ( http://arxiv.org/abs/2207.02805v1 )

ライセンス: CC BY 4.0
Ivan Shugurov, Sergey Zakharov, Slobodan Ilic(参考訳) 本研究では,dpodv2 (dense pose object detector) と呼ばれる3段階6自由度物体検出法を提案する。 本研究では,2次元物体検出器と高密度対応推定ネットワークと多視点姿勢補正法を組み合わせて,全6自由度姿勢を推定する。 単眼のrgb画像に制限される他のディープラーニング手法とは異なり、異なる画像モード(rgbまたは深さ)を使用できる統合型ディープラーニングネットワークを提案する。 また,識別可能なレンダリングに基づく新しいポーズ改善手法を提案する。 主な概念は、予測された対応とレンダリングされた対応を複数のビューで比較して、すべてのビューで予測された対応と一致するポーズを得ることである。 提案手法は,異なるデータモダリティとトレーニングデータの種類について,制御された設定で厳格に評価する。 主な結論は、rgbは対応推定に優れ、深さは良い3d-3d対応が可能であれば姿勢精度に寄与する。 当然、それらの組み合わせは全体的な最高のパフォーマンスを達成する。 本研究は,いくつかの挑戦的データセットを用いて,実験結果の分析と検証を行う。 DPODv2は、使用済みデータモダリティとトレーニングデータの種類によらず、高速でスケーラブルなまま、すべてのデータに対して優れた結果を得る

We propose a three-stage 6 DoF object detection method called DPODv2 (Dense Pose Object Detector) that relies on dense correspondences. We combine a 2D object detector with a dense correspondence estimation network and a multi-view pose refinement method to estimate a full 6 DoF pose. Unlike other deep learning methods that are typically restricted to monocular RGB images, we propose a unified deep learning network allowing different imaging modalities to be used (RGB or Depth). Moreover, we propose a novel pose refinement method, that is based on differentiable rendering. The main concept is to compare predicted and rendered correspondences in multiple views to obtain a pose which is consistent with predicted correspondences in all views. Our proposed method is evaluated rigorously on different data modalities and types of training data in a controlled setup. The main conclusions is that RGB excels in correspondence estimation, while depth contributes to the pose accuracy if good 3D-3D correspondences are available. Naturally, their combination achieves the overall best performance. We perform an extensive evaluation and an ablation study to analyze and validate the results on several challenging datasets. DPODv2 achieves excellent results on all of them while still remaining fast and scalable independent of the used data modality and the type of training data
翻訳日:2022-07-07 15:00:26 公開日:2022-07-06
# 不均衡データのバイナリ分類のためのハイブリッドアプローチ

A Hybrid Approach for Binary Classification of Imbalanced Data ( http://arxiv.org/abs/2207.02738v1 )

ライセンス: Link先を確認
Hsin-Han Tsai, Ta-Wei Yang, Wai-Man Wong, and Cheng-Fu Chou(参考訳) 不均衡データセットによるバイナリ分類は難しい。 モデルはすべてのサンプルをマジョリティクラスに属すると見なす傾向がある。 サンプリング法やコスト感受性法,アンサンブル学習法といった既存のソリューションはマイノリティクラスの精度を向上するが,これらの手法は決定が難しい問題やコストパラメータを過度に適合させることによって制限される。 本稿では,データブロック構築,次元性低減,深層ニューラルネットワーク分類器を用いたアンサンブル学習からなる次元減少を伴うハイブリッド手法HADRを提案する。 我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。 その結果,本モデルは最先端手法よりも優れていた。

Binary classification with an imbalanced dataset is challenging. Models tend to consider all samples as belonging to the majority class. Although existing solutions such as sampling methods, cost-sensitive methods, and ensemble learning methods improve the poor accuracy of the minority class, these methods are limited by overfitting problems or cost parameters that are difficult to decide. We propose HADR, a hybrid approach with dimension reduction that consists of data block construction, dimentionality reduction, and ensemble learning with deep neural network classifiers. We evaluate the performance on eight imbalanced public datasets in terms of recall, G-mean, and AUC. The results show that our model outperforms state-of-the-art methods.
翻訳日:2022-07-07 14:24:53 公開日:2022-07-06
# DIWIFT: 語彙データのためのインスタンスワイズな特徴を発見する

DIWIFT: Discovering Instance-wise Influential Features for Tabular Data ( http://arxiv.org/abs/2207.02773v1 )

ライセンス: Link先を確認
Pengxiang Cheng, Hong Zhu, Xing Tang, Dugang Liu, Yanyu Chen, Xiaoting Wang, Weike Pan, Zhong Ming, Xiuqiang He(参考訳) タブラルデータは、小売、銀行、Eコマースなど、ビジネスアプリケーションで最も一般的なデータストレージフォーマットの1つである。 これらのアプリケーションは、ビジネスの成功を達成するために機械学習モデルに大きく依存している。 表データ学習における重要な問題の1つは、影響のある機能をすべての所定の特徴から区別することである。 グローバルな機能選択は、すべてのインスタンスが同じ影響のある機能サブセットを持っていることを前提として、かなり長い間よく研究されてきた。 しかし、異なるインスタンスは実際には異なる機能サブセットに依存しているため、最近の研究で注目を浴びるケースワイドな機能選択がもたらされる。 本稿では、まず、表型データ(DIWIFT)のインスタンスに影響を及ぼす特徴を発見するための新しい手法を提案し、その中核となるのは、インスタンスに影響を及ぼす特徴の重要性を測定するための影響関数の導入である。 DIWIFTは、異なるインスタンスで異なるサイズの影響のある機能サブセットを自動的に発見することができる。 一方、従来のインスタンス単位の機能選択とは異なり、DIWIFTは検証セットの検証損失を最小限に抑え、トレーニングデータセットやテストデータセットに存在する分散シフトに対してより堅牢である。 最後に,DIWIFTの有効性をベースライン法と比較するため,合成データセットと実世界のデータセットの両方で広範な実験を行った。 さらに,いくつかのアブレーション実験により,本手法の堅牢性を示す。

Tabular data is one of the most common data storage formats in business applications, ranging from retail, bank and E-commerce. These applications rely heavily on machine learning models to achieve business success. One of the critical problems in learning tabular data is to distinguish influential features from all the predetermined features. Global feature selection has been well-studied for quite some time, assuming that all instances have the same influential feature subsets. However, different instances rely on different feature subsets in practice, which also gives rise to that instance-wise feature selection receiving increasing attention in recent studies. In this paper, we first propose a novel method for discovering instance-wise influential features for tabular data (DIWIFT), the core of which is to introduce the influence function to measure the importance of an instance-wise feature. DIWIFT is capable of automatically discovering influential feature subsets of different sizes in different instances, which is different from global feature selection that considers all instances with the same influential feature subset. On the other hand, different from the previous instance-wise feature selection, DIWIFT minimizes the validation loss on the validation set and is thus more robust to the distribution shift existing in the training dataset and test dataset, which is important in tabular data. Finally, we conduct extensive experiments on both synthetic and real-world datasets to validate the effectiveness of our DIWIFT, compared it with baseline methods. Moreover, we also demonstrate the robustness of our method via some ablation experiments.
翻訳日:2022-07-07 14:24:41 公開日:2022-07-06
# 移行学習におけるバイアス転送はいつ行われるか?

When does Bias Transfer in Transfer Learning? ( http://arxiv.org/abs/2207.02842v1 )

ライセンス: Link先を確認
Hadi Salman, Saachi Jain, Andrew Ilyas, Logan Engstrom, Eric Wong, Aleksander Madry(参考訳) トランスファーラーニングを使用して、トレーニング済みの"ソースモデル"を下流の"ターゲットタスク"に適応させることで、パフォーマンスが劇的に向上する。 本研究は, モデルが対象クラスに適応した後でも, バイアス伝達や, ソースモデルのバイアスが持続する傾向といった欠点が存在することを実証する。 合成実験と自然実験を組み合わせることで バイアス伝達の両方が (a)現実的な設定(imagenetや他の標準データセットで事前トレーニングする場合など)や b) ターゲットデータセットが明示的に偏りをなくした場合でも起こり得る。 転送学習モデルが現実世界にますます展開されるにつれて、我々の研究は事前学習されたソースモデルの限界を理解することの重要性を強調します。 コードはhttps://github.com/MadryLab/bias-transferで入手できる。

Using transfer learning to adapt a pre-trained "source model" to a downstream "target task" can dramatically increase performance with seemingly no downside. In this work, we demonstrate that there can exist a downside after all: bias transfer, or the tendency for biases of the source model to persist even after adapting the model to the target class. Through a combination of synthetic and natural experiments, we show that bias transfer both (a) arises in realistic settings (such as when pre-training on ImageNet or other standard datasets) and (b) can occur even when the target dataset is explicitly de-biased. As transfer-learned models are increasingly deployed in the real world, our work highlights the importance of understanding the limitations of pre-trained source models. Code is available at https://github.com/MadryLab/bias-transfer
翻訳日:2022-07-07 14:24:17 公開日:2022-07-06
# レイシューティングによるユークリッド空間のマルチターゲット探索(フルバージョン)

Multi-Target Search in Euclidean Space with Ray Shooting (Full Version) ( http://arxiv.org/abs/2207.02436v1 )

ライセンス: Link先を確認
Ryan Hechenberger (1), Daniel Harabor (1), Muhammad Aamir Cheema (1), Peter J Stuckey (1), Pierre Le Bodic (1) ((1) Monash University)(参考訳) ユークリッド短経路問題(Euclidean shortest path problem、ESPP)は、多くの実用的な応用においてよく研究されている問題である。 近年,この問題に対する新しい効率的なオンラインアプローチであるRayScanが,レイシューティングとポリゴンスキャンに基づいて開発された。 本稿では、ポリゴンスキャンを慎重に推し進めることで、RayScanを改善する方法について述べる。 また、単一ソースのマルチターゲットシナリオにおいてRayScanをどのように適用できるかについても検討する。 この改善は、単一のターゲットケースにも役立ちます。 改良されたRayScan+を最先端のESPPアルゴリズムと比較し、より良好な状況を示す。

The Euclidean shortest path problem (ESPP) is a well studied problem with many practical applications. Recently a new efficient online approach to this problem, RayScan, has been developed, based on ray shooting and polygon scanning. In this paper we show how we can improve RayScan by carefully reasoning about polygon scans. We also look into how RayScan could be applied in the single-source multi-target scenario, where logic during scanning is used to reduce the number of rays shots required. This improvement also helps in the single target case. We compare the improved RayScan+ against the state-of-the-art ESPP algorithm, illustrating the situations where it is better.
翻訳日:2022-07-07 14:24:03 公開日:2022-07-06
# パワーサイドチャネルに対する最適化コードのセキュア化

Securing Optimized Code Against Power Side Channels ( http://arxiv.org/abs/2207.02614v1 )

ライセンス: Link先を確認
Rodothea Myrsini Tsoupidi, Roberto Casta\~neda Lozano, Elena Troubitsyna and Panagiotis Papadimitratos(参考訳) サイドチャネル攻撃は、AESやRSAといった広く使われている暗号アルゴリズムに深刻な脅威を与え、ハードウェアやソフトウェアにおけるアルゴリズムの実装を利用して、タイミングおよび/またはパワーサイドチャネルを介して秘密情報を抽出する。 ソフトウェアマスキング(software masking)は、脆弱な実装の電力フットプリントから秘密保護の依存関係を隠すことを目的とした、パワーサイドチャネル攻撃に対するソフトウェア緩和アプローチである。 しかし、この種のソフトウェア緩和は汎用コンパイラに依存し、非機能特性を保存しないことが多い。 さらに、メモリバスやレジスタの再利用といったマイクロアーキテクチャの特徴も秘密情報を明らかにする可能性がある。 これらの抽象化はプログラムの高レベルな実装では見えない。 代わりにコンパイル時に決定される。 これらの問題を解決するため、セキュリティエンジニアはコンパイラの最適化をオフにしたり、コンパイル後のローカル変換を実行することでコードの効率を犠牲にすることが多い。 本稿では,最適化されたセキュアなコードを生成する制約ベースのコンパイラであるSecConCGを提案する。 SecConCGは、プロセッサコストモデルに従って、最大限の低レベル実装を効率的に探索することにより、緩和プログラムの品質を制御する。 MIPS32とARM Cortex M0の10のマスク付き実装による実験では、SecConCGは生成したコードを10%から10倍に高速化します。 セキュリティとコンパイラの研究者のために,本稿では,セキュアな低レベルコードを生成する形式モデルを提案する。 ソフトウェアエンジニアにとって、SecConCGは、セキュリティプロパティを保存するコードの最適化に実用的なアプローチを提供する。

Side-channel attacks impose a serious threat to cryptographic algorithms, including widely employed ones, such as AES and RSA, taking advantage of the algorithm implementation in hardware or software to extract secret information via timing and/or power side-channels. Software masking is a software mitigation approach against power side-channel attacks, aiming at hiding the secret-revealing dependencies from the power footprint of a vulnerable implementation. However, this type of software mitigation often depends on general-purpose compilers, which do not preserve non-functional properties. Moreover, microarchitectural features, such as the memory bus and register reuse, may also reveal secret information. These abstractions are not visible at the high-level implementation of the program. Instead, they are decided at compile time. To remedy these problems, security engineers often sacrifice code efficiency by turning off compiler optimization and/or performing local, post-compilation transformations. This paper proposes SecConCG, a constraint-based compiler approach that generates optimized yet secure code. SecConCG controls the quality of the mitigated program by efficiently searching the best possible low-level implementation according to a processor cost model. In our experiments with ten masked implementations on MIPS32 and ARM Cortex M0, SecConCG speeds up the generated code from 10% to 10x compared to non-optimized secure code at a small overhead of up to 7% compared to non-secure optimized code. For security and compiler researchers, this paper proposes a formal model to generate secure low-level code. For software engineers, SecConCG provides a practical approach to optimize code that preserves security properties.
翻訳日:2022-07-07 14:23:51 公開日:2022-07-06
# 知覚・無感覚データに対するニューラルネットワークを用いた条件分布関数推定

Conditional Distribution Function Estimation Using Neural Networks for Censored and Uncensored Data ( http://arxiv.org/abs/2207.02384v1 )

ライセンス: Link先を確認
Bingqing Hu, Bin Nan(参考訳) ニューラルネットワークにおけるほとんどの研究は、一組の共変量に対して連続応答変数の条件平均を推定することに焦点を当て、この記事では、検閲されたデータと無検閲データの両方に対してニューラルネットワークを用いて条件分布関数を推定することを検討する。 このアルゴリズムは、時間依存の共変量を持つcox回帰のために特に構築されたデータ構造に基づいている。 モデル仮定を適用せずに、条件付きハザード関数が唯一の未知の非パラメトリックパラメータであり、非制約最適化法が適用可能な完全可能性に基づく損失関数を考える。 シミュレーション研究を通じて,提案手法は望ましい性能を有することを示す一方,モデル仮定に違反した場合に,損失収率$L_2$の従来のニューラルネットワークは偏りのある推定値を示す。 さらに,提案手法を実世界の複数のデータセットで説明する。 提案手法の実装はhttps://github.com/bingqing0729/NNCDEで公開されている。

Most work in neural networks focuses on estimating the conditional mean of a continuous response variable given a set of covariates.In this article, we consider estimating the conditional distribution function using neural networks for both censored and uncensored data. The algorithm is built upon the data structure particularly constructed for the Cox regression with time-dependent covariates. Without imposing any model assumption, we consider a loss function that is based on the full likelihood where the conditional hazard function is the only unknown nonparametric parameter, for which unconstraint optimization methods can be applied. Through simulation studies, we show the proposed method possesses desirable performance, whereas the partial likelihood method and the traditional neural networks with $L_2$ loss yield biased estimates when model assumptions are violated. We further illustrate the proposed method with several real-world data sets. The implementation of the proposed methods is made available at https://github.com/bingqing0729/NNCDE.
翻訳日:2022-07-07 14:23:24 公開日:2022-07-06
# 深部CNN-transformerモデルを用いたマウスの放射状k空間拡散強調MRIからの特異拡散係数マップの学習

Learning Apparent Diffusion Coefficient Maps from Undersampled Radial k-Space Diffusion-Weighted MRI in Mice using a Deep CNN-Transformer Model in Conjunction with a Monoexponential Model ( http://arxiv.org/abs/2207.02399v1 )

ライセンス: Link先を確認
Yuemeng Li, Hee Kwon Song, Miguel Romanello Joaquim, Stephen Pickup, Rong Zhou, Yong Fan(参考訳) 目的: 高品質のADCマップを生成するために, 放射サンプリング拡散強調スピンエチョ(Rad-DW-SE)取得法を高速化すること。 方法: Rad-DW-SE法により得られたアンダーサンプルDWIデータから, 正確なADCマップ再構成を生成するための深層学習法を開発した。 深層学習法は、単例のADCモデル適合項で正規化されるアンダーサンプルDWIデータから高品質なADCマップを生成するために、畳み込みニューラルネットワーク(CNN)とバイソン変換器を統合する。 モデルは147マウスのDWIデータに基づいて訓練され、36マウスのDWIデータに基づいて4倍、8倍のアンダーサンプリング率で評価された。 結果: アブレーション実験と実験の結果から, 提案する深層学習モデルは, 画像, 腫瘍, 腎臓, 筋肉の異なるレベルにおいて定量化され, 比較対象の深層学習法よりも優れたdwiデータから高品質なadcマップを生成できることが示された。 結論:CNNとトランスフォーマーを統合したディープラーニング手法は,Rad-DW-SE法で得られたアンダーサンプルDWIデータから,ADCマップを正確に計算する有効な手段を提供する。

Purpose: To accelerate radially sampled diffusion weighted spin-echo (Rad-DW-SE) acquisition method for generating high quality of apparent diffusion coefficient (ADC) maps. Methods: A deep learning method was developed to generate accurate ADC map reconstruction from undersampled DWI data acquired with the Rad-DW-SE method. The deep learning method integrates convolutional neural networks (CNNs) with vison transformers to generate high quality ADC maps from undersampled DWI data, regularized by a monoexponential ADC model fitting term. A model was trained on DWI data of 147 mice and evaluated on DWI data of 36 mice, with undersampling rates of 4x and 8x. Results: Ablation studies and experimental results have demonstrated that the proposed deep learning model can generate high quality ADC maps from undersampled DWI data, better than alternative deep learning methods under comparison, with their performance quantified on different levels of images, tumors, kidneys, and muscles. Conclusions: The deep learning method with integrated CNNs and transformers provides an effective means to accurately compute ADC maps from undersampled DWI data acquired with the Rad-DW-SE method.
翻訳日:2022-07-07 14:21:49 公開日:2022-07-06
# 人間と物体の相互作用検出における物体バイアスの克服

Chairs Can be Stood on: Overcoming Object Bias in Human-Object Interaction Detection ( http://arxiv.org/abs/2207.02400v1 )

ライセンス: Link先を確認
Guangzhi Wang, Yangyang Guo, Yongkang Wong, Mohan Kankanhalli(参考訳) 画像中のヒューマン・オブジェクト・インタラクション(HOI)の検出は,高レベルの視覚的理解に向けた重要なステップである。 既存の作業は、人間とオブジェクトの検出またはインタラクション認識を改善することに光を当てることが多い。 しかしながら、データセットの制限のため、これらの手法は検出されたオブジェクトに条件付けられた頻繁な相互作用によく適合する傾向にあるが、この論文ではオブジェクトバイアス問題と呼ばれる稀なオブジェクトを無視している。 この研究において、我々は初めて、不均衡な相互作用分布とバイアス付きモデル学習という2つの側面から問題を明らかにする。 オブジェクトバイアス問題を克服するために,検出対象下でのインタラクションの分散を再バランスする,新しいプラグ&プレイ型オブジェクトワイド・デバイアス・メモリ(ODM)手法を提案する。 読み書き戦略を慎重に設計したODMは、希少な相互作用インスタンスをトレーニングのためにより頻繁にサンプリングし、不均衡な相互作用分布によって引き起こされるオブジェクトバイアスを軽減する。 本手法を3つの高度なベースラインに適用し,HICO-DETおよびHOI-COCOデータセット上で実験を行った。 対象バイアス問題を定量的に研究するために,モデルの性能評価のための新しいプロトコルを提案する。 実験結果に示すように,本手法はベースライン,特に各オブジェクト下の稀な相互作用に対して,一貫した,重要な改善をもたらす。 さらに,従来の標準設定で評価する場合,本手法は2つのベンチマークで新たな最先端性を実現する。

Detecting Human-Object Interaction (HOI) in images is an important step towards high-level visual comprehension. Existing work often shed light on improving either human and object detection, or interaction recognition. However, due to the limitation of datasets, these methods tend to fit well on frequent interactions conditioned on the detected objects, yet largely ignoring the rare ones, which is referred to as the object bias problem in this paper. In this work, we for the first time, uncover the problem from two aspects: unbalanced interaction distribution and biased model learning. To overcome the object bias problem, we propose a novel plug-and-play Object-wise Debiasing Memory (ODM) method for re-balancing the distribution of interactions under detected objects. Equipped with carefully designed read and write strategies, the proposed ODM allows rare interaction instances to be more frequently sampled for training, thereby alleviating the object bias induced by the unbalanced interaction distribution. We apply this method to three advanced baselines and conduct experiments on the HICO-DET and HOI-COCO datasets. To quantitatively study the object bias problem, we advocate a new protocol for evaluating model performance. As demonstrated in the experimental results, our method brings consistent and significant improvements over baselines, especially on rare interactions under each object. In addition, when evaluating under the conventional standard setting, our method achieves new state-of-the-art on the two benchmarks.
翻訳日:2022-07-07 14:21:21 公開日:2022-07-06
# 足部潰瘍セグメンテーションのための軽量エンコーダ・デコーダアーキテクチャ

Lightweight Encoder-Decoder Architecture for Foot Ulcer Segmentation ( http://arxiv.org/abs/2207.02515v1 )

ライセンス: Link先を確認
Shahzad Ali, Arif Mahmood, Soon Ki Jung(参考訳) 足部潰瘍治癒の継続的なモニタリングは、所定の治療の有効性を保証し、劣化の可能性を避けるために必要である。 足部潰瘍の分節は創傷診断の重要なステップである。 我々は、確立されたエンコーダデコーダと残差畳み込みニューラルネットワークに類似したモデルを開発した。 本モデルでは、各畳み込みブロックに統合されたチャネルと空間的注意を伴う残留接続を含む。 モデルトレーニング、テスト時間拡張、および得られた予測に対する多数決に対する単純なパッチベースのアプローチは、優れたパフォーマンスをもたらした。 我々のモデルは、容易に利用可能なバックボーンアーキテクチャ、類似した外部データセットの事前トレーニング、あるいは転送学習のテクニックを活用できなかった。 約500万のネットワークパラメータの合計数は、足の潰瘍のセグメンテーションタスクで使用される最先端モデルと比較してかなり軽量なモデルとなった。 実験ではパッチレベルと画像レベルで結果を示した。 MICCAI 2021から公開されているフット・潰瘍・セグメンテーション(FUSeg)チャレンジデータセットを応用し、我々のモデルはDiceの類似度スコアで88.22%の最先端の画像レベルのパフォーマンスを達成し、公式のチャレンジ・リーダーボードで2位にランクインした。 さらに、より高度なアーキテクチャと比較できる非常にシンプルなソリューションも示しました。

Continuous monitoring of foot ulcer healing is needed to ensure the efficacy of a given treatment and to avoid any possibility of deterioration. Foot ulcer segmentation is an essential step in wound diagnosis. We developed a model that is similar in spirit to the well-established encoder-decoder and residual convolution neural networks. Our model includes a residual connection along with a channel and spatial attention integrated within each convolution block. A simple patch-based approach for model training, test time augmentations, and majority voting on the obtained predictions resulted in superior performance. Our model did not leverage any readily available backbone architecture, pre-training on a similar external dataset, or any of the transfer learning techniques. The total number of network parameters being around 5 million made it a significantly lightweight model as compared with the available state-of-the-art models used for the foot ulcer segmentation task. Our experiments presented results at the patch-level and image-level. Applied on publicly available Foot Ulcer Segmentation (FUSeg) Challenge dataset from MICCAI 2021, our model achieved state-of-the-art image-level performance of 88.22% in terms of Dice similarity score and ranked second in the official challenge leaderboard. We also showed an extremely simple solution that could be compared against the more advanced architectures.
翻訳日:2022-07-07 14:20:56 公開日:2022-07-06
# ビジュアルダイアログの対向的ロバスト性

Adversarial Robustness of Visual Dialog ( http://arxiv.org/abs/2207.02639v1 )

ライセンス: Link先を確認
Lu Yu, Verena Rieser(参考訳) 敵対的堅牢性は、機械学習モデルの最悪のパフォーマンスシナリオを評価し、その安全性と信頼性を保証する。 本研究は,テキスト攻撃に対する視覚的接地ダイアログモデルのロバスト性を検討する最初の方法である。 これらの攻撃は、入力された質問が前もって正しいモデルに間違った答えを返す同義語を含む最悪のシナリオを表す。 このシナリオを用いて,まず,マルチモーダル入力コンポーネントがモデルのロバスト性にどのように寄与するかを理解することを目的とする。 その結果,対話履歴をエンコードするモデルはより堅牢であり,歴史への攻撃を開始すると,モデル予測がより不確実になることがわかった。 これは、このタスクのモデルパフォーマンスに対してダイアログ履歴が無視できるという以前の仕事とは対照的である。 また,ユーザ/ソフトウェアデザイナによって検出されていないモデルに対して,逆テスト例を生成する方法も評価した。 テキストと視覚的なコンテキストが,考えられる最悪のシナリオを生成する上で重要であることが分かりました。

Adversarial robustness evaluates the worst-case performance scenario of a machine learning model to ensure its safety and reliability. This study is the first to investigate the robustness of visually grounded dialog models towards textual attacks. These attacks represent a worst-case scenario where the input question contains a synonym which causes the previously correct model to return a wrong answer. Using this scenario, we first aim to understand how multimodal input components contribute to model robustness. Our results show that models which encode dialog history are more robust, and when launching an attack on history, model prediction becomes more uncertain. This is in contrast to prior work which finds that dialog history is negligible for model performance on this task. We also evaluate how to generate adversarial test examples which successfully fool the model but remain undetected by the user/software designer. We find that the textual, as well as the visual context are important to generate plausible worst-case scenarios.
翻訳日:2022-07-07 14:20:35 公開日:2022-07-06
# 拡張現実における視線バーゲンス制御シースルービジョン

Gaze-Vergence-Controlled See-Through Vision in Augmented Reality ( http://arxiv.org/abs/2207.02645v1 )

ライセンス: Link先を確認
Zhimin Wang, Yuxin Zhao, and Feng Lu(参考訳) augmented reality (ar) see-through visionは、ユーザーが壁を覗き込み、目立たない物体を見ることができるので、興味深い研究テーマである。 既存の研究のほとんどは透視の視覚効果に焦点を当てているが、相互作用の方法はあまり研究されていない。 しかし、例えば、空中クリックや音声など、共通の相互作用のモダリティを使用することは、視線を通すのに最適な方法ではないかもしれないと論じる。 これは、何かを通して見たいとき、それは視線深度/収束度と物理的に関係しているため、眼によって自然に制御されるべきである。 そこで本研究では,ARにおける新しい視線バージェンス制御(GVC)シーススルービジョン技術を提案する。 視線深度が必要なため、2つの赤外線カメラとそれに対応するアルゴリズムを備えた視線追跡モジュールを構築し、それをMicrosoft HoloLens 2に組み込んで視線深度推定を行う。 次に、異なるシナリオに適合する2つの異なるGVCモードを提案する。 その結果,視線深度推定は効率的で精度が高いことがわかった。 また,従来のインタラクションモダリティと比較することにより,GVC技術は効率性に優れ,ユーザがより好むことを示す。 最後に,視線バーゲンス制御による透視の4つの応用例を示す。

Augmented Reality (AR) see-through vision is an interesting research topic since it enables users to see through a wall and see the occluded objects. Most existing research focuses on the visual effects of see-through vision, while the interaction method is less studied. However, we argue that using common interaction modalities, e.g., midair click and speech, may not be the optimal way to control see-through vision. This is because when we want to see through something, it is physically related to our gaze depth/vergence and thus should be naturally controlled by the eyes. Following this idea, this paper proposes a novel gaze-vergence-controlled (GVC) see-through vision technique in AR. Since gaze depth is needed, we build a gaze tracking module with two infrared cameras and the corresponding algorithm and assemble it into the Microsoft HoloLens 2 to achieve gaze depth estimation. We then propose two different GVC modes for see-through vision to fit different scenarios. Extensive experimental results demonstrate that our gaze depth estimation is efficient and accurate. By comparing with conventional interaction modalities, our GVC techniques are also shown to be superior in terms of efficiency and more preferred by users. Finally, we present four example applications of gaze-vergence-controlled see-through vision.
翻訳日:2022-07-07 14:18:41 公開日:2022-07-06
# リアルシーンのローカルなリライト

Local Relighting of Real Scenes ( http://arxiv.org/abs/2207.02774v1 )

ライセンス: Link先を確認
Audrey Cui, Ali Jahanian, Agata Lapedriza, Antonio Torralba, Shahin Mahdizadehaghdam, Rohit Kumar, David Bau(参考訳) 本稿では,画像内で見える光源をオン/オフすることでシーンの撮影を切り替えるローカルリライティングの課題を紹介する。 この新しい課題は、光源を検知し、それらから発する光のパターンを推測するという課題を導入するため、従来の画像リライト問題とは異なる。 本稿では,新しい画像データセットを管理せずに,別のモデルから合成生成した画像ペアを用いてモデルを訓練する手法を提案する。 具体的には、スタイルスペース管理ganからペアトレーニング画像を収集し、これらの画像を用いて条件付き画像対画像モデルをトレーニングする。 これは屋内空間で撮影された306枚のアライメント画像のコレクションで、異なる組み合わせのライトがオンになっている。 提案手法は,GANインバージョンに基づくベースライン手法よりも優れていることを示す。 最後に、異なる光源を別々に制御する手法の拡張を実証する。 私たちはコミュニティに、この新しいローカルリライトの課題に取り組むよう呼びかけます。

We introduce the task of local relighting, which changes a photograph of a scene by switching on and off the light sources that are visible within the image. This new task differs from the traditional image relighting problem, as it introduces the challenge of detecting light sources and inferring the pattern of light that emanates from them. We propose an approach for local relighting that trains a model without supervision of any novel image dataset by using synthetically generated image pairs from another model. Concretely, we collect paired training images from a stylespace-manipulated GAN; then we use these images to train a conditional image-to-image model. To benchmark local relighting, we introduce Lonoff, a collection of 306 precisely aligned images taken in indoor spaces with different combinations of lights switched on. We show that our method significantly outperforms baseline methods based on GAN inversion. Finally, we demonstrate extensions of our method that control different light sources separately. We invite the community to tackle this new task of local relighting.
翻訳日:2022-07-07 14:18:21 公開日:2022-07-06
# フリーフロー型双腕空間マニピュレータの非協調物体に対する動作計画のための学習システム

A Learning System for Motion Planning of Free-Float Dual-Arm Space Manipulator towards Non-Cooperative Object ( http://arxiv.org/abs/2207.02464v1 )

ライセンス: Link先を確認
Shengjie Wang, Yuxue Cao, Xiang Zheng, Tao Zhang(参考訳) 近年では、衛星や宇宙ゴミなどの非協力的な物体が宇宙に出現している。 これらのオブジェクトは通常、フリーフロートデュアルアームスペースマニピュレータによって操作または収集される。 モデリングと手動パラメータ調整の難しさをなくすことにより、強化学習(RL)法は宇宙マニピュレータの軌道計画においてより有望な兆候を示している。 従来の研究ではその効果を示したが、未知の回転(非協調物体)を持つ動的目標の追跡には適用できない。 本稿では,フリーフロート型デュアルアーム空間マニピュレータ(FFDASM)の非協調物体に対する運動計画学習システムを提案する。 具体的には, 2 つのモジュールからなる。 モジュールiは、大きなターゲット空間内の2つのエンドエフェクタのマルチターゲット軌道計画を実現する。 次に、モジュールIIは非協調対象の点雲を入力として運動特性を推定し、非協調対象の目標点の位置を予測する。 我々はモジュールIとモジュールIIの組み合わせを利用して、未知の規則性を持つ回転物体の目標点を追跡する。 さらに,本実験では,学習システムのスケーラビリティと一般化を実証した。

Recent years have seen the emergence of non-cooperative objects in space, like failed satellites and space junk. These objects are usually operated or collected by free-float dual-arm space manipulators. Thanks to eliminating the difficulties of modeling and manual parameter-tuning, reinforcement learning (RL) methods have shown a more promising sign in the trajectory planning of space manipulators. Although previous studies demonstrate their effectiveness, they cannot be applied in tracking dynamic targets with unknown rotation (non-cooperative objects). In this paper, we proposed a learning system for motion planning of free-float dual-arm space manipulator (FFDASM) towards non-cooperative objects. Specifically, our method consists of two modules. Module I realizes the multi-target trajectory planning for two end-effectors within a large target space. Next, Module II takes as input the point clouds of the non-cooperative object to estimate the motional property, and then can predict the position of target points on an non-cooperative object. We leveraged the combination of Module I and Module II to track target points on a spinning object with unknown regularity successfully. Furthermore, the experiments also demonstrate the scalability and generalization of our learning system.
翻訳日:2022-07-07 14:18:04 公開日:2022-07-06
# 電力価格予測のための分布ニューラルネットワーク

Distributional neural networks for electricity price forecasting ( http://arxiv.org/abs/2207.02832v1 )

ライセンス: Link先を確認
Grzegorz Marcjasz, Micha{\l} Narajewski, Rafa{\l} Weron and Florian Ziel(参考訳) 本稿では,分散ニューラルネットワークを用いた確率的電力価格予測(EPF)に対する新しいアプローチを提案する。 EPFの新しいネットワーク構造は、確率層を含む規則化された分布多層パーセプトロン(DMLP)に基づいている。 TensorFlow Probabilityフレームワークを使用することで、ニューラルネットワークの出力は、正常または潜在的に歪んだジョンソンのSU(JSU)のいずれにおいても、分散として定義される。 この手法は、予測研究において最先端のベンチマークと比較される。 この調査は、ドイツの市場における日頭電気価格の予測を含む。 その結果,電気価格をモデル化する際の高次モーメントの重要性が示唆された。

We present a novel approach to probabilistic electricity price forecasting (EPF) which utilizes distributional artificial neural networks. The novel network structure for EPF is based on a regularized distributional multilayer perceptron (DMLP) which contains a probability layer. Using the TensorFlow Probability framework, the neural network's output is defined to be a distribution, either normal or potentially skewed and heavy-tailed Johnson's SU (JSU). The method is compared against state-of-the-art benchmarks in a forecasting study. The study comprises forecasting involving day-ahead electricity prices in the German market. The results show evidence of the importance of higher moments when modeling electricity prices.
翻訳日:2022-07-07 14:17:46 公開日:2022-07-06
# オーストラリアにおける植物生物多様性推定のためのDSISハイパースペクトルデータの定量的評価

Quantitative Assessment of DESIS Hyperspectral Data for Plant Biodiversity Estimation in Australia ( http://arxiv.org/abs/2207.02482v1 )

ライセンス: Link先を確認
Yiqing Guo, Karel Mokany, Cindy Ong, Peyman Moghadam, Simon Ferrier, Shaun R. Levick(参考訳) 地上植物の多様性は、安定的で健全で生産的な生態系を維持する上で重要な役割を果たしている。 リモートセンシングは、植物多様性を推定するための有望で費用効果の高いプロキシと見なされてきたが、宇宙からのハイパースペクトルデータから植物多様性をいかに推測できるかについての定量的研究は乏しい。 本研究では,オーストラリア南東部の南表地および雪山地域の植物種多様性を推定するために,dlr地球センシングイメージングスペクトロメータ (desis) が捉えたハイパースペクトルデータの能力について検討した。 スペクトルの特徴をDSISスペクトルから抽出し,主成分分析,標準相関分析,部分最小二乗解析を行った。 次に, 抽出した特徴量と植物種との回帰を行い, 通常の最小二乗回帰, カーネルリッジ回帰, ガウス過程回帰を行った。 相関係数(r$)とRoot-Mean-Square Error(RMSE)を2倍のクロス検証法に基づいて評価した。 最高のパフォーマンスモデルでは、r$は0.071ドル、rmseはサザン・テーブルランズ地域では5.99ドル、r$は0.062ドル、rmseはスノーザンズ地域では6.20ドルである。 本研究で報告された評価結果は、宇宙からの高スペクトル測定と地上植物の生物多様性との関係を理解するための将来の研究を支援するものである。

Diversity of terrestrial plants plays a key role in maintaining a stable, healthy, and productive ecosystem. Though remote sensing has been seen as a promising and cost-effective proxy for estimating plant diversity, there is a lack of quantitative studies on how confidently plant diversity can be inferred from spaceborne hyperspectral data. In this study, we assessed the ability of hyperspectral data captured by the DLR Earth Sensing Imaging Spectrometer (DESIS) for estimating plant species richness in the Southern Tablelands and Snowy Mountains regions in southeast Australia. Spectral features were firstly extracted from DESIS spectra with principal component analysis, canonical correlation analysis, and partial least squares analysis. Then regression was conducted between the extracted features and plant species richness with ordinary least squares regression, kernel ridge regression, and Gaussian process regression. Results were assessed with the coefficient of correlation ($r$) and Root-Mean-Square Error (RMSE), based on a two-fold cross validation scheme. With the best performing model, $r$ is 0.71 and RMSE is 5.99 for the Southern Tablelands region, while $r$ is 0.62 and RMSE is 6.20 for the Snowy Mountains region. The assessment results reported in this study provide supports for future studies on understanding the relationship between spaceborne hyperspectral measurements and terrestrial plant biodiversity.
翻訳日:2022-07-07 14:17:14 公開日:2022-07-06
# (参考訳) 微分可能なレンダラーを用いた多視点オブジェクトポスリファインメント

Multi-View Object Pose Refinement With Differentiable Renderer ( http://arxiv.org/abs/2207.02811v1 )

ライセンス: CC BY 4.0
Ivan Shugurov, Ivan Pavlov, Sergey Zakharov, Slobodan Ilic(参考訳) 本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。 これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。 我々は、ICPのような損失関数による幾何学的制約の導入を可能にするため、複数のフレームの相対的カメラ変換の利用を選択した。 損失関数は微分可能なレンダラーで実装され、反復的に最適化される。 また、合成データのみに基づいてトレーニングされた完全な検出・精錬パイプラインが、実データの自動ラベル付けに利用できることを示す。 また,LineMOD,Occlusion,HomebrewedおよびYCB-Vデータセットの定量的評価を行い,合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を示した。 実験により,本手法は数フレームしか必要とせず,遠距離カメラキャリブレーションにおいてカメラの位置やノイズを閉じるのに頑健であり,実用的利用が容易かつユビキタスであることを実証した。

This paper introduces a novel multi-view 6 DoF object pose refinement approach focusing on improving methods trained on synthetic data. It is based on the DPOD detector, which produces dense 2D-3D correspondences between the model vertices and the image pixels in each frame. We have opted for the use of multiple frames with known relative camera transformations, as it allows introduction of geometrical constraints via an interpretable ICP-like loss function. The loss function is implemented with a differentiable renderer and is optimized iteratively. We also demonstrate that a full detection and refinement pipeline, which is trained solely on synthetic data, can be used for auto-labeling real data. We perform quantitative evaluation on LineMOD, Occlusion, Homebrewed and YCB-V datasets and report excellent performance in comparison to the state-of-the-art methods trained on the synthetic and real data. We demonstrate empirically that our approach requires only a few frames and is robust to close camera locations and noise in extrinsic camera calibration, making its practical usage easier and more ubiquitous.
翻訳日:2022-07-07 14:14:42 公開日:2022-07-06
# 時間的擬似監督によるドメイン適応ビデオセグメンテーション

Domain Adaptive Video Segmentation via Temporal Pseudo Supervision ( http://arxiv.org/abs/2207.02372v1 )

ライセンス: Link先を確認
Yun Xing, Dayan Guan, Jiaxing Huang, Shijian Lu(参考訳) ビデオセマンティックセグメンテーションは大量のラベル付きトレーニングデータの監督の下で大きな進歩を遂げた。 しかし、ラベル付きソースドメインからラベル付きターゲットドメインへ適応することにより、データラベリング制約を緩和できるドメイン適応ビデオセグメンテーションは、ほとんど無視されている。 本研究では, 時間的擬似監督 (TPS) を設計し, 効率のよい映像から効果的な表現を学習するための整合性トレーニングのアイデアを探索する。 空間空間における一貫性を構築する従来の一貫性トレーニングとは異なり、より多様なターゲットデータから学習するための拡張ビデオフレーム間でモデルの一貫性を強制することにより、時空間における一貫性トレーニングを検討する。 具体的には,最新の映像フレームから学習しながら,従来の映像フレームから疑似監督を行うクロスフレーム擬似ラベルの設計を行った。 クロスフレーム擬似ラベリングは、ネットワークが高い精度の予測を生成することを奨励し、クロスフレーム拡張による一貫性トレーニングを効果的に促進する。 複数の公開データセットに対する大規模な実験は、TPSの実装が簡単で、トレーニングがより安定していることを示し、最先端技術と比較して優れたビデオセグメンテーション精度を実現する。

Video semantic segmentation has achieved great progress under the supervision of large amounts of labelled training data. However, domain adaptive video segmentation, which can mitigate data labelling constraints by adapting from a labelled source domain toward an unlabelled target domain, is largely neglected. We design temporal pseudo supervision (TPS), a simple and effective method that explores the idea of consistency training for learning effective representations from unlabelled target videos. Unlike traditional consistency training that builds consistency in spatial space, we explore consistency training in spatiotemporal space by enforcing model consistency across augmented video frames which helps learn from more diverse target data. Specifically, we design cross-frame pseudo labelling to provide pseudo supervision from previous video frames while learning from the augmented current video frames. The cross-frame pseudo labelling encourages the network to produce high-certainty predictions, which facilitates consistency training with cross-frame augmentation effectively. Extensive experiments over multiple public datasets show that TPS is simpler to implement, much more stable to train, and achieves superior video segmentation accuracy as compared with the state-of-the-art.
翻訳日:2022-07-07 13:59:36 公開日:2022-07-06
# 3dg-stfm:3次元幾何学的指導学生・教師特徴マッチング

3DG-STFM: 3D Geometric Guided Student-Teacher Feature Matching ( http://arxiv.org/abs/2207.02375v1 )

ライセンス: Link先を確認
Runyu Mao, Chen Bai, Yatong An, Fengqing Zhu, Cheng Lu(参考訳) 一対のイメージ間の密集した視覚的対応を見つけるための重要な課題に取り組む。 これは、実際のシナリオでは質感の悪さ、反復的なパターン、照明の変動、動きのぼやけなど様々な要因により、難しい問題である。 局所的特徴マッチングトレーニングの直接指導に密接な対応構造を用いる手法とは対照的に、3DG-STFM: Multi-modal matching model (Teacher) を訓練し、3次元の密接な通信監督の下で深度整合を強制し、2次元の単調マッチングモデル (Student) に知識を伝達する。 教師と生徒の両方のモデルは、2つのトランスベースのマッチングモジュールで構成されており、粗密な対極関係を得る。 教師モデルは生徒モデルに、粗い枝と細い枝のマッチング目的のためのRGB誘発深度情報を学ぶよう誘導する。 また,モデル圧縮作業における3DG-STFMの評価を行った。 我々の知る限り、3DG-STFMは局所的特徴マッチングタスクのための最初の学生-教師学習法である。 本手法は,屋内および屋外のカメラポーズ推定やホモグラフィ推定問題において,最先端の手法よりも優れていることを示す。 コードは、https://github.com/Ryan-prime/3DG-STFMで入手できる。

We tackle the essential task of finding dense visual correspondences between a pair of images. This is a challenging problem due to various factors such as poor texture, repetitive patterns, illumination variation, and motion blur in practical scenarios. In contrast to methods that use dense correspondence ground-truths as direct supervision for local feature matching training, we train 3DG-STFM: a multi-modal matching model (Teacher) to enforce the depth consistency under 3D dense correspondence supervision and transfer the knowledge to 2D unimodal matching model (Student). Both teacher and student models consist of two transformer-based matching modules that obtain dense correspondences in a coarse-to-fine manner. The teacher model guides the student model to learn RGB-induced depth information for the matching purpose on both coarse and fine branches. We also evaluate 3DG-STFM on a model compression task. To the best of our knowledge, 3DG-STFM is the first student-teacher learning method for the local feature matching task. The experiments show that our method outperforms state-of-the-art methods on indoor and outdoor camera pose estimations, and homography estimation problems. Code is available at: https://github.com/Ryan-prime/3DG-STFM.
翻訳日:2022-07-07 13:59:15 公開日:2022-07-06
# 対応学習による画像合成のための空間変換

Spatial Transformation for Image Composition via Correspondence Learning ( http://arxiv.org/abs/2207.02398v1 )

ライセンス: Link先を確認
Bo Zhang and Yue Liu and Kaixin Lu and Li Niu and Liqing Zhang(参考訳) 複合画像を取得するためにカット・アンド・ペーストを使用する場合、前景と背景の間の幾何学的不整合は、その忠実さを著しく損なう可能性がある。 合成画像における幾何の不整合に対処するために、幾何補正のために前景オブジェクトをワープすることを学んだ。 しかし、注釈付きデータセットがないことは、満足のいくパフォーマンスと信頼できない評価をもたらす。 本研究では,3つの典型的なアプリケーションシナリオをカバーする仮想試行(STRAT)データセットの空間的トラスフォームを提案する。 また、前者の相互対応を考慮せずに、前景と背景を入力として結合する。 そこで我々は,前景と背景の対応関係を相互アテンションマップを用いてモデル化する新しい対応学習ネットワーク(CorrelNet)を提案する。 次に、前景オブジェクトのワーピングパラメータをソース座標とターゲット座標のペアから導出することができる。 さらに,ノイズの多い座標対を除去し,より正確な反りパラメータを推定するためのフィルタリングマスクを学習した。 stratデータセットの広範な実験により,提案するcorrelnetは従来手法よりも優れた性能を示す。

When using cut-and-paste to acquire a composite image, the geometry inconsistency between foreground and background may severely harm its fidelity. To address the geometry inconsistency in composite images, several existing works learned to warp the foreground object for geometric correction. However, the absence of annotated dataset results in unsatisfactory performance and unreliable evaluation. In this work, we contribute a Spatial TRAnsformation for virtual Try-on (STRAT) dataset covering three typical application scenarios. Moreover, previous works simply concatenate foreground and background as input without considering their mutual correspondence. Instead, we propose a novel correspondence learning network (CorrelNet) to model the correspondence between foreground and background using cross-attention maps, based on which we can predict the target coordinate that each source coordinate of foreground should be mapped to on the background. Then, the warping parameters of foreground object can be derived from pairs of source and target coordinates. Additionally, we learn a filtering mask to eliminate noisy pairs of coordinates to estimate more accurate warping parameters. Extensive experiments on our STRAT dataset demonstrate that our proposed CorrelNet performs more favorably against previous methods.
翻訳日:2022-07-07 13:58:46 公開日:2022-07-06
# 白質路は点雲である:神経心理学的スコア予測と幾何学的深層学習による臨界領域の局在

White Matter Tracts are Point Clouds: Neuropsychological Score Prediction and Critical Region Localization via Geometric Deep Learning ( http://arxiv.org/abs/2207.02402v1 )

ライセンス: Link先を確認
Yuqian Chen, Fan Zhang, Chaoyi Zhang, Tengfei Xue, Leo R. Zekelman, Jianzhong He, Yang Song, Nikos Makris, Yogesh Rathi, Alexandra J. Golby, Weidong Cai, Lauren J. O'Donnell(参考訳) 白質路の微細構造は認知能力の神経心理学的スコアに影響を与えることが示されている。 しかし,ホワイトマタートラクトデータからのこれらのスコアの予測は試みられていない。 本稿では,拡散磁気共鳴画像(dMRI)トラクトグラフィー(DMRI)から推定される微細構造測定を用いた神経心理学的スコア予測のためのディープラーニングに基づくフレームワークを提案する。 我々は,従来の拡散MRIトラクトメトリー法で必要とされるような,繊維に沿った平均データを必要としない,繊維のすべての点からの情報を直接活用する。 具体的には、AFを各点における微細構造の測定値を備えた点雲として表現し、点ベースニューラルネットワークの採用を可能にする。 Paired-Siamese Lossでは,連続した神経心理学的スコアの違いに関する情報を利用した予測性能を改善した。 最後に,予測結果に強く寄与する点を含む情報的解剖学的領域を局所化するための臨界領域局所化(CRL)アルゴリズムを提案する。 本手法は,ヒトコネクトームプロジェクトデータセットから806名の被験者を対象に評価を行った。 その結果,ベースライン法よりも優れた神経心理学的スコア予測性能を示した。 afの臨界領域は、前頭皮質領域(rostral middle frontal, pars opercularis, pars triangularis)に最も多くの強寄与点が位置しており、言語プロセスにとって重要な領域として強く関与していることが判明した。

White matter tract microstructure has been shown to influence neuropsychological scores of cognitive performance. However, prediction of these scores from white matter tract data has not been attempted. In this paper, we propose a deep-learning-based framework for neuropsychological score prediction using microstructure measurements estimated from diffusion magnetic resonance imaging (dMRI) tractography, focusing on predicting performance on a receptive vocabulary assessment task based on a critical fiber tract for language, the arcuate fasciculus (AF). We directly utilize information from all points in a fiber tract, without the need to average data along the fiber as is traditionally required by diffusion MRI tractometry methods. Specifically, we represent the AF as a point cloud with microstructure measurements at each point, enabling adoption of point-based neural networks. We improve prediction performance with the proposed Paired-Siamese Loss that utilizes information about differences between continuous neuropsychological scores. Finally, we propose a Critical Region Localization (CRL) algorithm to localize informative anatomical regions containing points with strong contributions to the prediction results. Our method is evaluated on data from 806 subjects from the Human Connectome Project dataset. Results demonstrate superior neuropsychological score prediction performance compared to baseline methods. We discover that critical regions in the AF are strikingly consistent across subjects, with the highest number of strongly contributing points located in frontal cortical regions (i.e., the rostral middle frontal, pars opercularis, and pars triangularis), which are strongly implicated as critical areas for language processes.
翻訳日:2022-07-07 13:58:26 公開日:2022-07-06
# DCT-Net: ポートレートスティリゼーションのためのドメインキャリブレーション

DCT-Net: Domain-Calibrated Translation for Portrait Stylization ( http://arxiv.org/abs/2207.02426v1 )

ライセンス: Link先を確認
Yifang Men, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie(参考訳) そこで,本稿では,ポートレートスタイライゼーションのための新しい画像翻訳アーキテクチャであるdct-netを紹介する。 限定的なスタイルの例($100)を与えられた新しいアーキテクチャは、高品質なスタイルの転送結果を生成でき、高忠実なコンテンツを合成し、複雑なシーン(オクルージョンやアクセサリーなど)を扱うための強力な汎用性を持つ。 さらに、部分的な観察(例えば、スタイリッシュヘッド)によって訓練された1つのエレガントな評価ネットワークを介して、全身画像の翻訳を可能にする。 少数のトレーニング例で形成される偏りのある分布のため、学習モデルがターゲット領域に過度に適合しやすくなるため、少ないショット学習ベースのスタイル転送は困難である。 本稿は,「キャリブレーションファースト, 翻訳後」というキーとなる概念を採用し, 地域中心の翻訳によるグローバル構造の拡張を探求することによって, 課題に対処することを目的とする。 提案するDCT-Netは、3つのモジュールから構成される: ソース写真から強力な事前情報を借用して対象サンプルのコンテンツ分布を校正するコンテンツアダプタ、空間的意味的制約を解放するアフィン変換を用いた幾何学拡張モジュール、キャリブレーションされた分布によって生成されたサンプルを利用して微細な変換を学習するテクスチャ変換モジュール。 実験により,頭部スタイリゼーションにおける技術よりも提案手法が優れていること,および適応変形を伴うフルイメージ変換における有効性を示した。

This paper introduces DCT-Net, a novel image translation architecture for few-shot portrait stylization. Given limited style exemplars ($\sim$100), the new architecture can produce high-quality style transfer results with advanced ability to synthesize high-fidelity contents and strong generality to handle complicated scenes (e.g., occlusions and accessories). Moreover, it enables full-body image translation via one elegant evaluation network trained by partial observations (i.e., stylized heads). Few-shot learning based style transfer is challenging since the learned model can easily become overfitted in the target domain, due to the biased distribution formed by only a few training examples. This paper aims to handle the challenge by adopting the key idea of "calibration first, translation later" and exploring the augmented global structure with locally-focused translation. Specifically, the proposed DCT-Net consists of three modules: a content adapter borrowing the powerful prior from source photos to calibrate the content distribution of target samples; a geometry expansion module using affine transformations to release spatially semantic constraints; and a texture translation module leveraging samples produced by the calibrated distribution to learn a fine-grained conversion. Experimental results demonstrate the proposed method's superiority over the state of the art in head stylization and its effectiveness on full image translation with adaptive deformations.
翻訳日:2022-07-07 13:57:59 公開日:2022-07-06
# 自己蒸留による360{\deg}セマンティックセグメンテーションにおける相補的双方向特徴圧縮

Complementary Bi-directional Feature Compression for Indoor 360{\deg} Semantic Segmentation with Self-distillation ( http://arxiv.org/abs/2207.02437v1 )

ライセンス: Link先を確認
Zishuo Zheng, Chunyu Lin, Lang Nie, Kang Liao, Zhijie Shen, Yao Zhao(参考訳) 近年,球面データを垂直方向に圧縮することで歪みを効果的に除去できるため,水平表現に基づくパノラマセマンティクスセグメンテーションがプロジェクションベースソリューションを上回っている。 しかし、これらの手法は歪み分布を事前に無視し、不均衡な受容場に限定される。例えば、受容場は垂直方向に十分であり、水平方向には不十分である。 別の方向に圧縮された垂直表現は、暗黙の歪みを前もって与え、水平受容場を拡大することができる。 本稿では,2つの異なる表現を組み合わせて,相補的な視点から新しい360{\deg}セマンティックセマンティックセグメンテーションソリューションを提案する。 本ネットワークは,特徴抽出モジュール,双方向圧縮モジュール,アンサンブル復号モジュールの3つのモジュールから構成される。 まず,パノラマからマルチスケールの特徴を抽出する。 次に、双方向圧縮モジュールは、特徴を2つの相補的な低次元表現に圧縮するように設計され、コンテンツ知覚と事前歪みを提供する。 さらに, 双方向特徴の融合を容易にするため, アンサンブル復号モジュールに独自の自己蒸留戦略を設計し, 異なる特徴の相互作用を高め, 性能を向上させる。 実験の結果,本手法は最先端ソリューションを上回り,定量的評価では少なくとも10~%改善し,視覚的な外観で最高の性能を発揮できることがわかった。

Recently, horizontal representation-based panoramic semantic segmentation approaches outperform projection-based solutions, because the distortions can be effectively removed by compressing the spherical data in the vertical direction. However, these methods ignore the distortion distribution prior and are limited to unbalanced receptive fields, e.g., the receptive fields are sufficient in the vertical direction and insufficient in the horizontal direction. Differently, a vertical representation compressed in another direction can offer implicit distortion prior and enlarge horizontal receptive fields. In this paper, we combine the two different representations and propose a novel 360{\deg} semantic segmentation solution from a complementary perspective. Our network comprises three modules: a feature extraction module, a bi-directional compression module, and an ensemble decoding module. First, we extract multi-scale features from a panorama. Then, a bi-directional compression module is designed to compress features into two complementary low-dimensional representations, which provide content perception and distortion prior. Furthermore, to facilitate the fusion of bi-directional features, we design a unique self distillation strategy in the ensemble decoding module to enhance the interaction of different features and further improve the performance. Experimental results show that our approach outperforms the state-of-the-art solutions with at least 10\% improvement on quantitative evaluations while displaying the best performance on visual appearance.
翻訳日:2022-07-07 13:57:32 公開日:2022-07-06
# GLENet:ジェネレーティブラベルの不確実性推定による3Dオブジェクト検出器の強化

GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation ( http://arxiv.org/abs/2207.02466v1 )

ライセンス: Link先を確認
Yifan Zhang, Qijian Zhang, Zhiyu Zhu, Junhui Hou and Yixuan Yuan(参考訳) 閉塞や信号欠如、手動によるアノテーションエラーによる3D境界ボックスの接地構造アノテーションの曖昧さは、訓練中に深部3Dオブジェクト検出器を混乱させ、検出精度を低下させる。 しかし、既存の手法はそのような問題をある程度見落とし、ラベルを決定論的に扱う。 本稿では,条件付き変分オートエンコーダを応用した生成的ラベル不確実性推定フレームワークであるGLENetを提案する。 GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存の深部3D検出器に便利に統合して確率的検出器を構築し、局所化の不確実性の学習を監督することができる。 また,定位不確かさを予測したiou-branchのトレーニングを指導するために,確率的検出器における不確実性認識品質推定器アーキテクチャを提案する。 提案手法を様々なベース3d検出器に組み込んで,その性能がwaymo open datasetとkittiデータセットよりも大幅に向上していることを確認した。

The inherent ambiguity in ground-truth annotations of 3D bounding boxes caused by occlusions, signal missing, or manual annotation errors can confuse deep 3D object detectors during training, thus deteriorating the detection accuracy. However, existing methods overlook such issues to some extent and treat the labels as deterministic. In this paper, we propose GLENet, a generative label uncertainty estimation framework adapted from conditional variational autoencoders, to model the one-to-many relationship between a typical 3D object and its potential ground-truth bounding boxes with latent variables. The label uncertainty generated by GLENet is a plug-and-play module and can be conveniently integrated into existing deep 3D detectors to build probabilistic detectors and supervise the learning of the localization uncertainty. Besides, we propose an uncertainty-aware quality estimator architecture in probabilistic detectors to guide the training of IoU-branch with predicted localization uncertainty. We incorporate the proposed methods into various popular base 3D detectors and observe that their performance is significantly boosted to the current state-of-the-art over the Waymo Open dataset and KITTI dataset.
翻訳日:2022-07-07 13:57:09 公開日:2022-07-06
# 映像自由描画による多領域目標個人検出

Multi-area Target Individual Detection with Free Drawing on Video ( http://arxiv.org/abs/2207.02467v1 )

ライセンス: Link先を確認
Jinwei Lin(参考訳) 本稿では,ビデオの画面表示におけるリアルタイム描画によって生成される複数の検出領域を持つマルチエリアをリアルタイムに検出する,新しい設計アイデアと実装方法を提案する。 ビデオ上の描画はポリラインとして出力され、描画や検出の段階が変更されたときにアウトラインの色が変わる。 描画領域の形状は自由にカスタマイズでき、リアルタイムに有効である。 描画領域の構成を更新でき、検出領域が個別に動作する。 検出結果はTkinterの設計したGUIで表示されるべきである。 オブジェクト認識モデルはYOLOv5上で開発されたが、他のものに変更できるため、本論文の中核となる設計と実装の考え方はモデルに依存しない。 PIL、OpenCV、Tkinterでは、描画効果はリアルタイムで効率的である。 本研究の設計とコードは基本的であり,多数の監視・検出状況で実施できるように拡張することができる。

This paper has provided a novel design idea and some implementation methods to make a real time detection of multi-areas with multiple detecting areas that are generated by the real time drawing on the screen display of the video. The drawing on the video will remain the output as polylines, and the colors of the outlines will change when the stage of drawing or detecting is changed. The shape of the drawn area is free to be customized and real-time effective. The configuration of the drawn areas can be renewed and the detecting areas are working individually. The detection result should be shown with a GUI designed by Tkinter. The object recognition model was developed on YOLOv5 but can be changed to others, which means the core design and implementation idea of this paper is model-independent. With PIL and OpenCV and Tkinter, the drawing effect is real time and efficient. The design and code of this research is basic and can be extended to be implemented in numerous monitoring and detecting situations.
翻訳日:2022-07-07 13:56:47 公開日:2022-07-06
# 深い知覚的類似度指標の欠陥の同定と軽減

Identifying and Mitigating Flaws of Deep Perceptual Similarity Metrics ( http://arxiv.org/abs/2207.02512v1 )

ライセンス: Link先を確認
Oskar Sj\"ogren, Gustav Grund Pihlgren, Fredrik Sandin, Marcus Liwicki(参考訳) 画像の類似性を測定することは、普遍的な解決策が存在しないコンピュータビジョンの根本的な問題である。 ピクセル単位のl2ノルムのような単純な指標は重大な欠陥があることが示されているが、依然として人気がある。 これらの欠陥のいくつかを緩和する最近の最先端メトリクスの1つがDeep Perceptual similarity(DPS)メトリクスであり、類似性はニューラルネットワークの深い特徴の距離として評価されている。 しかし、DPSメトリクス自体は、その利点、特にその欠陥について徹底的に調べられていない。 本研究は,深部特徴を空間的位置で比較する最も一般的なdps指標と,平均的特徴と分類された深部特徴を比較する指標について検討する。 メトリクスは、それらに挑戦するために特別に設計されたイメージを使用することで、メトリクスの強みと弱みを理解するために、詳細に分析されます。 この研究は、DPSの欠陥に関する新たな洞察に寄与し、さらにメトリクスの改善を提案する。 この実装はhttps://github.com/guspih/deep_perceptual_ similarity_ analysis/という形で公開されている。

Measuring the similarity of images is a fundamental problem to computer vision for which no universal solution exists. While simple metrics such as the pixel-wise L2-norm have been shown to have significant flaws, they remain popular. One group of recent state-of-the-art metrics that mitigates some of those flaws are Deep Perceptual Similarity (DPS) metrics, where the similarity is evaluated as the distance in the deep features of neural networks. However, DPS metrics themselves have been less thoroughly examined for their benefits and, especially, their flaws. This work investigates the most common DPS metric, where deep features are compared by spatial position, along with metrics comparing the averaged and sorted deep features. The metrics are analyzed in-depth to understand the strengths and weaknesses of the metrics by using images designed specifically to challenge them. This work contributes with new insights into the flaws of DPS, and further suggests improvements to the metrics. An implementation of this work is available online: https://github.com/guspih/deep_perceptual_similarity_analysis/
翻訳日:2022-07-07 13:56:34 公開日:2022-07-06
# 医用画像分割のための形状モデリングによる教師なし領域適応

Unsupervised Domain Adaptation through Shape Modeling for Medical Image Segmentation ( http://arxiv.org/abs/2207.02529v1 )

ライセンス: Link先を確認
Yuan Yao, Fengze Liu, Zongwei Zhou, Yan Wang, Wei Shen, Alan Yuille, Yongyi Lu(参考訳) 形状情報は、医用画像における臓器の分節化に先立って、強力で価値のあるものである。 しかし、現在のディープラーニングベースセグメンテーションアルゴリズムの多くは、形状情報を考慮に入れておらず、テクスチャへのバイアスをもたらす可能性がある。 形状を明示的にモデル化し,それを用いて医用画像のセグメンテーションを支援する。 従来,ある臓器の形状分布を学習するための変分オートエンコーダ (VAE) モデルを提案し,それを学習形状分布に適合させてセグメント化予測の質を自動評価するために用いた。 VAEを現在のセグメンテーションパイプラインに組み込むことを目標としています。 具体的には,教師・学生の学習パラダイムにおいて,疑似損失とvae再構成損失に基づく新しい教師なしドメイン適応パイプラインを提案する。 どちらの損失も同時に最適化され、代わりにセグメンテーションタスクのパフォーマンスが向上する。 3つのパブリック・パンクレアス・セグメンテーション・データセットと2つの社内のパンクレアスセグメンテーションデータセットに関する広範囲な実験は、少なくとも2.8ポイントの利得で一貫した改善を示し、医療画像セグメンテーションにおける教師なしドメイン適応シナリオへの挑戦において、この手法の有効性を実証した。 医用画像における形状解析と幾何学的学習の進歩を願っている。

Shape information is a strong and valuable prior in segmenting organs in medical images. However, most current deep learning based segmentation algorithms have not taken shape information into consideration, which can lead to bias towards texture. We aim at modeling shape explicitly and using it to help medical image segmentation. Previous methods proposed Variational Autoencoder (VAE) based models to learn the distribution of shape for a particular organ and used it to automatically evaluate the quality of a segmentation prediction by fitting it into the learned shape distribution. Based on which we aim at incorporating VAE into current segmentation pipelines. Specifically, we propose a new unsupervised domain adaptation pipeline based on a pseudo loss and a VAE reconstruction loss under a teacher-student learning paradigm. Both losses are optimized simultaneously and, in return, boost the segmentation task performance. Extensive experiments on three public Pancreas segmentation datasets as well as two in-house Pancreas segmentation datasets show consistent improvements with at least 2.8 points gain in the Dice score, demonstrating the effectiveness of our method in challenging unsupervised domain adaptation scenarios for medical image segmentation. We hope this work will advance shape analysis and geometric learning in medical imaging.
翻訳日:2022-07-07 13:55:38 公開日:2022-07-06
# Dense Teacher:半教師対象検出のためのDense Pseudo-Labels

Dense Teacher: Dense Pseudo-Labels for Semi-supervised Object Detection ( http://arxiv.org/abs/2207.02541v1 )

ライセンス: Link先を確認
Hongyu Zhou, Zheng Ge, Songtao Liu, Weixin Mao, Zeming Li, Haiyan Yu, Jian Sun(参考訳) 現在、最も強力な半教師対象検出器(SS-OD)は擬似箱に基づいており、微調整されたハイパーパラメータによる後処理を必要とする。 本研究では,スパース擬似箱を擬似ラベルの統一的かつ直接的な形式として高密度な予測に置き換えることを提案する。 擬似ボックスと比較して、我々の密集した擬似ラベル(dpl)はポストプロセッシング法を一切含まないため、よりリッチな情報を保持できる。 また,高密度ラベルによる雑音を抑えつつ,重要情報を強調する領域選択手法を提案する。 DPL を Dense Teacher として活用する SS-OD アルゴリズムを提案。 COCOとVOCでは、Dense Teacherは擬似ボックス方式と比較して、様々な設定で優れたパフォーマンスを示す。

To date, the most powerful semi-supervised object detectors (SS-OD) are based on pseudo-boxes, which need a sequence of post-processing with fine-tuned hyper-parameters. In this work, we propose replacing the sparse pseudo-boxes with the dense prediction as a united and straightforward form of pseudo-label. Compared to the pseudo-boxes, our Dense Pseudo-Label (DPL) does not involve any post-processing method, thus retaining richer information. We also introduce a region selection technique to highlight the key information while suppressing the noise carried by dense labels. We name our proposed SS-OD algorithm that leverages the DPL as Dense Teacher. On COCO and VOC, Dense Teacher shows superior performance under various settings compared with the pseudo-box-based methods.
翻訳日:2022-07-07 13:55:14 公開日:2022-07-06
# 心エコーにおける分画・放出分画予測のための軽量時空間グラフ

Light-weight spatio-temporal graphs for segmentation and ejection fraction prediction in cardiac ultrasound ( http://arxiv.org/abs/2207.02549v1 )

ライセンス: Link先を確認
Sarina Thomas, Andrew Gilbert, and Guy Ben-Yosef(参考訳) 心血管疾患の診断と治療には,心エコーパラメータの正確かつ一貫した予測が重要である。 特に左室のセグメンテーションは、心室容積、放出分画(EF)、その他の関連する測定を導出するために用いられる。 本稿では, 左心室を解剖学的キーポイントで検出し, 吐出率を予測し, セグメンテーションを行うEchoGraphsという新しい自動化手法を提案する。 グラフ畳み込みネットワーク(GCN)に基づく直接座標回帰モデルを用いてキーポイントを検出する。 GCNは、各キーポイントの局所的な外観と、すべてのキーポイントのグローバルな空間的および時間的構造に基づいて、心臓の形状を表現することができる。 我々は、EchoNetベンチマークデータセット上で、EchoGraphsモデルを評価する。 セマンティックセグメンテーションと比較すると、GCNは正確なセグメンテーションと堅牢性と推論ランタイムの改善を示している。 EFはセグメンテーションと同時計算され,提案手法は最先端の射出率推定も行う。 ソースコードはhttps://github.com/guybenyosef/echographs。

Accurate and consistent predictions of echocardiography parameters are important for cardiovascular diagnosis and treatment. In particular, segmentations of the left ventricle can be used to derive ventricular volume, ejection fraction (EF) and other relevant measurements. In this paper we propose a new automated method called EchoGraphs for predicting ejection fraction and segmenting the left ventricle by detecting anatomical keypoints. Models for direct coordinate regression based on Graph Convolutional Networks (GCNs) are used to detect the keypoints. GCNs can learn to represent the cardiac shape based on local appearance of each keypoint, as well as global spatial and temporal structures of all keypoints combined. We evaluate our EchoGraphs model on the EchoNet benchmark dataset. Compared to semantic segmentation, GCNs show accurate segmentation and improvements in robustness and inference runtime. EF is computed simultaneously to segmentations and our method also obtains state-of-the-art ejection fraction estimation. Source code is available online: https://github.com/guybenyosef/EchoGraphs.
翻訳日:2022-07-07 13:55:01 公開日:2022-07-06
# u-netの方向関係は認識されているか?

Is the U-Net Directional-Relationship Aware? ( http://arxiv.org/abs/2207.02574v1 )

ライセンス: Link先を確認
Mateus Riva, Pietro Gori, Florian Yger, Isabelle Bloch(参考訳) CNNはしばしば、その受容領域内で異なるオブジェクト(方向関係など)に関するコンテキスト情報を使用することができると仮定される。 しかし、この能力の性質と限界は、完全には探求されていない。 セグメンテーションのためのクロスエントロピー損失関数を最適化するために訓練された標準U-Netを用いて、特定の種類の関係~-方向〜-を探索する。 我々は,このネットワークを,十分なデータと十分大きな受容野を持つ場合,提案するタスクを学習するのに成功することを示す,方向関係推論を必要とするプリテキストセグメンテーションタスクにトレーニングする。 さらに、方向性関係が摂動するシナリオを分析し、ネットワークが何を学んだかを考察し、ネットワークがこれらの関係を利用する理由を学習したことを示す。

CNNs are often assumed to be capable of using contextual information about distinct objects (such as their directional relations) inside their receptive field. However, the nature and limits of this capacity has never been explored in full. We explore a specific type of relationship~-- directional~-- using a standard U-Net trained to optimize a cross-entropy loss function for segmentation. We train this network on a pretext segmentation task requiring directional relation reasoning for success and state that, with enough data and a sufficiently large receptive field, it succeeds to learn the proposed task. We further explore what the network has learned by analysing scenarios where the directional relationships are perturbed, and show that the network has learned to reason using these relationships.
翻訳日:2022-07-07 13:54:44 公開日:2022-07-06
# pic 4th challenge: マルチ機能エンコーディングとマルチヘッドデコードによる高精細ビデオキャプション

PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning ( http://arxiv.org/abs/2207.02583v1 )

ライセンス: Link先を確認
Yifan Lu, Ziqi Zhang, Yuxin Chen, Chunfeng Yuan, Bing Li, Weiming Hu(参考訳) Dense Video Captioning (DVC) のタスクは、複数のイベントのタイムスタンプ付きキャプションを生成することを目的としている。 意味情報はDVCのローカライゼーションと記述において重要な役割を果たしている。 本稿では,符号化・復号化フレームワークに基づく意味支援型高密度ビデオキャプションモデルを提案する。 符号化段階では,意味情報を抽出する概念検出器を設計し,その情報にマルチモーダルな視覚的特徴を融合させて入力映像を十分に表現する。 復号化の段階では,局所化とキャプション化に並行した分類ヘッドを設計し,意味的監督を行う。 提案手法は,DVC評価基準下でのYouMakeupデータセットの大幅な改善を実現し,PIC 4th ChallengeのMakeup Dense Video Captioning(MDVC)タスクにおいて高い性能を実現する。

The task of Dense Video Captioning (DVC) aims to generate captions with timestamps for multiple events in one video. Semantic information plays an important role for both localization and description of DVC. We present a semantic-assisted dense video captioning model based on the encoding-decoding framework. In the encoding stage, we design a concept detector to extract semantic information, which is then fused with multi-modal visual features to sufficiently represent the input video. In the decoding stage, we design a classification head, paralleled with the localization and captioning heads, to provide semantic supervision. Our method achieves significant improvements on the YouMakeup dataset under DVC evaluation metrics and achieves high performance in the Makeup Dense Video Captioning (MDVC) task of PIC 4th Challenge.
翻訳日:2022-07-07 13:54:30 公開日:2022-07-06
# vmrf: ニューラルネットワークの輝度フィールドをマッチングするビュー

VMRF: View Matching Neural Radiance Fields ( http://arxiv.org/abs/2207.02621v1 )

ライセンス: Link先を確認
Jiahui Zhang and Fangneng Zhan and Rongliang Wu and Yingchen Yu and Wenqing Zhang and Bai Song and Xiaoqin Zhang and Shijian Lu(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、多視点2次元画像から暗黙的に3次元表現をモデル化することで、新しいビュー合成において非常に印象的な性能を示した。 しかし、既存のほとんどの研究は、適切なカメラでNeRFモデルを訓練し、初期化または手作りのカメラポーズの分布を訓練している。 我々は、カメラポーズやカメラポーズの分布について事前知識を必要とせず、効果的なNeRFトレーニングを可能にする革新的な視野マッチングNeRFであるVMRFを設計する。 VMRFは、不均衡な最適輸送を利用するビューマッチングスキームを導入し、レンダリングされた画像とランダムに初期化されたカメラのポーズを対応する実画像にマッピングする特徴輸送計画を生成する。 特徴伝達プランをガイダンスとして、レンダリング画像と実画像の相対的なポーズ変換を予測することにより、初期ランダム化されたカメラポーズを補正する新しいポーズキャリブレーション手法を設計する。 多数の合成および実データに対する大規模な実験により、提案されたVMRFは、最先端の最先端を質的に、定量的に、大きなマージンで上回ることを示した。

Neural Radiance Fields (NeRF) have demonstrated very impressive performance in novel view synthesis via implicitly modelling 3D representations from multi-view 2D images. However, most existing studies train NeRF models with either reasonable camera pose initialization or manually-crafted camera pose distributions which are often unavailable or hard to acquire in various real-world data. We design VMRF, an innovative view matching NeRF that enables effective NeRF training without requiring prior knowledge in camera poses or camera pose distributions. VMRF introduces a view matching scheme, which exploits unbalanced optimal transport to produce a feature transport plan for mapping a rendered image with randomly initialized camera pose to the corresponding real image. With the feature transport plan as the guidance, a novel pose calibration technique is designed which rectifies the initially randomized camera poses by predicting relative pose transformations between the pair of rendered and real images. Extensive experiments over a number of synthetic and real datasets show that the proposed VMRF outperforms the state-of-the-art qualitatively and quantitatively by large margins.
翻訳日:2022-07-07 13:54:13 公開日:2022-07-06
# 映像に基づく人物再識別のためのコンテキストセンシング注意ネットワーク

Context Sensing Attention Network for Video-based Person Re-identification ( http://arxiv.org/abs/2207.02631v1 )

ライセンス: Link先を確認
Kan Wang, Changxing Ding, Jianxin Pang, Xiangmin Xu(参考訳) ビデオフレームに様々な干渉が存在するため、ビデオベースの人物識別(ReID)は困難である。 近年のアプローチでは、時間的集約戦略を用いてこの問題に対処している。 本研究では,フレームの特徴抽出と時間的集約の両方を改善する新しいコンテキストセンシング注意ネットワーク(CSA-Net)を提案する。 まず、各フレームに対する情報チャネルからの応答を強調するContext Sensing Channel Attention(CSCA)モジュールを紹介する。 これらの情報チャネルは、個々のフレームだけでなく、シーケンス全体のコンテンツにも参照して識別される。 したがって、CSCAは各フレームの個性とシーケンスのグローバルコンテキストの両方を探索する。 第2に,時間的アグリゲーションのためのフレーム重みを予測するコントラスト的特徴集約(cfa)モジュールを提案する。 ここで、各フレームの重みは対照的な方法で決定される:すなわち、個々のフレームの品質だけでなく、シーケンス内の他のフレームの平均品質によっても決定される。 したがって、比較的良好なフレームの寄与を効果的に促進する。 4つのデータセットの大規模な実験結果は、CSA-Netが一貫して最先端のパフォーマンスを達成することを示している。

Video-based person re-identification (ReID) is challenging due to the presence of various interferences in video frames. Recent approaches handle this problem using temporal aggregation strategies. In this work, we propose a novel Context Sensing Attention Network (CSA-Net), which improves both the frame feature extraction and temporal aggregation steps. First, we introduce the Context Sensing Channel Attention (CSCA) module, which emphasizes responses from informative channels for each frame. These informative channels are identified with reference not only to each individual frame, but also to the content of the entire sequence. Therefore, CSCA explores both the individuality of each frame and the global context of the sequence. Second, we propose the Contrastive Feature Aggregation (CFA) module, which predicts frame weights for temporal aggregation. Here, the weight for each frame is determined in a contrastive manner: i.e., not only by the quality of each individual frame, but also by the average quality of the other frames in a sequence. Therefore, it effectively promotes the contribution of relatively good frames. Extensive experimental results on four datasets show that CSA-Net consistently achieves state-of-the-art performance.
翻訳日:2022-07-07 13:53:51 公開日:2022-07-06
# 特徴シフト最小化によるネットワークプルーニング

Network Pruning via Feature Shift Minimization ( http://arxiv.org/abs/2207.02632v1 )

ライセンス: Link先を確認
Yuanzhi Duan, Xiaofang Hu, Yue Zhou, Peng He, Qiang Liu, Shukai Duan(参考訳) チャネルプルーニングはディープネットワークモデルの複雑さを減らすために広く使われている。 最近のプルーニング手法では、ネットワークのどの部分を捨てるかをチャネル重要基準(channel importance criterion)の提案によって特定する。 しかし、最近の研究では、これらの基準は全ての条件でうまく機能しないことが示された。 本稿では,cnnモデル圧縮のための特徴シフト最小化(fsm)手法を提案する。 具体的には,まず各層深度における圧縮効率について検討し,特徴シフトの概念を提案する。 そこで本研究では,直接計算することが困難であるため,特徴量の大きさを推定する近似手法を提案する。 さらに,精度損失を補償し,ネットワーク圧縮効率を向上させる分布最適化アルゴリズムを提案する。 提案手法は,様々なベンチマークネットワークやデータセット上での最先端性能を,広範な実験により検証する。 コードは \url{https://github.com/lscgx/FSM} で入手できる。

Channel pruning is widely used to reduce the complexity of deep network models. Recent pruning methods usually identify which parts of the network to discard by proposing a channel importance criterion. However, recent studies have shown that these criteria do not work well in all conditions. In this paper, we propose a novel Feature Shift Minimization (FSM) method to compress CNN models, which evaluates the feature shift by converging the information of both features and filters. Specifically, we first investigate the compression efficiency with some prevalent methods in different layer-depths and then propose the feature shift concept. Then, we introduce an approximation method to estimate the magnitude of the feature shift, since it is difficult to compute it directly. Besides, we present a distribution-optimization algorithm to compensate for the accuracy loss and improve the network compression efficiency. The proposed method yields state-of-the-art performance on various benchmark networks and datasets, verified by extensive experiments. The codes can be available at \url{https://github.com/lscgx/FSM}.
翻訳日:2022-07-07 13:52:31 公開日:2022-07-06
# 全方位画像の知覚品質評価

Perceptual Quality Assessment of Omnidirectional Images ( http://arxiv.org/abs/2207.02674v1 )

ライセンス: Link先を確認
Huiyu Duan, Guangtao Zhai, Xiongkuo Min, Yucheng Zhu, Yi Fang, Xiaokang Yang(参考訳) 全方位画像とビデオは、仮想現実(vr)環境で現実世界のシーンを没入的に体験することができる。 本稿では,VR環境下での良質な体験を提供することが極めて重要であるため,知覚的全方位画像品質評価(IQA)について検討する。 まず,全方位IQA(OIQA)データベースを構築し,ソース画像16枚と,JPEG圧縮,JPEG2000圧縮,ガウスぼけ,ガウス雑音の4種類の歪み型で劣化した320個の歪み画像を含む。 そして、VR環境におけるOIQAデータベース上で主観的品質評価研究を行う。 人間はvr環境の1つの動きでシーンの一部しか見ることができないので、視覚的な注意は極めて重要である。 また,品質評価実験における頭部・眼球運動データも追跡した。 原画像と歪んだ全方位画像、主観的品質評価、頭部と眼の動きデータを合わせてOIQAデータベースを構成する。 最新の全参照(FR)IQA測度はOIQAデータベース上でテストされ、従来のIQAとは異なる新しい観測結果が得られた。

Omnidirectional images and videos can provide immersive experience of real-world scenes in Virtual Reality (VR) environment. We present a perceptual omnidirectional image quality assessment (IQA) study in this paper since it is extremely important to provide a good quality of experience under the VR environment. We first establish an omnidirectional IQA (OIQA) database, which includes 16 source images and 320 distorted images degraded by 4 commonly encountered distortion types, namely JPEG compression, JPEG2000 compression, Gaussian blur and Gaussian noise. Then a subjective quality evaluation study is conducted on the OIQA database in the VR environment. Considering that humans can only see a part of the scene at one movement in the VR environment, visual attention becomes extremely important. Thus we also track head and eye movement data during the quality rating experiments. The original and distorted omnidirectional images, subjective quality ratings, and the head and eye movement data together constitute the OIQA database. State-of-the-art full-reference (FR) IQA measures are tested on the OIQA database, and some new observations different from traditional IQA are made.
翻訳日:2022-07-07 13:52:07 公開日:2022-07-06
# YOLOv7: トレーニング可能なバッグ・オブ・フリービーはリアルタイム物体検出のための最先端技術

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors ( http://arxiv.org/abs/2207.02696v1 )

ライセンス: Link先を確認
Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao(参考訳) YOLOv7は5 FPSから160 FPSの範囲で全ての既知の物体検出器を超越し、GPU V100で30 FPS以上を持つ全ての実時間物体検出器の中で最高精度は56.8%APである。 YOLOv7-E6オブジェクト検出器(56 FPS V100, 55.9% AP)はトランスフォーマーベース検出器SWIN-L Cascade-Mask R-CNN(9.2 FPS A100, 53.9% AP)を509%、精度はコンボリューショナルベース検出器ConvNeXt-XL Cascade-Mask R-CNN(8.6 FPS A100, 55.2% AP)を551%、精度は0.7% AP、YOLOv7はYOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deform DETR, DINO-5, DINO-5-scale-R-50, Vi-Bapter など、多くの精度と精度に優れていた。 さらに、他のデータセットや事前訓練した重みを使わずに、MS COCOデータセット上でのみYOLOv7をスクラッチからトレーニングする。 ソースコードはhttps://github.com/wongkinyiu/yolov7。

YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.
翻訳日:2022-07-07 13:51:48 公開日:2022-07-06
# STVGFormer:静的動的クロスモーダル理解による時空間ビデオグラウンドディング

STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding ( http://arxiv.org/abs/2207.02756v1 )

ライセンス: Link先を確認
Zihang Lin, Chaolei Tan, Jian-Fang Hu, Zhi Jin, Tiancai Ye, Wei-Shi Zheng(参考訳) 本稿では,人間中心の時空間ビデオグラウンドタスクに対する解決策を紹介する。 静的ブランチと動的ブランチで時空間的視覚言語依存をモデル化するstvgformerという簡潔で効果的なフレームワークを提案する。 静的ブランチは、単一のフレームでクロスモーダル理解を行い、オブジェクトの外観のようなフレーム内視覚的キューに従って、ターゲットオブジェクトを空間的にローカライズすることを学ぶ。 ダイナミックブランチは複数のフレームにまたがってクロスモーダルな理解を行う。 動きのようなダイナミックな視覚的手がかりに従って、ターゲットモーメントの開始と終了時間の予測を学ぶ。 静的分岐と動的分岐はクロスモーダルトランスとして設計されている。 さらに,静的枝と動的枝が相互に有益で相補的な情報を伝達できるように,新たな静的-動的相互作用ブロックを設計した。 提案手法は39.6%のvIoUを達成し,第4回コンテキストチャレンジのHC-STVGトラックで優勝した。

In this technical report, we introduce our solution to human-centric spatio-temporal video grounding task. We propose a concise and effective framework named STVGFormer, which models spatiotemporal visual-linguistic dependencies with a static branch and a dynamic branch. The static branch performs cross-modal understanding in a single frame and learns to localize the target object spatially according to intra-frame visual cues like object appearances. The dynamic branch performs cross-modal understanding across multiple frames. It learns to predict the starting and ending time of the target moment according to dynamic visual cues like motions. Both the static and dynamic branches are designed as cross-modal transformers. We further design a novel static-dynamic interaction block to enable the static and dynamic branches to transfer useful and complementary information from each other, which is shown to be effective to improve the prediction on hard cases. Our proposed method achieved 39.6% vIoU and won the first place in the HC-STVG track of the 4th Person in Context Challenge.
翻訳日:2022-07-07 13:51:04 公開日:2022-07-06
# 軽量画像超解像のためのクロスレセプティブフォーカス型推論ネットワーク

Cross-receptive Focused Inference Network for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2207.02796v1 )

ライセンス: Link先を確認
Wenjie Li, Juncheng Li, Guangwei Gao, Jiantao Zhou, Jian Yang, and Guo-Jun Qi(参考訳) ディープラーニングの開発により、シングルイメージ超解像(SISR)は大きなブレークスルーを達成した。 近年,グローバルな特徴相互作用に基づくSISRネットワークの性能向上手法が提案されている。 しかし、文脈に応じて機能を動的に調整する必要があるニューロンの能力は無視される。 そこで本研究では,畳み込みニューラルネットワーク(cnn)とトランスフォーマによるハイブリッドネットワークであるcfinを提案する。 具体的には、変調畳み込みカーネルと局所代表的意味情報を組み合わせてネットワーク重み付けを適応的に修正する新しいクロスレセプティブ・フィールドガイドトランス(cfgt)を提案する。 また、cnnベースのクロススケール情報集約モジュール(ciam)を提案し、モデルが潜在的に実用的な情報に集中し、トランスフォーマーステージの効率を向上させる。 大規模実験の結果,提案するCFINは軽量かつ効率的なSISRモデルであり,計算コストとモデル性能のバランスが良好であることがわかった。

With the development of deep learning, single image super-resolution (SISR) has achieved significant breakthroughs. Recently, methods to enhance the performance of SISR networks based on global feature interactions have been proposed. However, the capabilities of neurons that need to adjust their function in response to the context dynamically are neglected. To address this issue, we propose a lightweight Cross-receptive Focused Inference Network (CFIN), a hybrid network composed of a Convolutional Neural Network (CNN) and a Transformer. Specifically, a novel Cross-receptive Field Guide Transformer (CFGT) is designed to adaptively modify the network weights by using modulated convolution kernels combined with local representative semantic information. In addition, a CNN-based Cross-scale Information Aggregation Module (CIAM) is proposed to make the model better focused on potentially practical information and improve the efficiency of the Transformer stage. Extensive experiments show that our proposed CFIN is a lightweight and efficient SISR model, which can achieve a good balance between computational cost and model performance.
翻訳日:2022-07-07 13:50:48 公開日:2022-07-06
# ディープフェイク検出のためのシークエンシャルパッチへの埋め込み

Delving into Sequential Patches for Deepfake Detection ( http://arxiv.org/abs/2207.02803v1 )

ライセンス: Link先を確認
Jiazhi Guan, Hang Zhou, Zhibin Hong, Errui Ding, Jingdong Wang, Chengbin Quan, Youjian Zhao(参考訳) 近年の顔偽造技術は、ほとんど視覚的に追跡できないディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。 その結果、研究者はディープフェイク検出に力を入れている。 これまでの研究では、ディープフェイク法をうまく一般化するために、局所的な低レベルな手がかりと時間的情報の重要性が示されているが、後処理に対する堅牢性の問題に苦しめられている。 本稿では,局所的・時間的対応型トランスフォーマティブに基づくdeepfake detection(lttd)フレームワークを提案する。 具体的には,低レベルの情報を浅い3dフィルタの層で階層的に拡張する制限された空間領域のシーケンスの時間的一貫性をモデル化するローカルシーケンストランスフォーマ(lst)を提案する。 局所的な時間的埋め込みに基づいて、大域的な対照的な方法で最終分類を行う。 一般的なデータセットに関する広範囲な実験によって、我々のアプローチが、ローカルな偽造の手がかりを効果的に見つけ出し、最先端のパフォーマンスを達成することを検証しています。

Recent advances in face forgery techniques produce nearly visually untraceable deepfake videos, which could be leveraged with malicious intentions. As a result, researchers have been devoted to deepfake detection. Previous studies has identified the importance of local low-level cues and temporal information in pursuit to generalize well across deepfake methods, however, they still suffer from robustness problem against post-processings. In this work, we propose the Local- & Temporal-aware Transformer-based Deepfake Detection (LTTD) framework, which adopts a local-to-global learning protocol with a particular focus on the valuable temporal information within local sequences. Specifically, we propose a Local Sequence Transformer (LST), which models the temporal consistency on sequences of restricted spatial regions, where low-level information is hierarchically enhanced with shallow layers of learned 3D filters. Based on the local temporal embeddings, we then achieve the final classification in a global contrastive way. Extensive experiments on popular datasets validate that our approach effectively spots local forgery cues and achieves state-of-the-art performance.
翻訳日:2022-07-07 13:50:29 公開日:2022-07-06
# CLIPによる対物画像操作に向けて

Towards Counterfactual Image Manipulation via CLIP ( http://arxiv.org/abs/2207.02812v1 )

ライセンス: Link先を確認
Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jiahui Zhang, Shijian Lu, Miaomiao Cui, Xuansong Xie, Xian-Sheng Hua, Chunyan Miao(参考訳) StyleGANの表現力と非絡み合った潜在コードを活用することで、既存の方法では、顔画像の年齢や性別などの異なる視覚特性をリアルに編集することができる。 生成モデルは、学習前の学習に対して反実的な編集を達成できるのか? 自然データセットにおける反事実サンプルの欠如により、様々な反事実概念に対しても豊富な意味知識を提供するコントラスト言語イメージプリトレーニング(clip)を用いて、テキスト駆動方式でこの問題を調査した。 ドメイン内操作と異なり、反ファクト操作では、CLIPにカプセル化されたセマンティック知識のより包括的な利用と、ローカルな最小限の編集や望ましくない編集で立ち往生することを避けるための編集方向のより繊細な処理が必要である。 そこで本研究では,前定義したクリップ空間方向を利用して,異なる視点から所望の方向へ編集を誘導する新しいコントラスト損失をデザインする。 さらに,CLIP埋め込み(ターゲットテキストの)を潜在空間に明示的にマッピングし,有効な潜時コード最適化と正確な編集のために潜時コードと融合する簡易かつ効果的なスキームを設計する。 広範な実験により,様々な反事実概念を持つ対象テキストを駆使しながら,正確かつ現実的な編集を実現することができた。

Leveraging StyleGAN's expressivity and its disentangled latent codes, existing methods can achieve realistic editing of different visual attributes such as age and gender of facial images. An intriguing yet challenging problem arises: Can generative models achieve counterfactual editing against their learnt priors? Due to the lack of counterfactual samples in natural datasets, we investigate this problem in a text-driven manner with Contrastive-Language-Image-Pretraining (CLIP), which can offer rich semantic knowledge even for various counterfactual concepts. Different from in-domain manipulation, counterfactual manipulation requires more comprehensive exploitation of semantic knowledge encapsulated in CLIP as well as more delicate handling of editing directions for avoiding being stuck in local minimum or undesired editing. To this end, we design a novel contrastive loss that exploits predefined CLIP-space directions to guide the editing toward desired directions from different perspectives. In addition, we design a simple yet effective scheme that explicitly maps CLIP embeddings (of target text) to the latent space and fuses them with latent codes for effective latent code optimization and accurate editing. Extensive experiments show that our design achieves accurate and realistic editing while driving by target texts with various counterfactual concepts.
翻訳日:2022-07-07 13:49:01 公開日:2022-07-06
# DeBERTaを用いた局所文脈焦点機構を用いたアスペクトベース知覚分析

Aspect-Based Sentiment Analysis using Local Context Focus Mechanism with DeBERTa ( http://arxiv.org/abs/2207.02424v1 )

ライセンス: Link先を確認
Tianyu Zhao, Junping Du, Zhe Xu, Ang Li, Zeli Guan(参考訳) テキスト感情分析(英: Text sentiment analysis)または意見マイニング(英: opinion mining)は、個人が表現する人々の見解、評価、態度、感情の計算に関する研究である。 テキスト感情分析は、テキストレベルの感情分析、センセンスレベルの感情分析、アスペクトレベルの感情分析に分けられる。 Aspect-Based Sentiment Analysis (ABSA)は、感情分析の分野における細かいタスクであり、アスペクトの極性を予測することを目的としている。 事前学習ニューラルモデルの研究は、多くの自然言語処理タスクの性能を大幅に向上させた。 近年、ABSAではプレトレーニングモデル(PTM)が適用されている。 したがって、PTMがABSAに十分な構文情報を含むかどうかという疑問がある。 本稿では,直近のDeBERTaモデルについて検討し,アスペクトベース感性分析問題の解法を提案する。 DeBERTaは、トランスフォーマーをベースとしたニューラルネットワークモデルの一種で、教師付き学習を使用して、多数のオリジナルテキストコーパスを事前トレーニングする。 局所的コンテキストフォーカス(lcf)機構に基づき、debertaモデルを統合することで、アスペクトベース感情分析のためのマルチタスク学習モデルを実現する。 この実験は、SemEval-2014のラップトップとレストランのデータセットで最もよく使われているもので、ACL twitterデータセットは、DeBERTaによるLCFメカニズムが大幅に改善されていることを示している。

Text sentiment analysis, also known as opinion mining, is research on the calculation of people's views, evaluations, attitude and emotions expressed by entities. Text sentiment analysis can be divided into text-level sentiment analysis, sen-tence-level sentiment analysis and aspect-level sentiment analysis. Aspect-Based Sentiment Analysis (ABSA) is a fine-grained task in the field of sentiment analysis, which aims to predict the polarity of aspects. The research of pre-training neural model has significantly improved the performance of many natural language processing tasks. In recent years, pre training model (PTM) has been applied in ABSA. Therefore, there has been a question, which is whether PTMs contain sufficient syntactic information for ABSA. In this paper, we explored the recent DeBERTa model (Decoding-enhanced BERT with disentangled attention) to solve Aspect-Based Sentiment Analysis problem. DeBERTa is a kind of neural language model based on transformer, which uses self-supervised learning to pre-train on a large number of original text corpora. Based on the Local Context Focus (LCF) mechanism, by integrating DeBERTa model, we purpose a multi-task learning model for aspect-based sentiment analysis. The experiments result on the most commonly used the laptop and restaurant datasets of SemEval-2014 and the ACL twitter dataset show that LCF mechanism with DeBERTa has significant improvement.
翻訳日:2022-07-07 13:48:34 公開日:2022-07-06
# プロダクトの質問生成を多様化する学習

Learning to Diversify for Product Question Generation ( http://arxiv.org/abs/2207.02534v1 )

ライセンス: Link先を確認
Haggai Roitman, Uriel Singer, Yotam Eshel, Alexander Nus, Eliyahu Kiperwasser(参考訳) 我々は製品質問生成タスクに取り組みます。 製品の説明のために、私たちのゴールは、説明に欠けているか、あまりカバーされていないユーザ情報のニーズを反映した質問を作ることです。 さらに、さまざまな製品タイプにまたがる多様なユーザ情報のニーズについてもカバーしたいと考えています。 この目的のために,まずt5プリトレーニングトランスエンコーダ-デコーダモデルがどのようにタスクを微調整できるかを示す。 しかし、T5 が生成した質問はタスクの最先端手法 (KPCNet) と比較すると妥当な品質であるが、そのような質問の多くはまだ一般的すぎるため、世界規模での質問の多様性は準最適である。 代替として,トランスフォーマーモデルによって学習された言語を豊かにするための,新たな学習・多様化(LTD)手法を提案する。 実験により,本手法はトランスフォーマーモデルのグローバルな多様性を大幅に向上させるとともに,その生成関連性を可能な限り維持することを示す。

We address the product question generation task. For a given product description, our goal is to generate questions that reflect potential user information needs that are either missing or not well covered in the description. Moreover, we wish to cover diverse user information needs that may span a multitude of product types. To this end, we first show how the T5 pre-trained Transformer encoder-decoder model can be fine-tuned for the task. Yet, while the T5 generated questions have a reasonable quality compared to the state-of-the-art method for the task (KPCNet), many of such questions are still too general, resulting in a sub-optimal global question diversity. As an alternative, we propose a novel learning-to-diversify (LTD) fine-tuning approach that allows to enrich the language learned by the underlying Transformer model. Our empirical evaluation shows that, using our approach significantly improves the global diversity of the underlying Transformer model, while preserves, as much as possible, its generation relevance.
翻訳日:2022-07-07 13:48:11 公開日:2022-07-06
# アルツハイマー病バイオマーカー探索における高次元相関臨床データ解析のためのクラスタリングを用いたアンサンブル特徴選択

Ensemble feature selection with clustering for analysis of high-dimensional, correlated clinical data in the search for Alzheimer's disease biomarkers ( http://arxiv.org/abs/2207.02380v1 )

ライセンス: Link先を確認
Annette Spooner, Gelareh Mohammadi, Perminder S. Sachdev, Henry Brodaty, Arcot Sowmya (for the Sydney Memory and Ageing Study and the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 医療データセットは、しばしば、同じ生物学的システムの特徴など、高度に相関した特徴のグループを含む。 これらのデータセットに特徴選択を適用して最も重要な特徴を特定すると、相関した特徴による多変量特徴セレクタ固有のバイアスにより、重要な特徴と無関係な特徴を区別することが難しくなり、特徴選択プロセスの結果が不安定になる。 複数の基本特徴選択器の結果を集約した特徴選択アンサンブルを,特徴選択結果を安定化する手段として検討したが,相関特徴の問題には対処しなかった。 本稿では,多変量特徴セレクタから特徴選択アンサンブルを作成するための新しいフレームワークを提案する。 これらの方法は、進行性神経変性疾患であるアルツハイマー病(ad)の研究から得られた2つの現実世界のデータセットに適用され、まだ完全には理解されていない。 その結果,クラスタリングをしないモデルで選択した特徴の安定性は著しく向上し,これらのモデルで選択した特徴はAD文献の知見と一致していることがわかった。

Healthcare datasets often contain groups of highly correlated features, such as features from the same biological system. When feature selection is applied to these datasets to identify the most important features, the biases inherent in some multivariate feature selectors due to correlated features make it difficult for these methods to distinguish between the important and irrelevant features and the results of the feature selection process can be unstable. Feature selection ensembles, which aggregate the results of multiple individual base feature selectors, have been investigated as a means of stabilising feature selection results, but do not address the problem of correlated features. We present a novel framework to create feature selection ensembles from multivariate feature selectors while taking into account the biases produced by groups of correlated features, using agglomerative hierarchical clustering in a pre-processing step. These methods were applied to two real-world datasets from studies of Alzheimer's disease (AD), a progressive neurodegenerative disease that has no cure and is not yet fully understood. Our results show a marked improvement in the stability of features selected over the models without clustering, and the features selected by these models are in keeping with the findings in the AD literature.
翻訳日:2022-07-07 13:47:51 公開日:2022-07-06
# インクリメンタルk++クラスタ構成によるk-medoidsアルゴリズムの慎重なシード

Careful seeding for the k-medoids algorithm with incremental k++ cluster construction ( http://arxiv.org/abs/2207.02404v1 )

ライセンス: Link先を確認
Difei Cheng, Bo Zhang(参考訳) k-medoidsアルゴリズムはk-meansアルゴリズムの一般的な変種であり、パターン認識や機械学習で広く使われている。 k-メドイドアルゴリズムの主な欠点は、局所的な最適値に閉じ込められることである。 k-medoidsアルゴリズムの改良 (INCKM) が最近提案され、パラメータ選択手順で候補メドイドサブセットを構築するが、不均衡なデータセットを扱う際に失敗する可能性がある。 本稿では,非パラメトリックかつ確率的なk-means++探索手法により,クラスタ数を2からkに動的に増加させる新しいk-medoidsアルゴリズム(INCKPP)を提案する。 本アルゴリズムは,改良k-medoidsアルゴリズムにおけるパラメータ選択問題を克服し,クラスタリング性能を改善し,不均衡データセットを非常によく扱うことができる。 しかし、我々のアルゴリズムは計算効率の弱点がある。 そこで本研究では,クラスタリング性能を向上した単純かつ高速なk-medoidsアルゴリズムの計算効率を維持する高速なINCKPPアルゴリズム(INCKPP$_{sample}$)を提案する。 提案アルゴリズムは,改良k-medoidsアルゴリズム(INCKM),単純高速k-medoidsアルゴリズム(FKM),k-means++アルゴリズム(KPP)の3つの最先端アルゴリズムと比較した。 不均衡データセットを含む合成データと実世界のデータセットの両方に関する広範な実験は、提案アルゴリズムの有効性を示している。

The k-medoids algorithm is a popular variant of the k-means algorithm and widely used in pattern recognition and machine learning. A main drawback of the k-medoids algorithm is that it can be trapped in local optima. An improved k-medoids algorithm (INCKM) was recently proposed to overcome this drawback, based on constructing a candidate medoids subset with a parameter choosing procedure, but it may fail when dealing with imbalanced datasets. In this paper, we propose a novel incremental k-medoids algorithm (INCKPP) which dynamically increases the number of clusters from 2 to k through a nonparametric and stochastic k-means++ search procedure. Our algorithm can overcome the parameter selection problem in the improved k-medoids algorithm, improve the clustering performance, and deal with imbalanced datasets very well. But our algorithm has a weakness in computation efficiency. To address this issue, we propose a fast INCKPP algorithm (called INCKPP$_{sample}$) which preserves the computational efficiency of the simple and fast k-medoids algorithm with an improved clustering performance. The proposed algorithm is compared with three state-of-the-art algorithms: the improved k-medoids algorithm (INCKM), the simple and fast k-medoids algorithm (FKM) and the k-means++ algorithm (KPP). Extensive experiments on both synthetic and real world datasets including imbalanced datasets illustrate the effectiveness of the proposed algorithm.
翻訳日:2022-07-07 13:47:31 公開日:2022-07-06
# 動的テンソル分解のための非パラメトリック因子軌道学習

Nonparametric Factor Trajectory Learning for Dynamic Tensor Decomposition ( http://arxiv.org/abs/2207.02446v1 )

ライセンス: Link先を確認
Zheng Wang, Shandian Zhe(参考訳) テンソル分解は多次元配列で表現できるデータを分析するための基本的なフレームワークである。 実際には、テンソルデータには時間情報、すなわちエントリ値が生成される時点が伴っていることが多い。 この情報は豊富で複雑な時間変動パターンを暗示する。 しかし、現在の方法は常にテンソルモードの要素の因子表現は静的であり、その時間的進化を考慮しない。 このギャップを埋めるために,動的テンソル分解(nonfat)のための非パラメトリック因子軌道学習を提案する。 ガウス過程 (gp) を周波数領域に前置し, 軌道関数をサンプリングするためにガウス-ラゲール二次体を介して逆フーリエ変換を行う。 このようにして、データのスパーシティを克服し、長い時間軸にわたってロバストな軌道推定を得ることができる。 特定の時点における軌道値が与えられた場合、第2レベルのGPを用いて入力値をサンプリングし、エンティティ間の時間的関係を捉える。 効率的でスケーラブルな推論のために,モデル内の行列ガウス構造を活用し,行列ガウス後部を導入し,ネステッドスライス変分学習アルゴリズムを開発した。 我々は,いくつかの実世界アプリケーションにおいて,この手法の利点を示した。

Tensor decomposition is a fundamental framework to analyze data that can be represented by multi-dimensional arrays. In practice, tensor data is often accompanied by temporal information, namely the time points when the entry values were generated. This information implies abundant, complex temporal variation patterns. However, current methods always assume the factor representations of the entities in each tensor mode are static, and never consider their temporal evolution. To fill this gap, we propose NONparametric FActor Trajectory learning for dynamic tensor decomposition (NONFAT). We place Gaussian process (GP) priors in the frequency domain and conduct inverse Fourier transform via Gauss-Laguerre quadrature to sample the trajectory functions. In this way, we can overcome data sparsity and obtain robust trajectory estimates across long time horizons. Given the trajectory values at specific time points, we use a second-level GP to sample the entry values and to capture the temporal relationship between the entities. For efficient and scalable inference, we leverage the matrix Gaussian structure in the model, introduce a matrix Gaussian posterior, and develop a nested sparse variational learning algorithm. We have shown the advantage of our method in several real-world applications.
翻訳日:2022-07-07 13:47:04 公開日:2022-07-06
# 単純で効率的な不均一グラフニューラルネットワーク

Simple and Efficient Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2207.02547v1 )

ライセンス: Link先を確認
Xiaocheng Yang, Mingyu Yan, Shirui Pan, Xiaochun Ye, Dongrui Fan(参考訳) 不均一グラフニューラルネットワーク(HGNN)は、不均一グラフの構造的および意味的な情報を低次元ノード表現に埋め込む強力な能力を提供する。 既存のHGNNは通常、不要な複雑さと冗長な計算に悩まされ、階層的注意機構と繰り返し隣接する集約を使用して情報を埋め込むことを学ぶ。 本稿では,ノードレベルの過度な注意を同じ関係内で回避し,前処理段階における隣接アグリゲーションの事前計算を行うことにより,この余分な複雑さを低減させる,シンプルで効率的なヘテロジニアスグラフニューラルネットワークを提案する。 sehgnnは以前の作業とは異なり、軽量なパラメータフリーな隣り合わせアグリゲータを使用して、各メタパスの構造情報を学習し、トランスフォーマティブベースのセマンティックアグリゲータを使用して、各ノードの最終的な埋め込みのためにメタパスにまたがる意味情報を結合する。 その結果、SeHGNNは単純なネットワーク構造、高い予測精度、高速なトレーニング速度を提供する。 5つの実世界の異種グラフに対する大規模な実験は、精度とトレーニング速度の両面で、SeHGNNの最先端性を示している。 コードはhttps://github.com/ICT-GIMLab/SeHGNNで入手できる。

Heterogeneous graph neural networks (HGNNs) deliver the powerful capability to embed rich structural and semantic information of a heterogeneous graph into low-dimensional node representations. Existing HGNNs usually learn to embed information using hierarchy attention mechanism and repeated neighbor aggregation, suffering from unnecessary complexity and redundant computation. This paper proposes Simple and Efficient Heterogeneous Graph Neural Network (SeHGNN) which reduces this excess complexity through avoiding overused node-level attention within the same relation and pre-computing the neighbor aggregation in the pre-processing stage. Unlike previous work, SeHGNN utilizes a light-weight parameter-free neighbor aggregator to learn structural information for each metapath, and a transformer-based semantic aggregator to combine semantic information across metapaths for the final embedding of each node. As a result, SeHGNN offers the simple network structure, high prediction accuracy, and fast training speed. Extensive experiments on five real-world heterogeneous graphs demonstrate the superiority of SeHGNN over the state-of-the-arts on both the accuracy and training speed. Codes are available at https://github.com/ICT-GIMLab/SeHGNN.
翻訳日:2022-07-07 13:46:43 公開日:2022-07-06
# voxel2vec: 科学データの分散表現学習のための自然言語処理手法

voxel2vec: A Natural Language Processing Approach to Learning Distributed Representations for Scientific Data ( http://arxiv.org/abs/2207.02565v1 )

ライセンス: Link先を確認
Xiangyang He and Yubo Tao and Shuoliu Yang and Haoran Dai and and Hai Lin(参考訳) 不定値データにおける特徴の数値的・空間的分布関係、多変量データにおけるスカラー値の組み合わせの関係、時間的変動とアンサンブルデータのボリュームの関係など、科学データにおける関係は複雑で複雑である。 本稿では,スカラー値/スカラー値の組み合わせの分散表現を低次元ベクトル空間で学習する,新しい教師なし表現学習モデルvoxel2vecを提案する。 その基本的な前提は、2つのスカラー値/スカラー値の組み合わせが類似したコンテキストを持つ場合、通常は特徴の点で高い類似性を持つということである。 スカラー値/スカラー値の組み合わせをシンボルとして表現することで、voxel2vecは空間分布の文脈でそれらの類似性を学習し、転送予測によってボリューム間の全体関係を探索することができる。 単変量データの等表面類似度マップと比較し,多変量データの特徴分類や時間変化およびアンサンブルデータの関連解析に学習した分散表現を適用して,voxel2vecの有用性と有効性を示す。

Relationships in scientific data, such as the numerical and spatial distribution relations of features in univariate data, the scalar-value combinations' relations in multivariate data, and the association of volumes in time-varying and ensemble data, are intricate and complex. This paper presents voxel2vec, a novel unsupervised representation learning model, which is used to learn distributed representations of scalar values/scalar-value combinations in a low-dimensional vector space. Its basic assumption is that if two scalar values/scalar-value combinations have similar contexts, they usually have high similarity in terms of features. By representing scalar values/scalar-value combinations as symbols, voxel2vec learns the similarity between them in the context of spatial distribution and then allows us to explore the overall association between volumes by transfer prediction. We demonstrate the usefulness and effectiveness of voxel2vec by comparing it with the isosurface similarity map of univariate data and applying the learned distributed representations to feature classification for multivariate data and to association analysis for time-varying and ensemble data.
翻訳日:2022-07-07 13:46:21 公開日:2022-07-06
# (参考訳) 差別フリー保険価格の算定のためのマルチタスクネットワークアプローチ

A multi-task network approach for calculating discrimination-free insurance prices ( http://arxiv.org/abs/2207.02799v1 )

ライセンス: CC BY 4.0
Mathias Lindholm, Ronald Richman, Andreas Tsanakas, Mario V. W\"uthrich(参考訳) 保険価格などの予測モデリングの応用においては、間接的あるいは代理的差別が大きな懸念事項である。 すなわち、保護政策所有者の特性が予測モデルによって非保護者から暗黙的に推測される可能性があり、したがって価格に望ましくない(または違法)影響を及ぼしている。 この問題に対する技術的な解決策は、すべての政策保持者特性(保護されたものを含む)を使用して最適見積モデルを構築し、個々の価格を計算するための保護された特性を平均化することである。 しかし、そのようなアプローチは、政策所有者の保護された特性について完全な知識を必要とする。 本稿では,クレーム予測のためのマルチタスクニューラルネットワークアーキテクチャを用いて,保護された特性に関する部分情報のみを使用してトレーニングし,プロキシ識別から解放された価格を生成する。 提案モデルを用いた場合,予測精度は従来のフィードフォワードニューラルネットワーク(全情報)に匹敵することがわかった。 しかしながら、このマルチタスクネットワークは、部分的にポリシーホルダ情報を欠く場合において、明らかに優れた性能を有する。

In applications of predictive modeling, such as insurance pricing, indirect or proxy discrimination is an issue of major concern. Namely, there exists the possibility that protected policyholder characteristics are implicitly inferred from non-protected ones by predictive models, and are thus having an undesirable (or illegal) impact on prices. A technical solution to this problem relies on building a best-estimate model using all policyholder characteristics (including protected ones) and then averaging out the protected characteristics for calculating individual prices. However, such approaches require full knowledge of policyholders' protected characteristics, which may in itself be problematic. Here, we address this issue by using a multi-task neural network architecture for claim predictions, which can be trained using only partial information on protected characteristics, and it produces prices that are free from proxy discrimination. We demonstrate the use of the proposed model and we find that its predictive accuracy is comparable to a conventional feedforward neural network (on full information). However, this multi-task network has clearly superior performance in the case of partially missing policyholder information.
翻訳日:2022-07-07 13:45:02 公開日:2022-07-06
# 大規模パラメータ化線形方程式系の解の高速化のためのAI強化反復解法

AI-enhanced iterative solvers for accelerating the solution of large scale parametrized linear systems of equations ( http://arxiv.org/abs/2207.02543v1 )

ライセンス: Link先を確認
Stefanos Nikolopoulos, Ioannis Kalogeris, Vissarion Papadopoulos, George Stavroulakis(参考訳) 機械学習の分野での最近の進歩は、ハイパフォーマンスコンピューティングの新しい時代を開く。 複雑な問題の正確で費用効率のよいサロゲートを開発するための機械学習アルゴリズムの応用はすでに科学者から大きな注目を集めている。 しかし、その強力な近似能力にもかかわらず、サロゲートはその問題に対する「正確な」解を生成できない。 この問題に対処するため,本稿では最新のmlツールを利用し,線形方程式系の反復解法をカスタマイズし,所望の精度で大規模パラメトリズド問題を解くことができる。 具体的には、以下の2つのステップからなる。 まず、縮小されたモデル評価を行い、それに対応する解を用いて、ディープフィードフォワードニューラルネットワークと畳み込みオートエンコーダを用いて、問題のパラメトリック空間からその解空間への近似写像を確立する。 このマッピングは、計算コストが無視できる新しいクエリポイントに対するシステム応答の非常に正確な初期予測を得る手段を提供する。 その後、代数的マルチグリッド法にインスパイアされた反復解法とPOD-2Gと呼ばれる固有直交分解法が開発され、システム解に対する初期予測を逐次洗練する。 大規模システムのいくつかの数値例において,POD-2Gを事前条件付き共役勾配法における独立解法あるいはプレコンディショナーとして適用し,従来の反復解法よりも優れていることを示す。

Recent advances in the field of machine learning open a new era in high performance computing. Applications of machine learning algorithms for the development of accurate and cost-efficient surrogates of complex problems have already attracted major attention from scientists. Despite their powerful approximation capabilities, however, surrogates cannot produce the `exact' solution to the problem. To address this issue, this paper exploits up-to-date ML tools and delivers customized iterative solvers of linear equation systems, capable of solving large-scale parametrized problems at any desired level of accuracy. Specifically, the proposed approach consists of the following two steps. At first, a reduced set of model evaluations is performed and the corresponding solutions are used to establish an approximate mapping from the problem's parametric space to its solution space using deep feedforward neural networks and convolutional autoencoders. This mapping serves a means to obtain very accurate initial predictions of the system's response to new query points at negligible computational cost. Subsequently, an iterative solver inspired by the Algebraic Multigrid method in combination with Proper Orthogonal Decomposition, termed POD-2G, is developed that successively refines the initial predictions towards the exact system solutions. The application of POD-2G as a standalone solver or as preconditioner in the context of preconditioned conjugate gradient methods is demonstrated on several numerical examples of large scale systems, with the results indicating its superiority over conventional iterative solution schemes.
翻訳日:2022-07-07 13:19:36 公開日:2022-07-06
# エンドユーザーに低品質心電図を説明するための塩分マップの利用に向けて

Towards the Use of Saliency Maps for Explaining Low-Quality Electrocardiograms to End Users ( http://arxiv.org/abs/2207.02726v1 )

ライセンス: Link先を確認
Ana Lucic, Sheeraz Ahmad, Amanda Furtado Brinhosa, Vera Liao, Himani Agrawal, Umang Bhatt, Krishnaram Kenthapadi, Alice Xiang, Maarten de Rijke, Nicholas Drabowski(参考訳) 臨床医または人工知能(ai)システムによる診断に医療画像を使用する場合、画像が高品質であることは重要である。 画像の品質が低い場合、画像を生成する医療検査は、しばしばやり直す必要がある。 遠隔医療において一般的な問題は、患者が診療所を退院した後にのみ、品質問題が警告されることである。 これは、ブラジルに拠点を置くデジタル医療機関であるportal telemedicinaの患者の大部分を占める、遠隔地に住む人々にとって特に困難である。 本稿では,現在進行中の研究について報告する。 一 高品質な医用画像のリアルタイム表示・説明のためのAIシステムの開発 (ii)我々の企業におけるaiシステムを用いたステークホルダーのニーズを理解するためのインタビュー研究、及び (iii)クリニックの技術者のワークフローに説明を含める効果を検討するための縦断的なユーザ・スタディ・デザイン。 私たちの知る限りでは、AIシステムを使用するがAI特有の専門知識を持たないステークホルダーに対するXAIメソッドの効果を評価するための最初の縦断的研究となるでしょう。 実験的なセットアップに関するフィードバックや提案を歓迎します。

When using medical images for diagnosis, either by clinicians or artificial intelligence (AI) systems, it is important that the images are of high quality. When an image is of low quality, the medical exam that produced the image often needs to be redone. In telemedicine, a common problem is that the quality issue is only flagged once the patient has left the clinic, meaning they must return in order to have the exam redone. This can be especially difficult for people living in remote regions, who make up a substantial portion of the patients at Portal Telemedicina, a digital healthcare organization based in Brazil. In this paper, we report on ongoing work regarding (i) the development of an AI system for flagging and explaining low-quality medical images in real-time, (ii) an interview study to understand the explanation needs of stakeholders using the AI system at OurCompany, and, (iii) a longitudinal user study design to examine the effect of including explanations on the workflow of the technicians in our clinics. To the best of our knowledge, this would be the first longitudinal study on evaluating the effects of XAI methods on end-users -- stakeholders that use AI systems but do not have AI-specific expertise. We welcome feedback and suggestions on our experimental setup.
翻訳日:2022-07-07 13:19:11 公開日:2022-07-06
# 木に基づくアンサンブルのロバストな反事実説明

Robust Counterfactual Explanations for Tree-Based Ensembles ( http://arxiv.org/abs/2207.02739v1 )

ライセンス: Link先を確認
Sanghamitra Dutta, Jason Long, Saumitra Mishra, Cecilia Tilli, Daniele Magazzeni(参考訳) カウンターファクトの説明は、機械学習モデルから望ましい結果を得る方法を伝える。 しかし、そのような説明は、基礎となるモデル(例えば、モデルの再トレーニング、ハイパーパラメータの変更など)における特定の現実世界の変化に対して堅牢ではない。 本稿では、木ベースのアンサンブル(例えばxgboost)に対してロバストな反事実を生成するための新しい戦略を提案する。 木に基づくアンサンブルは、堅牢な反ファクト生成において、例えば、非滑らかで微分不可能な目的関数を持ち、非常に類似したデータで再訓練されたパラメータ空間において多くの変更を行うことができる。 まず最初に、再トレーニング下での変化をモデル化するために、反事実がどれほど頑健であるかを定量化しようとする、反事実安定性と呼ばれる新しいメトリックを導入し、望ましい理論的特性を伴います。 提案手法は,任意の反ファクト生成法(ベース法)で動作し,基準法で生成した反ファクトを基準法で反復的に改善することにより,堅牢な反ファクト生成を探索する。 我々は,RobXの性能を,ベンチマークデータセット間で(木に基づくアンサンブルのための)一般的な反ファクト生成手法と比較する。 その結果,提案手法は,既存手法よりもかなり頑健(実モデル変更後ほぼ100%有効)で,かつ現実的(局所的外れ要因の観点で)な偽物を生成することがわかった。

Counterfactual explanations inform ways to achieve a desired outcome from a machine learning model. However, such explanations are not robust to certain real-world changes in the underlying model (e.g., retraining the model, changing hyperparameters, etc.), questioning their reliability in several applications, e.g., credit lending. In this work, we propose a novel strategy -- that we call RobX -- to generate robust counterfactuals for tree-based ensembles, e.g., XGBoost. Tree-based ensembles pose additional challenges in robust counterfactual generation, e.g., they have a non-smooth and non-differentiable objective function, and they can change a lot in the parameter space under retraining on very similar data. We first introduce a novel metric -- that we call Counterfactual Stability -- that attempts to quantify how robust a counterfactual is going to be to model changes under retraining, and comes with desirable theoretical properties. Our proposed strategy RobX works with any counterfactual generation method (base method) and searches for robust counterfactuals by iteratively refining the counterfactual generated by the base method using our metric Counterfactual Stability. We compare the performance of RobX with popular counterfactual generation methods (for tree-based ensembles) across benchmark datasets. The results demonstrate that our strategy generates counterfactuals that are significantly more robust (nearly 100% validity after actual model changes) and also realistic (in terms of local outlier factor) over existing state-of-the-art methods.
翻訳日:2022-07-07 13:18:50 公開日:2022-07-06
# プライベートマトリックス近似と単位軌道の幾何学

Private Matrix Approximation and Geometry of Unitary Orbits ( http://arxiv.org/abs/2207.02794v1 )

ライセンス: Link先を確認
Oren Mangoubi, Yikai Wu, Satyen Kale, Abhradeep Guha Thakurta, Nisheeth K. Vishnoi(参考訳) 以下の最適化問題を考える:$n \times n$ matrices $A$ and $\Lambda$, max $\langle A, U\Lambda U^*\rangle$ ここで$U$はユニタリ群$\mathrm{U}(n)$に対して異なる。 この問題は、スペクトルが$\Lambda$と等しい行列によって$A$を近似し、$\Lambda$を適切な対角行列として設定することにより、PCAやランク-k$近似のような行列近似問題を復元することができる。 本研究では,行列$A$がユーザのプライベートデータを用いて構築される設定において,この最適化問題に対する微分プライベートアルゴリズムの設計問題を考察する。 近似誤差の上限値と下限値を持つ効率的でプライベートなアルゴリズムを与える。 我々は,プライベート行列近似問題に関するいくつかの先行研究を統一し,改善する。 それらは、グラスマン多様体が独立した興味を持つべきユニタリ軌道にパッキング/カバー数境界の拡張に依存している。

Consider the following optimization problem: Given $n \times n$ matrices $A$ and $\Lambda$, maximize $\langle A, U\Lambda U^*\rangle$ where $U$ varies over the unitary group $\mathrm{U}(n)$. This problem seeks to approximate $A$ by a matrix whose spectrum is the same as $\Lambda$ and, by setting $\Lambda$ to be appropriate diagonal matrices, one can recover matrix approximation problems such as PCA and rank-$k$ approximation. We study the problem of designing differentially private algorithms for this optimization problem in settings where the matrix $A$ is constructed using users' private data. We give efficient and private algorithms that come with upper and lower bounds on the approximation error. Our results unify and improve upon several prior works on private matrix approximation problems. They rely on extensions of packing/covering number bounds for Grassmannians to unitary orbits which should be of independent interest.
翻訳日:2022-07-07 13:15:22 公開日:2022-07-06
# 半監督・強化タスク指向対話システムにおける課題

A Challenge on Semi-Supervised and Reinforced Task-Oriented Dialog Systems ( http://arxiv.org/abs/2207.02657v1 )

ライセンス: Link先を確認
Zhijian Ou, Junlan Feng, Juanzi Li, Yakun Li, Hong Liu, Hao Peng, Yi Huang, Jiangjiang Zhao(参考訳) EMNLP2022 SereTODワークショップと連携した半監督・強化タスク指向対話システムにおける課題

A challenge on Semi-Supervised and Reinforced Task-Oriented Dialog Systems, Co-located with EMNLP2022 SereTOD Workshop.
翻訳日:2022-07-07 13:12:58 公開日:2022-07-06
# 名前付きエンティティ認識におけるガゼッタの価値の再考

Rethinking the Value of Gazetteer in Chinese Named Entity Recognition ( http://arxiv.org/abs/2207.02802v1 )

ライセンス: Link先を確認
Qianglong Chen, Xiangji Zeng, Jiangang Zhu, Yin Zhang, Bojia Lin, Yang Yang, Daxin Jiang(参考訳) Gazetteerは、境界検出と型分類を強化するために、中国語のエンティティ認識(NER)で広く使われている。 しかしながら、ガゼッタの一般化性と有効性をさらに理解するために、NLPコミュニティは依然としてガゼッタ強化NERモデルの体系的分析を欠いている。 本稿では,まず,ガゼッタ強化NERモデルの有効性を再検討し,モデル性能とガゼッタ特性の関係を評価するための一連の詳細な解析を行い,より適切なガゼッタを構築するための手がかりとなる。 1) 従来のnerモデルでは, データセットの学習が難しい状況において, ガゼッタが改善した。 2) モデルの性能は, 高品質なプレトレーニングレキセム埋込みにより大きく向上した。 (3) 優れたガゼッタは、トレーニングセットとテストセットの両方でマッチするより多くのエンティティをカバーするべきである。

Gazetteer is widely used in Chinese named entity recognition (NER) to enhance span boundary detection and type classification. However, to further understand the generalizability and effectiveness of gazetteers, the NLP community still lacks a systematic analysis of the gazetteer-enhanced NER model. In this paper, we first re-examine the effectiveness several common practices of the gazetteer-enhanced NER models and carry out a series of detailed analysis to evaluate the relationship between the model performance and the gazetteer characteristics, which can guide us to build a more suitable gazetteer. The findings of this paper are as follows: (1) the gazetteer has improved the most situations where the dataset is difficult to learn well for the conventional NER model. (2) the performance of model greatly benefits from the high-quality pre-trained lexeme embeddings. (3) a good gazetteer should cover more entities that can be matched in both the training set and testing set.
翻訳日:2022-07-07 13:12:55 公開日:2022-07-06
# (参考訳) 名前付きエンティティリンクのための強いヒューリスティックス

Strong Heuristics for Named Entity Linking ( http://arxiv.org/abs/2207.02824v1 )

ライセンス: CC BY 4.0
Marko \v{C}uljak, Andreas Spitz, Robert West, Akhil Arora(参考訳) ニュースにおける名前付きエンティティリンク(NEL)は、教師なしまたはゼロショットメソッドの使用を必要とする未確認および新興エンティティの頻度のため、困難な取り組みである。 しかし、このような手法には、新興のエンティティに適した知識ベース(Wikidataなど)の統合がないこと、スケーラビリティの欠如、理解しにくいことなど、注意が必要である。 本稿では,このニュースを引用した大規模コーパスであるQuotebankにおける人物の曖昧さを考察し,WebスケールコーパスにおけるNELの直感的かつ軽量でスケーラブルなヒューリスティックスの適合性について考察する。 私たちの最高のヒューリスティックな不明瞭さは、QuotebankとAIDA-CoNLLベンチマークに関する言及の94%と63%です。 さらに,提案するヒューリスティックスは,非教師なしおよびゼロショットの手法である固有テーマとmgenreとをそれぞれ好適に比較し,教師なしおよびゼロショットのエンティティリンクの強力なベースラインとして機能する。

Named entity linking (NEL) in news is a challenging endeavour due to the frequency of unseen and emerging entities, which necessitates the use of unsupervised or zero-shot methods. However, such methods tend to come with caveats, such as no integration of suitable knowledge bases (like Wikidata) for emerging entities, a lack of scalability, and poor interpretability. Here, we consider person disambiguation in Quotebank, a massive corpus of speaker-attributed quotations from the news, and investigate the suitability of intuitive, lightweight, and scalable heuristics for NEL in web-scale corpora. Our best performing heuristic disambiguates 94% and 63% of the mentions on Quotebank and the AIDA-CoNLL benchmark, respectively. Additionally, the proposed heuristics compare favourably to the state-of-the-art unsupervised and zero-shot methods, Eigenthemes and mGENRE, respectively, thereby serving as strong baselines for unsupervised and zero-shot entity linking.
翻訳日:2022-07-07 13:09:54 公開日:2022-07-06
# 人文推定のための構造群に対する自己拘束型推論最適化

Self-Constrained Inference Optimization on Structural Groups for Human Pose Estimation ( http://arxiv.org/abs/2207.02425v1 )

ライセンス: Link先を確認
Zhehan Kan, Shuoshuo Chen, Zeng Li, Zhihai He(参考訳) 人間のポーズは、異なる身体部位の生物学的制約によって、キーポイント間の空間的結合と強いグループ的構造相関を示すことが観察される。 このグループ的な構造相関は、人間のポーズ推定の精度とロバスト性を改善するために研究することができる。 本研究では,学習中のキーポイント間の構造的相関を特徴付ける自己制約付き予測検証ネットワークを開発した。 推定段階では、検証ネットワークからのフィードバック情報により、ポーズ予測のさらなる最適化が可能となり、人間のポーズ推定の性能が大幅に向上する。 具体的には、キーポイントを人体の生物学的構造に応じてグループに分割する。 各グループ内のキーポイントは、高信頼ベースキーポイントと低信頼端末キーポイントの2つのサブセットに分割される。 我々はこれらのキーポイントサブセット間の前方および後方予測を行う自己制約付き予測検証ネットワークを開発した。 一般的な予測タスクと同様に、ポーズ推定の基本的な課題の一つとして、得られたポーズ推定や予測結果が正確かどうかを検証するためのメカニズムが存在しないことが挙げられる。 一旦学習が成功すれば、検証ネットワークは前方姿勢予測の精度検証モジュールとして機能する。 推定段階では、高信頼鍵点に対する自己拘束的損失を目的関数として、低信頼鍵点のポーズ推定結果の局所最適化を導出することができる。 ベンチマークms cocoおよびcrowdposeデータセットの広範な実験結果から,提案手法がポーズ推定結果を大幅に改善することを示す。

We observe that human poses exhibit strong group-wise structural correlation and spatial coupling between keypoints due to the biological constraints of different body parts. This group-wise structural correlation can be explored to improve the accuracy and robustness of human pose estimation. In this work, we develop a self-constrained prediction-verification network to characterize and learn the structural correlation between keypoints during training. During the inference stage, the feedback information from the verification network allows us to perform further optimization of pose prediction, which significantly improves the performance of human pose estimation. Specifically, we partition the keypoints into groups according to the biological structure of human body. Within each group, the keypoints are further partitioned into two subsets, high-confidence base keypoints and low-confidence terminal keypoints. We develop a self-constrained prediction-verification network to perform forward and backward predictions between these keypoint subsets. One fundamental challenge in pose estimation, as well as in generic prediction tasks, is that there is no mechanism for us to verify if the obtained pose estimation or prediction results are accurate or not, since the ground truth is not available. Once successfully learned, the verification network serves as an accuracy verification module for the forward pose prediction. During the inference stage, it can be used to guide the local optimization of the pose estimation results of low-confidence keypoints with the self-constrained loss on high-confidence keypoints as the objective function. Our extensive experimental results on benchmark MS COCO and CrowdPose datasets demonstrate that the proposed method can significantly improve the pose estimation results.
翻訳日:2022-07-07 12:52:58 公開日:2022-07-06
# ユークリッドノルムの差異はバッチ正規化における意味的発散を引き起こす

Difference in Euclidean Norm Can Cause Semantic Divergence in Batch Normalization ( http://arxiv.org/abs/2207.02625v1 )

ライセンス: Link先を確認
Zhennan Wang, Kehan Li, Runyi Yu, Yian Zhao, Pengchong Qiao, Guoli Song, Fan Xu, Jie Chen(参考訳) 本稿では, サンプルのユークリッドノルムの違いが, バッチ正規化における空間変換とスケーリング変換の後に, 意味のばらつきや混乱にも寄与することを示す。 この問題に対処するために,サンプルベクトルのユークリッドノルムを等化するための直感的だが効果的な手法を提案する。 具体的には、バッチ正規化の前に各サンプルベクトルを$l_2$-正規化するので、サンプルベクトルは同じ大きさである。 提案手法は,$l_2$正規化とバッチ正規化を組み合わせたものであるので,本手法を$L_2$BNと命名する。 l_2$bnはクラス内特徴のコンパクト性を強化し、クラス間特徴のばらつきを拡大することができる。 さらに、勾配が安定したスケールに収束するのに役立つ。 L_2$BNは実装が容易で、追加のパラメータやハイパーパラメータなしでその効果を発揮できる。 したがって、ニューラルネットワークの基本的な正規化手法として使用できる。 画像分類と音響シーン分類における様々なモデルを用いた広範囲な実験により,$L_2$BNの有効性を評価する。 実験の結果、$L_2$BNは様々なニューラルネットワークモデルの一般化能力を向上し、大幅な性能向上を達成できることが示された。

In this paper, we show that the difference in Euclidean norm of samples can make a contribution to the semantic divergence and even confusion, after the spatial translation and scaling transformation in batch normalization. To address this issue, we propose an intuitive but effective method to equalize the Euclidean norms of sample vectors. Concretely, we $l_2$-normalize each sample vector before batch normalization, and therefore the sample vectors are of the same magnitude. Since the proposed method combines the $l_2$ normalization and batch normalization, we name our method as $L_2$BN. The $L_2$BN can strengthen the compactness of intra-class features and enlarge the discrepancy of inter-class features. In addition, it can help the gradient converge to a stable scale. The $L_2$BN is easy to implement and can exert its effect without any additional parameters and hyper-parameters. Therefore, it can be used as a basic normalization method for neural networks. We evaluate the effectiveness of $L_2$BN through extensive experiments with various models on image classification and acoustic scene classification tasks. The experimental results demonstrate that the $L_2$BN is able to boost the generalization ability of various neural network models and achieve considerable performance improvements.
翻訳日:2022-07-07 12:52:35 公開日:2022-07-06
# スパイクキャリブレーション:オブジェクト検出とセグメンテーションのためのスパイクニューラルネットワークの高速かつ正確な変換

Spike Calibration: Fast and Accurate Conversion of Spiking Neural Network for Object Detection and Segmentation ( http://arxiv.org/abs/2207.02702v1 )

ライセンス: Link先を確認
Yang Li, Xiang He, Yiting Dong, Qingqun Kong, Yi Zeng(参考訳) スパイキングニューラルネットワーク (SNN) は、高生物学的可視性とニューロモルフィックハードウェアにおける低エネルギー消費の性質により、非常に重要視されている。 ディープSNNを得るための効率的な方法として,様々な大規模データセット上で高い性能を示した。 しかし、通常は深刻な性能低下と高い時間遅延に苦しむ。 特に、以前の研究のほとんどは、ANN出力の正確な近似を無視しながら、単純な分類タスクに焦点を当てている。 本稿では,まず変換誤差を理論的に解析し,時変極値のシナプス電流に対する有害な影響を導出する。 我々は、離散スパイクの出力分布への損傷を排除し、任意のMaxPooling層を損失なく変換できるようにLIPoolingを修正するためのSpike Calibration(SpiCalib)を提案する。 さらに,最適正規化パラメータに対するベイズ最適化は経験的設定を避けるために提案されている。 実験結果は,分類,オブジェクト検出,セグメンテーションタスクにおける最先端性能を示す。 我々の知る限りでは、これらのタスクでANNに匹敵するSNNを同時に獲得するのはこれが初めてである。 さらに,検出タスクにおける前回の作業の1/50の推測時間しか必要とせず,セグメント化タスクにおけるANNのエネルギー消費の0.492$\times以下で同じ性能を実現することができる。

Spiking neural network (SNN) has been attached to great importance due to the properties of high biological plausibility and low energy consumption on neuromorphic hardware. As an efficient method to obtain deep SNN, the conversion method has exhibited high performance on various large-scale datasets. However, it typically suffers from severe performance degradation and high time delays. In particular, most of the previous work focuses on simple classification tasks while ignoring the precise approximation to ANN output. In this paper, we first theoretically analyze the conversion errors and derive the harmful effects of time-varying extremes on synaptic currents. We propose the Spike Calibration (SpiCalib) to eliminate the damage of discrete spikes to the output distribution and modify the LIPooling to allow conversion of the arbitrary MaxPooling layer losslessly. Moreover, Bayesian optimization for optimal normalization parameters is proposed to avoid empirical settings. The experimental results demonstrate the state-of-the-art performance on classification, object detection, and segmentation tasks. To the best of our knowledge, this is the first time to obtain SNN comparable to ANN on these tasks simultaneously. Moreover, we only need 1/50 inference time of the previous work on the detection task and can achieve the same performance under 0.492$\times$ energy consumption of ANN on the segmentation task.
翻訳日:2022-07-07 12:52:15 公開日:2022-07-06
# イチゴのトラスとランナーを分類するディープラーニングアプローチ

Deep Learning approach for Classifying Trusses and Runners of Strawberries ( http://arxiv.org/abs/2207.02721v1 )

ライセンス: Link先を確認
Jakub Pomykala, Francisco de Lemos, Isibor Kennedy Ihianle, David Ada Adama, Pedro Machado(参考訳) 農業分野における人工知能の利用は、農業活動を自動化するために急速に増加している。 創発的な農業技術は、植物、果物、病気、土壌型のマッピングと分類に焦点を当てている。 ディープラーニングアルゴリズムを用いた収穫・刈取支援アプリケーションの開発は初期段階にあるが,そのようなプロセスを自動化するソリューションが求められている。 本稿では, セマンティックセグメンテーションとデータセット拡張を用いたイチゴのトラスとランニングの分類にDeep Learningを用いたことを提案する。 提案手法はノイズ(gaussian、speckle、poisson、salt-and-pepper)を用いてデータセットを人工的に拡張し、少ないデータサンプル数を補償し、全体的な分類性能を向上させる。 結果は,平均精度,リコール,F1スコアを用いて評価した。 提案手法は,Salt-and-Pepperノイズを用いたResNet101を用いたトラス検出において,精度91\%,95\%,F1スコアで92\%,精度83\%,53\%,F1スコアで83\%,およびPoissonノイズを利用したResNet50を用いたトラス検出においてそれぞれ達成した。

The use of artificial intelligence in the agricultural sector has been growing at a rapid rate to automate farming activities. Emergent farming technologies focus on mapping and classification of plants, fruits, diseases, and soil types. Although, assisted harvesting and pruning applications using deep learning algorithms are in the early development stages, there is a demand for solutions to automate such processes. This paper proposes the use of Deep Learning for the classification of trusses and runners of strawberry plants using semantic segmentation and dataset augmentation. The proposed approach is based on the use of noises (i.e. Gaussian, Speckle, Poisson and Salt-and-Pepper) to artificially augment the dataset and compensate the low number of data samples and increase the overall classification performance. The results are evaluated using mean average of precision, recall and F1 score. The proposed approach achieved 91\%, 95\% and 92\% on precision, recall and F1 score, respectively, for truss detection using the ResNet101 with dataset augmentation utilising Salt-and-Pepper noise; and 83\%, 53\% and 65\% on precision, recall and F1 score, respectively, for truss detection using the ResNet50 with dataset augmentation utilising Poisson noise.
翻訳日:2022-07-07 12:51:53 公開日:2022-07-06
# 仮想グローブマーカを用いたリアルタイムジェスチャー認識

Real-Time Gesture Recognition with Virtual Glove Markers ( http://arxiv.org/abs/2207.02729v1 )

ライセンス: Link先を確認
Finlay McKinnon, David Ada Adama, Pedro Machado, Isibor Kennedy Ihianle(参考訳) 人間間の効果的なコミュニケーションを可能にする普遍的な非言語的自然コミュニケーションアプローチにより、ジェスチャー認識技術は過去数十年間着実に発展してきた。 ジェスチャー認識に基づく研究論文では、物理的センサーとコンピュータビジョンの両方を使用して、非言語的な自然コミュニケーション情報をコンピュータに送信する効果的なシステムを作ろうとする多くの異なる戦略が提示されている。 一方で、超高精度なリアルタイムシステムは、ユーザビリティ、コスト、速度、正確性といった過去の限界のために、それぞれがさまざまな方法論を採用して、研究分野を占有し始めたばかりである。 自然なユーザインタフェースとして機能するジェスチャー認識アプリケーションのためのリアルタイムコンピュータビジョンベースのヒューマンコンピュータインタラクションツールを提案する。 ユーザの手にある仮想グローブマーカーが作成され、ジェスチャーのリアルタイム認識のためのディープラーニングモデルの入力として使用される。 その結果,テレプレゼンスとリハビリテーションによる社会的インタラクションを含むリアルタイムアプリケーションにおいて,提案システムの有効性が示された。

Due to the universal non-verbal natural communication approach that allows for effective communication between humans, gesture recognition technology has been steadily developing over the previous few decades. Many different strategies have been presented in research articles based on gesture recognition to try to create an effective system to send non-verbal natural communication information to computers, using both physical sensors and computer vision. Hyper accurate real-time systems, on the other hand, have only recently began to occupy the study field, with each adopting a range of methodologies due to past limits such as usability, cost, speed, and accuracy. A real-time computer vision-based human-computer interaction tool for gesture recognition applications that acts as a natural user interface is proposed. Virtual glove markers on users hands will be created and used as input to a deep learning model for the real-time recognition of gestures. The results obtained show that the proposed system would be effective in real-time applications including social interaction through telepresence and rehabilitation.
翻訳日:2022-07-07 12:51:26 公開日:2022-07-06
# 音声言語の二重調音解析のための脳誘発確率生成モデル

Brain-inspired probabilistic generative model for double articulation analysis of spoken language ( http://arxiv.org/abs/2207.02457v1 )

ライセンス: Link先を確認
Akira Taniguchi, Maoko Muro, Hiroshi Yamakawa, Tadahiro Taniguchi(参考訳) ヒト脳は、そのいくつかの機能の中で、音声言語における二重関節構造、すなわち二重関節分析(DAA)を分析している。 単語が接続されて文を形成し、単語が音素や音節で構成された階層構造を二重調音構造と呼ぶ。 人間の脳内でDAAがどのように実行されるかは確立されていないが、いくつかの知見が得られている。 さらに、確率的生成モデル(PGM)に基づく既存の計算モデルは神経科学的な知見を取り入れておらず、脳との整合性については議論されていない。 この研究は、これらの既存の計算モデルと神経科学的な知見を比較、マッピングし、統合し、このギャップを橋渡しし、今後の応用やさらなる研究に関係している。 本研究は、複数の神経科学調査の結果に基づいて、脳内で実現可能なdaa仮説のためのpgmを提案する。 研究は (i)音声言語処理に関する解剖学的構造の調査と組織化 (ii)関心領域の解剖と機能に一致するPGMの設計。 そこで本研究では,脳内DAAのさらなる探索の基礎となる新たな知見を提供する。

The human brain, among its several functions, analyzes the double articulation structure in spoken language, i.e., double articulation analysis (DAA). A hierarchical structure in which words are connected to form a sentence and words are composed of phonemes or syllables is called a double articulation structure. Where and how DAA is performed in the human brain has not been established, although some insights have been obtained. In addition, existing computational models based on a probabilistic generative model (PGM) do not incorporate neuroscientific findings, and their consistency with the brain has not been previously discussed. This study compared, mapped, and integrated these existing computational models with neuroscientific findings to bridge this gap, and the findings are relevant for future applications and further research. This study proposes a PGM for a DAA hypothesis that can be realized in the brain based on the outcomes of several neuroscientific surveys. The study involved (i) investigation and organization of anatomical structures related to spoken language processing, and (ii) design of a PGM that matches the anatomy and functions of the region of interest. Therefore, this study provides novel insights that will be foundational to further exploring DAA in the brain.
翻訳日:2022-07-07 12:51:11 公開日:2022-07-06
# 特異値分解を用いたtic-tac-toe評価関数の情報圧縮と性能評価

Information Compression and Performance Evaluation of Tic-Tac-Toe's Evaluation Function Using Singular Value Decomposition ( http://arxiv.org/abs/2207.02449v1 )

ライセンス: Link先を確認
Naoya Fujita and Hiroshi Watanabe(参考訳) ゲームTic-Tac-Toeの評価関数を特異値分解(SVD)により近似し,近似精度が勝利率に及ぼす影響を検討した。 まず,tic-tac-toeの完全評価関数を作成し,評価関数を9次テンソルとして低ランク近似を行った。 その結果,性能を著しく低下させることなく,評価関数の情報量を70%削減できることがわかった。 近似精度と勝利率の相関は強かったが,完全な比例は得られなかった。 また,評価関数の分解方法が性能に与える影響についても検討した。 評価関数を行列とする単純なSVDと,高次SVD(HOSVD)によるタッカー分解の2つの方法を検討した。 同じ圧縮比で,HOSVDで得られた近似評価関数を用いた戦略は,SVDで得られた戦略よりも有意に高い勝利率を示した。 これらの結果から,svdはボードゲーム戦略を効果的に圧縮でき,ゲームに依存する最適な圧縮方法が存在することが示唆された。

We approximated the evaluation function for the game Tic-Tac-Toe by singular value decomposition (SVD) and investigated the effect of approximation accuracy on winning rate. We first prepared the perfect evaluation function of Tic-Tac-Toe and performed low-rank approximation by considering the evaluation function as a ninth-order tensor. We found that we can reduce the amount of information of the evaluation function by 70% without significantly degrading the performance. Approximation accuracy and winning rate were strongly correlated but not perfectly proportional. We also investigated how the decomposition method of the evaluation function affects the performance. We considered two decomposition methods: simple SVD regarding the evaluation function as a matrix and the Tucker decomposition by higher-order SVD (HOSVD). At the same compression ratio, the strategy with the approximated evaluation function obtained by HOSVD exhibited a significantly higher winning rate than that obtained by SVD. These results suggest that SVD can effectively compress board game strategies and an optimal compression method that depends on the game exists.
翻訳日:2022-07-07 12:50:22 公開日:2022-07-06
# 局所注意とグリッドライクな問題表現を利用した素数計算システム

Transformers discover an elementary calculation system exploiting local attention and grid-like problem representation ( http://arxiv.org/abs/2207.02536v1 )

ライセンス: Link先を確認
Samuel Cognolato and Alberto Testolin(参考訳) 数学的推論は人間の知能の最も印象的な成果の1つだが、人工知能システムにとって依然として恐ろしい挑戦だ。 本研究では,現代的深層学習アーキテクチャが効果的な算術手順を発見すれば,記号的加算課題を解くことができるかを検討する。 この問題は一見すると自明に思えるかもしれないが、より長い桁列で構成されたより多くの項を含む演算に算術知識を一般化することは、ニューラルネットワークにとって極めて困難であることが証明されている。 本稿では,局所的注意と適応的停止機構を備えたユニバーサルトランスフォーマは,外部のグリッド状メモリを利用して複数桁の加算を行うことができることを示す。 提案モデルでは, トレーニング分布外の補間を必要とする問題に対して, 位置値アライメントなどの人為的な計算方法を発見することにより, 精度が著しく向上する。

Mathematical reasoning is one of the most impressive achievements of human intellect but remains a formidable challenge for artificial intelligence systems. In this work we explore whether modern deep learning architectures can learn to solve a symbolic addition task by discovering effective arithmetic procedures. Although the problem might seem trivial at first glance, generalizing arithmetic knowledge to operations involving a higher number of terms, possibly composed by longer sequences of digits, has proven extremely challenging for neural networks. Here we show that universal transformers equipped with local attention and adaptive halting mechanisms can learn to exploit an external, grid-like memory to carry out multi-digit addition. The proposed model achieves remarkable accuracy even when tested with problems requiring extrapolation outside the training distribution; most notably, it does so by discovering human-like calculation strategies such as place value alignment.
翻訳日:2022-07-07 12:49:31 公開日:2022-07-06
# メタラーニングのためのPAC予測セット

PAC Prediction Sets for Meta-Learning ( http://arxiv.org/abs/2207.02440v1 )

ライセンス: Link先を確認
Sangdon Park and Edgar Dobriban and Insup Lee and Osbert Bastani(参考訳) 不確実性定量化は、医療や自動運転車のような安全クリティカルなシステムをターゲットにした機械学習モデルの重要なコンポーネントである。 我々は,新しいタスクに予測器を迅速に適応させることを目的として,メタ学習の文脈でこの問題を研究する。 特に,ラベルの集合を通して不確実性を捕捉し,少数のトレーニング例で新しいタスクに適応できるような,emph{PAC prediction set} を構築する新しいアルゴリズムを提案する。 これらの予測セットは、典型的なpac保証のメタ学習設定への拡張を満たす;特に、pac保証は、将来のタスクよりも高い確率で保持される。 視覚領域の mini-ImageNet と CIFAR10-C ,言語領域の FewRel ,医療領域の CDC Heart Dataset という,3つのアプリケーション領域にわたる4つのデータセットに対するアプローチの有効性を示す。 特に、我々の予測セットは、この保証を満足する他のベースラインよりもサイズを小さくしながら、pac保証を満たす。

Uncertainty quantification is a key component of machine learning models targeted at safety-critical systems such as in healthcare or autonomous vehicles. We study this problem in the context of meta learning, where the goal is to quickly adapt a predictor to new tasks. In particular, we propose a novel algorithm to construct \emph{PAC prediction sets}, which capture uncertainty via sets of labels, that can be adapted to new tasks with only a few training examples. These prediction sets satisfy an extension of the typical PAC guarantee to the meta learning setting; in particular, the PAC guarantee holds with high probability over future tasks. We demonstrate the efficacy of our approach on four datasets across three application domains: mini-ImageNet and CIFAR10-C in the visual domain, FewRel in the language domain, and the CDC Heart Dataset in the medical domain. In particular, our prediction sets satisfy the PAC guarantee while having smaller size compared to other baselines that also satisfy this guarantee.
翻訳日:2022-07-07 12:48:54 公開日:2022-07-06
# オンライン実験設計による線形MDPのインスタンス依存ニア最適ポリシー同定

Instance-Dependent Near-Optimal Policy Identification in Linear MDPs via Online Experiment Design ( http://arxiv.org/abs/2207.02575v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Kevin Jamieson(参考訳) 強化学習(RL)のミニマックスサンプル複雑性("Worst-case"インスタンスでの学習の複雑さ)を理解するために多くの進歩があったが、そのような複雑さの尺度は学習の真の困難を捉えていないことが多い。 実際、"簡単"なインスタンスでは、最悪のケースで達成可能なものよりもはるかに複雑なものを達成することを望んでいます。 本研究は,線形関数近似を用いたRLの設定において,ニア最適化ポリシー(PAC RL)を学習する際の「インスタンス依存」の複雑さを理解することを目的とする。 本稿では,関数近似設定付きrlにおいて,その1つ目となる,複雑性のきめ細かなインスタンス依存測度を実現するアルゴリズムである \textsc{pedel} を提案する。 明示的な例を通して,低regret,minimax-Optimalアルゴリズムよりも証明可能なゲインが得られ,そのようなアルゴリズムがインスタンス最適化率に到達できないことを示す。 提案手法は, 探索予算を, 最適に近い政策の学習に最も関係のある「方向」に着目し, 独立した興味を持ったオンライン実験手法に依拠する。

While much progress has been made in understanding the minimax sample complexity of reinforcement learning (RL) -- the complexity of learning on the "worst-case" instance -- such measures of complexity often do not capture the true difficulty of learning. In practice, on an "easy" instance, we might hope to achieve a complexity far better than that achievable on the worst-case instance. In this work we seek to understand the "instance-dependent" complexity of learning near-optimal policies (PAC RL) in the setting of RL with linear function approximation. We propose an algorithm, \textsc{Pedel}, which achieves a fine-grained instance-dependent measure of complexity, the first of its kind in the RL with function approximation setting, thereby capturing the difficulty of learning on each particular problem instance. Through an explicit example, we show that \textsc{Pedel} yields provable gains over low-regret, minimax-optimal algorithms and that such algorithms are unable to hit the instance-optimal rate. Our approach relies on a novel online experiment design-based procedure which focuses the exploration budget on the "directions" most relevant to learning a near-optimal policy, and may be of independent interest.
翻訳日:2022-07-07 12:48:37 公開日:2022-07-06
# SGDはいつフラット・ミニマを好むのか? 線形安定性による定量的評価

When does SGD favor flat minima? A quantitative characterization via linear stability ( http://arxiv.org/abs/2207.02628v1 )

ライセンス: Link先を確認
Lei Wu, Mingze Wang, Weijie Su(参考訳) 確率勾配降下(SGD)が平坦な最小値を好むという観察は、SGDの暗黙の正規化を理解し、ハイパーパラメータのチューニングを導く上で、基本的な役割を担っている。 本稿では,SGDの特定の雑音構造と,その安定性を関連付けることで,この衝撃現象を定量的に説明する(Wu et al., 2018)。 具体的には,2乗損失を伴う過パラメータモデルのトレーニングを検討する。 ここで、$\|h(\theta^*)\|_f\leq o(\sqrt{b}/\eta)$, ここで、$\|h(\theta^*)\|_f, b,\eta$はそれぞれ$\theta^*$, batch size, learning rateでヘッセンのフロベニウスノルムを表す。 そうでなければ、SGDは最小限の \emph{exponentially} から脱落する。 したがって、SGDに到達可能なミニマに対して、ヘッセンのフロベニウスノルムによって測られる平坦性はモデルサイズとサンプルサイズとは独立に有界である。 これらの結果を得るための鍵は、SGDノイズの特定の幾何学的認識を活用することである。 1) 雑音の大きさは損失値に比例する。 2)騒音方向は地域景観の鋭い方向に集中する。 このsgdノイズの特性は線形ネットワークとランダム特徴モデル (rfms) で実現可能であり、非線形ネットワークで実証的に検証される。 さらに, 広範な数値実験により, 本理論の妥当性と妥当性を検証した。

The observation that stochastic gradient descent (SGD) favors flat minima has played a fundamental role in understanding implicit regularization of SGD and guiding the tuning of hyperparameters. In this paper, we provide a quantitative explanation of this striking phenomenon by relating the particular noise structure of SGD to its \emph{linear stability} (Wu et al., 2018). Specifically, we consider training over-parameterized models with square loss. We prove that if a global minimum $\theta^*$ is linearly stable for SGD, then it must satisfy $\|H(\theta^*)\|_F\leq O(\sqrt{B}/\eta)$, where $\|H(\theta^*)\|_F, B,\eta$ denote the Frobenius norm of Hessian at $\theta^*$, batch size, and learning rate, respectively. Otherwise, SGD will escape from that minimum \emph{exponentially} fast. Hence, for minima accessible to SGD, the flatness -- as measured by the Frobenius norm of the Hessian -- is bounded independently of the model size and sample size. The key to obtaining these results is exploiting the particular geometry awareness of SGD noise: 1) the noise magnitude is proportional to loss value; 2) the noise directions concentrate in the sharp directions of local landscape. This property of SGD noise provably holds for linear networks and random feature models (RFMs) and is empirically verified for nonlinear networks. Moreover, the validity and practical relevance of our theoretical findings are justified by extensive numerical experiments.
翻訳日:2022-07-07 12:48:15 公開日:2022-07-06
# 共形化量子レグレッションの改善

Improved conformalized quantile regression ( http://arxiv.org/abs/2207.02808v1 )

ライセンス: Link先を確認
Martim Sousa, Ana Maria Tom\'e, Jos\'e Moreira(参考訳) 共形分位回帰(conformalized quantile regression)は、共形予測と分位回帰の利点を継承する手続きである。 すなわち、量子レグレッションを用いて真の条件量子化を推定し、次に、限界カバレッジを確保するためにキャリブレーションセットに共形ステップを適用する。 このようにして、不整合性を考慮した適応予測間隔を得る。 しかし、前述の同型ステップには適応性がない(Romano et al., 2019)。 この制限を克服するために、条件量子化を量子レグレッションで推定した後、単一の共形ステップを適用する代わりに、最適化されたk-平均で置換の重要性によって重み付けられた説明変数をクラスタリングし、k共形ステップを適用することを提案する。 この改良版が従来の定型化量子量回帰よりも優れており、ヘテロシデスティック性に適応していることを示すため、オープンデータセットにおける両方の予測間隔を広範囲に比較した。

Conformalized quantile regression is a procedure that inherits the advantages of conformal prediction and quantile regression. That is, we use quantile regression to estimate the true conditional quantile and then apply a conformal step on a calibration set to ensure marginal coverage. In this way, we get adaptive prediction intervals that account for heteroscedasticity. However, the aforementioned conformal step lacks adaptiveness as described in (Romano et al., 2019). To overcome this limitation, instead of applying a single conformal step after estimating conditional quantiles with quantile regression, we propose to cluster the explanatory variables weighted by their permutation importance with an optimized k-means and apply k conformal steps. To show that this improved version outperforms the classic version of conformalized quantile regression and is more adaptive to heteroscedasticity, we extensively compare the prediction intervals of both in open datasets.
翻訳日:2022-07-07 12:47:44 公開日:2022-07-06
# カリキュラムに基づく曖昧さ解消による部分的マルチラベル画像分類のための深層モデル

A Deep Model for Partial Multi-Label Image Classification with Curriculum Based Disambiguation ( http://arxiv.org/abs/2207.02410v1 )

ライセンス: Link先を確認
Feng Sun, Ming-Kun Xie and Sheng-Jun Huang(参考訳) 本稿では,各画像に複数の関連ラベルおよび他のノイズラベルからなる候補ラベルセットをアノテートする部分的マルチラベル(PML)画像分類問題について検討する。 既存のPML手法は、通常、多くの実タスクでは利用できない余分な仮定で事前知識を利用することで、ノイズの多いラベルをフィルタリングする曖昧な戦略を設計する。 さらに、曖昧化目標関数は通常、トレーニングセット全体に対して精巧に設計されているため、sgdをミニバッチに組み込んだ深層モデルでは最適化が困難である。 本稿では,pmlの表現能力と識別能力を高めるために,pmlの深いモデルを提案する。 一方,異なる階層の様々な難易度を取り入れて,新たなカリキュラムに基づく曖昧さを段階的に識別する手法を提案する。 一方,モデルのリトレーニングにおいて,識別容易ラベルと潜在的関連ラベルのバランスをとるために,一貫性の正規化が導入された。 ベンチマークデータセットの広範囲な実験結果から,提案手法がsoma法を大幅に上回ることがわかった。

In this paper, we study the partial multi-label (PML) image classification problem, where each image is annotated with a candidate label set consists of multiple relevant labels and other noisy labels. Existing PML methods typically design a disambiguation strategy to filter out noisy labels by utilizing prior knowledge with extra assumptions, which unfortunately is unavailable in many real tasks. Furthermore, because the objective function for disambiguation is usually elaborately designed on the whole training set, it can be hardly optimized in a deep model with SGD on mini-batches. In this paper, for the first time we propose a deep model for PML to enhance the representation and discrimination ability. On one hand, we propose a novel curriculum based disambiguation strategy to progressively identify ground-truth labels by incorporating the varied difficulties of different classes. On the other hand, a consistency regularization is introduced for model retraining to balance fitting identified easy labels and exploiting potential relevant labels. Extensive experimental results on the commonly used benchmark datasets show the proposed method significantly outperforms the SOTA methods.
翻訳日:2022-07-07 12:46:02 公開日:2022-07-06
# eept: セマンティックな類似性を持つtwitterの新興エンティティの早期発見

EEPT: Early Discovery of Emerging Entities in Twitter with Semantic Similarity ( http://arxiv.org/abs/2207.02434v1 )

ライセンス: Link先を確認
Shahin Yousefi, Mohsen Hooshmand, Mohsen Afsharchi(参考訳) 将来起こる出来事は、企業、政府、そして私たちの個人的な生活にとっても重要だ。 設立前のイベントの予測は、効率的な意思決定に役立ちます。 このような出来事を創発的な実体と呼ぶ。 それらはまだ行われておらず、kbにはその情報はない。 しかし、いくつかの手がかりは様々な分野、特にソーシャルメディアに存在している。 したがって、このようなエンティティを検索することが可能である。 本稿では,新興物質の早期発見法を提案する。 ショートメッセージのセマンティッククラスタリングを使用します。 提案の性能を評価するために,性能評価指標を考案し,活用する。 提案手法は,Twitterのトレンドが常に有効であるとは限らない新興企業を探索する。

Some events which happen in the future could be important for companies, governments, and even our personal life. Prediction of these events before their establishment is helpful for efficient decision-making. We call such events emerging entities. They have not taken place yet, and there is no information about them in KB. However, some clues exist in different areas, especially on social media. Thus, retrieving these type of entities are possible. This paper proposes a method of early discovery of emerging entities. We use semantic clustering of short messages. To evaluate the performance of our proposal, we devise and utilize a performance evaluation metric. The results show that our proposed method finds those emerging entities of which Twitter trends are not always capable.
翻訳日:2022-07-07 12:45:45 公開日:2022-07-06
# (参考訳) 変分流図形モデル

Variational Flow Graphical Model ( http://arxiv.org/abs/2207.02722v1 )

ライセンス: CC BY 4.0
Shaogang Ren, Belhal Karimi, Dingcheng Li, Ping Li(参考訳) 本稿では,フローベースモデルに階層構造を組み込む新しい手法を提案する。 提案手法は変分フローグラフ(VFG)モデルと呼ばれる。 VFGは、変動推論を通じてフローベース関数を統合することにより、メッセージパス方式により高次元データの表現を学習する。 ニューラルネットワークの表現力を活用することで、vfgは低次元のデータ表現を生成し、多くのフローベースのモデルの欠点を克服し、通常は多くの自明な変数を含む高次元の潜在空間を必要とする。 集約ノードはVFGモデルで導入され、メッセージパッシングスキームを介して前方後方階層情報を統合する。 データ可能性のエビデンスローバウンド(ELBO)を最大化すると、各アグリゲーションノードの前方および後方メッセージを整合ノード状態に整合させる。 ELBOの目的に関する勾配更新によってモデルパラメータを学習するアルゴリズムが開発された。 集約ノードの整合性により、VFGはグラフィカル構造上の抽出可能な推論に適用できる。 表現学習と数値推論に加えて、VFGはグラフィカル潜在構造を持つデータセット上での分布モデリングの新しいアプローチを提供する。 さらに理論的な研究により、VFGは暗黙的に可逆なフローベース構造を活用することで普遍近似であることが示された。 柔軟なグラフィカル構造と優れた過大なパワーにより、VFGは確率的推論を改善するために使われる可能性がある。 実験では、VFGは複数のデータセット上でELBO(Low bound)と可能性値を改善する。

This paper introduces a novel approach to embed flow-based models with hierarchical structures. The proposed framework is named Variational Flow Graphical (VFG) Model. VFGs learn the representation of high dimensional data via a message-passing scheme by integrating flow-based functions through variational inference. By leveraging the expressive power of neural networks, VFGs produce a representation of the data using a lower dimension, thus overcoming the drawbacks of many flow-based models, usually requiring a high dimensional latent space involving many trivial variables. Aggregation nodes are introduced in the VFG models to integrate forward-backward hierarchical information via a message passing scheme. Maximizing the evidence lower bound (ELBO) of data likelihood aligns the forward and backward messages in each aggregation node achieving a consistency node state. Algorithms have been developed to learn model parameters through gradient updating regarding the ELBO objective. The consistency of aggregation nodes enable VFGs to be applicable in tractable inference on graphical structures. Besides representation learning and numerical inference, VFGs provide a new approach for distribution modeling on datasets with graphical latent structures. Additionally, theoretical study shows that VFGs are universal approximators by leveraging the implicitly invertible flow-based structures. With flexible graphical structures and superior excessive power, VFGs could potentially be used to improve probabilistic inference. In the experiments, VFGs achieves improved evidence lower bound (ELBO) and likelihood values on multiple datasets.
翻訳日:2022-07-07 12:42:35 公開日:2022-07-06
# 時系列予測のためのカオスエコー状態ネットワークの複合力学習

Composite FORCE learning of chaotic echo state networks for time-series prediction ( http://arxiv.org/abs/2207.02420v1 )

ライセンス: Link先を確認
Yansong Li, Kai Hu, Kohei Nakajima, and Yongping Pan(参考訳) リカレントニューラルネットワークの一種であるエコー状態ネットワーク(esn)は、ニューロンをランダムに再帰的に接続し、出力接続重みをトレーニングするだけで所望の出力を得る固定された貯水池で構成される。 first-order reduced and controlled error (force) learningは、esnのカオスアクティビティを特定のアクティビティパターンに変えることのできる、オンライン教師付きトレーニングアプローチである。 本稿では, 動的回帰器拡張とメモリデータを利用した複合学習手法を適用し, パラメータ収束を高めるために, 初期活動が自然カオスなESNを訓練するための再帰最小二乗法に基づく複合Force学習手法を提案する。 提案手法は,マッキーグラス系が生成するカオス時系列の予測に関するベンチマーク問題に適用し,従来の手法に比べて学習性能と予測性能が有意に向上することを示す。

Echo state network (ESN), a kind of recurrent neural networks, consists of a fixed reservoir in which neurons are connected randomly and recursively and obtains the desired output only by training output connection weights. First-order reduced and controlled error (FORCE) learning is an online supervised training approach that can change the chaotic activity of ESNs into specified activity patterns. This paper proposes a composite FORCE learning method based on recursive least squares to train ESNs whose initial activity is spontaneously chaotic, where a composite learning technique featured by dynamic regressor extension and memory data exploitation is applied to enhance parameter convergence. The proposed method is applied to a benchmark problem about predicting chaotic time series generated by the Mackey-Glass system, and numerical results have shown that it significantly improves learning and prediction performances compared with existing methods.
翻訳日:2022-07-07 12:16:27 公開日:2022-07-06
# テキストランキングにおけるトランスフォーマーにおける複合nlpの役割

The Role of Complex NLP in Transformers for Text Ranking? ( http://arxiv.org/abs/2207.02522v1 )

ライセンス: Link先を確認
David Rau, Jaap Kamps(参考訳) bm25のような用語ベースの手法はランク付けにおいて強力なベースラインを提供するが、特定の条件下ではbertのような大規模な事前学習されたマスク言語モデル(mlms)に支配されている。 今のところ、その効果の出所は不明である。 構文的な側面をモデル化することで、真の意味を理解する能力はあるか? 入力順序と位置情報を問合せと通過の自然な順序を損なう方法で操作することにより,モデルが依然として同等の性能を発揮することを示す。 以上の結果から,構文的側面はBERTによる再ランク付けの有効性において重要な役割を果たさないことが明らかとなった。 クエリ・パス・クロスアテンションやよりリッチな埋め込みなど,単語の順序に関わらず,単語の意味を集約したコンテキストに基づいてキャプチャするメカニズムを指摘する。

Even though term-based methods such as BM25 provide strong baselines in ranking, under certain conditions they are dominated by large pre-trained masked language models (MLMs) such as BERT. To date, the source of their effectiveness remains unclear. Is it their ability to truly understand the meaning through modeling syntactic aspects? We answer this by manipulating the input order and position information in a way that destroys the natural sequence order of query and passage and shows that the model still achieves comparable performance. Overall, our results highlight that syntactic aspects do not play a critical role in the effectiveness of re-ranking with BERT. We point to other mechanisms such as query-passage cross-attention and richer embeddings that capture word meanings based on aggregated context regardless of the word order for being the main attributions for its superior performance.
翻訳日:2022-07-07 12:16:09 公開日:2022-07-06
# (参考訳) MIA 2022 Shared Task Submission: Leveraging Entity Representations, Dense-Sparse Hybrids, Fusion-in-Decoder for cross-Lingual Question Answering

MIA 2022 Shared Task Submission: Leveraging Entity Representations, Dense-Sparse Hybrids, and Fusion-in-Decoder for Cross-Lingual Question Answering ( http://arxiv.org/abs/2207.01940v2 )

ライセンス: CC BY 4.0
Zhucheng Tu, Sarguna Janani Padmanabhan(参考訳) 複数言語情報アクセス(MIA)2022のための2段階システムについて述べる。 第1段階は多言語通訳検索とハイブリッド密集型スパース検索戦略からなる。 第2段は、第1段によって返される上位通路から回答を出力する読者で構成される。 本稿では,エンティティ表現と疎検索信号を用いた密検索と融合インデコーダの有効性を示す。 XOR-TyDi QAでは43.46 F1、MKQAでは21.99 F1、平均F1スコアは32.73となる。 テストセットでは、XOR-TyDi QAで40.93 F1、MKQAで22.29 F1、平均F1スコア31.61を得る。 開発とテストセットの両方において、公式のベースラインよりも4F1ポイント以上改善します。

We describe our two-stage system for the Multilingual Information Access (MIA) 2022 Shared Task on Cross-Lingual Open-Retrieval Question Answering. The first stage consists of multilingual passage retrieval with a hybrid dense and sparse retrieval strategy. The second stage consists of a reader which outputs the answer from the top passages returned by the first stage. We show the efficacy of using entity representations, sparse retrieval signals to help dense retrieval, and Fusion-in-Decoder. On the development set, we obtain 43.46 F1 on XOR-TyDi QA and 21.99 F1 on MKQA, for an average F1 score of 32.73. On the test set, we obtain 40.93 F1 on XOR-TyDi QA and 22.29 F1 on MKQA, for an average F1 score of 31.61. We improve over the official baseline by over 4 F1 points on both the development and test sets.
翻訳日:2022-07-07 12:13:29 公開日:2022-07-06
# 医用画像量化における臨床医の多様性の定量化のためのベイズ的アプローチ

Bayesian approaches for Quantifying Clinicians' Variability in Medical Image Quantification ( http://arxiv.org/abs/2207.01868v2 )

ライセンス: Link先を確認
Jaeik Jeon, Yeonggul Jang, Youngtaek Hong, Hackjoon Shim, Sekeun Kim(参考訳) MRI、CT、超音波などの医療画像は臨床診断において重要な役割を果たす。 画像から興味の構造を測定するためには正確なセグメンテーションが不可欠である。 しかし、手動のセグメンテーションは演算子に依存しており、測定値のインターおよびイントラバリアビリティが高い。 本稿では,ディープニューラルネットワークによってパラメータ化されたベイズ予測分布が臨床医のイントラ変動を捉える可能性について検討する。 最近出現した近似推論スキームの探索と解析により,後方分割による近似ベイズ深層学習が,セグメンテーションと臨床計測の両方においてイントラ・リサー間変動を学習できるかどうかを評価できる。 実験はMRIと超音波の2つの異なる画像モードで実施される。 深層ニューラルネットワークによってパラメータ化されたベイズ予測分布が臨床医のイントラ変動を近似できることを実証的に実証した。 臨床計測の不確実性を提供することにより, 医用画像の定量的解析に新たな展望を示す。

Medical imaging, including MRI, CT, and Ultrasound, plays a vital role in clinical decisions. Accurate segmentation is essential to measure the structure of interest from the image. However, manual segmentation is highly operator-dependent, which leads to high inter and intra-variability of quantitative measurements. In this paper, we explore the feasibility that Bayesian predictive distribution parameterized by deep neural networks can capture the clinicians' inter-intra variability. By exploring and analyzing recently emerged approximate inference schemes, we evaluate whether approximate Bayesian deep learning with the posterior over segmentations can learn inter-intra rater variability both in segmentation and clinical measurements. The experiments are performed with two different imaging modalities: MRI and ultrasound. We empirically demonstrated that Bayesian predictive distribution parameterized by deep neural networks could approximate the clinicians' inter-intra variability. We show a new perspective in analyzing medical images quantitatively by providing clinical measurement uncertainty.
翻訳日:2022-07-07 11:59:50 公開日:2022-07-06
# latents2segments:顔画像の意味セグメンテーションのための生成モデルの潜在空間の分離

Latents2Segments: Disentangling the Latent Space of Generative Models for Semantic Segmentation of Face Images ( http://arxiv.org/abs/2207.01871v2 )

ライセンス: Link先を確認
Snehal Singh Tomar and A.N. Rajagopalan(参考訳) 人間の顔の画像に対して有意義で制御されたスタイル編集を行うために、拡張現実やバーチャルリアリティーのアプリケーションが増えてきているため、顔画像を解析して正確な細かなセマンティックセグメンテーションマップを作成するという作業は、これまで以上に重要になっている。 この問題を解決したSOTA(State of the Art)の手法はほとんどなく、顔の構造や表情などの顔の属性に関して事前を組み込んで、それらの深層分類器アーキテクチャでポーズする。 本研究における我々の取り組みは、生成型オートエンコーダモデルの潜在空間における顔意味領域(rois)に対する不連続の注入の下流タスクとして、この操作を再現することにより、somaマルチクラス顔セグメンテーションモデルに必要な事前および複雑な前処理操作を解消することである。 本稿では,CelebAMask-HQおよびHELENデータセットにおけるモデルの性能について述べる。 我々のモデルの符号化された潜在空間は、他のSOTAの作業よりも意味論的ROIに関してはるかに高い歪みを達成する。 さらに、顔画像のセマンティックセグメンテーションの下流タスクにおいて、一般に利用可能なSOTAに対して、13%高速な推論率と同等の精度を達成する。

With the advent of an increasing number of Augmented and Virtual Reality applications that aim to perform meaningful and controlled style edits on images of human faces, the impetus for the task of parsing face images to produce accurate and fine-grained semantic segmentation maps is more than ever before. Few State of the Art (SOTA) methods which solve this problem, do so by incorporating priors with respect to facial structure or other face attributes such as expression and pose in their deep classifier architecture. Our endeavour in this work is to do away with the priors and complex pre-processing operations required by SOTA multi-class face segmentation models by reframing this operation as a downstream task post infusion of disentanglement with respect to facial semantic regions of interest (ROIs) in the latent space of a Generative Autoencoder model. We present results for our model's performance on the CelebAMask-HQ and HELEN datasets. The encoded latent space of our model achieves significantly higher disentanglement with respect to semantic ROIs than that of other SOTA works. Moreover, it achieves a 13% faster inference rate and comparable accuracy with respect to the publicly available SOTA for the downstream task of semantic segmentation of face images.
翻訳日:2022-07-07 11:59:35 公開日:2022-07-06
# マルチスリープデータベース:自動睡眠スコアリングにおけるマルチラベルの活用法

Multi-Scored Sleep Databases: How to Exploit the Multiple-Labels in Automated Sleep Scoring ( http://arxiv.org/abs/2207.01910v2 )

ライセンス: Link先を確認
Luigi Fiorillo, Davide Pedroncelli, Valentina Agostini, Paolo Favaro, Francesca Dalia Faraci(参考訳) 研究対象:ポリソムノグラムのスコアリングにおけるスカラー間変動はよく知られた問題である。 既存の自動睡眠スコアリングシステムの多くは、1つのスコアラーがアノテートしたラベルを用いてトレーニングされ、その主観評価はモデルに転送される。 2つ以上のスコアラーからのアノテーションが利用できる場合、スコアラーのコンセンサスに基づいてスコアモデルがトレーニングされる。 平均スコアラーの主観性はモデルに伝達され、異なるスコアラーの内部変動に関する情報が失われる。 本研究では,異なる医師の複数知識をトレーニング手順に挿入することを目的として,スコアラーのグループのコンセンサスから抽出できる全情報を活用して,モデルトレーニングを最適化することを目的とする。 方法:3つの異なるマルチスコープデータベースに基づいて2つの軽量ディープラーニングモデルを訓練する。 ラベル平滑化手法とLSSC(Soft-Consensus)分布を併用して,モデルのトレーニング手順に多重知識を挿入する。 本稿では,平均コサイン類似度指標(acs)を導入し,モデル with-lssc が生成するヒップノード類似度グラフとスコアラーコンセンサスが生成するヒップノード類似度グラフとの類似度を定量化する。 結果:LSSCでモデルをトレーニングすると,モデルの性能がすべてのデータベースで向上する。 その結果,ALSはLSSCで訓練したモデルで生成した催眠性グラフとコンセンサスで生成した催眠性グラフとの間に6.4%増加していた。 結論:我々のアプローチは間違いなく、スコアラーのグループのコンセンサスに適応するモデルを可能にします。 今後の作業では、さまざまなスコアリングアーキテクチャに関するさらなる調査に注力する予定である。

Study Objectives: Inter-scorer variability in scoring polysomnograms is a well-known problem. Most of the existing automated sleep scoring systems are trained using labels annotated by a single scorer, whose subjective evaluation is transferred to the model. When annotations from two or more scorers are available, the scoring models are usually trained on the scorer consensus. The averaged scorer's subjectivity is transferred into the model, losing information about the internal variability among different scorers. In this study, we aim to insert the multiple-knowledge of the different physicians into the training procedure.The goal is to optimize a model training, exploiting the full information that can be extracted from the consensus of a group of scorers. Methods: We train two lightweight deep learning based models on three different multi-scored databases. We exploit the label smoothing technique together with a soft-consensus (LSSC) distribution to insert the multiple-knowledge in the training procedure of the model. We introduce the averaged cosine similarity metric (ACS) to quantify the similarity between the hypnodensity-graph generated by the models with-LSSC and the hypnodensity-graph generated by the scorer consensus. Results: The performance of the models improves on all the databases when we train the models with our LSSC. We found an increase in ACS (up to 6.4%) between the hypnodensity-graph generated by the models trained with-LSSC and the hypnodensity-graph generated by the consensus. Conclusions: Our approach definitely enables a model to better adapt to the consensus of the group of scorers. Future work will focus on further investigations on different scoring architectures.
翻訳日:2022-07-07 11:59:12 公開日:2022-07-06
# 室内クアッドコプターを用いたマルチエージェントパスの計画実行

Plan Execution for Multi-Agent Path Finding with Indoor Quadcopters ( http://arxiv.org/abs/2207.01752v2 )

ライセンス: Link先を確認
Matou\v{s} Kulhan and Pavel Surynek(参考訳) 本稿では,マルチエージェントパス探索(MAPF)問題に対する計画と行動フェーズについて検討する。 MAPFは、エージェントが互いに衝突しないように、エージェントをスタート位置から特定の個々のゴール位置にナビゲートする問題である。 具体的には,小型の屋内クワッドコプター群によるMAPF計画の実行に焦点を当てた。 クワッドコプターでの実行に適した計画を作成するために,既存の連続時間コンフリクトに基づく探索アルゴリズム(CCBS)の修正方法を示す。 実行フェーズでは、locoポジショニングシステムを使用して、プランが正しく実行されるかをチェックする。 我々の発見は、ccbsアルゴリズムがクワッドコプターの安全な計画を生成する拡張を可能にすること、すなわち、各クワッドコプターの周りの円筒保護ゾーンを計画レベルで導入できることである。

We study the planning and acting phase for the problem of multi-agent path finding (MAPF) in this paper. MAPF is a problem of navigating agents from their start positions to specified individual goal positions so that agents do not collide with each other. Specifically we focus on executing MAPF plans with a group of Crazyflies, small indoor quadcopters . We show how to modify the existing continuous time conflict-based search algorithm (CCBS) to produce plans that are suitable for execution with the quadcopters. The acting phase uses the the Loco positioning system to check if the plan is executed correctly. Our finding is that the CCBS algorithm allows for extensions that can produce safe plans for quadcopters, namely cylindrical protection zone around each quadcopter can be introduced at the planning level.
翻訳日:2022-07-07 11:58:43 公開日:2022-07-06
# 言語と視覚摂動に対するマルチモーダルロバストネス解析

Multi-modal Robustness Analysis Against Language and Visual Perturbations ( http://arxiv.org/abs/2207.02159v2 )

ライセンス: Link先を確認
Madeline C. Schiappa, Shruti Vyas, Hamid Palangi, Yogesh S. Rawat, Vibhav Vineet(参考訳) 大規模データセットを用いた共同視覚と言語モデリングは、最近、単一のモーダル学習と比較して、マルチモーダルタスクの良好な進歩を示している。 しかし、現実世界の摂動に対するこれらのアプローチの堅牢性は研究されていない。 本研究では,映像と言語に着目した様々な現実世界の摂動に対して,このようなモデルを用いた大規模ロバストネス研究を行う。 テキスト間検索に焦点をあて,90の異なる視覚と35の異なるテキスト摂動を利用する2つの大規模ベンチマークデータセットMSRVTT-PとYouCook2-Pを提案する。 この研究は興味深い発見をいくつか示しています。 1)テキストの摂動時とビデオの摂動時とでは,研究モデルの方が頑健である 2) トランスフォーマーテキストエンコーダは, 単語埋め込み手法と比較して, テキストの摂動や視覚の摂動に頑健である。 3) 2分岐エンコーダを分離して使用する場合、アーキテクチャがクロスアテンションを使用する場合よりも頑健である。 この研究がベンチマークとなり、堅牢なマルチモーダル学習における今後の研究のガイドとなることを願っています。

Joint visual and language modeling on large-scale datasets has recently shown a good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of such models against various real-world perturbations focusing on video and language. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different textual perturbations. The study reveals some interesting findings: 1) The studied models are more robust when text is perturbed versus when video is perturbed 2) The transformer text encoder is more robust on non-semantic changing text perturbations and visual perturbations compared to word embedding approaches. 3) Using two-branch encoders in isolation is typically more robust than when architectures use cross-attention. We hope this study will serve as a benchmark and guide future research in robust multimodal learning.
翻訳日:2022-07-07 11:58:28 公開日:2022-07-06