このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221009となっている論文です。

PDF登録状況(公開日: 20221009)

TitleAuthorsAbstract論文公表日・翻訳日
# FPGAプラットフォームを用いたディジタルQS-SVMビームフォーマの実装

Implementation of the Digital QS-SVM-based Beamformer on an FPGA Platform ( http://arxiv.org/abs/2211.01763v1 )

ライセンス: Link先を確認
Somayeh Komeylian and Christopher Paolini(参考訳) マルチパス効果、低レイテンシ、小型化、高データレートなどのロバストな無線接続を確立する上での実践的な課題に対処するため、ディジタルビームフォーマを10GHzの動作周波数でハイブリッドアンテナアレイで行う。 提案するディジタルビームフォーマは,空間フィルタとして,DOA(Direction of Arrival)推定とビームフォーミングを行うことができる。 DoA推定のためのサポートベクトルマシン(SVM)の最も確立された機械学習技術は、線形分離可能なデータセットの問題に限られている。 上記の制約を克服するため,提案したビームフォーマでは,LCMVとMVDRの2つのビームフォーミング技術に加えて,小さな正規化器を用いたQS-SVM分類器がDoA推定に用いられている。 この研究で詳細に示されているように、QS-SVMベースのビームフォーマはFPGAボードにデプロイされている。 その結果、QS-SVMベースのビームフォーマは、望ましくない信号の抑制、望ましくない信号の10dB未満のパワーを持つディープヌル、および所望の信号の転送において、強い性能を実証した。 さらに,QS-SVMをベースとしたビームフォーマの性能は,ミリ秒平均遅延時間,90倍以上の性能効率,100倍程度のスループットといった他の利点があることを示した。

To address practical challenges in establishing and maintaining robust wireless connectivity such as multi-path effects, low latency, size reduction, and high data rate, the digital beamformer is performed by the hybrid antenna array at the frequency of operation of 10 GHz. The proposed digital beamformer, as a spatial filter, is capable of performing Direction of Arrival (DOA) estimation and beamforming. The most well-established machine learning technique of support vector machine (SVM) for the DoA estimation is limited to problems with linearly-separable datasets. To overcome the aforementioned constraint, in the proposed beamformer, the QS-SVM classifier with a small regularizer has been used for the DoA estimation in addition to the two beamforming techniques of LCMV and MVDR. The QS-SVM-based beamformer has been deployed in an FPGA board, as demonstrated in detail in this work. The implementation results have verified the strong performance of the QS-SVM-based beamformer in suppressing undesired signals, deep nulls with powers less than -10 dB in undesired signals, and transferring desired signals. Furthermore, we have demonstrated that the performance of the QS-SVM-based beamformer consists of other advantages of average latency time in the order of milliseconds, performance efficiency of more than 90\%, and throughput of about 100\%.
翻訳日:2022-11-06 15:13:06 公開日:2022-10-09
# 電界超解像のための学習テクスチャトランスネットワーク

Learning Texture Transformer Network for Light Field Super-Resolution ( http://arxiv.org/abs/2210.09293v1 )

ライセンス: Link先を確認
Javeria Shabbir, M. Zeshan Alam, M. Umair Mukati(参考訳) ハンドヘルド光界カメラは、固有の時空間角のトレードオフにより、空間分解能が低い。 本稿では,テクスチュアトランスフォーマーネットワーク(TTSR)を用いて,光画像の空間分解能を向上させる手法を提案する。 提案手法は3つのモジュールから構成される: 1つ目のモジュールは2番目のモジュール、すなわちttsrの参照画像として機能するオールインフォーカス高分解能視点画像を生成する。 最後のモジュールは、光場を事前に設定することで空間分解能を洗練する。 4dBから6dBのPSNRゲインを2次元再構成光場画像上で実証した。

Hand-held light field cameras suffer from low spatial resolution due to the inherent spatio-angular tradeoff. In this paper, we propose a method to improve the spatial resolution of light field images with the aid of the Texture Transformer Network (TTSR). The proposed method consists of three modules: the first module produces an all-in focus high-resolution perspective image which serves as a reference image for the second module, i.e. TTSR, which in turn produces a high-resolution light field. The last module refines the spatial resolution by imposing a light field prior. The results demonstrate around 4 dB to 6 dB PSNR gain over a bicubically resized light field image
翻訳日:2022-10-30 12:18:14 公開日:2022-10-09
# SML:CTR予測のためのスキップメタロジットによるネットワーク平滑化

SML:Enhance the Network Smoothness with Skip Meta Logit for CTR Prediction ( http://arxiv.org/abs/2210.10725v1 )

ライセンス: Link先を確認
Wenlong Deng, Lang Lang, Zhen Liu, Bin Liu(参考訳) 本稿では,ResNetにおけるスキップ接続によるスムーズ性を考慮して,任意のDNN次元に適合し,ResNetに類似した特性を取り入れたスキップ接続機構を提案する。 meta tanh normalization (mtn) は分散情報を学習し、トレーニングプロセスを安定化するために設計されている。 これらの繊細な設計により、Skip Meta Logit(SML)は、2つの実世界のデータセット上での広範なSOTA ctr予測モデルの性能を漸進的に向上させた。 一方,任意に深いスキップロジットネットワークの最適化環境は局所的オプティマを持たないことを証明した。 最後に、SMLはビルディングブロックに簡単に追加でき、オフラインの精度とオンラインビジネスメトリクスをTikTokでシステムランキングを学習するアプリ広告で得ている。

In light of the smoothness property brought by skip connections in ResNet, this paper proposed the Skip Logit to introduce the skip connection mechanism that fits arbitrary DNN dimensions and embraces similar properties to ResNet. Meta Tanh Normalization (MTN) is designed to learn variance information and stabilize the training process. With these delicate designs, our Skip Meta Logit (SML) brought incremental boosts to the performance of extensive SOTA ctr prediction models on two real-world datasets. In the meantime, we prove that the optimization landscape of arbitrarily deep skip logit networks has no spurious local optima. Finally, SML can be easily added to building blocks and has delivered offline accuracy and online business metrics gains on app ads learning to rank systems at TikTok.
翻訳日:2022-10-30 12:17:31 公開日:2022-10-09
# 地理空間知識グラフによるネットワークレジリエンスの測定:米国多商品フローネットワークを事例として

Measuring Network Resilience via Geospatial Knowledge Graph: a Case Study of the US Multi-Commodity Flow Network ( http://arxiv.org/abs/2210.08042v1 )

ライセンス: Link先を確認
Jinmeng Rao, Song Gao, Michelle Miller, Alfonso Morales(参考訳) 食品システムのレジリエンスの定量化は,食品のセキュリティ問題において重要である。 本研究では,マルチコモディティフローネットワークのレジリエンスを測定するための地理空間知識グラフ(GeoKG)を用いた手法を提案する。 具体的には,マルチコモディティフローネットワークの地理空間的意味論を包括的に記述するcfs-geokgオントロジーを開発し,食品サプライチェーンにおけるノードレベルおよびネットワークレベル依存度を測定するレジリエンス指標を設計する。 我々は,階層的な商品タイプを持つ米国レベルの農業用多商品フローネットワークのケーススタディを行う。 以上の結果から,geokgを活用することで,空間的・時間的・ノードレベルのレジリエンスを計測し,異なる地理的スケールで空間的ネットワーク内の農業資源の集中度パターンを探索するのに役立つことが示唆された。

Quantifying the resilience in the food system is important for food security issues. In this work, we present a geospatial knowledge graph (GeoKG)-based method for measuring the resilience of a multi-commodity flow network. Specifically, we develop a CFS-GeoKG ontology to describe geospatial semantics of a multi-commodity flow network comprehensively, and design resilience metrics that measure the node-level and network-level dependence of single-sourcing, distant, or non-adjacent suppliers/customers in food supply chains. We conduct a case study of the US state-level agricultural multi-commodity flow network with hierarchical commodity types. The results indicate that, by leveraging GeoKG, our method supports measuring both node-level and network-level resilience across space and over time and also helps discover concentration patterns of agricultural resources in the spatial network at different geographic scales.
翻訳日:2022-10-30 12:10:10 公開日:2022-10-09
# vcse: 時間領域ビジュアルコンテキスト話者抽出ネットワーク

VCSE: Time-Domain Visual-Contextual Speaker Extraction Network ( http://arxiv.org/abs/2210.06177v1 )

ライセンス: Link先を確認
Junjie Li, Meng Ge, Zexu Pan, Longbiao Wang, Jianwu Dang(参考訳) 話者抽出は、補助参照が与えられたマルチストーカーシナリオでターゲット音声を抽出しようとする。 そのような参照は、聴覚、すなわち予め録音された音声、視覚、唇の動き、あるいは文脈、すなわち音素列である。 異なるモダリティの参照は、ターゲットの話者にトップダウンの注意を向けるために融合できる、個別で補完的な情報を提供する。 これまでの研究では、視覚と文脈のモダリティを1つのモデルに導入している。 本稿では,すべてのモダリティを最大限に活用するために,ステージごとに視覚的および自己表現された文脈的手がかりを組み込んだ2段階の時間領域視覚コンテキスト話者抽出ネットワークvcseを提案する。 第1段階では、目標音声を視覚手がかりで予め抽出し、基本音素列を推定する。 第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。 実世界のLip Reading Sentences 3(LRS3)データベースの実験結果から,提案したVCSEネットワークは,他の最先端のベースラインよりも一貫して優れていることが示された。

Speaker extraction seeks to extract the target speech in a multi-talker scenario given an auxiliary reference. Such reference can be auditory, i.e., a pre-recorded speech, visual, i.e., lip movements, or contextual, i.e., phonetic sequence. References in different modalities provide distinct and complementary information that could be fused to form top-down attention on the target speaker. Previous studies have introduced visual and contextual modalities in a single model. In this paper, we propose a two-stage time-domain visual-contextual speaker extraction network named VCSE, which incorporates visual and self-enrolled contextual cues stage by stage to take full advantage of every modality. In the first stage, we pre-extract a target speech with visual cues and estimate the underlying phonetic sequence. In the second stage, we refine the pre-extracted target speech with the self-enrolled contextual cues. Experimental results on the real-world Lip Reading Sentences 3 (LRS3) database demonstrate that our proposed VCSE network consistently outperforms other state-of-the-art baselines.
翻訳日:2022-10-13 13:19:37 公開日:2022-10-09
# 可変X線画像合成のための自己注意ガイド付きマルチスケールグラディエントGAN

A Self-attention Guided Multi-scale Gradient GAN for Diversified X-ray Image Synthesis ( http://arxiv.org/abs/2210.06334v1 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Mubashir Husain Rehmani, and Ruairi O'Reilly(参考訳) 不均衡画像データセットは、バイオメディカル画像分析の領域で一般的に利用できる。 バイオメディカル画像は、標的疾患の予測に重要な多様な特徴を含んでいる。 GAN(Generative Adversarial Networks)を用いて,合成画像の生成によるデータ制限問題に対処する。 モード崩壊、非コンバージェンス、不安定といったトレーニング課題は、多様化した高品質の画像の合成においてganのパフォーマンスを劣化させる。 本研究では,生物医用画像特徴の長期依存関係をモデル化し,生成層と判別器モデルの複数解像度におけるマルチスケール勾配の流れを用いてトレーニング性能を向上させるために,注意誘導型多スケール勾配ganアーキテクチャを提案する。 本研究の目的は,モード崩壊の影響を低減し,マルチスケール勾配学習によるマルチスケールX線画像合成によるGANの訓練を安定化することである。 マルチスケール構造類似度指数測定(MS-SSIM)とFrechet Inception Distance(FID)を用いてモード崩壊の発生を特定し,生成した合成画像の多様性を評価する。 提案アーキテクチャは、生成した合成画像の多様性を評価するために、マルチスケール勾配GAN(MSG-GAN)と比較する。 以上の結果から,SAMGANはMS-SSIMとFIDスコアにより,多彩な画像の合成においてMSG-GANよりも優れていた。

Imbalanced image datasets are commonly available in the domain of biomedical image analysis. Biomedical images contain diversified features that are significant in predicting targeted diseases. Generative Adversarial Networks (GANs) are utilized to address the data limitation problem via the generation of synthetic images. Training challenges such as mode collapse, non-convergence, and instability degrade a GAN's performance in synthesizing diversified and high-quality images. In this work, SAMGAN, an attention-guided multi-scale gradient GAN architecture is proposed to model the relationship between long-range dependencies of biomedical image features and improves the training performance using a flow of multi-scale gradients at multiple resolutions in the layers of generator and discriminator models. The intent is to reduce the impact of mode collapse and stabilize the training of GAN using an attention mechanism with multi-scale gradient learning for diversified X-ray image synthesis. Multi-scale Structural Similarity Index Measure (MS-SSIM) and Frechet Inception Distance (FID) are used to identify the occurrence of mode collapse and evaluate the diversity of synthetic images generated. The proposed architecture is compared with the multi-scale gradient GAN (MSG-GAN) to assess the diversity of generated synthetic images. Results indicate that the SAMGAN outperforms MSG-GAN in synthesizing diversified images as evidenced by the MS-SSIM and FID scores.
翻訳日:2022-10-13 12:14:34 公開日:2022-10-09
# ドメイン知識を駆使した深層優先画像の不確かさ認識

Uncertainty-Aware Unsupervised Image Deblurring with Deep Priors Guided by Domain Knowledge ( http://arxiv.org/abs/2210.05361v1 )

ライセンス: Link先を確認
Xiaole Tang, Xile Zhao, Jun Liu, Jianli Wang, Yuchun Miao, Tieyong Zeng(参考訳) 非ブラインドデブロワー法は、正確なぼやけたカーネル仮定の下で良好な性能を達成する。 実際にはカーネルエラーは避けられないため、リングアーティファクトは非盲検でしばしば導入される。 近年、セミブレンドデブロアリング法は、カーネルの事前(または誘導)エラーを導入することで、カーネルの不確実性を扱うことができる。 しかし、カーネル(または誘導エラー)の適切な事前設計方法はまだ難しいままである。 ドメイン知識を組み込んだ手作りの事前処理は一般的にはうまく機能するが、カーネル(または誘導)エラーが複雑である場合、パフォーマンスが低下する可能性がある。 トレーニングデータの多様性と多さに過度に依存するデータ駆動事前は、アウト・オブ・ディストリビューションの曖昧さやイメージに対して脆弱である。 この課題に対処するために、カスタマイズされた未トレーニングのディープニューラルネットワークによって表現されるカーネル誘導エラー(残留と判定される)に対して、データフリーのディープ前処理を提案する。 深部プリエントと手作りプリエントのそれぞれの強度を有機的に統合することにより,ぼかし画像と不正確なぼかしカーネルから潜在画像を復元する非教師付き半ブリンドデブラリングモデルを提案する。 定式化モデルに対処するため,効率的な交互最小化アルゴリズムを開発した。 画像品質とカーネルエラーに対する堅牢性の観点から,データ駆動型先行法と手作り型先行法の両方に対して提案手法が優れていることを示す。

Non-blind deblurring methods achieve decent performance under the accurate blur kernel assumption. Since the kernel error is inevitable in practice, ringing artifacts are often introduced by non-blind deblurring. Recently, semi-blind deblurring methods can handle kernel uncertainty by introducing the prior of the kernel (or induced) error. However, how to design a suitable prior for the kernel (or induced) error remains challenging. Hand-crafted prior, incorporating domain knowledge, generally performs well but may lead to poor performance when kernel (or induced) error is complex. Data-driven prior, which excessively depends on the diversity and abundance of training data, is vulnerable to out-of-distribution blurs and images. To address this challenge, we suggest a data-free deep prior for the kernel induced error (termed as residual) expressed by a customized untrained deep neural network, which allows us to flexibly adapt to different blurs and images in real scenarios. By organically integrating the respective strengths of deep priors and hand-crafted priors, we propose an unsupervised semi-blind deblurring model which recovers the latent image from the blurry image and inaccurate blur kernel. To tackle the formulated model, an efficient alternating minimization algorithm is developed. Extensive experiments demonstrate the superiority of the proposed method to both data-driven prior and hand-crafted prior based methods in terms of the image quality and the robustness to the kernel error.
翻訳日:2022-10-12 16:22:07 公開日:2022-10-09
# qute: 偽発見率制御を用いたセンサネットワークの分散多重テスト

QuTE: decentralized multiple testing on sensor networks with false discovery rate control ( http://arxiv.org/abs/2210.04334v1 )

ライセンス: Link先を確認
Aaditya Ramdas and Jianbo Chen and Martin J. Wainwright and Michael I. Jordan(参考訳) 本稿では,偽発見率 (fdr) の証明可能な保証を備えたグラフ上での分散多重仮説検定法を考案する。 異なるエージェントが無向グラフのノードに存在し、各エージェントはそのノードに局所的な1つ以上の仮説に対応するp値を持つ。 各エージェントは、グラフ全体のグローバルFDRが予め定義されたレベルで制御されなければならないという共同の目的により、隣人とのみ通信することで、それぞれのローカル仮説の1つ以上の拒絶を個別に決めなければならない。 本稿では,クエリテスト交換(qute)アルゴリズムの簡便な分散ファミリーを提案し,独立性やp値の正の依存によりfdrを制御できることを証明する。 提案アルゴリズムは,通信のグラフ次元ラウンド後のBenjamini-Hochberg (BH) アルゴリズムと,通信が起こらなかったり,グラフが空であったりした場合のBonferroniプロシージャに還元する。 実数値p値の通信を避けるために,量子化されたbh手続きを開発し,量子化されたqute手続きに拡張する。 QuTEはストリーミングデータ設定でシームレスに動作し、任意の時間価のp値が各ノードで継続的に更新される。 最後にQuTEは、任意のパケットのドロップ、あるいは各ステップで変化するグラフに対して堅牢であり、特にドローンや他のマルチエージェントシステムを含むモバイルセンサーネットワークに適している。 様々なグラフ構造上の様々なレベルの接続と通信のシミュレーションスイートを用いて,提案手法のパワーについて検討し,実世界の実例を示す。

This paper designs methods for decentralized multiple hypothesis testing on graphs that are equipped with provable guarantees on the false discovery rate (FDR). We consider the setting where distinct agents reside on the nodes of an undirected graph, and each agent possesses p-values corresponding to one or more hypotheses local to its node. Each agent must individually decide whether to reject one or more of its local hypotheses by only communicating with its neighbors, with the joint aim that the global FDR over the entire graph must be controlled at a predefined level. We propose a simple decentralized family of Query-Test-Exchange (QuTE) algorithms and prove that they can control FDR under independence or positive dependence of the p-values. Our algorithm reduces to the Benjamini-Hochberg (BH) algorithm when after graph-diameter rounds of communication, and to the Bonferroni procedure when no communication has occurred or the graph is empty. To avoid communicating real-valued p-values, we develop a quantized BH procedure, and extend it to a quantized QuTE procedure. QuTE works seamlessly in streaming data settings, where anytime-valid p-values may be continually updated at each node. Last, QuTE is robust to arbitrary dropping of packets, or a graph that changes at every step, making it particularly suitable to mobile sensor networks involving drones or other multi-agent systems. We study the power of our procedure using a simulation suite of different levels of connectivity and communication on a variety of graph structures, and also provide an illustrative real-world example.
翻訳日:2022-10-11 19:56:32 公開日:2022-10-09
# ランダムウェイトニューラルネットワークを用いた逆パラメトリックPDE問題の計算法

A Method for Computing Inverse Parametric PDE Problems with Random-Weight Neural Networks ( http://arxiv.org/abs/2210.04338v1 )

ライセンス: Link先を確認
Suchuan Dong, Yiran Wang(参考訳) 本稿では,確率化ニューラルネットワークに基づく逆パラメトリックPDEに対する逆パラメータと解場を計算する手法を提案する。 これにより、元来PDEを逆問題に転送するために開発されたローカルな極端学習機械学習技術が拡張される。 逆PDE問題を解決するために,ニューラルネットワークをトレーニングするための3つのアルゴリズムを開発した。 第1のアルゴリズム(NLLSQ)は、摂動を伴う非線形最小二乗法(NLLSQ-perturb)により、逆パラメータとトレーニング可能なネットワークパラメータを共に決定する。 第2のアルゴリズム(varpro-f1)は、可変射影により全体問題から逆パラメータを取り除き、学習可能なネットワークパラメータのみの低減問題を達成する。 まず、トレーニング可能なネットワークパラメータに対するNLLSQ-perturbアルゴリズムによって削減された問題を解き、次いで線形最小二乗法により逆パラメータを算出する。 第3のアルゴリズム(VarPro-F2)は、変数射影によってトレーニング可能なネットワークパラメータを全体問題から排除し、逆パラメータのみに関する還元問題を実現する。 まず逆パラメータの削減問題を解き、その後、トレーニング可能なネットワークパラメータを計算します。 VarPro-F1とVarPro-F2は、ある意味で互いに相反する。 本手法は, 逆PDE問題に対して, 数値例で示すように正確な結果が得られる。 ノイズのないデータでは、コロケーション点数やトレーニング可能なネットワークパラメータ数の増加に伴って逆パラメータと解フィールドの誤差が指数関数的に減少し、機械精度に近いレベルに達することができる。 ノイズデータの場合、ノイズのないデータと比較すると精度は低下するが、その方法は非常に正確である。 提案手法は,物理に変形したニューラルネットワーク法と比較された。

We present a method for computing the inverse parameters and the solution field to inverse parametric PDEs based on randomized neural networks. This extends the local extreme learning machine technique originally developed for forward PDEs to inverse problems. We develop three algorithms for training the neural network to solve the inverse PDE problem. The first algorithm (NLLSQ) determines the inverse parameters and the trainable network parameters all together by the nonlinear least squares method with perturbations (NLLSQ-perturb). The second algorithm (VarPro-F1) eliminates the inverse parameters from the overall problem by variable projection to attain a reduced problem about the trainable network parameters only. It solves the reduced problem first by the NLLSQ-perturb algorithm for the trainable network parameters, and then computes the inverse parameters by the linear least squares method. The third algorithm (VarPro-F2) eliminates the trainable network parameters from the overall problem by variable projection to attain a reduced problem about the inverse parameters only. It solves the reduced problem for the inverse parameters first, and then computes the trainable network parameters afterwards. VarPro-F1 and VarPro-F2 are reciprocal to each other in a sense. The presented method produces accurate results for inverse PDE problems, as shown by the numerical examples herein. For noise-free data, the errors for the inverse parameters and the solution field decrease exponentially as the number of collocation points or the number of trainable network parameters increases, and can reach a level close to the machine accuracy. For noisy data, the accuracy degrades compared with the case of noise-free data, but the method remains quite accurate. The presented method has been compared with the physics-informed neural network method.
翻訳日:2022-10-11 19:55:41 公開日:2022-10-09
# 指数関数機構による個人データの対称損失特性

Performances of Symmetric Loss for Private Data from Exponential Mechanism ( http://arxiv.org/abs/2210.04132v1 )

ライセンス: Link先を確認
Jing Bi, Vorapong Suppakitpaisarn(参考訳) 本研究では,個人データに対する対称損失による学習の堅牢性について検討する。 具体的には、プライベートラベルに指数的メカニズム(EM)を活用する。 まず,対称損失を持つ個人学習に使用するemの特性を理論的に再検討した。 次に,異なるデータスケールとユーティリティ保証に対応するプライバシー予算の数値的ガイダンスを提案する。 さらに,CIFAR-10データセットを用いて対称損失特性を示す実験を行った。 EMはより汎用的な微分プライバシー(DP)技術であるため、ロバストであることは、それを一般化し、他のDP技術をより堅牢にする可能性がある。

This study explores the robustness of learning by symmetric loss on private data. Specifically, we leverage exponential mechanism (EM) on private labels. First, we theoretically re-discussed properties of EM when it is used for private learning with symmetric loss. Then, we propose numerical guidance of privacy budgets corresponding to different data scales and utility guarantees. Further, we conducted experiments on the CIFAR-10 dataset to present the traits of symmetric loss. Since EM is a more generic differential privacy (DP) technique, it being robust has the potential for it to be generalized, and to make other DP techniques more robust.
翻訳日:2022-10-11 19:50:46 公開日:2022-10-09
# Galaxy Spin Classification I: Z-wise vs S-wise Spirals with Chirality Equivariant Residual Network

Galaxy Spin Classification I: Z-wise vs S-wise Spirals With Chirality Equivariant Residual Network ( http://arxiv.org/abs/2210.04168v1 )

ライセンス: Link先を確認
He Jia, Hong-Ming Zhu, Ue-Li Pen(参考訳) 銀河の角運動量(ギャラクシースピン)は宇宙の初期状態に関する豊富な情報を含んでいるが、進行中の宇宙科学調査によってマッピングされている膨大な量の銀河のスピン方向を効率的に測定することは困難である。 本稿では、銀河スピン方向測定における縮退を壊すのに役立つZ-wise vs S-wise spiralsのための機械学習に基づく分類器を提案する。 提案するchirality equivariant residual network (ce-resnet) は入力画像の反映の下で明らかに同値であり、z-wise と s-wise の確率推定器の間に固有の非対称性がないことを保証する。 我々は,Sloan Digital Sky Survey (SDSS) 画像を用いてモデルをトレーニングし,Galaxy Zoo 1 (GZ1) プロジェクトのトレーニングラベルを付与する。 データ拡張トリックの組み合わせはトレーニング中に使用され、モデルを他の調査に適用する上でより堅牢にします。 我々は$\sim\! 暗いエネルギー分光器 (desi) 画像を用いた分類では, desiの撮像品質が向上し, いずれのスパイラルも30\%$上昇した。 私たちは$\sim\! 7\sigma$ z-wise と s-wise のスパイラル数の差は人間のバイアスによるもので、その差は $<\! 1.8\sigma$でCE-ResNetの分類結果を得た。 将来的な宇宙論の応用にかかわる潜在的な体系について論じる。

The angular momentum of galaxies (galaxy spin) contains rich information about the initial condition of the Universe, yet it is challenging to efficiently measure the spin direction for the tremendous amount of galaxies that are being mapped by the ongoing and forthcoming cosmological surveys. We present a machine learning based classifier for the Z-wise vs S-wise spirals, which can help to break the degeneracy in the galaxy spin direction measurement. The proposed Chirality Equivariant Residual Network (CE-ResNet) is manifestly equivariant under a reflection of the input image, which guarantees that there is no inherent asymmetry between the Z-wise and S-wise probability estimators. We train the model with Sloan Digital Sky Survey (SDSS) images, with the training labels given by the Galaxy Zoo 1 (GZ1) project. A combination of data augmentation tricks are used during the training, making the model more robust to be applied to other surveys. We find a $\sim\!30\%$ increase of both types of spirals when Dark Energy Spectroscopic Instrument (DESI) images are used for classification, due to the better imaging quality of DESI. We verify that the $\sim\!7\sigma$ difference between the numbers of Z-wise and S-wise spirals is due to human bias, since the discrepancy drops to $<\!1.8\sigma$ with our CE-ResNet classification results. We discuss the potential systematics that are relevant to the future cosmological applications.
翻訳日:2022-10-11 19:50:37 公開日:2022-10-09
# LSHに基づく高不均衡データセットにおけるビッグデータのインスタンス選択アルゴリズム

An Instance Selection Algorithm for Big Data in High imbalanced datasets based on LSH ( http://arxiv.org/abs/2210.04310v1 )

ライセンス: Link先を確認
Germ\'an E. Melo-Acosta and Freddy Duitama-Mu\~noz and Juli\'an D. Arias-Londo\~no(参考訳) 機械学習(ML)モデルの実際のコンテキストでのトレーニングは、関心のクラスが表現されない(マイノリティクラス)ビッグデータや高レベルの不均衡サンプルを扱うことが多い。 古典的MLモデルを用いた実践的ソリューションは、トレーニングアルゴリズムの並列/分散実装、近似モデルベースのソリューション、あるいは冗長な情報を排除するためにインスタンス選択(IS)アルゴリズムを適用した大規模データセットの問題に対処する。 しかし、大きなデータセットと高い不均衡データセットの複合問題は解決されていない。 本研究は,大規模で不均衡なデータセットを扱うための3つの新しい手法を提案する。 提案手法は, ベースクラスタリング手法としてLocality Sensitive Hashing (LSH) を用い, LSHによって生成されたクラスタ(あるいはバケット)上に3種類の異なるサンプリング手法を適用した。 アルゴリズムはApache Sparkフレームワークで開発され、スケーラビリティが保証された。 3つの異なるデータセットで実施した実験から,提案手法は幾何学平均値の5%から19%のベースMLモデルの性能を向上させることが示唆された。

Training of Machine Learning (ML) models in real contexts often deals with big data sets and high-class imbalance samples where the class of interest is unrepresented (minority class). Practical solutions using classical ML models address the problem of large data sets using parallel/distributed implementations of training algorithms, approximate model-based solutions, or applying instance selection (IS) algorithms to eliminate redundant information. However, the combined problem of big and high imbalanced datasets has been less addressed. This work proposes three new methods for IS to be able to deal with large and imbalanced data sets. The proposed methods use Locality Sensitive Hashing (LSH) as a base clustering technique, and then three different sampling methods are applied on top of the clusters (or buckets) generated by LSH. The algorithms were developed in the Apache Spark framework, guaranteeing their scalability. The experiments carried out in three different datasets suggest that the proposed IS methods can improve the performance of a base ML model between 5% and 19% in terms of the geometric mean.
翻訳日:2022-10-11 19:50:06 公開日:2022-10-09
# ディープラーニング推論フレームワークベンチマーク

Deep Learning Inference Frameworks Benchmark ( http://arxiv.org/abs/2210.04323v1 )

ライセンス: Link先を確認
Pierrick Pochelu(参考訳) 近年,ディープラーニング(DL)が広く採用されているが,計算集約的な手法である。 そのため、エンドユーザーアプリケーションの予測を高速化する多様な最適化を提案した。 しかし、現在パフォーマンスに関して単一の推論フレームワークが支配的ではない。 本稿では,4つの代表的なDL推論フレームワークの実証的比較と分析を行うための総合的なアプローチをとる。 まず、CPU-GPU構成の選択から、特定のDLフレームワークに対して、その設定の異なる構成が予測速度、メモリ、計算能力に大きな影響を与える可能性があることを示す。 第二に、私たちの知る限りでは、この研究は、同じGPUでコローカライズされたモデルのアンサンブルを加速する機会を初めて特定する。 本研究は,4つの代表的なDLフレームワークの詳細な比較と分析を行い,サービスプロバイダがDL予測の展開と提供を行うための実践的なガイダンスを提供する。

Deep learning (DL) has been widely adopted those last years but they are computing-intensive method. Therefore, scientists proposed diverse optimization to accelerate their predictions for end-user applications. However, no single inference framework currently dominates in terms of performance. This paper takes a holistic approach to conduct an empirical comparison and analysis of four representative DL inference frameworks. First, given a selection of CPU-GPU configurations, we show that for a specific DL framework, different configurations of its settings may have a significant impact on the prediction speed, memory, and computing power. Second, to the best of our knowledge, this study is the first to identify the opportunities for accelerating the ensemble of co-localized models in the same GPU. This measurement study provides an in-depth empirical comparison and analysis of four representative DL frameworks and offers practical guidance for service providers to deploy and deliver DL predictions.
翻訳日:2022-10-11 19:44:06 公開日:2022-10-09
# ディープニューラルネットワークを用いたトップタガーの解釈可能性に関する詳細な研究

A Detailed Study of Interpretability of Deep Neural Network based Top Taggers ( http://arxiv.org/abs/2210.04371v1 )

ライセンス: Link先を確認
Ayush Khot, Mark S. Neubauer, Avik Roy(参考訳) 説明可能なAI(xAI)手法の最近の発展により、ディープニューラルネットワーク(DNN)の内部動作を探索し、入力と出力の関係に関する重要な情報を明らかにし、データが機械学習モデルとどのように結びつくかを理解することができる。 本稿では,大型ハドロン衝突型加速器(LHC)における高エネルギー陽子-陽子衝突におけるトップクォーク崩壊からのジェットの検出を目的としたDNNモデルの解釈可能性について検討する。 我々は、既存のトップタガーモデルのサブセットをレビューし、どの機能がトップジェットを特定する上で最も重要な役割を担っているかを特定するために、異なる定量的手法を探索する。 また,異なるxaiメトリクス間で特徴の重要性がどう変化するか,特徴相関が説明可能性にどのように影響するか,潜在空間表現が情報をどのようにエンコードするか,物理的に有意義な量と相関するかについても検討した。 本研究は,既存のxAI手法の大きな落とし穴を明らかにし,これらのモデルの一貫性と意味のある解釈を得るために克服できる方法を示す。 さらに,隠れたレイヤの活動をニューラルネットワーク活性化パターン(neural activation pattern:nap)ダイアグラムとして説明し,dnnがレイヤをまたいで情報を伝達する方法と,この理解が,効果的なモデル再最適化とハイパーパラメータチューニングを可能にすることで,モデルを大幅に単純化する上で有用性を示す。 この研究の主な焦点は、DNNベースのトップタグモデルの解釈可能性に関する詳細な研究であるが、既存のネットワークの修正実装から得られる最先端のパフォーマンスも特徴としている。

Recent developments in the methods of explainable AI (xAI) methods allow us to explore the inner workings of deep neural networks (DNNs), revealing crucial information about input-output relationships and realizing how data connects with machine learning models. In this paper we explore interpretability of DNN models designed for identifying jets coming from top quark decay in the high energy proton-proton collisions at the Large Hadron Collider (LHC). We review a subset of existing such top tagger models and explore different quantitative methods to identify which features play the most important roles in identifying the top jets. We also investigate how and why feature importance varies across different xAI metrics, how feature correlations impact their explainability, and how latent space representations encode information as well as correlate with physically meaningful quantities. Our studies uncover some major pitfalls of existing xAI methods and illustrate how they can be overcome to obtain consistent and meaningful interpretation of these models. We additionally illustrate the activity of hidden layers as Neural Activation Pattern (NAP) diagrams and demonstrate how they can be used to understand how DNNs relay information across the layers and how this understanding can help us to make such models significantly simpler by allowing effective model reoptimization and hyperparameter tuning. While the primary focus of this work remains a detailed study of interpretability of DNN-based top tagger models, it also features state-of-the art performance obtained from modified implementation of existing networks.
翻訳日:2022-10-11 19:43:51 公開日:2022-10-09
# 流体構造相互作用のための準モノリシックグラフニューラルネットワーク

Quasi-Monolithic Graph Neural Network for Fluid-Structure Interaction ( http://arxiv.org/abs/2210.04193v1 )

ライセンス: Link先を確認
Rui Gao, Rajeev Jaiman(参考訳) 畳み込みニューラルネットワークを用いて、深層学習に基づくダウンオーダーモデルは、下流最適化と制御タスクのための結合流体構造系のシミュレーションを加速する大きな可能性を示している。 しかしながら、これらのネットワークは畳み込みが本質的に制限されているため、一様デカルト格子上で動作しなければならず、過剰な計算負荷を伴わずに流体-構造界面に沿って微細な物理的詳細を抽出することが困難となる。 本研究では,流体-構造相互作用系の低次モデリングのための準モノリシックグラフニューラルネットワークフレームワークを提案する。 任意のラグランジアン-オイラーの定式化の支援により、メッシュ状態と流体状態は2つのサブネットワークで時間的に進化する。 メッシュの運動は、適切な直交分解によっていくつかの係数の進化に還元され、これらの係数は多層パーセプトロンを介して時間を通して伝播される。 システム全体の状態に基づいて流動状態の進化を予測するためにグラフニューラルネットワークを用いる。 構造状態は、流体構造境界上のメッシュの移動によって暗黙的にモデル化されるため、提案したデータ駆動の方法論は準モノリシックである。 提案する準モノリシックグラフニューラルネットワークアーキテクチャの有効性を,弾性載置シリンダまわりの流れの原型流体構造系で評価した。 実測データとしてフルオーダーフロースナップショットと変位を用いて,結合流体構造力学を学習し,推定する。 提案フレームワークは,インターフェース記述を追跡し,ロールアウト中の状態予測を許容精度で提供する。 また、既存の畳み込みベースのアーキテクチャとは対照的に、予測された流体とメッシュ状態からリフトとドラッグの力を直接抽出します。

Using convolutional neural networks, deep learning-based reduced-order models have demonstrated great potential in accelerating the simulations of coupled fluid-structure systems for downstream optimization and control tasks. However, these networks have to operate on a uniform Cartesian grid due to the inherent restriction of convolutions, leading to difficulties in extracting fine physical details along a fluid-structure interface without excessive computational burden. In this work, we present a quasi-monolithic graph neural network framework for the reduced-order modelling of fluid-structure interaction systems. With the aid of an arbitrary Lagrangian-Eulerian formulation, the mesh and fluid states are evolved temporally with two sub-networks. The movement of the mesh is reduced to the evolution of several coefficients via proper orthogonal decomposition, and these coefficients are propagated through time via a multi-layer perceptron. A graph neural network is employed to predict the evolution of the fluid state based on the state of the whole system. The structural state is implicitly modelled by the movement of the mesh on the fluid-structure boundary; hence it makes the proposed data-driven methodology quasi-monolithic. The effectiveness of the proposed quasi-monolithic graph neural network architecture is assessed on a prototypical fluid-structure system of the flow around an elastically-mounted cylinder. We use the full-order flow snapshots and displacements as target physical data to learn and infer coupled fluid-structure dynamics. The proposed framework tracks the interface description and provides the state predictions during roll-out with acceptable accuracy. We also directly extract the lift and drag forces from the predicted fluid and mesh states, in contrast to existing convolution-based architectures.
翻訳日:2022-10-11 19:33:38 公開日:2022-10-09
# 相関情報最大化に基づく生物学的に妥当なニューラルネットワークによる音源分離

Correlative Information Maximization Based Biologically Plausible Neural Networks for Correlated Source Separation ( http://arxiv.org/abs/2210.04222v1 )

ライセンス: Link先を確認
Bariscan Bozkurt, Ates Isfendiyaroglu, Cengiz Pehlevan, Alper T. Erdogan(参考訳) 脳は絶え間なく刺激の原因を抽出するが、どのようにネットワークレベルで行うかは不明である。 この問題に対するほとんどの先行の試みは、潜在原因が相互に独立であるという制限の下で機能する独立成分分析を実装するニューラルネットワークを提案した。 本稿では、この制限を緩和し、その領域に関する情報を活用し、関連づけられた潜在源を抽出する生物学的に妥当なニューラルネットワークを提案する。 このネットワークを導出するために,入力から出力への最大相関情報転送を,出力が推定集合に制限される制約の下で分離対象として選択する。 この最適化問題のオンライン定式化は、自然に局所学習ルールを持つニューラルネットワークにつながる。 我々のフレームワークは無限に多くのソースドメインの選択と柔軟に複雑な潜在構造をモデル化する。 単純あるいはポリトピックソースドメインの選択は、断片的な線形活性化関数を持つネットワークをもたらす。 合成源と自然源の両方において,より優れた相関源分離能力を示す数値例を示す。

The brain effortlessly extracts latent causes of stimuli, but how it does this at the network level remains unknown. Most prior attempts at this problem proposed neural networks that implement independent component analysis which works under the limitation that latent causes are mutually independent. Here, we relax this limitation and propose a biologically plausible neural network that extracts correlated latent sources by exploiting information about their domains. To derive this network, we choose maximum correlative information transfer from inputs to outputs as the separation objective under the constraint that the outputs are restricted to their presumed sets. The online formulation of this optimization problem naturally leads to neural networks with local learning rules. Our framework incorporates infinitely many source domain choices and flexibly models complex latent structures. Choices of simplex or polytopic source domains result in networks with piecewise-linear activation functions. We provide numerical examples to demonstrate the superior correlated source separation capability for both synthetic and natural sources.
翻訳日:2022-10-11 19:33:12 公開日:2022-10-09
# エッジでの学習:確率的フィードバックグラフによるオンライン学習

Learning on the Edge: Online Learning with Stochastic Feedback Graphs ( http://arxiv.org/abs/2210.04229v1 )

ライセンス: Link先を確認
Emmanuel Esposito, Federico Fusco, Dirk van der Hoeven, Nicol\`o Cesa-Bianchi(参考訳) フィードバックグラフの枠組みは、バンディットや全情報フィードバックによる逐次意思決定の一般化である。 本研究では,古典的 Erd\H{o}s-R\enyi モデルに類似した分布に従って,有向フィードバックグラフが確率的となる拡張について検討する。 具体的には、グラフの各辺は、それぞれの辺に対して異なる確率で実現されるか、実現されないかのいずれかである。 位数 $\min\bigl\{\min_{\varepsilon} \sqrt{(\alpha_\varepsilon/\varepsilon) T},\, \min_{\varepsilon} (\delta_\varepsilon/\varepsilon)^{1/3} T^{2/3}\bigr\}$(対数因子を無視した)$$$\alpha_{\varepsilon}$と$\delta_{\varepsilon}$は確率的フィードバックグラフ $\mathcal{G}$の支持で測定されたグラフ理論量である。 我々の結果は、$\mathcal{G}$に関する予備的な知識を持たないもので、学習者は、選択されたアクションの実際の外部のみを観察する必要がある。 学習者がグラフ全体の実現(ただし、選択された行動の外部での損失のみ)を観察できる場合、より効率的なアルゴリズムが導出され、独立性の重み付けされたバージョンといくつかの特別なケースで改善された境界を示す弱い支配数に依存する。

The framework of feedback graphs is a generalization of sequential decision-making with bandit or full information feedback. In this work, we study an extension where the directed feedback graph is stochastic, following a distribution similar to the classical Erd\H{o}s-R\'enyi model. Specifically, in each round every edge in the graph is either realized or not with a distinct probability for each edge. We prove nearly optimal regret bounds of order $\min\bigl\{\min_{\varepsilon} \sqrt{(\alpha_\varepsilon/\varepsilon) T},\, \min_{\varepsilon} (\delta_\varepsilon/\varepsilon)^{1/3} T^{2/3}\bigr\}$ (ignoring logarithmic factors), where $\alpha_{\varepsilon}$ and $\delta_{\varepsilon}$ are graph-theoretic quantities measured on the support of the stochastic feedback graph $\mathcal{G}$ with edge probabilities thresholded at $\varepsilon$. Our result, which holds without any preliminary knowledge about $\mathcal{G}$, requires the learner to observe only the realized out-neighborhood of the chosen action. When the learner is allowed to observe the realization of the entire graph (but only the losses in the out-neighborhood of the chosen action), we derive a more efficient algorithm featuring a dependence on weighted versions of the independence and weak domination numbers that exhibits improved bounds for some special cases.
翻訳日:2022-10-11 19:32:58 公開日:2022-10-09
# インプット・アウトプット・ルックアップテーブル削減のためのデータ駆動型フレームワーク -- 化学非平衡超音速流れへの応用-

Data-driven framework for input/output lookup tables reduction -- with application to hypersonic flows in chemical non-equilibrium ( http://arxiv.org/abs/2210.04269v1 )

ライセンス: Link先を確認
Cl\'ement Scherding, Georgios Rigas, Denis Sipp, Peter J. Schmid and Taraneh Sayadi(参考訳) 本稿では,超音速流シミュレーションに反応する還元熱化学モデルを抽出するモデル非依存機械学習手法を提案する。 第1のシミュレーションは、与えられたモデルを通して関連するすべての熱力学状態と対応する気体特性を収集する。 これらの状態は低次元空間に埋め込まれ、熱化学的(非)平衡の異なる領域を特定するためにクラスター化される。 そして、ラジアル基底関数ネットワークを用いて、縮小されたクラスタ空間から出力空間への代理面を生成する。 有限レート化学を用いた超音速平板境界層のシミュレーションにより,本手法の検証と評価を行った。 反応性空気混合物の気体特性は、まずオープンソースのMutation++ライブラリを用いてモデル化される。 Mutation++を軽量でマシン学習の代替品に置き換えることで、全体的な精度を維持しながら、ソルバのパフォーマンスを50%向上させる。

In this paper, we present a novel model-agnostic machine learning technique to extract a reduced thermochemical model for reacting hypersonic flows simulation. A first simulation gathers all relevant thermodynamic states and the corresponding gas properties via a given model. The states are embedded in a low-dimensional space and clustered to identify regions with different levels of thermochemical (non)-equilibrium. Then, a surrogate surface from the reduced cluster-space to the output space is generated using radial-basis-function networks. The method is validated and benchmarked on a simulation of a hypersonic flat-plate boundary layer with finite-rate chemistry. The gas properties of the reactive air mixture are initially modeled using the open-source Mutation++ library. Substituting Mutation++ with the light-weight, machine-learned alternative improves the performance of the solver by 50% while maintaining overall accuracy.
翻訳日:2022-10-11 19:32:16 公開日:2022-10-09
# マルチドメインアテンションネットワークによる教師なしRGB-サーマルドメイン適応

Unsupervised RGB-to-Thermal Domain Adaptation via Multi-Domain Attention Network ( http://arxiv.org/abs/2210.04367v1 )

ライセンス: Link先を確認
Lu Gan, Connor Lee, and Soon-Jo Chung(参考訳) マルチドメインアテンションネットワークを用いてRGBドメインから知識を伝達することで,教師なしの熱画像分類とセマンティックセグメンテーションの新たな手法を提案する。 本手法は熱アノテーションやrgb-thermalペアを併用する必要がないため,夜間および気象条件下において,データラベリングや登録の追加コストを伴わずに視覚的な作業を行うことができる。 現在の教師なしドメイン適応メソッドは、グローバルイメージやドメイン横断の機能を調整するのに役立ちます。 しかし、クロスモーダルデータではドメインシフトが大幅に大きくなると、すべての機能が転送されるわけではない。 本稿では、一般化を促進する共有バックボーンネットワークと、ドメイン不変で容易に伝達可能な機能への参加によって負の転送を減らすドメイン特化アテンションを用いて、この問題を解決する。 提案手法は, 最新のRGB-熱的適応法よりも高い性能を示し, 合成RGB画像のみを用いた熱河川シーンのセグメンテーションに成功している。 私たちのコードはhttps://github.com/ganlumomo/thermal-uda-attentionで公開されています。

This work presents a new method for unsupervised thermal image classification and semantic segmentation by transferring knowledge from the RGB domain using a multi-domain attention network. Our method does not require any thermal annotations or co-registered RGB-thermal pairs, enabling robots to perform visual tasks at night and in adverse weather conditions without incurring additional costs of data labeling and registration. Current unsupervised domain adaptation methods look to align global images or features across domains. However, when the domain shift is significantly larger for cross-modal data, not all features can be transferred. We solve this problem by using a shared backbone network that promotes generalization, and domain-specific attention that reduces negative transfer by attending to domain-invariant and easily-transferable features. Our approach outperforms the state-of-the-art RGB-to-thermal adaptation method in classification benchmarks, and is successfully applied to thermal river scene segmentation using only synthetic RGB images. Our code is made publicly available at https://github.com/ganlumomo/thermal-uda-attention.
翻訳日:2022-10-11 19:17:50 公開日:2022-10-09
# ハイパーグラフに基づくマルチロボットタスクと運動計画

Hypergraph-based Multi-Robot Task and Motion Planning ( http://arxiv.org/abs/2210.04333v1 )

ライセンス: Link先を確認
James Motes, Tan Chen, Timothy Bretl, Marco Morales, Nancy M. Amato(参考訳) 本稿では,マニピュレータによる物体の再構成に適用すると,既存の手法よりも最大3桁高速に解法を生成できるマルチロボットタスクと動作計画手法を提案する。 計画空間を独立したマニピュレータ、オブジェクト、およびオブジェクトを保持するマニピュレータのサブスペースに分解することで、この改善を実現する。 この分解を、頂点が準状態であり、超弧が準状態間の遷移であるハイパーグラフで表現する。 既存の方法は、頂点が完全な状態であり、エッジが状態間の遷移であるグラフベースの表現を使用する。 ハイパーグラフを用いて、マルチマニピュレータオブジェクト再構成のための計画空間のサイズを減らすことで、ハイパーグラフ頂点の数はロボットまたはオブジェクトの数と線形にスケールし、ハイパーアークの数はロボットの数と2次的にスケールし、オブジェクトの数と線形にスケールする。 対照的に、グラフベースの表現における頂点とエッジの数は、ロボットやオブジェクトの数で指数関数的に増加する。 さらに、ハイパーグラフは(デ)結合空間の様々なレベルを推論し、それらの間の遷移によって計画空間のハイブリッド検索を可能にする構造を提供する。 また,他のマルチロボットタスクや動作計画問題にも同様の効果が期待できることを示す。

We present a multi-robot task and motion planning method that, when applied to the rearrangement of objects by manipulators, produces solution times up to three orders of magnitude faster than existing methods. We achieve this improvement by decomposing the planning space into subspaces for independent manipulators, objects, and manipulators holding objects. We represent this decomposition with a hypergraph where vertices are substates and hyperarcs are transitions between substates. Existing methods use graph-based representations where vertices are full states and edges are transitions between states. Using the hypergraph reduces the size of the planning space-for multi-manipulator object rearrangement, the number of hypergraph vertices scales linearly with the number of either robots or objects, while the number of hyperarcs scales quadratically with the number of robots and linearly with the number of objects. In contrast, the number of vertices and edges in graph-based representations scale exponentially in the number of robots and objects. Additionally, the hypergraph provides a structure to reason over varying levels of (de)coupled spaces and transitions between them enabling a hybrid search of the planning space. We show that similar gains can be achieved for other multi-robot task and motion planning problems.
翻訳日:2022-10-11 19:14:45 公開日:2022-10-09
# hvs revisited: 総合的なビデオ品質評価フレームワーク

HVS Revisited: A Comprehensive Video Quality Assessment Framework ( http://arxiv.org/abs/2210.04158v1 )

ライセンス: Link先を確認
Ao-Xiang Zhang, Yuan-Gen Wang, Weixuan Tang, Leida Li, Sam Kwong(参考訳) ビデオ品質は、ビデオサービスプロバイダにとって主要な関心事である。 近年,深層畳み込みニューラルネットワーク(CNN)に基づく映像品質評価(VQA)技術が急速に発展している。 既存の研究は人間の視覚システム(HVS)の知識をVQAに導入しようと試みているが、いくつかの特徴による不完全なモデルやそれらの特徴間の不完全な接続を含む、HVSの完全利用を防ぐ限界がまだ残っている。 これらの制約を克服するため,本論文では5つの代表的特徴を持つhvsを再検討し,それらの接続をさらに再編成する。 再訪したhvsに基づいて、hvs-5m(5つのモジュールでhvsをシミュレートする5つのモジュールを持つnrvqaフレームワーク)と呼ばれる参照なしvqaフレームワークが提案されている。 高度なネットワーク構造を持つドメイン融合設計パラダイムで動作する。 空間領域の側では、視覚サリエンシーモジュールがサネットを適用してサリエンシーマップを得る。 そして、コンテンツ依存モジュールとエッジマスクモジュールは、それぞれconvnextを使用して、人間の関心のある領域を強調するために、サリエンシーマップによって注意深く重み付けされた空間的特徴を抽出する。 時間領域の反対側では、静的な空間的特徴を補うために、モーション知覚モジュールはSlowFastを使用して動的時間的特徴を得る。 また、テンポラルヒステリシスモジュールは、人間の記憶機構をシミュレートするためにテンポラルヒステリシスを適用し、空間領域と時間領域の融合特性に応じて品質スコアを包括的に評価する。 HVS-5Mは最先端のVQA法よりも優れていた。 さらに,提案フレームワークに対する各モジュールの有効性を検証するためのアブレーション研究を行った。

Video quality is a primary concern for video service providers. In recent years, the techniques of video quality assessment (VQA) based on deep convolutional neural networks (CNNs) have been developed rapidly. Although existing works attempt to introduce the knowledge of the human visual system (HVS) into VQA, there still exhibit limitations that prevent the full exploitation of HVS, including an incomplete model by few characteristics and insufficient connections among these characteristics. To overcome these limitations, this paper revisits HVS with five representative characteristics, and further reorganizes their connections. Based on the revisited HVS, a no-reference VQA framework called HVS-5M (NRVQA framework with five modules simulating HVS with five characteristics) is proposed. It works in a domain-fusion design paradigm with advanced network structures. On the side of the spatial domain, the visual saliency module applies SAMNet to obtain a saliency map. And then, the content-dependency and the edge masking modules respectively utilize ConvNeXt to extract the spatial features, which have been attentively weighted by the saliency map for the purpose of highlighting those regions that human beings may be interested in. On the other side of the temporal domain, to supplement the static spatial features, the motion perception module utilizes SlowFast to obtain the dynamic temporal features. Besides, the temporal hysteresis module applies TempHyst to simulate the memory mechanism of human beings, and comprehensively evaluates the quality score according to the fusion features from the spatial and temporal domains. Extensive experiments show that our HVS-5M outperforms the state-of-the-art VQA methods. Ablation studies are further conducted to verify the effectiveness of each module towards the proposed framework.
翻訳日:2022-10-11 19:06:39 公開日:2022-10-09
# オフセット予測による超解像:ラスタ化画像のための超高効率超解像ネットワーク

Super-Resolution by Predicting Offsets: An Ultra-Efficient Super-Resolution Network for Rasterized Images ( http://arxiv.org/abs/2210.04198v1 )

ライセンス: Link先を確認
Jinjin Gu, Haoming Cai, Chenyu Dong, Ruofan Zhang, Yulun Zhang, Wenming Yang, Chun Yuan(参考訳) 高解像度(HR)グラフィックスのレンダリングは、かなりの計算コストをもたらす。 効率的なグラフィックスーパーレゾリューション(sr)手法は、小さなコンピューティングリソースでhrレンダリングを達成し、業界や研究コミュニティで幅広い研究関心を集めている。 本稿では,コンピュータグラフィックスのためのリアルタイムSR,すなわち予測オフセット(SRPO)による超解法を提案する。 我々のアルゴリズムは、画像を2つの部分、すなわちシャープエッジとフラットエリアに分割する。 エッジについては,従来のアンチエイリアス画像を入力とするsr法とは異なり,提案するsrpoはラスタ化画像の特性を利用して,ラスタ化画像に対してsrを行う。 HRと低解像度(LR)ラスタ化画像の残差を補うために,オフセットマップの予測に超効率的なネットワークを訓練し,その周辺画素を新たな位置に移動させる。 平坦な領域では、単純な補間法が既に妥当な出力を生成することができる。 最後に,ネットワークと平坦領域が生成するシャープエッジを補間法により統合し,最終SR画像を得る。 提案するネットワークは,8,434個のパラメータのみを含み,ネットワーク量子化により高速化できる。 拡張実験により,提案したSRPOは既存の最先端手法よりも少ない計算コストで優れた視覚効果が得られることが示された。

Rendering high-resolution (HR) graphics brings substantial computational costs. Efficient graphics super-resolution (SR) methods may achieve HR rendering with small computing resources and have attracted extensive research interests in industry and research communities. We present a new method for real-time SR for computer graphics, namely Super-Resolution by Predicting Offsets (SRPO). Our algorithm divides the image into two parts for processing, i.e., sharp edges and flatter areas. For edges, different from the previous SR methods that take the anti-aliased images as inputs, our proposed SRPO takes advantage of the characteristics of rasterized images to conduct SR on the rasterized images. To complement the residual between HR and low-resolution (LR) rasterized images, we train an ultra-efficient network to predict the offset maps to move the appropriate surrounding pixels to the new positions. For flat areas, we found simple interpolation methods can already generate reasonable output. We finally use a guided fusion operation to integrate the sharp edges generated by the network and flat areas by the interpolation method to get the final SR image. The proposed network only contains 8,434 parameters and can be accelerated by network quantization. Extensive experiments show that the proposed SRPO can achieve superior visual effects at a smaller computational cost than the existing state-of-the-art methods.
翻訳日:2022-10-11 19:06:11 公開日:2022-10-09
# nerfのためのデータ拡張:ビューモーフィングに基づく幾何学的一貫性のある解

Data augmentation for NeRF: a geometric consistent solution based on view morphing ( http://arxiv.org/abs/2210.04214v1 )

ライセンス: Link先を確認
Matteo Bortolon, Alessio Del Bue, Fabio Poiesi(参考訳) NeRFは、異なる視点から得られた入力画像の有限セットを用いて、連続的なニューラルシーン表現を学習することを目的としている。 視点の数が少なくなればなるほど、オーバーフィットする可能性が高くなる。 本稿では,ビューモーフィングを用いて視点間の幾何学的一貫性のある画像遷移を生成するための新しいデータ拡張手法を提案することで,このような制限を緩和する。 ビューフォーミング(View morphing)は、射影幾何学の一般的な原理に基づくため、3Dシーンに関する事前の知識を必要としない非常に多用途な手法である。 提案手法の重要な特徴は、NeRFが予測した深度と全く同じ深度を用いて、NeRFトレーニングに付加される画像遷移を生成することである。 実験により,この手法により,学習視点の少ないデータセットにおいて,NeRFが合成された新規ビューの品質を向上させることができることを示す。 トレーニングに8ビューと4ビューを使用した場合,PSNRを1.8dBと10.5dBに改善する。 我々の知る限りでは、モデル一般化を改善するために新たな入力画像を明示的に合成するNeRFの最初のデータ拡張戦略である。

NeRF aims to learn a continuous neural scene representation by using a finite set of input images taken from different viewpoints. The fewer the number of viewpoints, the higher the likelihood of overfitting on them. This paper mitigates such limitation by presenting a novel data augmentation approach to generate geometrically consistent image transitions between viewpoints using view morphing. View morphing is a highly versatile technique that does not requires any prior knowledge about the 3D scene because it is based on general principles of projective geometry. A key novelty of our method is to use the very same depths predicted by NeRF to generate the image transitions that are then added to NeRF training. We experimentally show that this procedure enables NeRF to improve the quality of its synthesised novel views in the case of datasets with few training viewpoints. We improve PSNR up to 1.8dB and 10.5dB when eight and four views are used for training, respectively. To the best of our knowledge, this is the first data augmentation strategy for NeRF that explicitly synthesises additional new input images to improve the model generalisation.
翻訳日:2022-10-11 19:05:49 公開日:2022-10-09
# AMPose:3次元人物位置推定のためのグローバルローカルアテンションモデル

AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation ( http://arxiv.org/abs/2210.04216v1 )

ライセンス: Link先を確認
Hongxin Lin, Yunwei Chiu and Peiyuan Wu(参考訳) グラフ畳み込みネットワークは3次元人間のポーズ推定に応用されている。 さらに, ビデオベース方式では, 純変圧器モデルにより有望な結果が得られた。 しかし, 全球的注意によってのみ変換される特徴表現にはヒト骨格の関係性が欠如しているため, 単一フレーム法では関節の物理的結合関係をモデル化する必要がある。 ヒトの関節の物理的結合とグローバルな関係を結合する新しいアーキテクチャを提案する。 本手法をhuman3.6で評価し,最新モデルとの比較を行った。 我々のモデルは他のすべてのモデルよりも優れた結果を示している。 MPI-INF-3DHP上でのデータセット間比較により,モデルの一般化性が向上した。

The graph convolutional network has been applied to 3D human pose estimation. In addition, the pure transformer model recently show the promising result in the video-base method. However, the single-frame method still need to model the physically connected relations among joints because the feature representation transformed only by the global attention has the lack of the relationships of human skeleton. We propose a novel architecture to combine the physically connected and global relations among joints in human. We evaluate our method on Human3.6and compare with the state-of-the-art models. Our model show superior result over all other models. Our model has better generalization ability by cross-dataset comparison on MPI-INF-3DHP.
翻訳日:2022-10-11 19:05:32 公開日:2022-10-09
# SSVEP分類のためのトランスフォーマーに基づくディープニューラルネットワークモデル

A Transformer-based deep neural network model for SSVEP classification ( http://arxiv.org/abs/2210.04172v1 )

ライセンス: Link先を確認
Jianbo Chen, Yangsong Zhang, Yudong Pan, Peng Xu, Cuntai Guan(参考訳) 定常視覚誘発電位(Steady-state visual evoked potential, SSVEP)は、脳コンピュータインタフェース(BCI)システムにおいて最もよく用いられる制御信号の1つである。 しかし,従来のssvep分類における空間フィルタリング法は,対象別キャリブレーションデータに大きく依存する。 キャリブレーションデータの需要を軽減する方法の必要性が急務となる。 近年、サブジェクト間分類シナリオで機能する手法の開発は、有望な新しい方向性となっている。 現在、一般的なディープラーニングモデルとして、transformerは優れた性能を持ち、脳波信号分類タスクで使用されている。 そこで本研究では,SSVEP分類へのトランスフォーマーの最初の応用である,オブジェクト間分類シナリオにおけるトランスフォーマー構造に基づくSSVEP分類の深層学習モデルを提案する。 従来の研究から着想を得たモデルでは,SSVEPデータの周波数スペクトルを入力として採用し,分類のためのスペクトル領域情報と空間領域情報を探索する。 さらに,高調波情報を完全に活用するために,フィルタバンク技術(FB-SSVEPformer)に基づく拡張SSVEPformerを提案する。 実験は2つのオープンデータセット(データセット1:10被験者,12クラスタスク,データセット2:35被験者,40クラスタスク)を用いてオブジェクト間分類シナリオで行った。 実験の結果,提案モデルは他のベースライン法と比較して,分類精度と情報伝達率の点で良好な結果が得られることがわかった。 提案モデルは,ssvep分類タスクにおけるトランスフォーマー構造に基づく深層学習モデルの実現可能性を検証するとともに,ssvepベースのbciシステムの実用化における校正手順を緩和する可能性モデルとして有用である。

Steady-state visual evoked potential (SSVEP) is one of the most commonly used control signal in the brain-computer interface (BCI) systems. However, the conventional spatial filtering methods for SSVEP classification highly depend on the subject-specific calibration data. The need for the methods that can alleviate the demand for the calibration data become urgent. In recent years, developing the methods that can work in inter-subject classification scenario has become a promising new direction. As the popular deep learning model nowadays, Transformer has excellent performance and has been used in EEG signal classification tasks. Therefore, in this study, we propose a deep learning model for SSVEP classification based on Transformer structure in inter-subject classification scenario, termed as SSVEPformer, which is the first application of the transformer to the classification of SSVEP. Inspired by previous studies, the model adopts the frequency spectrum of SSVEP data as input, and explores the spectral and spatial domain information for classification. Furthermore, to fully utilize the harmonic information, an extended SSVEPformer based on the filter bank technology (FB-SSVEPformer) is proposed to further improve the classification performance. Experiments were conducted using two open datasets (Dataset 1: 10 subjects, 12-class task; Dataset 2: 35 subjects, 40-class task) in the inter-subject classification scenario. The experimental results show that the proposed models could achieve better results in terms of classification accuracy and information transfer rate, compared with other baseline methods. The proposed model validates the feasibility of deep learning models based on Transformer structure for SSVEP classification task, and could serve as a potential model to alleviate the calibration procedure in the practical application of SSVEP-based BCI systems.
翻訳日:2022-10-11 18:59:31 公開日:2022-10-09
# データ駆動型原子間ポテンシャルのためのハイパーアクティブラーニング(HAL)

Hyperactive Learning (HAL) for Data-Driven Interatomic Potentials ( http://arxiv.org/abs/2210.04225v1 )

ライセンス: Link先を確認
Cas van der Oord, Matthias Sachs, D\'avid P\'eter Kov\'acs, Christoph Ortner, G\'abor Cs\'anyi(参考訳) データ駆動型原子間ポテンシャルは、実験的精度でマクロな性質を確実に予測できるab initioポテンシャルエネルギー表面の強力なサーロゲートモデルのクラスとして出現した。 正確かつ伝達可能なポテンシャルを生成する上で、最も時間がかかり、間違いなく最も重要なタスクはトレーニングセットを生成することだ。 このプロセスを加速するために,データベース生成の訓練に特化して,高速化サンプリングアルゴリズムを定式化するハイパーアクティブラーニング(HAL)を提案する。 基本的な考え方は、物理的に動機づけられたサンプル(分子動力学など)から始まり、システムを高い不確実性へと導くバイアス用語から、トレーニング構成を無視することにある。 この枠組みに基づいて,HALフレームワークを利用した合金および高分子のトレーニングデータベースを構築するための一般的なプロトコルを提案する。 alsi10の高速(<100マイクロ秒/原子/cpuコア)ace電位は、8cpuスレッドを使用して17秒で88のコンフィグ(32原子)を含む最小限のhal生成データベースに適合することにより、高い精度で融解温度を予測できる。 ポリマー用halデータベースは,200モノマー単位からなる長鎖ポリエチレングリコール(peg)ポリマーの密度を,2〜32の大きさの小さな分離pegポリマーにのみ適合して,実験精度で決定できるaceを用いて構築されている。

Data-driven interatomic potentials have emerged as a powerful class of surrogate models for ab initio potential energy surfaces that are able to reliably predict macroscopic properties with experimental accuracy. In generating accurate and transferable potentials the most time-consuming and arguably most important task is generating the training set, which still requires significant expert user input. To accelerate this process, this work presents hyperactive learning (HAL), a framework for formulating an accelerated sampling algorithm specifically for the task of training database generation. The overarching idea is to start from a physically motivated sampler (e.g., molecular dynamics) and a biasing term that drives the system towards high uncertainty and thus to unseen training configurations. Building on this framework, general protocols for building training databases for alloys and polymers leveraging the HAL framework will be presented. For alloys, fast (< 100 microsecond/atom/cpu-core) ACE potentials for AlSi10 are created that able to predict the melting temperature with good accuracy by fitting to a minimal HAL-generated database containing 88 configurations (32 atoms each) in 17 seconds using 8 cpu threads. For polymers, a HAL database is built using ACE able to determine the density of a long polyethylene glycol (PEG) polymer formed of 200 monomer units with experimental accuracy by only fitting to small isolated PEG polymers with sizes ranging from 2 to 32.
翻訳日:2022-10-11 18:57:46 公開日:2022-10-09
# 多目的パーソナライズド製品検索におけるtaobao search

Multi-Objective Personalized Product Retrieval in Taobao Search ( http://arxiv.org/abs/2210.04170v1 )

ライセンス: Link先を確認
Yukun Zheng, Jiang Bian, Guanghao Meng, Chao Zhang, Honggang Wang, Zhixuan Zhang, Sen Li, Tao Zhuang, Qingwen Liu, and Xiaoyi Zeng(参考訳) Taobaoのような大規模なeコマースプラットフォームでは、何十億もの候補者からユーザーを満足させる製品を取得することが大きな課題だ。 これは学界や産業に共通する関心事である。 近年,多粒度deep semantic product retrieval (mgdspr)モデル [16] など,ebr (embedd-based retrieval) メソッドの拡張により,この領域における多くの作業が大幅に改善されている。 しかし、MGDSPRには、語彙マッチングや協調フィルタリングなど、オンラインシステムにおける他の検索手法と比較して、関連性やパーソナライズに問題がある。 これらの問題は、関連性推定とパーソナライズド検索の両方において、ebrモデルの能力をさらに強化することを促します。 本稿では,4つの階層的最適化目標(妥当性,露出,クリック,購入)を有する,多目的パーソナライズ製品検索(moppr)モデルを提案する。 我々は既存のebrモデルの単一正のサンプルではなく、mopprを訓練するために全空間のマルチ正のサンプルを構築し、複数の目的を最適化するために修正ソフトマックス損失を採用する。 オフラインおよびオンライン実験の結果,mopprは相関度推定とパーソナライズ検索の評価指標においてmgdsprを上回っていることがわかった。 MOPPRは28日間のオンラインA/Bテストで0.96%のトランザクションと1.29%のGMV改善を達成した。 2021年のDouble-11ショッピングフェスティバル以来、MOPPRは従来のMGDSPRに代わるモバイルタオバオ検索に完全に配備されている。 最後に,コミュニティに貢献するための多目的検索とランキングに関する,より深い調査の先進的なトピックについて論じる。

In large-scale e-commerce platforms like Taobao, it is a big challenge to retrieve products that satisfy users from billions of candidates. This has been a common concern of academia and industry. Recently, plenty of works in this domain have achieved significant improvements by enhancing embedding-based retrieval (EBR) methods, including the Multi-Grained Deep Semantic Product Retrieval (MGDSPR) model [16] in Taobao search engine. However, we find that MGDSPR still has problems of poor relevance and weak personalization compared to other retrieval methods in our online system, such as lexical matching and collaborative filtering. These problems promote us to further strengthen the capabilities of our EBR model in both relevance estimation and personalized retrieval. In this paper, we propose a novel Multi-Objective Personalized Product Retrieval (MOPPR) model with four hierarchical optimization objectives: relevance, exposure, click and purchase. We construct entire-space multi-positive samples to train MOPPR, rather than the single-positive samples for existing EBR models.We adopt a modified softmax loss for optimizing multiple objectives. Results of extensive offline and online experiments show that MOPPR outperforms the baseline MGDSPR on evaluation metrics of relevance estimation and personalized retrieval. MOPPR achieves 0.96% transaction and 1.29% GMV improvements in a 28-day online A/B test. Since the Double-11 shopping festival of 2021, MOPPR has been fully deployed in mobile Taobao search, replacing the previous MGDSPR. Finally, we discuss several advanced topics of our deeper explorations on multi-objective retrieval and ranking to contribute to the community.
翻訳日:2022-10-11 18:48:05 公開日:2022-10-09
# Wasserstein分布ロバスト最適化問題に対するコアセット

Coresets for Wasserstein Distributionally Robust Optimization Problems ( http://arxiv.org/abs/2210.04260v1 )

ライセンス: Link先を確認
Ruomin Huang, Jiawei Huang, Wenjie Liu and Hu Ding(参考訳) Wassersteinの分散ロバスト最適化(\textsf{WDRO})は、曖昧なデータによる機械学習のロバスト性を高めるための一般的なモデルである。 しかし、'minimax'' の定式化を解くには大量の計算を必要とするため、実際には‘textsf{WDRO} の複雑さは禁じられる。 近年、特定の機械学習タスク(ロジスティック回帰など)のための高速 \textsf{wdro} トレーニングアルゴリズムが開発されている。 しかし、一般の大規模 \textsf{WDRO} に対する効率的なアルゴリズムの設計に関する研究は、我々の知る限り、まだ非常に限られている。 \textit{Coreset} は大規模なデータセットを圧縮するための重要なツールであり、多くの最適化問題に対する計算複雑性の低減に広く応用されている。 本稿では,一般的な textsf{WDRO} 問題に対する$\epsilon$-coreset を構築するための統一フレームワークを提案する。 あいまいなデータの不確実性のため,従来の「textsf{WDRO}」のコアセットを得るのは難しいが,「dual coreset'」を「textsf{WDRO}」の強い双対性を用いて計算できることが示されている。 また、デュアルコアセットによって導入された誤差は、元の \textsf{WDRO} の目的に対して理論的に保証することができる。 双対コアセットを構築するために,新しいグリッドサンプリング手法を提案し,この手法は,特に textsf{WDRO} の双対定式化に適している。 最後に、コアセットアプローチを実装し、実験におけるいくつかの \textsf{WDRO} 問題に対するその有効性を示す。

Wasserstein distributionally robust optimization (\textsf{WDRO}) is a popular model to enhance the robustness of machine learning with ambiguous data. However, the complexity of \textsf{WDRO} can be prohibitive in practice since solving its ``minimax'' formulation requires a great amount of computation. Recently, several fast \textsf{WDRO} training algorithms for some specific machine learning tasks (e.g., logistic regression) have been developed. However, the research on designing efficient algorithms for general large-scale \textsf{WDRO}s is still quite limited, to the best of our knowledge. \textit{Coreset} is an important tool for compressing large dataset, and thus it has been widely applied to reduce the computational complexities for many optimization problems. In this paper, we introduce a unified framework to construct the $\epsilon$-coreset for the general \textsf{WDRO} problems. Though it is challenging to obtain a conventional coreset for \textsf{WDRO} due to the uncertainty issue of ambiguous data, we show that we can compute a ``dual coreset'' by using the strong duality property of \textsf{WDRO}. Also, the error introduced by the dual coreset can be theoretically guaranteed for the original \textsf{WDRO} objective. To construct the dual coreset, we propose a novel grid sampling approach that is particularly suitable for the dual formulation of \textsf{WDRO}. Finally, we implement our coreset approach and illustrate its effectiveness for several \textsf{WDRO} problems in the experiments.
翻訳日:2022-10-11 18:42:14 公開日:2022-10-09
# GANにおける解離適応法

Dissecting adaptive methods in GANs ( http://arxiv.org/abs/2210.04319v1 )

ライセンス: Link先を確認
Samy Jelassi, David Dobre, Arthur Mensch, Yuanzhi Li, Gauthier Gidel(参考訳) アダプティブ・メソッドはGAN(Generative Adversarial Network)のトレーニングに広く用いられている重要なコンポーネントである。 標準タスクの「適応メソッドの正当性」を見極める作業はいくつかあるが、なぜそれがまだGANトレーニングにとって重要なのかは不明だ。 本稿では,適応的手法がGANの訓練にどのように役立つかを正式に研究し,arXiv:2002.11803[cs.LG]で提案されたグラフト法にヒントを得て,Adam更新の寸法と方向成分を分離し,それぞれSGDA更新の方向と大きさにグラフトする。 我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮することで,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。 このことは、GANトレーニングの文脈における正規化確率勾配勾配上昇法(nSGDA)のクラスをより深く観察する動機となっている。 ニューラルネットワークを用いたGANトレーニングにおけるnSGDAとSGDAの性能を比較するための合成理論フレームワークを提案する。 この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされる。 我々の分析における重要な洞察は、勾配の正規化は、判別器とジェネレータを同じペースで更新することを強制するということである。 また、いくつかのデータセットに対して、nSGDA法でAdamのパフォーマンスを復元できることを実験的に示す。

Adaptive methods are a crucial component widely used for training generative adversarial networks (GANs). While there has been some work to pinpoint the "marginal value of adaptive methods" in standard tasks, it remains unclear why they are still critical for GAN training. In this paper, we formally study how adaptive methods help train GANs; inspired by the grafting method proposed in arXiv:2002.11803 [cs.LG], we separate the magnitude and direction components of the Adam updates, and graft them to the direction and magnitude of SGDA updates respectively. By considering an update rule with the magnitude of the Adam update and the normalized direction of SGD, we empirically show that the adaptive magnitude of Adam is key for GAN training. This motivates us to have a closer look at the class of normalized stochastic gradient descent ascent (nSGDA) methods in the context of GAN training. We propose a synthetic theoretical framework to compare the performance of nSGDA and SGDA for GAN training with neural networks. We prove that in that setting, GANs trained with nSGDA recover all the modes of the true distribution, whereas the same networks trained with SGDA (and any learning rate configuration) suffer from mode collapse. The critical insight in our analysis is that normalizing the gradients forces the discriminator and generator to be updated at the same pace. We also experimentally show that for several datasets, Adam's performance can be recovered with nSGDA methods.
翻訳日:2022-10-11 18:41:42 公開日:2022-10-09
# LieGG:学習リー群発電機の研究

LieGG: Studying Learned Lie Group Generators ( http://arxiv.org/abs/2210.04345v1 )

ライセンス: Link先を確認
Artem Moskalev, Anna Sepliarskaia, Ivan Sosnovik, Arnold Smeulders(参考訳) ニューラルネットワークに組み込まれた対称性は、データを保存して学習することで、幅広いタスクに対して非常に有益であるように思える。 我々は、モデルに対称性が組み込まれていない場合、ロバストネットワークがデータから直接対称性を学習してタスク関数に適合させるのが有利である、という立場から離れる。 本稿では,ニューラルネットワークが学習した対称性を抽出し,ネットワークの不変度を評価する手法を提案する。 本手法では,データの対称性を事前に知ることなく,対応するリー群の生成元の形で学習不変性を明示的に検索することができる。 提案手法を用いて,ニューラルネットワークのパラメータ化と構成に依存する対称性について検討する。 ネットワークが対称性を学習する能力は、さまざまなアーキテクチャを一般化していることが分かりました。 しかし、学習対称性の質は、深さとパラメータの数に依存する。

Symmetries built into a neural network have appeared to be very beneficial for a wide range of tasks as it saves the data to learn them. We depart from the position that when symmetries are not built into a model a priori, it is advantageous for robust networks to learn symmetries directly from the data to fit a task function. In this paper, we present a method to extract symmetries learned by a neural network and to evaluate the degree to which a network is invariant to them. With our method, we are able to explicitly retrieve learned invariances in a form of the generators of corresponding Lie-groups without prior knowledge of symmetries in the data. We use the proposed method to study how symmetrical properties depend on a neural network's parameterization and configuration. We found that the ability of a network to learn symmetries generalizes over a range of architectures. However, the quality of learned symmetries depends on the depth and the number of parameters.
翻訳日:2022-10-11 18:41:13 公開日:2022-10-09
# Deep Clustering: 総合的な調査

Deep Clustering: A Comprehensive Survey ( http://arxiv.org/abs/2210.04142v1 )

ライセンス: Link先を確認
Yazhou Ren, Jingyu Pu, Zhimeng Yang, Jie Xu, Guofeng Li, Xiaorong Pu, Philip S. Yu, Lifang He(参考訳) クラスタ分析は、機械学習とデータマイニングにおいて必須の役割を果たす。 優れたデータ表現を学ぶことは、クラスタリングアルゴリズムにとって重要です。 近年,ディープニューラルネットワークを用いてクラスタリングフレンドリな表現を学習できるディープクラスタリングが,幅広いクラスタリングタスクに広く適用されている。 ディープクラスタリングに関する既存の調査は主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。 この問題に対処するため,本稿では,データソースの視点における深いクラスタリングに関する総合的な調査を行う。 異なるデータソースと初期条件を用いて,クラスタリング手法を方法論,事前知識,アーキテクチャの観点から体系的に区別する。 具体的には、従来のシングルビューディープクラスタリング、半教師付きディープクラスタリング、ディープマルチビュークラスタリング、ディープ転送クラスタリングの4つのカテゴリに従って、ディープクラスタリングを導入する。 最後に、深層クラスタリングの様々な分野におけるオープンな課題と将来の可能性について論じる。

Cluster analysis plays an indispensable role in machine learning and data mining. Learning a good data representation is crucial for clustering algorithms. Recently, deep clustering, which can learn clustering-friendly representations using deep neural networks, has been broadly applied in a wide range of clustering tasks. Existing surveys for deep clustering mainly focus on the single-view fields and the network architectures, ignoring the complex application scenarios of clustering. To address this issue, in this paper we provide a comprehensive survey for deep clustering in views of data sources. With different data sources and initial conditions, we systematically distinguish the clustering methods in terms of methodology, prior knowledge, and architecture. Concretely, deep clustering methods are introduced according to four categories, i.e., traditional single-view deep clustering, semi-supervised deep clustering, deep multi-view clustering, and deep transfer clustering. Finally, we discuss the open challenges and potential future opportunities in different fields of deep clustering.
翻訳日:2022-10-11 18:31:13 公開日:2022-10-09
# 擬似説明による時系列データのきめ細かい異常検出

Fine-grained Anomaly Detection in Sequential Data via Counterfactual Explanations ( http://arxiv.org/abs/2210.04145v1 )

ライセンス: Link先を確認
He Cheng, Depeng Xu, Shuhan Yuan, Xintao Wu(参考訳) ログデータから異常なシステム挙動を検出するなど、様々な応用の可能性から、シーケンシャルデータにおける異常検出が長い間研究されてきた。 多くの手法が異常シーケンス検出において優れた性能を発揮するが、エントリレベルでの情報不足のため、シーケンス内の異常エントリの特定方法はまだ難しい。 本研究では, CFDetと呼ばれる, きめ細かい入力検出のためのフレームワークを提案する。 CFDetは解釈可能な機械学習の概念を活用する。 異常が検出されたシーケンスが与えられた場合、異常なエントリを識別することは検出結果の解釈を提供するため、異常なエントリ検出を解釈可能な機械学習タスクと考えることができる。 我々は,deep support vector data description (deep svdd) 法を用いて異常シーケンスの検出を行い,その異常エントリを識別するための新しい反事実解釈に基づく手法を提案する。 3つのデータセットの実験結果は、CFDetが異常なエントリを正しく検出できることを示している。

Anomaly detection in sequential data has been studied for a long time because of its potential in various applications, such as detecting abnormal system behaviors from log data. Although many approaches can achieve good performance on anomalous sequence detection, how to identify the anomalous entries in sequences is still challenging due to a lack of information at the entry-level. In this work, we propose a novel framework called CFDet for fine-grained anomalous entry detection. CFDet leverages the idea of interpretable machine learning. Given a sequence that is detected as anomalous, we can consider anomalous entry detection as an interpretable machine learning task because identifying anomalous entries in the sequence is to provide an interpretation to the detection result. We make use of the deep support vector data description (Deep SVDD) approach to detect anomalous sequences and propose a novel counterfactual interpretation-based approach to identify anomalous entries in the sequences. Experimental results on three datasets show that CFDet can correctly detect anomalous entries.
翻訳日:2022-10-11 18:30:57 公開日:2022-10-09
# メタ強化学習における一般化文脈に対する分解的相互情報最適化

Decomposed Mutual Information Optimization for Generalized Context in Meta-Reinforcement Learning ( http://arxiv.org/abs/2210.04209v1 )

ライセンス: Link先を確認
Yao Mu, Yuzheng Zhuang, Fei Ni, Bin Wang, Jianyu Chen, Jianye Hao, Ping Luo(参考訳) 遷移ダイナミクスの変化に適応することはロボットの応用に不可欠である。 コンテクストをコンパクトに学習することで、コンテキスト対応のメタ強化学習は、動的変化に応じて振る舞いを調整する柔軟な方法を提供する。 しかし、現実世界のアプリケーションでは、エージェントは複雑なダイナミクスの変化に遭遇する可能性がある。 複数の共同創設者がトランジションのダイナミクスに影響を与え、意思決定の正確なコンテキストを推測することが難しくなる。 本稿では,コンテキスト学習における相互情報の最大化を図りつつ,状態遷移予測誤差を最小限に抑えつつ,コンテキスト学習のための相互情報最適化(DOMINO)の課題に対処する。 本理論解析により,多元的課題による相互情報の過小評価を克服し,様々な環境において収集されたサンプル数を削減できることを示した。 DOMINOが学習した文脈は、モデルベースとモデルフリーの強化学習アルゴリズムの両方の利点を、サンプル効率と、目に見えない環境における性能の観点から、動的一般化に有効であることを示す。

Adapting to the changes in transition dynamics is essential in robotic applications. By learning a conditional policy with a compact context, context-aware meta-reinforcement learning provides a flexible way to adjust behavior according to dynamics changes. However, in real-world applications, the agent may encounter complex dynamics changes. Multiple confounders can influence the transition dynamics, making it challenging to infer accurate context for decision-making. This paper addresses such a challenge by Decomposed Mutual INformation Optimization (DOMINO) for context learning, which explicitly learns a disentangled context to maximize the mutual information between the context and historical trajectories, while minimizing the state transition prediction error. Our theoretical analysis shows that DOMINO can overcome the underestimation of the mutual information caused by multi-confounded challenges via learning disentangled context and reduce the demand for the number of samples collected in various environments. Extensive experiments show that the context learned by DOMINO benefits both model-based and model-free reinforcement learning algorithms for dynamics generalization in terms of sample efficiency and performance in unseen environments.
翻訳日:2022-10-11 18:30:41 公開日:2022-10-09
# 微調整プリトレーニングトランスの軽量化

Fine-Tuning Pre-trained Transformers into Decaying Fast Weights ( http://arxiv.org/abs/2210.04243v1 )

ライセンス: Link先を確認
Huanru Henry Mao(参考訳) 自己回帰トランスフォーマーは強固な言語モデルであるが、自己着脱機構に起因するトケン発生時のo(t)複雑性を引き起こす。 最近の研究は、O(1)時間とメモリの複雑さを達成するために、再帰的な定式化を様々な更新規則と特徴マップで置き換えることで、因果自己注意を近似するカーネルベースの手法を提案する。 これらのアプローチを調査して,それらが不必要に複雑であることを突き止め,gpu上で高速に動作し,従来のメソッドを上回り,gpt-2のパフォーマンスの99%を保ちながら,簡単な選択肢 – フェース・ファストウェイト – を提案する。 また, WikiText-103では, より複雑な注目代行に対して, 競争性能を示す。

Autoregressive Transformers are strong language models but incur O(T) complexity during per-token generation due to the self-attention mechanism. Recent work proposes kernel-based methods to approximate causal self-attention by replacing it with recurrent formulations with various update rules and feature maps to achieve O(1) time and memory complexity. We explore these approaches and find that they are unnecessarily complex, and propose a simple alternative - decaying fast weights - that runs fast on GPU, outperforms prior methods, and retains 99% of attention's performance for GPT-2. We also show competitive performance on WikiText-103 against more complex attention substitutes.
翻訳日:2022-10-11 18:30:22 公開日:2022-10-09
# 関係データ用コアセットとその応用

Coresets for Relational Data and The Applications ( http://arxiv.org/abs/2210.04249v1 )

ライセンス: Link先を確認
Jiaxiang Chen, Qingyuan Yang, Ruomin Huang and Hu Ding(参考訳) コアセットは、元の入力データセットの構造を概ね保存できる小さなセットである。 したがって,アルゴリズムをコアセット上で実行することで,計算量を削減することができる。 従来のコアセット技術は、入力データセットが明示的に処理できると仮定する。 しかし、この仮定は現実のシナリオでは成り立たないかもしれない。 本稿では,関係データに対するコアセット構築の問題について考察する。 つまり、データは複数のリレーショナルテーブルに分離され、テーブルに結合することでデータマトリックスを直接実現するのは非常に高価である。 我々は, コアセットを底から上まで構築できる ``aggregation tree with pseudo-cube''' という新しいアプローチを提案する。 さらに,本手法は,関係学習問題(Khamis et al., PODS 2019)のいくつかの問題を回避することができる。 いくつかの軽微な仮定の下で、クラスタリング、ロジスティック回帰、SVMといった機械学習タスクにコアセットアプローチを適用することができることを示す。

A coreset is a small set that can approximately preserve the structure of the original input data set. Therefore we can run our algorithm on a coreset so as to reduce the total computational complexity. Conventional coreset techniques assume that the input data set is available to process explicitly. However, this assumption may not hold in real-world scenarios. In this paper, we consider the problem of coresets construction over relational data. Namely, the data is decoupled into several relational tables, and it could be very expensive to directly materialize the data matrix by joining the tables. We propose a novel approach called ``aggregation tree with pseudo-cube'' that can build a coreset from bottom to up. Moreover, our approach can neatly circumvent several troublesome issues of relational learning problems [Khamis et al., PODS 2019]. Under some mild assumptions, we show that our coreset approach can be applied for the machine learning tasks, such as clustering, logistic regression and SVM.
翻訳日:2022-10-11 18:30:12 公開日:2022-10-09
# ハイパースペクトル異常変化検出のためのSketched Multi-view Subspace Learning

Sketched Multi-view Subspace Learning for Hyperspectral Anomalous Change Detection ( http://arxiv.org/abs/2210.04271v1 )

ライセンス: Link先を確認
Shizhen Chang, Michael Kopp, Pedram Ghamisi(参考訳) 近年,マルチビューのサブスペース学習が注目されている。 統一表現を学習することによって、複数のソースから収集されたデータの内部関係をキャプチャすることを目的としている。 このようにして、複数のビューからの包括的な情報を共有し、一般化プロセスのために保存する。 時間系列超スペクトル画像(hsi)処理の特殊分枝として、異常変化検出タスクは、異なる時間画像間の非常に小さな変化を検出することに焦点を当てる。 しかし、データセットのボリュームが非常に大きい場合やクラスが比較的包括的な場合、既存のメソッドはシーン間の変更を見つけられず、ひどい検出結果になる可能性がある。 本稿では,HSI異常な変化検出のために,スケッチ表現とマルチビューサブスペース学習に触発されたマルチビューサブスペース学習(SMSL)モデルを提案する。 提案モデルは,画像対からの主要な情報を保存し,スケッチ表現行列を用いて計算複雑性を向上させる。 さらに、自己表現行列の特定正則化を利用して、シーン間の差異を抽出する。 提案したSMSLモデルの検出効率を評価するため,ベンチマークハイパースペクトルリモートセンシングデータセットと自然ハイパースペクトルデータセットを用いて実験を行い,他の最先端技術との比較を行った。

In recent years, multi-view subspace learning has been garnering increasing attention. It aims to capture the inner relationships of the data that are collected from multiple sources by learning a unified representation. In this way, comprehensive information from multiple views is shared and preserved for the generalization processes. As a special branch of temporal series hyperspectral image (HSI) processing, the anomalous change detection task focuses on detecting very small changes among different temporal images. However, when the volume of datasets is very large or the classes are relatively comprehensive, existing methods may fail to find those changes between the scenes, and end up with terrible detection results. In this paper, inspired by the sketched representation and multi-view subspace learning, a sketched multi-view subspace learning (SMSL) model is proposed for HSI anomalous change detection. The proposed model preserves major information from the image pairs and improves computational complexity by using a sketched representation matrix. Furthermore, the differences between scenes are extracted by utilizing the specific regularizer of the self-representation matrices. To evaluate the detection effectiveness of the proposed SMSL model, experiments are conducted on a benchmark hyperspectral remote sensing dataset and a natural hyperspectral dataset, and compared with other state-of-the art approaches.
翻訳日:2022-10-11 17:48:45 公開日:2022-10-09
# テキストプロンプトで視覚的特徴を分解する学習

Learning to Decompose Visual Features with Latent Textual Prompts ( http://arxiv.org/abs/2210.04287v1 )

ライセンス: Link先を確認
Feng Wang, Manling Li, Xudong Lin, Hairong Lv, Alexander G. Schwing and Heng Ji(参考訳) CLIPのような事前学習型視覚言語モデルの最近の進歩は、伝達可能な視覚表現を学習する大きな可能性を示している。 それでも、下流の推論では、CLIPのようなモデルはどちらも苦しむ。 1)検索ベース推論中の不正確なテキスト記述の場合(ゼロショットプロトコルの挑戦)における精度と頑健さの低下。 2) 確立された視覚言語アライメント(線形探索の課題)を破る。 そこで本稿では,デコンプリート・フィーチャー・プロンプティング(DeFo)を提案する。 defoは、視覚言語によるデュアルモデルアーキテクチャを維持しながら、柔軟な多数の学習可能な埋め込みをテキスト入力として活用している。 さらに,言語入力のスケーラブルなサイズを実現するために,線形層を追加して分類を行う。 我々の実証研究は、視覚言語モデルの改善におけるDeFoの重要性を示している。 例えば、DeFoは、ResNet-50バックボーンでImageNetの73.2%のテスト精度を、ビジョンと言語エンコーダの両方の事前訓練された重みをチューニングすることなく取得し、ゼロショットCLIPを15.0%、最先端のビジョン言語プロンプトチューニング方法を7.6%上回る。

Recent advances in pre-training vision-language models like CLIP have shown great potential in learning transferable visual representations. Nonetheless, for downstream inference, CLIP-like models suffer from either 1) degraded accuracy and robustness in the case of inaccurate text descriptions during retrieval-based inference (the challenge for zero-shot protocol); or 2) breaking the well-established vision-language alignment (the challenge for linear probing). To address them, we propose Decomposed Feature Prompting (DeFo). DeFo leverages a flexible number of learnable embeddings as textual input while maintaining the vision-language dual-model architecture, which enables the model to learn decomposed visual features with the help of feature-level textual prompts. We further use an additional linear layer to perform classification, allowing a scalable size of language inputs. Our empirical study shows DeFo's significance in improving the vision-language models. For example, DeFo obtains 73.2% test accuracy on ImageNet with a ResNet-50 backbone without tuning any pretrained weights of both the vision and language encoder, outperforming zero-shot CLIP by a large margin of 15.0%, and outperforming state-of-the-art vision-language prompt tuning method by 7.6%.
翻訳日:2022-10-11 17:48:27 公開日:2022-10-09
# クロスフレーム注意を伴う静的ビデオの学習による低光度映像強調

Low Light Video Enhancement by Learning on Static Videos with Cross-Frame Attention ( http://arxiv.org/abs/2210.04290v1 )

ライセンス: Link先を確認
Shivam Chhirolya, Sameer Malik, Rajiv Soundararajan(参考訳) 低光度ビデオエンハンスメントのための深層学習手法の設計は、低光度ビデオペアの撮影が困難であるため、依然として課題となっている。 これは、ダイナミックなシーンや長時間露光した地面の真実を捉えられない動くカメラの文脈では特に困難である。 モデルが動的ビデオに一般化できるように,静的ビデオ上でモデルをトレーニングすることで,この問題にアプローチする。 このアプローチを採用する既存の方法はフレームごとに動作し、隣り合うフレーム間の関係を活用しない。 学習時間とテスト時間の間にフレーム間のダイナミクスが異なる場合でも,隣接するフレームからの情報を効果的に学習できる自己クロス拡張アテンションモジュールによって,この制限を克服する。 本手法は,複数のデータセットを用いた実験を通して検証を行い,静的ビデオのみをトレーニングした場合に,他の最先端映像強調アルゴリズムよりも優れることを示す。

The design of deep learning methods for low light video enhancement remains a challenging problem owing to the difficulty in capturing low light and ground truth video pairs. This is particularly hard in the context of dynamic scenes or moving cameras where a long exposure ground truth cannot be captured. We approach this problem by training a model on static videos such that the model can generalize to dynamic videos. Existing methods adopting this approach operate frame by frame and do not exploit the relationships among neighbouring frames. We overcome this limitation through a selfcross dilated attention module that can effectively learn to use information from neighbouring frames even when dynamics between the frames are different during training and test times. We validate our approach through experiments on multiple datasets and show that our method outperforms other state-of-the-art video enhancement algorithms when trained only on static videos.
翻訳日:2022-10-11 17:48:04 公開日:2022-10-09
# Skeleton2Humanoid: 物体間移動のシミュレーションキャラクター

Skeleton2Humanoid: Animating Simulated Characters for Physically-plausible Motion In-betweening ( http://arxiv.org/abs/2210.04294v1 )

ライセンス: Link先を確認
Yunhao Li, Zhenbo Yu, Yucheng Zhu, Bingbing Ni, Guangtao Zhai, Wei Shen(参考訳) ヒトの運動合成は、デジタル双生児やメタバースにおける様々な応用における長年の問題である。 しかし、現代の深層学習に基づく運動合成アプローチは、合成された運動の物理的妥当性をほとんど考慮せず、したがって通常非現実的な人間の運動を生成する。 そこで本研究では, 物理シミュレータにおける合成骨格運動を正規化することにより, 物理指向の動作補正を行うシステム「Skeleton2Humanoid」を提案する。 具体的には, (I) テスト時間運動合成ネットワーク適応, (II) ヒューマノイドマッチングへの骨格, (III) 強化学習に基づく動作模倣の3段階からなる。 ステージIでは, 骨格関節位置を最適化することにより, 合成ヒト骨格運動の物理的妥当性を向上させるテスト時間適応戦略を導入する。 段階IIでは、最適化された人間の骨格運動を物理シミュレーターのヒューマノイドロボット運動に変換する解析的逆運動学戦略を実行し、変換されたヒューマノイドロボット運動を模倣するRLポリシーの参照運動として利用することができる。 段階IIIでは,ヒューマノイドロボットが物理法則に従って複雑な変換された参照動作を模倣する,カリキュラムの残留力制御ポリシーを導入する。 本システムでは,人間の運動合成タスクであるモーション・イン・インター・インターホンを用いて検証を行う。 挑戦的なLaFAN1データセットの実験は、物理的妥当性と精度の両方において、我々のシステムが先行手法を大幅に上回ることを示す。 https://github.com/michaelliyunhao/Skeleton2Humanoid

Human motion synthesis is a long-standing problem with various applications in digital twins and the Metaverse. However, modern deep learning based motion synthesis approaches barely consider the physical plausibility of synthesized motions and consequently they usually produce unrealistic human motions. In order to solve this problem, we propose a system ``Skeleton2Humanoid'' which performs physics-oriented motion correction at test time by regularizing synthesized skeleton motions in a physics simulator. Concretely, our system consists of three sequential stages: (I) test time motion synthesis network adaptation, (II) skeleton to humanoid matching and (III) motion imitation based on reinforcement learning (RL). Stage I introduces a test time adaptation strategy, which improves the physical plausibility of synthesized human skeleton motions by optimizing skeleton joint locations. Stage II performs an analytical inverse kinematics strategy, which converts the optimized human skeleton motions to humanoid robot motions in a physics simulator, then the converted humanoid robot motions can be served as reference motions for the RL policy to imitate. Stage III introduces a curriculum residual force control policy, which drives the humanoid robot to mimic complex converted reference motions in accordance with the physical law. We verify our system on a typical human motion synthesis task, motion-in-betweening. Experiments on the challenging LaFAN1 dataset show our system can outperform prior methods significantly in terms of both physical plausibility and accuracy. Code will be released for research purposes at: https://github.com/michaelliyunhao/Skeleton2Humanoid
翻訳日:2022-10-11 17:47:52 公開日:2022-10-09
# マルチモーダル教師が教える学生は優れた行動認識者である

Students taught by multimodal teachers are superior action recognizers ( http://arxiv.org/abs/2210.04331v1 )

ライセンス: Link先を確認
Gorjan Radevski, Dusan Grujicic, Matthew Blaschko, Marie-Francine Moens, Tinne Tuytelaars(参考訳) エゴセントリックビデオ理解の焦点は、手とオブジェクトの相互作用のモデリングである。 しかし、入力としてrgbフレームを受信する標準モデル(cnn、視覚トランスフォーマーなど)は、オブジェクト検出、光フロー、オーディオなどの付加的なモダリティを入力として使用することにより、さらにパフォーマンスが向上する。 一方、必要なモダリティ固有のモジュールの追加の複雑さは、これらのモデルをデプロイには実用的ではない。 本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。 提案手法はマルチモーダルな知識蒸留を基礎とし,多モーダルな教師(物体検出,光フロー,RGBフレームのみを用いた訓練)と,学生(RGBフレームのみを入力として使用する)を特徴とする。 本研究は,マルチモーダル教師から蒸留したモデルが,標準動作認識と構成動作認識の両方において,ベースラインrgbモデル(知識蒸留を伴わない学習)と雑多なバージョン(すべてのモーダルを併用して訓練)を有意に上回っていることを示す予備的結果を示す。

The focal point of egocentric video understanding is modelling hand-object interactions. Standard models -- CNNs, Vision Transformers, etc. -- which receive RGB frames as input perform well, however, their performance improves further by employing additional modalities such as object detections, optical flow, audio, etc. as input. The added complexity of the required modality-specific modules, on the other hand, makes these models impractical for deployment. The goal of this work is to retain the performance of such multimodal approaches, while using only the RGB images as input at inference time. Our approach is based on multimodal knowledge distillation, featuring a multimodal teacher (in the current experiments trained only using object detections, optical flow and RGB frames) and a unimodal student (using only RGB frames as input). We present preliminary results which demonstrate that the resulting model -- distilled from a multimodal teacher -- significantly outperforms the baseline RGB model (trained without knowledge distillation), as well as an omnivorous version of itself (trained on all modalities jointly), in both standard and compositional action recognition.
翻訳日:2022-10-11 17:47:24 公開日:2022-10-09
# ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval

ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval ( http://arxiv.org/abs/2210.04341v1 )

ライセンス: Link先を確認
Adriano Fragomeni, Michael Wray, Dima Damen(参考訳) 本稿では,より長いビデオの一部となるクロスモーダルクリップ文検索のタスクを再検討する。 クリップが短く、あるいは視覚的に曖昧である場合、その局所的な時間的文脈(つまり周辺ビデオセグメント)の知識を使用して検索性能を向上させることができる。 本研究では,ビデオクリップとローカルな時間的コンテキスト間の相互作用をモデル化し,その埋め込み表現を強化するエンコーダアーキテクチャであるContext Transformer (ConTra)を提案する。 重要なのは、クロスモーダル埋め込み空間におけるコントラスト損失を用いてコンテキストトランスフォーマーを監督することである。 ビデオとテキストのモダリティのためのコンテキストトランスフォーマーを探索する。 その結果,YouCook2,EPIC-KITCHENS,ActivityNet Captionsのクリップ文バージョンという,3つのデータセットのパフォーマンスが一貫して向上した。 排他的アブレーション研究と文脈分析により,提案手法の有効性が示された。

In this paper, we re-examine the task of cross-modal clip-sentence retrieval, where the clip is part of a longer untrimmed video. When the clip is short or visually ambiguous, knowledge of its local temporal context (i.e. surrounding video segments) can be used to improve the retrieval performance. We propose Context Transformer (ConTra); an encoder architecture that models the interaction between a video clip and its local temporal context in order to enhance its embedded representations. Importantly, we supervise the context transformer using contrastive losses in the cross-modal embedding space. We explore context transformers for video and text modalities. Results consistently demonstrate improved performance on three datasets: YouCook2, EPIC-KITCHENS and a clip-sentence version of ActivityNet Captions. Exhaustive ablation studies and context analysis show the efficacy of the proposed method.
翻訳日:2022-10-11 17:47:00 公開日:2022-10-09
# 分布から見た対向移動可能性の理解と向上に向けて

Towards Understanding and Boosting Adversarial Transferability from a Distribution Perspective ( http://arxiv.org/abs/2210.04213v1 )

ライセンス: Link先を確認
Yao Zhu, Yuefeng Chen, Xiaodan Li, Kejiang Chen, Yuan He, Xiang Tian, Bolun Zheng, Yaowu Chen, Qingming Huang(参考訳) ディープニューラルネットワーク(dnn)に対する転送可能な逆攻撃は近年広く注目を集めている。 敵の例は代理モデルによって作成され、未知のターゲットモデルへの攻撃が成功し、DNNに深刻な脅威をもたらす。 転送可能性の正確な根拠はまだ完全には理解されていない。 これまでの作業は主に、決定境界、モデルアーキテクチャ、モデルキャパシティなど、モデルの観点から原因を探究する。 近年,ディープニューラルネットワーク(DNN)に対する敵対的攻撃が注目されている。 敵の例は代理モデルによって作成され、未知のターゲットモデルへの攻撃が成功し、DNNに深刻な脅威をもたらす。 転送可能性の正確な根拠はまだ完全には理解されていない。 これまでの作業は、主にモデルの観点から原因を探ります。 本稿では,データ配信の観点からの転送可能性について検討し,イメージを元の分布から遠ざけることで,逆移動性を高めることができると仮定する。 具体的に言うと、イメージを元のディストリビューションから移動させると、イメージを正しく分類することが難しくなり、未ターゲットの攻撃の恩恵を受け、ターゲットディストリビューションに画像をドラッグすると、ターゲットの攻撃の恩恵を受けるターゲットクラスとしてイメージを分類するモデルが誤解される。 そこで本研究では,画像の分布を操作することによって,敵の例を再現する手法を提案する。 提案手法の有効性を示すため,複数のDNNに対して包括的転送可能な攻撃を行う。 提案手法は,攻撃の伝達性を大幅に向上し,未目標シナリオと目標シナリオの両方において最先端のパフォーマンスを実現し,前回のベストメソッドを最大40$\%以上越えることが可能である。

Transferable adversarial attacks against Deep neural networks (DNNs) have received broad attention in recent years. An adversarial example can be crafted by a surrogate model and then attack the unknown target model successfully, which brings a severe threat to DNNs. The exact underlying reasons for the transferability are still not completely understood. Previous work mostly explores the causes from the model perspective, e.g., decision boundary, model architecture, and model capacity. adversarial attacks against Deep neural networks (DNNs) have received broad attention in recent years. An adversarial example can be crafted by a surrogate model and then attack the unknown target model successfully, which brings a severe threat to DNNs. The exact underlying reasons for the transferability are still not completely understood. Previous work mostly explores the causes from the model perspective. Here, we investigate the transferability from the data distribution perspective and hypothesize that pushing the image away from its original distribution can enhance the adversarial transferability. To be specific, moving the image out of its original distribution makes different models hardly classify the image correctly, which benefits the untargeted attack, and dragging the image into the target distribution misleads the models to classify the image as the target class, which benefits the targeted attack. Towards this end, we propose a novel method that crafts adversarial examples by manipulating the distribution of the image. We conduct comprehensive transferable attacks against multiple DNNs to demonstrate the effectiveness of the proposed method. Our method can significantly improve the transferability of the crafted attacks and achieves state-of-the-art performance in both untargeted and targeted scenarios, surpassing the previous best method by up to 40$\%$ in some cases.
翻訳日:2022-10-11 17:40:48 公開日:2022-10-09
# 木構造を用いた放射場からのニューラルリフレクタンス場の推定

Estimating Neural Reflectance Field from Radiance Field using Tree Structures ( http://arxiv.org/abs/2210.04217v1 )

ライセンス: Link先を確認
Xiu Li, Xiao Li, Yan Lu(参考訳) 本研究では,物体のニューラルリフレクタンス場(NReF)を,未知の照明下での多視点画像の集合から推定する手法を提案する。 NReFは3次元形状と物体の視認性を表しており、画像のみから推定することは困難である。 提案手法は,Neural Radiance Field (NeRF) をプロキシ表現として利用することでこの問題を解決し,さらに分解を行う。 高品質なNeRF分解は、異なるコンポーネント間のあいまいさを適切に解決するために、優れた幾何情報抽出と優れた事前条件に依存する。 放射光場から高品質な幾何学情報を抽出するため,表面点抽出のための新しいレイキャスティング法を再設計した。 先行項を効率よく計算し,適用するために,異なる先行項を放射場から抽出した表面上の異なる種類のフィルタ演算に変換する。 次に,2種類の補助データ構造,すなわちガウスKD木とオクツリーを用いて,表面点の高速クエリとトレーニング中の表面フィルタの効率的な計算を支援する。 そこで我々は,ニューラルレイディアンス場からニューラルリフレクタンス場を推定するための多段階分解最適化パイプラインを設計した。 大規模な実験により,本手法は異なるデータに対して他の最先端手法よりも優れており,高品質なフリービューリライティングや素材編集作業を実現している。

We present a new method for estimating the Neural Reflectance Field (NReF) of an object from a set of posed multi-view images under unknown lighting. NReF represents 3D geometry and appearance of objects in a disentangled manner, and are hard to be estimated from images only. Our method solves this problem by exploiting the Neural Radiance Field (NeRF) as a proxy representation, from which we perform further decomposition. A high-quality NeRF decomposition relies on good geometry information extraction as well as good prior terms to properly resolve ambiguities between different components. To extract high-quality geometry information from radiance fields, we re-design a new ray-casting based method for surface point extraction. To efficiently compute and apply prior terms, we convert different prior terms into different type of filter operations on the surface extracted from radiance field. We then employ two type of auxiliary data structures, namely Gaussian KD-tree and octree, to support fast querying of surface points and efficient computation of surface filters during training. Based on this, we design a multi-stage decomposition optimization pipeline for estimating neural reflectance field from neural radiance fields. Extensive experiments show our method outperforms other state-of-the-art methods on different data, and enable high-quality free-view relighting as well as material editing tasks.
翻訳日:2022-10-11 17:40:18 公開日:2022-10-09
# 医用画像における異常検出のための自己監督的改善を伴う二重分布差

Dual-distribution discrepancy with self-supervised refinement for anomaly detection in medical images ( http://arxiv.org/abs/2210.04227v1 )

ライセンス: Link先を確認
Yu Cai, Hao Chen, Xin Yang, Yu Zhou, Kwang-Ting Cheng(参考訳) 医学的異常検出は、診断を支援するために異常画像を認識することを目的とした重要な課題である。 異常画像の高コストアノテーションのため、ほとんどの方法はトレーニング中に既知の正常画像のみを使用し、テストフェーズで正常プロファイルに適合しないサンプルを異常として識別する。 これにより、トレーニング段階では、異常を含むラベル付けされていない多数の画像が無視され、その性能が制限される。 そこで本研究では,正規画像とラベルなし画像の両方を利用したDual-Distribution Discrepancy for Anomaly Detection (DDAD)を提案する。 2つのモジュールは、正規画像の規範分布と、正規画像と未ラベル画像の未知分布を、再構成ネットワークのアンサンブルを用いてモデル化する。 その後、正規分布モジュールの偏差と2つのモジュール間の偏差を異常スコアとして設計する。 さらに, 自己教師付き学習により訓練された非正規得点改善ネット(asr-net)を提案し, 2つの異常スコアを洗練する。 評価のために、胸部X線、脳MRI、網膜基底画像を含む5つの医療データセットをベンチマークとして整理する。 これらのベンチマーク実験により,本手法は精度が高く,最先端手法よりも優れていた。 コードと組織化されたベンチマークはhttps://github.com/caiyu6666/DDAD-ASRで公開される。

Medical anomaly detection is a crucial yet challenging task aiming at recognizing abnormal images to assist diagnosis. Due to the high-cost annotations of abnormal images, most methods utilize only known normal images during training and identify samples not conforming to the normal profile as anomalies in the testing phase. A large number of readily available unlabeled images containing anomalies are thus ignored in the training phase, restricting their performance. To solve this problem, we propose the Dual-distribution Discrepancy for Anomaly Detection (DDAD), utilizing both known normal images and unlabeled images. Two modules are designed to model the normative distribution of normal images and the unknown distribution of both normal and unlabeled images, respectively, using ensembles of reconstruction networks. Subsequently, intra-discrepancy of the normative distribution module, and inter-discrepancy between the two modules are designed as anomaly scores. Furthermore, an Anormal Score Refinement Net (ASR-Net) trained via self-supervised learning is proposed to refine the two anomaly scores. For evaluation, five medical datasets including chest X-rays, brain MRIs and retinal fundus images are organized as benchmarks. Experiments on these benchmarks demonstrate our method achieves significant gains and outperforms state-of-the-art methods. Code and organized benchmarks will be available at https://github.com/caiyu6666/DDAD-ASR
翻訳日:2022-10-11 17:39:56 公開日:2022-10-09
# 神経放射場の多スケール表現のロバスト化

Robustifying the Multi-Scale Representation of Neural Radiance Fields ( http://arxiv.org/abs/2210.04233v1 )

ライセンス: Link先を確認
Nishant Jain, Suryansh Kumar, Luc Van Gool(参考訳) neural radiance fields(nerf)は最近、マルチビュー(mv)イメージからのオブジェクト表現の新しいパラダイムとして登場した。 しかし、マルチスケール(MS)画像やカメラのポーズ推定誤差は扱えないため、一般的には、日常のコモディティカメラから捉えたマルチビュー画像に当てはまる。 最近提案されたMip-NeRFは、NeRFのマルチスケールイメージング問題に対処できるが、カメラのポーズ推定誤差は扱えない。 一方,新たに提案するbarfは,nerfを用いてカメラのポーズ問題を解くことができるが,画像がマルチスケールである場合には失敗する。 本稿では,実世界の画像の両問題を同時に克服するために,頑健なマルチスケールニューラルラジアンス場表現手法を提案する。 シーン剛性の基礎を生かして,NeRFに着想を得たアプローチによるマルチスケール画像効果とカメラ位置推定問題に対処する。 レイスペースのマルチスケール画像による不快なエイリアスアーティファクトを削減するために,mip-nerfマルチスケール表現を利用する。 頑健なカメラポーズのジョイント推定のために,ニューラルネットワークを用いたマルチモーション平均化手法を提案する。 例えば、日常的に取得したマルチビュー画像からオブジェクトの正確な神経表現を行うためには、正確なカメラ目的の推定が不可欠であることを示す。 カメラポーズ推定におけるロバスト性尺度を考慮せずに、円錐フラスタムによるマルチスケールエイリアスアーティファクトのモデリングは非生産的である。 我々は、ベンチマークデータセットに関する広範な実験を行い、我々のアプローチが、そのような現実的な設定に対する最近のNeRFにインスパイアされたアプローチよりも優れた結果をもたらすことを示す。

Neural Radiance Fields (NeRF) recently emerged as a new paradigm for object representation from multi-view (MV) images. Yet, it cannot handle multi-scale (MS) images and camera pose estimation errors, which generally is the case with multi-view images captured from a day-to-day commodity camera. Although recently proposed Mip-NeRF could handle multi-scale imaging problems with NeRF, it cannot handle camera pose estimation error. On the other hand, the newly proposed BARF can solve the camera pose problem with NeRF but fails if the images are multi-scale in nature. This paper presents a robust multi-scale neural radiance fields representation approach to simultaneously overcome both real-world imaging issues. Our method handles multi-scale imaging effects and camera-pose estimation problems with NeRF-inspired approaches by leveraging the fundamentals of scene rigidity. To reduce unpleasant aliasing artifacts due to multi-scale images in the ray space, we leverage Mip-NeRF multi-scale representation. For joint estimation of robust camera pose, we propose graph-neural network-based multiple motion averaging in the neural volume rendering framework. We demonstrate, with examples, that for an accurate neural representation of an object from day-to-day acquired multi-view images, it is crucial to have precise camera-pose estimates. Without considering robustness measures in the camera pose estimation, modeling for multi-scale aliasing artifacts via conical frustum can be counterproductive. We present extensive experiments on the benchmark datasets to demonstrate that our approach provides better results than the recent NeRF-inspired approaches for such realistic settings.
翻訳日:2022-10-11 17:39:33 公開日:2022-10-09
# less is more: 顔のランドマークは自発的な笑顔を認識できる

Less is More: Facial Landmarks can Recognize a Spontaneous Smile ( http://arxiv.org/abs/2210.04240v1 )

ライセンス: Link先を確認
Md. Tahrim Faroque, Yan Yang, Md Zakir Hossain, Sheikh Motahar Naim, Nabeel Mohammed, Shafin Rahman,(参考訳) smile veracity classificationは、社会的相互作用を解釈するタスクである。 大まかに言えば、自然とポーズの笑顔を区別する。 以前のアプローチでは、笑顔分類タスクを実行するために、顔のランドマークや生のスマイルビデオから手作りの機能をエンドツーエンドで使用していた。 特徴に基づく手法は、機能エンジニアリングと重い前処理ステップに関する人間の専門家の介入を必要とする。 逆に、エンド・ツー・エンドのモデルに入力された生のスマイルビデオは、主にスマイルの正確さの分類とは無関係な多くの冗長な顔の特徴(ランドマークの場所以外の)を考慮し、プロセスにもっと自動化をもたらす。 終末的な方法でランドマークから差別的な特徴を確立することは、まだ不明である。 上記の制限に対処するために,トランスフォーマーアーキテクチャである meshsmilenet framework を提案する。 余分な顔の特徴を排除するため、予め訓練されたランドマーク検出器であるAttention Meshからランドマーク入力を抽出する。 また、識別的特徴を発見するために、ランドマークの相対性理論と軌道を考える。 相対性理論では,局所的な空間的特徴を確立するために,各フレームに曲線を概念的に形成する顔のランドマークを集約する。 軌道について,同一のランドマークの軌跡に一対の依存性を捉えた自己照準機構により,時間にまたがるランドマーク構成特徴の移動を推定する。 このアイデアにより、UVA-NEMO、BBC、MMI Facial Expression、SPOSデータセット上での最先端のパフォーマンスを実現することができる。

Smile veracity classification is a task of interpreting social interactions. Broadly, it distinguishes between spontaneous and posed smiles. Previous approaches used hand-engineered features from facial landmarks or considered raw smile videos in an end-to-end manner to perform smile classification tasks. Feature-based methods require intervention from human experts on feature engineering and heavy pre-processing steps. On the contrary, raw smile video inputs fed into end-to-end models bring more automation to the process with the cost of considering many redundant facial features (beyond landmark locations) that are mainly irrelevant to smile veracity classification. It remains unclear to establish discriminative features from landmarks in an end-to-end manner. We present a MeshSmileNet framework, a transformer architecture, to address the above limitations. To eliminate redundant facial features, our landmarks input is extracted from Attention Mesh, a pre-trained landmark detector. Again, to discover discriminative features, we consider the relativity and trajectory of the landmarks. For the relativity, we aggregate facial landmark that conceptually formats a curve at each frame to establish local spatial features. For the trajectory, we estimate the movements of landmark composed features across time by self-attention mechanism, which captures pairwise dependency on the trajectory of the same landmark. This idea allows us to achieve state-of-the-art performances on UVA-NEMO, BBC, MMI Facial Expression, and SPOS datasets.
翻訳日:2022-10-11 17:38:52 公開日:2022-10-09
# レンズレスイメージングシステムによるテキストの検出と認識

Text detection and recognition based on a lensless imaging system ( http://arxiv.org/abs/2210.04244v1 )

ライセンス: Link先を確認
Yinger Zhang, Zhouyi Wu, Peiying Lin, Yuting Wu, Lusong Wei, Zhengjie Huang, and Jiangtao Huangfu(参考訳) レンズレスカメラは、従来のカメラと比較していくつかの利点(小型化、製造が容易、低コストなど)が特徴である。 しかし、画像の明瞭度や解像度の低さ、特に画像の品質やテキスト検出やテキスト認識といった細部への要求が高いタスクにおいて、これらは広く採用されていない。 この問題に対処するため,レンズレスカメラを用いて取得した生データから3段階のテキストを認識できるように,ディープラーニングに基づくパイプライン構造のフレームワークを構築した。 このパイプライン構造は、レンズレスイメージングモデルU-Net、テキスト検出モデル接続型テキスト提案ネットワーク(CTPN)、およびテキスト認識モデル畳み込みリカレントニューラルネットワーク(CRNN)から構成されていた。 画像再構成のみに焦点を絞った方法と比較して、パイプライン内のUNetは、再構成プロセスにおける文字カテゴリに関連する因子を増強することにより、画像の詳細を補うことができ、CTPNやCRNNによってより効果的に検出され、より少ないアーティファクトと高明度再構成されたレンズレス画像で認識される。 異なる複雑さのデータセットで実験を行うことで、レンズレスカメラでのテキスト検出と認識の適用性を確認した。 本研究は、レンズレスカメラシステムにおけるテキスト検出および認識タスクを合理的に実証し、新しい用途のための基礎的手法を開発する。

Lensless cameras are characterized by several advantages (e.g., miniaturization, ease of manufacture, and low cost) as compared with conventional cameras. However, they have not been extensively employed due to their poor image clarity and low image resolution, especially for tasks that have high requirements on image quality and details such as text detection and text recognition. To address the problem, a framework of deep-learning-based pipeline structure was built to recognize text with three steps from raw data captured by employing lensless cameras. This pipeline structure consisted of the lensless imaging model U-Net, the text detection model connectionist text proposal network (CTPN), and the text recognition model convolutional recurrent neural network (CRNN). Compared with the method focusing only on image reconstruction, UNet in the pipeline was able to supplement the imaging details by enhancing factors related to character categories in the reconstruction process, so the textual information can be more effectively detected and recognized by CTPN and CRNN with fewer artifacts and high-clarity reconstructed lensless images. By performing experiments on datasets of different complexities, the applicability to text detection and recognition on lensless cameras was verified. This study reasonably demonstrates text detection and recognition tasks in the lensless camera system,and develops a basic method for novel applications.
翻訳日:2022-10-11 17:38:27 公開日:2022-10-09
# 半教師付きコントラスト学習に基づく前庭神経障害の非教師付きクロスモダリティ領域適応とKoosグレード予測

Unsupervised Cross-Modality Domain Adaptation for Vestibular Schwannoma Segmentation and Koos Grade Prediction based on Semi-Supervised Contrastive Learning ( http://arxiv.org/abs/2210.04255v1 )

ライセンス: Link先を確認
Luyi Han, Yunzhi Huang, Tao Tan, Ritse Mann(参考訳) ドメイン適応は、欠落したモダリティを補完するだけでなく、マルチベンダやマルチセンタ間でスタイルを転送するために広く採用されている。 そこで本研究では,クロスモダリティ前庭シュワルノーマ (vs) と人工内耳セグメンテーション (cochlea segmentation) とkoosグレード予測のための教師なしドメイン適応フレームワークを提案する。 我々は、ceT1とhrT2の両方の画像から共有表現を学び、潜在表現から別のモダリティを回復し、また、VSセグメンテーションと脳パーセレーションのプロキシタスクを利用して、ドメイン適応における画像構造の一貫性を制限する。 欠落したモダリティを生成した後、VSとコチェリーセグメンテーションにnnU-Netモデルを使用し、Koosグレード予測のためのモデル性能を改善するために、半教師付きコントラッシブラーニングプレトレインアプローチを採用する。 クロスモダ検証フェーズリーダボードでは,タスク1の平均サイススコア0.8394,タスク2ではランク2,マクロ平均2乗誤差0.3941でランク4を得た。 私たちのコードはhttps://github.com/fiy2w/cmda2022.superpolymerizationで利用可能です。

Domain adaptation has been widely adopted to transfer styles across multi-vendors and multi-centers, as well as to complement the missing modalities. In this challenge, we proposed an unsupervised domain adaptation framework for cross-modality vestibular schwannoma (VS) and cochlea segmentation and Koos grade prediction. We learn the shared representation from both ceT1 and hrT2 images and recover another modality from the latent representation, and we also utilize proxy tasks of VS segmentation and brain parcellation to restrict the consistency of image structures in domain adaptation. After generating missing modalities, the nnU-Net model is utilized for VS and cochlea segmentation, while a semi-supervised contrastive learning pre-train approach is employed to improve the model performance for Koos grade prediction. On CrossMoDA validation phase Leaderboard, our method received rank 4 in task1 with a mean Dice score of 0.8394 and rank 2 in task2 with Macro-Average Mean Square Error of 0.3941. Our code is available at https://github.com/fiy2W/cmda2022.superpolymerization.
翻訳日:2022-10-11 17:38:02 公開日:2022-10-09
# CAGroup3D:ポイントクラウド上の3Dオブジェクト検出のためのクラス認識グループ化

CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds ( http://arxiv.org/abs/2210.04264v1 )

ライセンス: Link先を確認
Haiyang Wang, Lihe Ding, Shaocong Dong, Shaoshuai Shi, Aoxue Li, Jianan Li, Zhenguo Li, Liwei Wang(参考訳) 本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。 提案手法は, 従来のボトムアップアプローチで放棄された意味的一貫性と多様な局所性を考慮した, 同一意味予測を用いて, オブジェクト表面ボクセル上のクラス認識型局所群戦略を活用し, 高品質な3d提案を生成する。 次に,boxel-wiseセグメンテーションの誤りによるvoxelの欠落特性を回復するために,backboneからきめ細かい空間情報を直接集約する完全疎結合型roiプーリングモジュールを構築し,さらなる改良を行った。 メモリと計算の効率が良く、各3Dプロポーザルの幾何学的特徴をよりよくエンコードできる。 このモデルは、scannet v2で+\textit{3.6\%}、map@0.25でsun rgb-dで+\textit{2.6}\%という、最先端の3d検出性能を実現している。 コードはhttps://github.com/Haiyang-W/CAGroup3Dで入手できる。

We present a novel two-stage fully sparse convolutional 3D object detection framework, named CAGroup3D. Our proposed method first generates some high-quality 3D proposals by leveraging the class-aware local group strategy on the object surface voxels with the same semantic predictions, which considers semantic consistency and diverse locality abandoned in previous bottom-up approaches. Then, to recover the features of missed voxels due to incorrect voxel-wise segmentation, we build a fully sparse convolutional RoI pooling module to directly aggregate fine-grained spatial information from backbone for further proposal refinement. It is memory-and-computation efficient and can better encode the geometry-specific features of each 3D proposal. Our model achieves state-of-the-art 3D detection performance with remarkable gains of +\textit{3.6\%} on ScanNet V2 and +\textit{2.6}\% on SUN RGB-D in term of mAP@0.25. Code will be available at https://github.com/Haiyang-W/CAGroup3D.
翻訳日:2022-10-11 17:37:37 公開日:2022-10-09
# 非教師なし領域適応による単体画像からの彫刻の3次元再構成

3D Reconstruction of Sculptures from Single Images via Unsupervised Domain Adaptation on Implicit Models ( http://arxiv.org/abs/2210.04265v1 )

ライセンス: Link先を確認
Ziyi Chang, George Alex Koulieris, Hubert P. H. Shum(参考訳) バーチャルリアリティ(VR)博物館で彫刻などの展示品の仮想的等価性を取得することは、労働集約的であり、時には実現不可能である。 深層学習に基づく3D再構成手法により、2D観察から3D形状を復元することができる。 しかし、よく研究されたヒューマンリコンストラクション手法を使用する場合、データ可用性の制限とドメインシフトという2つの課題がある。 通常、彫刻は人間と関係があるので、対象(彫刻)領域への単一視点3次元暗黙的再構成モデルを適用するための教師なし3次元領域適応法を提案する。 生成した形状を他の方法と比較し, 適応法の有効性を実証するために, アブレーション研究とユーザスタディを行った。 また、結果をvrアプリケーションにデプロイします。

Acquiring the virtual equivalent of exhibits, such as sculptures, in virtual reality (VR) museums, can be labour-intensive and sometimes infeasible. Deep learning based 3D reconstruction approaches allow us to recover 3D shapes from 2D observations, among which single-view-based approaches can reduce the need for human intervention and specialised equipment in acquiring 3D sculptures for VR museums. However, there exist two challenges when attempting to use the well-researched human reconstruction methods: limited data availability and domain shift. Considering sculptures are usually related to humans, we propose our unsupervised 3D domain adaptation method for adapting a single-view 3D implicit reconstruction model from the source (real-world humans) to the target (sculptures) domain. We have compared the generated shapes with other methods and conducted ablation studies as well as a user study to demonstrate the effectiveness of our adaptation method. We also deploy our results in a VR application.
翻訳日:2022-10-11 17:37:13 公開日:2022-10-09
# RGB-T能動物体検出には熱が常に必要か?

Does Thermal Really Always Matter for RGB-T Salient Object Detection? ( http://arxiv.org/abs/2210.04266v1 )

ライセンス: Link先を確認
Runmin Cong, Kepu Zhang, Chen Zhang, Feng Zheng, Yao Zhao, Qingming Huang, and Sam Kwong(参考訳) 近年,RGB-T塩物検出 (SOD) が注目されているため, 熱画像の導入により, 低温などの環境下での塩物の検出が可能となった。 しかし、既存のRGB-T SODモデルのほとんどは、熱画像がSODタスクで常に重要であるかどうかを無視して、クロスモダリティ機能融合を実行する方法に焦点を当てている。 このタスクの定義と性質から、熱モダリティの意味を再考し、RGB-T SODタスクを解決するためにTNetというネットワークを提案する。 本稿では,この2つのモードが果たす役割を調節するために,画像のグローバル照度スコアを予測するためのグローバル照度推定モジュールを提案する。 さらに,熱的モダリティの役割を考慮し,符号化相と復号相において異なるクロスモダリティ相互作用機構を設定した。 本稿では,sod処理に熱的モダリティをより適したエンコーディングフェーズにおける熱画像の意味性を高めるための意味的制約プロバイダを提案する。 一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。 3つのデータセットに関する広範囲な実験により、提案されたtnetは20の最先端の方法に比べて競争力のある性能を達成していることが示された。

In recent years, RGB-T salient object detection (SOD) has attracted continuous attention, which makes it possible to identify salient objects in environments such as low light by introducing thermal image. However, most of the existing RGB-T SOD models focus on how to perform cross-modality feature fusion, ignoring whether thermal image is really always matter in SOD task. Starting from the definition and nature of this task, this paper rethinks the connotation of thermal modality, and proposes a network named TNet to solve the RGB-T SOD task. In this paper, we introduce a global illumination estimation module to predict the global illuminance score of the image, so as to regulate the role played by the two modalities. In addition, considering the role of thermal modality, we set up different cross-modality interaction mechanisms in the encoding phase and the decoding phase. On the one hand, we introduce a semantic constraint provider to enrich the semantics of thermal images in the encoding phase, which makes thermal modality more suitable for the SOD task. On the other hand, we introduce a two-stage localization and complementation module in the decoding phase to transfer object localization cue and internal integrity cue in thermal features to the RGB modality. Extensive experiments on three datasets show that the proposed TNet achieves competitive performance compared with 20 state-of-the-art methods.
翻訳日:2022-10-11 17:36:58 公開日:2022-10-09
# 一貫性の学習による効率的なニューラルシーングラフを目指して

Towards Efficient Neural Scene Graphs by Learning Consistency Fields ( http://arxiv.org/abs/2210.04127v1 )

ライセンス: Link先を確認
Yeji Song, Chaerin Kong, Seoyoung Lee, Nojun Kwak, Joonseok Lee(参考訳) Neural Radiance Fields (NeRF)は、新しいビューからフォトリアリスティックな画像レンダリングを実現し、Neural Scene Graphs (NSG) \cite{ost2021neural} は複数のオブジェクトを持つ動的なシーン(ビデオ)に拡張する。 それでも、画像フレームごとに計算量の多いレイマーチングは大きな負担になる。 本稿では,ビデオ内の隣接するフレーム間の大きな冗長性を生かして,機能再利用フレームワークを提案する。 しかし、NSG特徴を鼻で再利用する最初の試みから、過渡的な特徴からフレーム間で一貫したオブジェクト-内在性を取り除くことが重要であることが分かる。 提案手法は, ニューラルラジアンス場を再構成し, さらに, \textit{Consistency-Field-based NSG (CF-NSG) を考察する。 不整合表現では、CF-NSGは特徴還元スキームを最大限に活用し、より制御可能なシーン操作を行う。 我々は,CF-NSGがレンダリング品質の顕著な劣化を伴わずに,NSGよりも85%少ないクエリを使用することで,推論効率を大幅に向上することを示す。 コードは、https://github.com/ldynx/CF-NSGで入手できる。

Neural Radiance Fields (NeRF) achieves photo-realistic image rendering from novel views, and the Neural Scene Graphs (NSG) \cite{ost2021neural} extends it to dynamic scenes (video) with multiple objects. Nevertheless, computationally heavy ray marching for every image frame becomes a huge burden. In this paper, taking advantage of significant redundancy across adjacent frames in videos, we propose a feature-reusing framework. From the first try of naively reusing the NSG features, however, we learn that it is crucial to disentangle object-intrinsic properties consistent across frames from transient ones. Our proposed method, \textit{Consistency-Field-based NSG (CF-NSG)}, reformulates neural radiance fields to additionally consider \textit{consistency fields}. With disentangled representations, CF-NSG takes full advantage of the feature-reusing scheme and performs an extended degree of scene manipulation in a more controllable manner. We empirically verify that CF-NSG greatly improves the inference efficiency by using 85\% less queries than NSG without notable degradation in rendering quality. Code will be available at: https://github.com/ldynx/CF-NSG
翻訳日:2022-10-11 17:31:20 公開日:2022-10-09
# 残存ネットワークの刺激的訓練--ローフィングの社会心理学的視点

Stimulative Training of Residual Networks: A Social Psychology Perspective of Loafing ( http://arxiv.org/abs/2210.04153v1 )

ライセンス: Link先を確認
Peng Ye, Shengji Tang, Baopu Li, Tao Chen, Wanli Ouyang(参考訳) 残ったネットワークは大きな成功を収め、今日の深層モデルでは不可欠となった。 本研究では,新たな社会心理学的視点から,残差ネットワークの訓練過程を再検討することを目的として,残差ネットワークの性能を高めるための新たな訓練戦略を提案する。 従来の研究では、残余ネットワークは比較的浅いネットワークのアンサンブル(つまり、textit{unraveled view})と見なされるので、そのような視点から始めて、残余ネットワークの最終的な性能はサブネットワークのグループによって決定されると考える。 社会心理学の社会的疎外問題に触発されて、残余ネットワークは、しばしば同様の問題に悩まされ、残余ネットワーク内のサブネットワークは、単独で働くよりもグループの一員として働く場合の労力を減らしがちである。 以前に見落としていた問題を \textit{network loafing} と定義する。 ソーシャルローフは最終的に個人の生産性を低下させ、全体のパフォーマンスを低下させるため、ネットワークローフは、所定のネットワークとそのサブネットワークのパフォーマンスを阻害する。 社会心理学の解を参考に,残余のサブネットワークをランダムにサンプリングし,サンプリングしたサブネットワークと与えられた残余ネットワーク間のKL分割損失を計算し,サブネットワークの余剰監督として機能し,全体的な目標を整合させる「textit{stimulative training」を提案する。 総合的な実験結果と理論的解析により、刺激的訓練がローフィング問題にうまく対応できることが検証され、サブネットワークの性能を向上させることにより、残余ネットワークの性能が向上する。 コードはhttps://github.com/sunshine-ye/nips22-stで入手できる。

Residual networks have shown great success and become indispensable in today's deep models. In this work, we aim to re-investigate the training process of residual networks from a novel social psychology perspective of loafing, and further propose a new training strategy to strengthen the performance of residual networks. As residual networks can be viewed as ensembles of relatively shallow networks (i.e., \textit{unraveled view}) in prior works, we also start from such view and consider that the final performance of a residual network is co-determined by a group of sub-networks. Inspired by the social loafing problem of social psychology, we find that residual networks invariably suffer from similar problem, where sub-networks in a residual network are prone to exert less effort when working as part of the group compared to working alone. We define this previously overlooked problem as \textit{network loafing}. As social loafing will ultimately cause the low individual productivity and the reduced overall performance, network loafing will also hinder the performance of a given residual network and its sub-networks. Referring to the solutions of social psychology, we propose \textit{stimulative training}, which randomly samples a residual sub-network and calculates the KL-divergence loss between the sampled sub-network and the given residual network, to act as extra supervision for sub-networks and make the overall goal consistent. Comprehensive empirical results and theoretical analyses verify that stimulative training can well handle the loafing problem, and improve the performance of a residual network by improving the performance of its sub-networks. The code is available at https://github.com/Sunshine-Ye/NIPS22-ST .
翻訳日:2022-10-11 17:30:53 公開日:2022-10-09
# motion-aware masked autoencoderを用いた自己教師付き映像表現学習

Self-supervised Video Representation Learning with Motion-Aware Masked Autoencoders ( http://arxiv.org/abs/2210.04154v1 )

ライセンス: Link先を確認
Haosen Yang, Deng Huang, Bin Wen, Jiannan Wu, Hongxun Yao, Yi Jiang, Xiatian Zhu, Zehuan Yuan(参考訳) マスク付きオートエンコーダ (MAE) は, 最近, 美術自己監督型時空間表現学習機として出現している。 しかし、既存のビデオMAEは画像と比べ、静的な外観学習に重点を置いているのに対し、動的時間的情報学習には制限があるため、映像下流タスクでは効果が低い。 この欠点を解決するため,本研究ではモーションアウェア型モーションメイを提案する。 ビデオフレームの個々のマスクパッチを再構築する学習を別にすれば,時間とともに対応する動作構造情報を予測できるように設計されている。 この動き情報は、近くのフレームの時間差で利用できる。 その結果,静的な外見と動的動きを自発的に抽出することができ,時空間表現学習能力に優れることがわかった。 広範な実験により、motionmaeは、ドメイン固有およびドメインジェネリック事前学習-then-finetuning設定の両方において、教師付き学習ベースラインと最先端のmae代替品の両方よりも大幅に優れています。 特に、VT-Bをバックボーンとして使用する場合、MotionMAEは、ドメイン固有の事前トレーニング環境で、Somes-Something V2で1.2%、UCF101で3.2%のマージンで、従来のアートモデルを上回る。 さらに、挑戦的なビデオオブジェクトセグメンテーションタスクにおいて、競合するMAEを3%以上の大きなマージンで上回っている。 コードはhttps://github.com/happy-hsy/motionmaeで入手できる。

Masked autoencoders (MAEs) have emerged recently as art self-supervised spatiotemporal representation learners. Inheriting from the image counterparts, however, existing video MAEs still focus largely on static appearance learning whilst are limited in learning dynamic temporal information hence less effective for video downstream tasks. To resolve this drawback, in this work we present a motion-aware variant -- MotionMAE. Apart from learning to reconstruct individual masked patches of video frames, our model is designed to additionally predict the corresponding motion structure information over time. This motion information is available at the temporal difference of nearby frames. As a result, our model can extract effectively both static appearance and dynamic motion spontaneously, leading to superior spatiotemporal representation learning capability. Extensive experiments show that our MotionMAE outperforms significantly both supervised learning baseline and state-of-the-art MAE alternatives, under both domain-specific and domain-generic pretraining-then-finetuning settings. In particular, when using ViT-B as the backbone our MotionMAE surpasses the prior art model by a margin of 1.2% on Something-Something V2 and 3.2% on UCF101 in domain-specific pretraining setting. Encouragingly, it also surpasses the competing MAEs by a large margin of over 3% on the challenging video object segmentation task. The code is available at https://github.com/happy-hsy/MotionMAE.
翻訳日:2022-10-11 17:30:22 公開日:2022-10-09
# 領域一般化のための制約付き最大クロスドメイン可能性

Constrained Maximum Cross-Domain Likelihood for Domain Generalization ( http://arxiv.org/abs/2210.04155v1 )

ライセンス: Link先を確認
Jianxin Lin, Yongqiang Tang, Junping Wang and Wensheng Zhang(参考訳) 最近の注目に値するトピックとして、ドメインの一般化は複数のソースドメインで一般化可能なモデルを学ぶことを目的としている。 ドメイン間の分布を整合させることで、ドメイン不変な特徴を学ぶことには大きな努力が払われている。 しかし、既存の作品は一般に満足し難い緩和条件に基づいて設計され、望まれる共同分布アライメントの実現に失敗することが多い。 本稿では,異なる領域の後方分布間のKL偏差を最小化することにより,ドメイン不変な分類器を学習できるという直感的な考え方から,新しい領域一般化法を提案する。 学習した分類器の一般化性を高めるために, 接地縁分布に計算された期待値として最適化目標を定式化する。 それにもかかわらず、これは2つの明らかな欠陥を示しており、一方はkl-divergenceのエントロピー増加の副作用であり、もう一方は地対外縁分布の不使用性である。 前者に対しては、学習した領域不変表現空間の識別を維持するために、最大ドメイン内確率という用語を導入する。 後者については,基本領域の接地-接地境界分布を合理的な凸包仮定の下で近似する。 最後に、結合分布が自然に整列している問題を解くことにより、制約付き最大クロスドメイン最適化問題(CMCL)を導出する。 この最適化問題を概ね解くために、交代最適化戦略を慎重に設計する。 Digits-DG、PACS、Office-Home、MiniDomainNetの4つの標準ベンチマークデータセットに対する大規模な実験は、我々の方法の優れたパフォーマンスを強調している。

As a recent noticeable topic, domain generalization aims to learn a generalizable model on multiple source domains, which is expected to perform well on unseen test domains. Great efforts have been made to learn domain-invariant features by aligning distributions across domains. However, existing works are often designed based on some relaxed conditions which are generally hard to satisfy and fail to realize the desired joint distribution alignment. In this paper, we propose a novel domain generalization method, which originates from an intuitive idea that a domain-invariant classifier can be learned by minimizing the KL-divergence between posterior distributions from different domains. To enhance the generalizability of the learned classifier, we formalize the optimization objective as an expectation computed on the ground-truth marginal distribution. Nevertheless, it also presents two obvious deficiencies, one of which is the side-effect of entropy increase in KL-divergence and the other is the unavailability of ground-truth marginal distributions. For the former, we introduce a term named maximum in-domain likelihood to maintain the discrimination of the learned domain-invariant representation space. For the latter, we approximate the ground-truth marginal distribution with source domains under a reasonable convex hull assumption. Finally, a Constrained Maximum Cross-domain Likelihood (CMCL) optimization problem is deduced, by solving which the joint distributions are naturally aligned. An alternating optimization strategy is carefully designed to approximately solve this optimization problem. Extensive experiments on four standard benchmark datasets, i.e., Digits-DG, PACS, Office-Home and miniDomainNet, highlight the superior performance of our method.
翻訳日:2022-10-11 17:29:55 公開日:2022-10-09
# 一般化ディープメトリック学習のための符号付き残差変換

Coded Residual Transform for Generalizable Deep Metric Learning ( http://arxiv.org/abs/2210.04180v1 )

ライセンス: Link先を確認
Shichao Kan, Yixiong Liang, Min Li, Yigang Cen, Jianxin Wang, Zhihai He(参考訳) ディープメトリック学習の基本的な課題は、トレーニングクラスで学んだ組み込みネットワークを新しいテストクラスで評価する必要があるため、機能埋め込みネットワークモデルの一般化能力である。 本稿では,この課題に対処するために,深部メトリック学習のための符号残差変換(coded residual transform, crt)と呼ばれる新しい手法を提案する。 具体的には、様々なプロトタイプ機能を学び、各プロトタイプにフィーチャーマップを投影し、各プロトタイプとの相関係数によって重みづけられた投影残差を用いて特徴をエンコードする。 提案手法は以下の2つの特徴を有する。 まず、プロジェクションに基づいた補完的な視点の集合から多角化プロトタイプへのフィーチャーマップを表現、エンコードする。 第2に,グローバル相関解析に基づく特徴の原値を符号化する既存の変圧器型特徴表現手法とは異なり,提案する符号化残差変換は,原特徴と投影プロトタイプとの相対的な差異を符号化する。 空間密度とスペクトル減衰解析を組み込むことで、この多視点射影を多角化プロトタイプや符号化された残留表現に当てはめれば、計量学習における一般化能力が大幅に向上することを示す。 最後に, 一般化性能をさらに高めるために, 射影プロトタイプのサイズと埋め込み次元の異なる符号化残差変換間の特徴類似度行列の一貫性を強制する。 以上の結果から,提案したCRT法は,最先端の深層学習法を大きなマージンで上回り,CUBデータセット上で最大4.28%向上することを示した。

A fundamental challenge in deep metric learning is the generalization capability of the feature embedding network model since the embedding network learned on training classes need to be evaluated on new test classes. To address this challenge, in this paper, we introduce a new method called coded residual transform (CRT) for deep metric learning to significantly improve its generalization capability. Specifically, we learn a set of diversified prototype features, project the feature map onto each prototype, and then encode its features using their projection residuals weighted by their correlation coefficients with each prototype. The proposed CRT method has the following two unique characteristics. First, it represents and encodes the feature map from a set of complimentary perspectives based on projections onto diversified prototypes. Second, unlike existing transformer-based feature representation approaches which encode the original values of features based on global correlation analysis, the proposed coded residual transform encodes the relative differences between the original features and their projected prototypes. Embedding space density and spectral decay analysis show that this multi-perspective projection onto diversified prototypes and coded residual representation are able to achieve significantly improved generalization capability in metric learning. Finally, to further enhance the generalization performance, we propose to enforce the consistency on their feature similarity matrices between coded residual transforms with different sizes of projection prototypes and embedding dimensions. Our extensive experimental results and ablation studies demonstrate that the proposed CRT method outperform the state-of-the-art deep metric learning methods by large margins and improving upon the current best method by up to 4.28% on the CUB dataset.
翻訳日:2022-10-11 17:29:29 公開日:2022-10-09
# 特徴量を用いた分布外検出の高速化

Boosting Out-of-distribution Detection with Typical Features ( http://arxiv.org/abs/2210.04200v1 )

ライセンス: Link先を確認
Yao Zhu, YueFeng Chen, Chuanlong Xie, Xiaodan Li, Rong Zhang, Hui Xue, Xiang Tian, bolun zheng, Yaowu Chen(参考訳) out-of-distribution(ood)検出は、現実世界のシナリオにおけるディープニューラルネットワークの信頼性と安全性を保証する上で重要なタスクである。 OODのスコアを設計したり、モデルを再トレーニングするために様々なアウトリーな例を導入したりする従来のOOD検出方法とは違って、OOD検出における障害要因を典型性の観点から掘り下げ、特徴モデルの高確率領域を特徴の典型的なセットとみなす。 本稿では,その特徴を定式化してOODスコアを定式化して信頼性の高い不確実性推定を実現することを提案する。 機能修正は、様々なOODスコアを持つ {plug-and-play} モジュールとして行うことができる。 本稿では,CIFARと大規模ラベル空間を持つ高精細度ベンチマーク(ImageNet)の両方において,本手法の優位性を評価する。 特に,この手法は,ImageNetベンチマークの平均FPR95において,最先端の手法よりも5.11$\%高い性能を示す。

Out-of-distribution (OOD) detection is a critical task for ensuring the reliability and safety of deep neural networks in real-world scenarios. Different from most previous OOD detection methods that focus on designing OOD scores or introducing diverse outlier examples to retrain the model, we delve into the obstacle factors in OOD detection from the perspective of typicality and regard the feature's high-probability region of the deep model as the feature's typical set. We propose to rectify the feature into its typical set and calculate the OOD score with the typical features to achieve reliable uncertainty estimation. The feature rectification can be conducted as a {plug-and-play} module with various OOD scores. We evaluate the superiority of our method on both the commonly used benchmark (CIFAR) and the more challenging high-resolution benchmark with large label space (ImageNet). Notably, our approach outperforms state-of-the-art methods by up to 5.11$\%$ in the average FPR95 on the ImageNet benchmark.
翻訳日:2022-10-11 17:28:57 公開日:2022-10-09
# 領域一般化のための注意の多様化

Attention Diversification for Domain Generalization ( http://arxiv.org/abs/2210.04206v1 )

ライセンス: Link先を確認
Rang Meng, Xianfeng Li, Weijie Chen, Shicai Yang, Jie Song, Xinchao Wang, Lei Zhang, Mingli Song, Di Xie, and Shiliang Pu(参考訳) 畳み込みニューラルネットワーク(CNN)は、識別的特徴の学習において満足な結果を示した。 しかし、未発見のドメインに適用される場合、最先端のモデルは通常、ドメインシフトによるエラーが発生しやすい。 近道学習の観点からこの問題を調査した後、異なるドメインでトレーニングされたモデルが異なるドメイン固有の機能にバイアスをかけているだけで、さまざまなタスク関連の機能を見落としているという事実に、悪魔は嘘をついていることがわかった。 本稿では,モデル内およびモデル間における注意分散規則化を協調してタスク関連機能に適切な注意を割り当てる,新たな注意多様化フレームワークを提案する。 簡単に言うと、モデル内注意多様化規則化は高レベル特徴マップに装備されており、異なるチャンネルを異なる空間に最も注意を払うように強制することで、チャネル内識別とチャネル間多様化を実現する。 さらに、複数のドメイン固有モデルを利用してドメインシフトをシミュレートし、アテンションマップをタスク関連およびドメイン関連グループに分割し、それらを各グループにまとめてレギュラー化を行う「シミュレート、分割、アセンブラ」のパラダイムである、タスク関連アテンションの多様化とドメイン関連アテンションの抑制を提供する。 本手法が他の競合する手法と比較して最先端性能を達成することを示すため,様々なベンチマークで実験と解析を行った。 コードはhttps://github.com/hikvision-research/Domain Generalizationで入手できる。

Convolutional neural networks (CNNs) have demonstrated gratifying results at learning discriminative features. However, when applied to unseen domains, state-of-the-art models are usually prone to errors due to domain shift. After investigating this issue from the perspective of shortcut learning, we find the devils lie in the fact that models trained on different domains merely bias to different domain-specific features yet overlook diverse task-related features. Under this guidance, a novel Attention Diversification framework is proposed, in which Intra-Model and Inter-Model Attention Diversification Regularization are collaborated to reassign appropriate attention to diverse task-related features. Briefly, Intra-Model Attention Diversification Regularization is equipped on the high-level feature maps to achieve in-channel discrimination and cross-channel diversification via forcing different channels to pay their most salient attention to different spatial locations. Besides, Inter-Model Attention Diversification Regularization is proposed to further provide task-related attention diversification and domain-related attention suppression, which is a paradigm of "simulate, divide and assemble": simulate domain shift via exploiting multiple domain-specific models, divide attention maps into task-related and domain-related groups, and assemble them within each group respectively to execute regularization. Extensive experiments and analyses are conducted on various benchmarks to demonstrate that our method achieves state-of-the-art performance over other competing methods. Code is available at https://github.com/hikvision-research/DomainGeneralization.
翻訳日:2022-10-11 17:28:40 公開日:2022-10-09
# 画像で詳しく分かる:point cloudのクロスモーダル訓練による形状分析

Let Images Give You More:Point Cloud Cross-Modal Training for Shape Analysis ( http://arxiv.org/abs/2210.04208v1 )

ライセンス: Link先を確認
Xu Yan, Heshen Zhan, Chaoda Zheng, Jiantao Gao, Ruimao Zhang, Shuguang Cui, Zhen Li(参考訳) 最近のクラウド分析は目覚ましい進歩を遂げているが、単一のモダリティからの表現学習のパラダイムはそのボトルネックを徐々に満たしている。 本研究では,テクスチャ,色,日陰など,よりリッチな外観情報を含む画像の利点を生かして,より差別的な3Dポイントクラウド表現への一歩を踏み出した。 具体的には、3Dオブジェクトの2D画像のレンダリングや投影といったビューイメージを利用して、ポイントクラウド分析を促進する、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を提案する。 実際に,ビューイメージから補助的知識を効果的に獲得するために,教師・学生の枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。 PointCMTは、新しい特徴と分類器拡張基準を通じて異なるモード間の分布差を排除し、潜在的負の移動を効果的に回避する。 PointCMTは、アーキテクチャの変更なしに、ポイントのみの表現を効果的に改善する。 十分な実験により、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPが2つのベンチマーク、すなわちModelNet40とScanObjectNNでそれぞれ94.4%と86.7%の精度で最先端のパフォーマンスを達成した。 コードはhttps://github.com/ZhanHeshen/PointCMTで公開される。

Although recent point cloud analysis achieves impressive progress, the paradigm of representation learning from a single modality gradually meets its bottleneck. In this work, we take a step towards more discriminative 3D point cloud representation by fully taking advantages of images which inherently contain richer appearance information, e.g., texture, color, and shade. Specifically, this paper introduces a simple but effective point cloud cross-modality training (PointCMT) strategy, which utilizes view-images, i.e., rendered or projected 2D images of the 3D object, to boost point cloud analysis. In practice, to effectively acquire auxiliary knowledge from view images, we develop a teacher-student framework and formulate the cross modal learning as a knowledge distillation problem. PointCMT eliminates the distribution discrepancy between different modalities through novel feature and classifier enhancement criteria and avoids potential negative transfer effectively. Note that PointCMT effectively improves the point-only representation without architecture modification. Sufficient experiments verify significant gains on various datasets using appealing backbones, i.e., equipped with PointCMT, PointNet++ and PointMLP achieve state-of-the-art performance on two benchmarks, i.e., 94.4% and 86.7% accuracy on ModelNet40 and ScanObjectNN, respectively. Code will be made available at https://github.com/ZhanHeshen/PointCMT.
翻訳日:2022-10-11 17:28:00 公開日:2022-10-09
# 生成質問応答におけるゼロショットマルチホップ推論の理解と改善

Understanding and Improving Zero-shot Multi-hop Reasoning in Generative Question Answering ( http://arxiv.org/abs/2210.04234v1 )

ライセンス: Link先を確認
Zhengbao Jiang, Jun Araki, Haibo Ding, Graham Neubig(参考訳) 生成的質問応答(qa:generative question answering)モデルは、モデルのパラメータ(クローズドブック設定)または関連する証拠(オープンブック設定)に基づいて、質問に対する応答を生成する。 生成的QAモデルは比較的複雑な質問に答えることができるが、それらが行うメカニズムはまだ理解されていない。 生成型QAモデルのマルチホップ推論能力の向上を目的としたいくつかの研究を行った。 まず、複数のホップ質問を複数の対応するシングルホップ質問に分解し、表向きは同じ質問連鎖のペアに対するqaモデルの回答に顕著な矛盾を見出す。 第2に、モデルにはゼロショットのマルチホップ推論能力がないことが分かりました。 最後に,実マルチホップ自然言語 (nl) を近似する2つの手法を用いて,単一ホップ質問の連結あるいは論理形式 (sparql) を訓練することにより,モデルのゼロショットマルチホップ推論能力を向上できることを実証する。 結論として,マルチホップ推論は生成型qaモデルでは自然に出現しないが,トレーニングやモデリング技術の進歩によって促進されることを示した。

Generative question answering (QA) models generate answers to questions either solely based on the parameters of the model (the closed-book setting) or additionally retrieving relevant evidence (the open-book setting). Generative QA models can answer some relatively complex questions, but the mechanism through which they do so is still poorly understood. We perform several studies aimed at better understanding the multi-hop reasoning capabilities of generative QA models. First, we decompose multi-hop questions into multiple corresponding single-hop questions, and find marked inconsistency in QA models' answers on these pairs of ostensibly identical question chains. Second, we find that models lack zero-shot multi-hop reasoning ability: when trained only on single-hop questions, models generalize poorly to multi-hop questions. Finally, we demonstrate that it is possible to improve models' zero-shot multi-hop reasoning capacity through two methods that approximate real multi-hop natural language (NL) questions by training on either concatenation of single-hop questions or logical forms (SPARQL). In sum, these results demonstrate that multi-hop reasoning does not emerge naturally in generative QA models, but can be encouraged by advances in training or modeling techniques.
翻訳日:2022-10-11 16:47:10 公開日:2022-10-09
# ルックアヘッド戦略計画によるマルチターン感情支援対話生成の改善

Improving Multi-turn Emotional Support Dialogue Generation with Lookahead Strategy Planning ( http://arxiv.org/abs/2210.04242v1 )

ライセンス: Link先を確認
Yi Cheng, Wenge Liu, Wenjie Li, Jiashuo Wang, Ruihui Zhao, Bang Liu, Xiaodan Liang and Yefeng Zheng(参考訳) 情緒的支援(ES)の提供は、社会的相互作用において不可欠な能力である。 ES会話システム構築に関する既存の研究の多くは、ユーザとのシングルターンインタラクションのみを考慮しており、これは単純化された。 比較として,マルチターンES会話システムはESをより効果的に提供できるが,(1)ユーザの感情を和らげるという長期的な対話目標を達成するために適切なサポート戦略を採用する方法,(2)ユーザの状態を動的にモデル化する方法など,いくつかの技術的課題に直面している。 本稿では,この問題に対処するための新しいシステムmultiescを提案する。 A*探索アルゴリズムからインスピレーションを得た戦略計画には、特定の戦略を使用した後の将来のユーザフィードバックを推定するルックアヘッドヒューリスティックスを提案する。 ユーザ状態モデリングにおいて、MultiESCはユーザーの微妙な感情表現を捉え、感情の原因を理解することに重点を置いている。 大規模な実験により,MultiESCは対話生成と戦略計画の両面で競争ベースラインを著しく上回ることがわかった。 私たちのコードはhttps://github.com/lwgkzl/MultiESCで公開されています。

Providing Emotional Support (ES) to soothe people in emotional distress is an essential capability in social interactions. Most existing researches on building ES conversation systems only considered single-turn interactions with users, which was over-simplified. In comparison, multi-turn ES conversation systems can provide ES more effectively, but face several new technical challenges, including: (1) how to adopt appropriate support strategies to achieve the long-term dialogue goal of comforting the user's emotion; (2) how to dynamically model the user's state. In this paper, we propose a novel system MultiESC to address these issues. For strategy planning, drawing inspiration from the A* search algorithm, we propose lookahead heuristics to estimate the future user feedback after using particular strategies, which helps to select strategies that can lead to the best long-term effects. For user state modeling, MultiESC focuses on capturing users' subtle emotional expressions and understanding their emotion causes. Extensive experiments show that MultiESC significantly outperforms competitive baselines in both dialogue generation and strategy planning. Our codes are available at https://github.com/lwgkzl/MultiESC.
翻訳日:2022-10-11 16:46:44 公開日:2022-10-09
# decoupled directional relative position encoding and representation differentiationsを用いたトランスプレトレーニングの改善

Improve Transformer Pre-Training with Decoupled Directional Relative Position Encoding and Representation Differentiations ( http://arxiv.org/abs/2210.04246v1 )

ライセンス: Link先を確認
Haojie Zhang, Mingfei Liang, Ruobing Xie, Zhenlong Sun, Bo Zhang, Leyu Lin(参考訳) 本研究では,トランスフォーマーに基づく事前学習言語モデルを再検討し,モデルの表現性を制限する可能性のある2つの問題を特定する。 まず、既存の相対位置符号化モデル(例えば、T5とDEBERTA)は2つの異種情報(相対距離と方向)を混同する。 モデルが同じ方向または同じ距離の連想的セマンティクスをキャプチャすることができず、結果的に下流タスクのパフォーマンスに影響を与える可能性がある。 第2に,mask Language Modeling (MLM) を用いた事前学習されたBERTは,異なる頭部の類似したトークン表現と注意重みを出力し,識別的意味表現の取得に困難を伴う可能性がある。 本研究は, DDRP符号化とMTH事前学習の目的という, 事前学習型言語モデルを改善するための2つの新しい手法を提案する。 DDRPは、位置情報理解を改善するために、古典的相対位置符号化における相対距離特徴と方向特徴を分離する。 MTHはMLM以外の2つの新しい補助損失を設計し、その相違を拡大する (a)異なるトークンの最後に隠された状態、及び (b)異なる頭部の注意重み付け、より良い最適化のために表現学習における均質化と異方性の問題を緩和する。 GLUEベンチマークの大規模な実験とアブレーション研究により,提案手法の有効性が示された。

In this work, we revisit the Transformer-based pre-trained language models and identify two problems that may limit the expressiveness of the model. Firstly, existing relative position encoding models (e.g., T5 and DEBERTA) confuse two heterogeneous information: relative distance and direction. It may make the model unable to capture the associative semantics of the same direction or the same distance, which in turn affects the performance of downstream tasks. Secondly, we notice the pre-trained BERT with Mask Language Modeling (MLM) pre-training objective outputs similar token representations and attention weights of different heads, which may impose difficulties in capturing discriminative semantic representations. Motivated by the above investigation, we propose two novel techniques to improve pre-trained language models: Decoupled Directional Relative Position (DDRP) encoding and MTH pre-training objective. DDRP decouples the relative distance features and the directional features in classical relative position encoding for better position information understanding. MTH designs two novel auxiliary losses besides MLM to enlarge the dissimilarities between (a) last hidden states of different tokens, and (b) attention weights of different heads, alleviating homogenization and anisotropic problem in representation learning for better optimization. Extensive experiments and ablation studies on GLUE benchmark demonstrate the effectiveness of our proposed methods.
翻訳日:2022-10-11 16:46:24 公開日:2022-10-09
# スケールにおけるノイズ・ロバストデ複製

Noise-Robust De-Duplication at Scale ( http://arxiv.org/abs/2210.04261v1 )

ライセンス: Link先を確認
Emily Silcock, Luca D'Amico-Wong, Jinglin Yang, Melissa Dell(参考訳) 大規模でノイズの多いテキストコーパス内のほぼ重複の特定には、トレーニングデータセットの重複排除、プライバシリスクの低減、テストセットのリーク評価、コーパス内の再現されたニュース記事や文献の識別など、数多くのアプリケーションがあります。 これらの多様なアプリケーションを通して、ほとんどの作業はn-gramに依存しています。 N-gram法がいかにうまく機能するかを評価するための限定的な努力がなされているが、その理由の一部は、大規模なコーパスに対して、どのように偏りのない評価データセットを作成できるかがはっきりしないためである。 本研究は,27,210個の文書データセットと122,876個の正の重複ペアを作成し,ノイズ・ロバスト重複の除去について検討する。 ニュースのタイムセンシティブさは、コーパスの全体サイズが大きいにも関わらず、短い日付範囲内で重複が発生するため、包括的ハンドラベリングを可能にする。 この研究は、ハッシュとN-gramオーバーラップ(文学において支配的な)、対照的に訓練されたバイエンコーダ、およびバイエンコーダとクロスエンコーダを組み合わせたリランクスタイルアプローチなど、様々な非複製手法を開発し、評価する。 神経アプローチはハッシュとN-gramの重なりを著しく上回る。 バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。 NEWS-COPYデ複製データセットのパブリックリリースは、さらなる研究と応用を促進するだろう。

Identifying near duplicates within large, noisy text corpora has a myriad of applications that range from de-duplicating training datasets, reducing privacy risk, and evaluating test set leakage, to identifying reproduced news articles and literature within large corpora. Across these diverse applications, the overwhelming majority of work relies on N-grams. Limited efforts have been made to evaluate how well N-gram methods perform, in part because it is unclear how one could create an unbiased evaluation dataset for a massive corpus. This study uses the unique timeliness of historical news wires to create a 27,210 document dataset, with 122,876 positive duplicate pairs, for studying noise-robust de-duplication. The time-sensitivity of news makes comprehensive hand labelling feasible - despite the massive overall size of the corpus - as duplicates occur within a narrow date range. The study then develops and evaluates a range of de-duplication methods: hashing and N-gram overlap (which predominate in the literature), a contrastively trained bi-encoder, and a re-rank style approach combining a bi- and cross-encoder. The neural approaches significantly outperform hashing and N-gram overlap. We show that the bi-encoder scales well, de-duplicating a 10 million article corpus on a single GPU card in a matter of hours. The public release of our NEWS-COPY de-duplication dataset will facilitate further research and applications.
翻訳日:2022-10-11 16:46:01 公開日:2022-10-09
# SparseAdapter: アダプタのパラメータ効率を改善するための簡単なアプローチ

SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency of Adapters ( http://arxiv.org/abs/2210.04284v1 )

ライセンス: Link先を確認
Shwai He, Liang Ding, Daize Dong, Miao Zhang, Dacheng Tao(参考訳) 事前学習された言語モデル(plm)を凍結し、いくつかの追加モジュールを微調整するアダプタチューニングは、フルモデルの微調整に代わる魅力的な選択肢となる。 計算効率は高いが、近年のアダプタは、フルモデルの微調整性能に適合するパラメータ(例えばボトルネック次元)を増加させることが多い。 本研究では、ネットワークプルーニングのレンズを用いて、アダプタのパラメータ効率を再検討し、スパース比が最大80倍に達すると、SparseAdapterが標準アダプタよりも同等または優れた性能を達成できることを示す。 この結果に基づき,同じパラメータ予算でアダプタのモデルキャパシティを向上させるために, ``\textit{large-sparse}'' の簡易かつ効果的な設定を導入する。 3つの先進的なPLM上の5つの競合アダプタの実験は、適切なスパース法(SNIPなど)と比(40\%など)で、スパースアダプタは対応する手法よりも一貫して優れていることを示した。 奨励的に、 \textit{large-sparse} の設定により、私たちはさらに魅力的な利益を得ることができ、完全な微調整を大きなマージンで上回ることさえできる。 私たちのコードは下記のurl{https://github.com/shwai-he/sparseadapter}でリリースされる。

Adapter Tuning, which freezes the pretrained language models (PLMs) and only fine-tunes a few extra modules, becomes an appealing efficient alternative to the full model fine-tuning. Although computationally efficient, the recent Adapters often increase parameters (e.g. bottleneck dimension) for matching the performance of full model fine-tuning, which we argue goes against their original intention. In this work, we re-examine the parameter-efficiency of Adapters through the lens of network pruning (we name such plug-in concept as \texttt{SparseAdapter}) and find that SparseAdapter can achieve comparable or better performance than standard Adapters when the sparse ratio reaches up to 80\%. Based on our findings, we introduce an easy but effective setting ``\textit{Large-Sparse}'' to improve the model capacity of Adapters under the same parameter budget. Experiments on five competitive Adapters upon three advanced PLMs show that with proper sparse method (e.g. SNIP) and ratio (e.g. 40\%) SparseAdapter can consistently outperform their corresponding counterpart. Encouragingly, with the \textit{Large-Sparse} setting, we can obtain further appealing gains, even outperforming the full fine-tuning by a large margin. Our code will be released at: \url{https://github.com/Shwai-He/SparseAdapter}.
翻訳日:2022-10-11 16:45:36 公開日:2022-10-09
# QAScore -- 質問生成評価のための教師なしの基準

QAScore -- An Unsupervised Unreferenced Metric for the Question Generation Evaluation ( http://arxiv.org/abs/2210.04320v1 )

ライセンス: Link先を確認
Tianbo Ji, Chenyang Lyu, Gareth Jones, Liting Zhou, Yvette Graham(参考訳) 問合せ生成(QG)は,問合せの中から選択された回答の集合を用いて,問合せ作成作業を自動化することを目的とする。 近年、ニューラルジェネレーションモデルの導入は、特に手作業によるヒューリスティックを用いた従来のアプローチと比較して、品質の観点から自動的に生成される質問の大幅な改善をもたらした。 しかし、QG評価に一般的に適用される指標は、人間の判断と低い一致で批判されている。 そこで我々は,QGシステム評価のためのQAScoreと呼ばれる優れたメカニズムを提供する可能性を秘めた新しい基準フリー評価指標を提案する。 人間の判断との相関を最大化するために言語モデルを微調整する代わりに、QAScoreは、言語モデルがその質問に対する回答でマスクされた単語を正しく生成できる確率に応じて、クロスエントロピーを計算することで質問を評価する。 さらに、QG評価のための新たなクラウドソーシング人間評価実験を行い、QAScoreなどの指標が人間の判断とどのように相関するかを検討する。 実験の結果,従来のBLEUやROUGEなどの単語オーバーラップに基づくメトリクスや,既存の事前学習モデルに基づくBERTScoreと比較して,QAScoreは,提案手法と強い相関関係が得られた。

Question Generation (QG) aims to automate the task of composing questions for a passage with a set of chosen answers found within the passage. In recent years, the introduction of neural generation models has resulted in substantial improvements of automatically generated questions in terms of quality, especially compared to traditional approaches that employ manually crafted heuristics. However, the metrics commonly applied in QG evaluations have been criticized for their low agreement with human judgement. We therefore propose a new reference-free evaluation metric that has the potential to provide a better mechanism for evaluating QG systems, called QAScore. Instead of fine-tuning a language model to maximize its correlation with human judgements, QAScore evaluates a question by computing the cross entropy according to the probability that the language model can correctly generate the masked words in the answer to that question. Furthermore, we conduct a new crowd-sourcing human evaluation experiment for the QG evaluation to investigate how QAScore and other metrics can correlate with human judgements. Experiments show that QAScore obtains a stronger correlation with the results of our proposed human evaluation method compared to existing traditional word-overlap-based metrics such as BLEU and ROUGE, as well as the existing pretrained-model-based metric BERTScore.
翻訳日:2022-10-11 16:45:09 公開日:2022-10-09
# ASDOT:事前訓練された言語モデルによる任意のショットデータ-テキスト生成

ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models ( http://arxiv.org/abs/2210.04325v1 )

ライセンス: Link先を確認
Jiannan Xiang, Zhengzhong Liu, Yucheng Zhou, Eric P. Xing, Zhiting Hu(参考訳) データからテキストへの生成は、ドメイン(例えば、金融対スポーツ)やスキーマ(例えば、多様な述語)における入力データの多様さのために困難である。 したがって、最近のエンドツーエンドのニューラルメソッドは、データの曖昧さと記述を学ぶために、かなりのトレーニング例を必要とする。 しかし、実世界のデータ・トゥ・テキストの問題は、しばしば様々なデータ・スカースな問題に悩まされる。 このギャップを埋めるために,任意の(あるいはまったく)例を効率的に利用することにより,多様な設定に柔軟に適用可能な新しいアプローチであるany-shot data-to-text (asdot)を提案する。 ASDOTはデータの曖昧さと文の融合という2つのステップから構成されており、どちらもオプションで微調整された既訓練言語モデル(LM)で解決できる。 データ曖昧化の段階では、入力データから多分曖昧な三重項を理解するためにgpt-3モデルを採用し、曖昧さを低減した短い文に変換する。 文の融合段階は T5 のような LM を用いて、最終的な記述として全ての文をコヒーレントな段落に融合させる。 我々は,0/few/full-shot設定や,未知の述語やアウトオブドメインデータへの一般化など,さまざまなシナリオにおけるさまざまなデータセットを幅広く評価する。 実験結果から、ASDOTはゼロショット設定下でのDARTデータセットでの30.81BLEUゲインなど、ベースラインよりも大幅に改善されていることが示されている。

Data-to-text generation is challenging due to the great variety of the input data in terms of domains (e.g., finance vs sports) or schemata (e.g., diverse predicates). Recent end-to-end neural methods thus require substantial training examples to learn to disambiguate and describe the data. Yet, real-world data-to-text problems often suffer from various data-scarce issues: one may have access to only a handful of or no training examples, and/or have to rely on examples in a different domain or schema. To fill this gap, we propose Any-Shot Data-to-Text (ASDOT), a new approach flexibly applicable to diverse settings by making efficient use of any given (or no) examples. ASDOT consists of two steps, data disambiguation and sentence fusion, both of which are amenable to be solved with off-the-shelf pretrained language models (LMs) with optional finetuning. In the data disambiguation stage, we employ the prompted GPT-3 model to understand possibly ambiguous triples from the input data and convert each into a short sentence with reduced ambiguity. The sentence fusion stage then uses an LM like T5 to fuse all the resulting sentences into a coherent paragraph as the final description. We evaluate extensively on various datasets in different scenarios, including the zero-/few-/full-shot settings, and generalization to unseen predicates and out-of-domain data. Experimental results show that ASDOT consistently achieves significant improvement over baselines, e.g., a 30.81 BLEU gain on the DART dataset under the zero-shot setting.
翻訳日:2022-10-11 16:44:45 公開日:2022-10-09
# 知識グラフを用いた会話質問に対するコントラスト表現学習

Contrastive Representation Learning for Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2210.04373v1 )

ライセンス: Link先を確認
Endri Kacupaj, Kuldeep Singh, Maria Maleshkova, Jens Lehmann(参考訳) 本稿では,知識グラフ(KG)に対する会話型質問応答(ConvQA)の課題について述べる。 既存のConvQA法の大部分は、KGからの回答を抽出するために、ゴールド論理形式のクエリが利用できることを厳格に仮定した完全な監視信号に依存している。 しかし、そのような金の論理形式を作成することは、現実のシナリオにおける各潜在的な問題に対して不可能である。 したがって、金の論理形式が欠落している場合、既存の情報検索ベースのアプローチは、ヒューリスティックスや強化学習による弱い監督を使い、KGパスランキング問題としてConvQAを定式化する。 金の論理形式が欠如しているにもかかわらず、対話履歴全体や、流動的な応答、ドメイン情報など、会話のコンテキストが豊富であり、適切なKGパスに効果的に到達することができる。 本研究は, コントラスト表現学習に基づくランクkg経路の効率的な解法を提案する。 このアプローチは2つの重要な課題を解決します。 まず、ゴールドアノテーションの必要性を省く、弱い監督ベースの学習を可能にする。 第2に、会話の文脈(対話履歴とドメイン情報)を取り入れて、KGパスとの同質表現を共同学習し、効果的なパスランキングのためのコントラスト表現を改善する。 我々は、ConvQAの標準データセットに対するアプローチを評価し、すべてのドメインおよび全体において既存のベースラインを大幅に上回っている。 特に、場合によっては、平均相互ランク(mrr)とhit@5ランキング指標が、最先端のパフォーマンスと比較して、それぞれ絶対10ポイントと18ポイント改善される。

This paper addresses the task of conversational question answering (ConvQA) over knowledge graphs (KGs). The majority of existing ConvQA methods rely on full supervision signals with a strict assumption of the availability of gold logical forms of queries to extract answers from the KG. However, creating such a gold logical form is not viable for each potential question in a real-world scenario. Hence, in the case of missing gold logical forms, the existing information retrieval-based approaches use weak supervision via heuristics or reinforcement learning, formulating ConvQA as a KG path ranking problem. Despite missing gold logical forms, an abundance of conversational contexts, such as entire dialog history with fluent responses and domain information, can be incorporated to effectively reach the correct KG path. This work proposes a contrastive representation learning-based approach to rank KG paths effectively. Our approach solves two key challenges. Firstly, it allows weak supervision-based learning that omits the necessity of gold annotations. Second, it incorporates the conversational context (entire dialog history and domain information) to jointly learn its homogeneous representation with KG paths to improve contrastive representations for effective path ranking. We evaluate our approach on standard datasets for ConvQA, on which it significantly outperforms existing baselines on all domains and overall. Specifically, in some cases, the Mean Reciprocal Rank (MRR) and Hit@5 ranking metrics improve by absolute 10 and 18 points, respectively, compared to the state-of-the-art performance.
翻訳日:2022-10-11 16:44:17 公開日:2022-10-09
# hegel: 長い文書要約のためのハイパーグラフトランスフォーマー

HEGEL: Hypergraph Transformer for Long Document Summarization ( http://arxiv.org/abs/2210.04126v1 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) 長い文書の抽出要約は、拡張された構造化入力コンテキストのために難しい。 長距離文依存は、抽出要約の重要なステップである相互関係モデリングを妨げる。 本稿では,高次クロスセンス関係を捉えた長文要約用ハイパーグラフニューラルネットワークhegelを提案する。 hegelはハイパーグラフトランスフォーマー層で効果的な文表現を更新、学習し、潜在トピック、キーワードの共参照、セクション構造など、さまざまな種類の文依存を融合させる。 HEGELを2つのベンチマークデータセットで広範な実験により検証し,HEGELの有効性と有効性を示す実験結果を得た。

Extractive summarization for long documents is challenging due to the extended structured input context. The long-distance sentence dependency hinders cross-sentence relations modeling, the critical step of extractive summarization. This paper proposes HEGEL, a hypergraph neural network for long document summarization by capturing high-order cross-sentence relations. HEGEL updates and learns effective sentence representations with hypergraph transformer layers and fuses different types of sentence dependencies, including latent topics, keywords coreference, and section structure. We validate HEGEL by conducting extensive experiments on two benchmark datasets, and experimental results demonstrate the effectiveness and efficiency of HEGEL.
翻訳日:2022-10-11 16:35:55 公開日:2022-10-09
# 単語アライメントのための深い言語間相互作用のモデル化

Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment ( http://arxiv.org/abs/2210.04141v1 )

ライセンス: Link先を確認
Siyu Lai, Zhen Yang, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) 単語アライメントは、ソースとターゲットの文間の辞書翻訳の等価部分を抽出することを目的としており、自然言語処理の基本的なツールとして機能する。 この領域の最近の研究は、事前訓練された多言語言語モデルの文脈的埋め込みからアライメントを生成することによって、大幅に改善されている。 しかし,既存手法では入力文ペア間の相互作用がほとんどなく,特に単言語文脈における曖昧な単語に対して,単語アライメント品質を著しく低下させることがわかった。 この問題を解決するために,入力文ペア間の深い相互作用をモデル化するクロスアラインを提案する。そこでは,ソースとターゲット文を,浅層における共有自己認識モジュールと分離して符号化し,上層におけるクロスアラインモジュールによって言語間相互作用を明示的に構築する。 さらに,本モデルを効果的に訓練するために,第1段階の単純な翻訳言語モデリング(TLM)目標を用いてモデルを訓練し,第2段階の自己監督的アライメント目標を用いて微調整する2段階のトレーニングフレームワークを提案する。 実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。

Word alignment which aims to extract lexicon translation equivalents between source and target sentences, serves as a fundamental tool for natural language processing. Recent studies in this area have yielded substantial improvements by generating alignments from contextualized embeddings of the pre-trained multilingual language models. However, we find that the existing approaches capture few interactions between the input sentence pairs, which degrades the word alignment quality severely, especially for the ambiguous words in the monolingual context. To remedy this problem, we propose Cross-Align to model deep interactions between the input sentence pairs, in which the source and target sentences are encoded separately with the shared self-attention modules in the shallow layers, while cross-lingual interactions are explicitly constructed by the cross-attention modules in the upper layers. Besides, to train our model effectively, we propose a two-stage training framework, where the model is trained with a simple Translation Language Modeling (TLM) objective in the first stage and then finetuned with a self-supervised alignment objective in the second stage. Experiments show that the proposed Cross-Align achieves the state-of-the-art (SOTA) performance on four out of five language pairs.
翻訳日:2022-10-11 16:35:46 公開日:2022-10-09
# 類似語xie2shang1とtan2pan4の交叉変化 : コーパスに基づく比較研究

Cross-strait Variations on Two Near-synonymous Loanwords xie2shang1 and tan2pan4: A Corpus-based Comparative Study ( http://arxiv.org/abs/2210.04161v1 )

ライセンス: Link先を確認
Yueyue Huang, Chu-Ren Huang(参考訳) 本研究は,中国語における2つの典型的な同義語,すなわちxie2shang1とtan2pan4の交叉変化をMARVS理論に基づいて検討する。 比較分析により、台湾とマンダリンの分布的、最終的な、文脈的類似点と相違点が見つかった。 未使用の tan2pan4 と比較すると、xie2shang1 は台湾の Mandarin ではかなり多用されている。 また、いずれの語も台湾・台湾・マンダリンの調合過程を指すこともあるが、マンダリン本土におけるxie2shang1の出発点は台湾・マンダリンと比べやや曖昧である。 さらに台湾のマンダリンでは、tan2pan4は経済や外交の文脈で、xie2shang1は政治の文脈でのみ用いられる。 しかし、マンダリン本土では、この2つの単語は政治的文脈においてハイブリッドな方法で使用することができ、また、tan2pan4は経済活動への言及が少ない外交文脈で顕著に使われ、xie2sahng1は政治的文脈と法的文脈の両方で見られ、調停の役割を強調している。

This study attempts to investigate cross-strait variations on two typical synonymous loanwords in Chinese, i.e. xie2shang1 and tan2pan4, drawn on MARVS theory. Through a comparative analysis, the study found some distributional, eventual, and contextual similarities and differences across Taiwan and Mainland Mandarin. Compared with the underused tan2pan4, xie2shang1 is significantly overused in Taiwan Mandarin and vice versa in Mainland Mandarin. Additionally, though both words can refer to an inchoative process in Mainland and Taiwan Mandarin, the starting point for xie2shang1 in Mainland Mandarin is somewhat blurring compared with the usage in Taiwan Mandarin. Further on, in Taiwan Mandarin, tan2pan4 can be used in economic and diplomatic contexts, while xie2shang1 is used almost exclusively in political contexts. In Mainland Mandarin, however, the two words can be used in a hybrid manner within political contexts; moreover, tan2pan4 is prominently used in diplomatic contexts with less reference to economic activities, while xie2sahng1 can be found in both political and legal contexts, emphasizing a role of mediation.
翻訳日:2022-10-11 16:35:24 公開日:2022-10-09
# 複数ラベルFew-Shotカテゴリー検出のためのラベル駆動Denoisingフレームワーク

Label-Driven Denoising Framework for Multi-Label Few-Shot Aspect Category Detection ( http://arxiv.org/abs/2210.04220v1 )

ライセンス: Link先を確認
Fei Zhao, Yuchen Shen, Zhen Wu, Xinyu Dai(参考訳) multi-label few-shot aspect category detection (fs-acd) は、限られたトレーニングインスタンスでアスペクトカテゴリを正確に検出することを目的とした、アスペクトベースの感情分析の新しいサブタスクである。 近年,この課題を達成するためにプロトタイプネットワークを使用し,各側面のプロトタイプを作成するために,文からアスペクトカテゴリのキーワードを抽出するアテンション機構を採用している。 しかし、(1)十分な教師データがないため、従来の手法は、生成したプロトタイプの品質に大きく影響する現在のアスペクトカテゴリとは無関係な、ノイズの多い単語を容易に読み取ることができ、(2)意味的に閉じたアスペクトカテゴリは、互いにノイズの多い類似のプロトタイプを生成し、分類器をひどく混乱させる。 本稿では,これらの課題に対処するために,各側面のラベル情報を活用するとともに,新しいラベル駆動Denoising Framework(LDF)を提案する。 広範な実験結果から,我々のフレームワークは他の最先端メソッドよりも優れた性能が得られた。

Multi-Label Few-Shot Aspect Category Detection (FS-ACD) is a new sub-task of aspect-based sentiment analysis, which aims to detect aspect categories accurately with limited training instances. Recently, dominant works use the prototypical network to accomplish this task, and employ the attention mechanism to extract keywords of aspect category from the sentences to produce the prototype for each aspect. However, they still suffer from serious noise problems: (1) due to lack of sufficient supervised data, the previous methods easily catch noisy words irrelevant to the current aspect category, which largely affects the quality of the generated prototype; (2) the semantically-close aspect categories usually generate similar prototypes, which are mutually noisy and confuse the classifier seriously. In this paper, we resort to the label information of each aspect to tackle the above problems, along with proposing a novel Label-Driven Denoising Framework (LDF). Extensive experimental results show that our framework achieves better performance than other state-of-the-art methods.
翻訳日:2022-10-11 16:34:58 公開日:2022-10-09
# DAPMAVフレームワークを用いたソーシャル・メディアにおける患者の医療経験

Revealing Patient-Reported Experiences in Healthcare from Social Media using the DAPMAV Framework ( http://arxiv.org/abs/2210.04232v1 )

ライセンス: Link先を確認
Curtis Murray, Lewis Mitchell, Jonathan Tuke, Mark Mackay(参考訳) 医療における患者体験を理解することは、患者中心の医療アプローチにおいて、医療専門家にとってますます重要で望ましい。 ソーシャルメディア上での医療談話は、従来の調査データを補完して、患者が報告した体験に対するユニークな視点を得る機会を提供する。 これらのソーシャルメディアレポートは、患者の医療システムへの旅の直接の報告として現れることが多く、その詳細は、構造化された調査の範囲を超えて、フォーカスグループよりもはるかに大規模なものである。 しかし、ソーシャルメディア上での患者経験データの存在と、そのデータが提供する潜在的な利益とは対照的に、テキスト分析に必要な技術能力のため、比較的研究の注意を惹きつける。 本稿では,非技術領域の専門家に,ソーシャルメディアデータから患者に報告された経験を捉えるための構造化アプローチを提供するため,dapmav(design-acquire-process-model-analyse-visualise)フレームワークを提案する。 本稿では, /r/ProstateCancer による前立腺癌データのケーススタディにこの枠組みを適用し,患者の関心事(性機能障害など)の特定の側面を捉え,談話の概要を提供し,これらの物語を通して物語や感情の進行を示す。 このフレームワークは、少数グループ、地理的境界、病気の種類など、医療のさまざまな領域に適用できることを期待しています。

Understanding patient experience in healthcare is increasingly important and desired by medical professionals in a patient-centred care approach. Healthcare discourse on social media presents an opportunity to gain a unique perspective on patient-reported experiences, complementing traditional survey data. These social media reports often appear as first-hand accounts of patients' journeys through the healthcare system, whose details extend beyond the confines of structured surveys and at a far larger scale than focus groups. However, in contrast with the vast presence of patient-experience data on social media and the potential benefits the data offers, it attracts comparatively little research attention due to the technical proficiency required for text analysis. In this paper, we introduce the Design-Acquire-Process-Model-Analyse-Visualise (DAPMAV) framework to equip non-technical domain experts with a structured approach that will enable them to capture patient-reported experiences from social media data. We apply this framework in a case study on prostate cancer data from /r/ProstateCancer, demonstrate the framework's value in capturing specific aspects of patient concern (such as sexual dysfunction), provide an overview of the discourse, and show narrative and emotional progression through these stories. We anticipate this framework to apply to a wide variety of areas in healthcare, including capturing and differentiating experiences across minority groups, geographic boundaries, and types of illnesses.
翻訳日:2022-10-11 16:34:39 公開日:2022-10-09
# CoopHash: 画像ハッシュのための変分MCMC指導による多目的ディスクリプタとコントラストペアジェネレータの協調学習

CoopHash: Cooperative Learning of Multipurpose Descriptor and Contrastive Pair Generator via Variational MCMC Teaching for Supervised Image Hashing ( http://arxiv.org/abs/2210.04288v1 )

ライセンス: Link先を確認
Khoa D. Doan, Jianwen Xie, Yaxuan Zhu, Yang Zhao, Ping Li(参考訳) 教師あり情報を利用することで、画像ハッシュ領域での検索性能は向上するが、ラベル付きデータなしで性能は著しく低下する。 パフォーマンスを高める効果的な解決策の1つは、GAN(Generative Adversarial Networks)のような生成モデルを使用して、画像ハッシュモデルで合成データを生成することである。 しかし、ganベースの手法は訓練が困難であり、モード崩壊に苦しむため、ハッシュ化アプローチが生成モデルとハッシュ関数を共同で訓練することを防ぐ。 この制限により、準最適検索性能が得られる。 この制限を克服するため,エネルギーに基づく協調学習を基盤とした新しい協調ハッシュネットワーク(CoopHash)を提案する。 CoopHashはデータの強力な生成表現と堅牢なハッシュ関数を共同で学習する。 coophashには2つのコンポーネントがある: コントラストイメージを合成するトップダウンコントラストペアジェネレータと、確率密度、ハッシュコード、潜在コード、カテゴリを含む複数の視点からのイメージを同時に表現するボトムアップ多目的記述子。 2つのコンポーネントは、新しい可能性に基づく協調学習スキームを通じて共同で学習される。 提案手法は,いくつかの実世界のデータセットで実験を行い,提案手法が競合するハッシュ処理手法を上回っており,現行の教師ありハッシュ法に比べて10%の相対的改善を達成し,分散処理の性能が著しく向上していることを示す。

Leveraging supervised information can lead to superior retrieval performance in the image hashing domain but the performance degrades significantly without enough labeled data. One effective solution to boost the performance is to employ generative models, such as Generative Adversarial Networks (GANs), to generate synthetic data in an image hashing model. However, GAN-based methods are difficult to train and suffer from mode collapse issue, which prevents the hashing approaches from jointly training the generative models and the hash functions. This limitation results in sub-optimal retrieval performance. To overcome this limitation, we propose a novel framework, the generative cooperative hashing network (CoopHash), which is based on the energy-based cooperative learning. CoopHash jointly learns a powerful generative representation of the data and a robust hash function. CoopHash has two components: a top-down contrastive pair generator that synthesizes contrastive images and a bottom-up multipurpose descriptor that simultaneously represents the images from multiple perspectives, including probability density, hash code, latent code, and category. The two components are jointly learned via a novel likelihood-based cooperative learning scheme. We conduct experiments on several real-world datasets and show that the proposed method outperforms the competing hashing supervised methods, achieving up to 10% relative improvement over the current state-of-the-art supervised hashing methods, and exhibits a significantly better performance in out-of-distribution retrieval.
翻訳日:2022-10-11 16:20:19 公開日:2022-10-09
# フェアア画像分類のための微分距離近似

A Differentiable Distance Approximation for Fairer Image Classification ( http://arxiv.org/abs/2210.04369v1 )

ライセンス: Link先を確認
Nicholas Rosa, Tom Drummond, Mehrtash Harandi(参考訳) 訓練されたAIモデルは偏見が強い。 これは、民族的背景、年齢、性別など、法的または道徳的に保護された属性が偏見である場合、特に問題となる。 この問題の既存の解決策は、余分な計算、不安定な対向最適化、あるいはフェアネス測度から切り離された特徴空間構造に損失を与えるコストが伴う。 本研究では,aiモデルにおける偏りや不公平さを測定するための指標である,人口動態のばらつきの微分可能な近似を提案する。 我々の近似は、トレーニング中の追加モデルの必要性を排除し、正規化モデルの公正性を直接改善する通常のトレーニング目標と共に最適化することができる。 我々の手法は、高度な分類精度を維持しながら、さまざまなタスクやデータセットシナリオにおけるAIモデルの公平性を向上させることを実証している。 コードはhttps://bitbucket.org/nelliottrosa/base_fairnessで入手できる。

Naively trained AI models can be heavily biased. This can be particularly problematic when the biases involve legally or morally protected attributes such as ethnic background, age or gender. Existing solutions to this problem come at the cost of extra computation, unstable adversarial optimisation or have losses on the feature space structure that are disconnected from fairness measures and only loosely generalise to fairness. In this work we propose a differentiable approximation of the variance of demographics, a metric that can be used to measure the bias, or unfairness, in an AI model. Our approximation can be optimised alongside the regular training objective which eliminates the need for any extra models during training and directly improves the fairness of the regularised models. We demonstrate that our approach improves the fairness of AI models in varied task and dataset scenarios, whilst still maintaining a high level of classification accuracy. Code is available at https://bitbucket.org/nelliottrosa/base_fairness.
翻訳日:2022-10-11 16:19:53 公開日:2022-10-09
# VoLTA:局部アライメントを弱めるビジョンランゲージ変換器

VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment ( http://arxiv.org/abs/2210.04135v1 )

ライセンス: Link先を確認
Shraman Pramanick, Li Jing, Sayan Nag, Jiachen Zhu, Hardik Shah, Yann LeCun and Rama Chellappa(参考訳) 視覚言語事前学習(VLP)は、最近、様々なユニモーダルおよびマルチモーダルダウンストリームアプリケーションに非常に効果的であることが証明された。 しかしながら、既存のほとんどのエンドツーエンドVLP法は、高解像度の画像テキストボックスデータを使用して、オブジェクト検出、セグメンテーション、参照表現理解などのきめ細かい領域レベルのタスクをうまく処理する。 残念ながら、正確なバウンディングボックスアノテーションを備えた高解像度画像は、収集し、大規模に監視するのに費用がかかる。 本稿では,VoLTA(Vosion-Language Transformer with weak-supervised local-feature Alignment)を提案する。 voltaは、グラフ最適化トランスポートベースの弱教師付きアライメントをローカルイメージパッチとテキストトークンに採用し、明示的で自己正規化され、解釈可能な低レベルマッチング基準を継承する。 さらにvoltaは、プレトレーニング中にマルチモーダルフュージョンをユニモーダルバックボーンに深く押し込み、フュージョン固有のトランスフォーマー層を取り除き、メモリ要件をさらに削減する。 広範囲の視覚および視覚によるダウンストリームタスクに対する広範な実験は、粗いダウンストリーム性能を損なうことなく、細粒度アプリケーションにおけるVoLTAの有効性を実証している。

Vision-language pre-training (VLP) has recently proven highly effective for various uni- and multi-modal downstream applications. However, most existing end-to-end VLP methods use high-resolution image-text box data to perform well on fine-grained region-level tasks, such as object detection, segmentation, and referring expression comprehension. Unfortunately, such high-resolution images with accurate bounding box annotations are expensive to collect and use for supervision at scale. In this work, we propose VoLTA (Vision-Language Transformer with weakly-supervised local-feature Alignment), a new VLP paradigm that only utilizes image-caption data but achieves fine-grained region-level image understanding, eliminating the use of expensive box annotations. VoLTA adopts graph optimal transport-based weakly-supervised alignment on local image patches and text tokens to germinate an explicit, self-normalized, and interpretable low-level matching criterion. In addition, VoLTA pushes multi-modal fusion deep into the uni-modal backbones during pre-training and removes fusion-specific transformer layers, further reducing memory requirements. Extensive experiments on a wide range of vision- and vision-language downstream tasks demonstrate the effectiveness of VoLTA on fine-grained applications without compromising the coarse-grained downstream performance, often outperforming methods using significantly more caption and box annotations.
翻訳日:2022-10-11 16:09:43 公開日:2022-10-09
# ロボットによる連続的能動学習

Few-Shot Continual Active Learning by a Robot ( http://arxiv.org/abs/2210.04137v1 )

ライセンス: Link先を確認
Ali Ayub and Carter Fendley(参考訳) 本稿では,clエージェントに新しいタスクや事前学習されたタスクのためのラベル付きデータを提供し,エージェントが利用可能なラベル付き予算が限られている,難易度が高いが現実的な連続学習(cl)問題,単発連続学習(focal)について考察する。 そこで我々は,継続学習とアクティブラーニングの文献に基づいて,CLエージェントがいくつかのラベル付きトレーニング例から新しいオブジェクトクラスを継続的に学習できるフレームワークを開発する。 我々のフレームワークは、一様ガウス混合モデル(GMM)を用いて各オブジェクトクラスを表現し、擬似リハーサルを用いて破滅的忘れを緩和する。 このフレームワークはまた、事前学習されたクラスのガウス表現に関する不確実性尺度を使用して、インクリメントでラベル付けされる最も有益なサンプルを見つける。 対象分類タスクにおけるCORe-50データセットと実際のヒューマノイドロボットに対するアプローチを評価した。 その結果,本手法は,データセット上で最先端の結果を生成するだけでなく,ユーザが提供する限定的なラベル付けによる実環境における未確認オブジェクトの継続的な学習を可能にした。

In this paper, we consider a challenging but realistic continual learning (CL) problem, Few-Shot Continual Active Learning (FoCAL), where a CL agent is provided with unlabeled data for a new or a previously learned task in each increment and the agent only has limited labeling budget available. Towards this, we build on the continual learning and active learning literature and develop a framework that can allow a CL agent to continually learn new object classes from a few labeled training examples. Our framework represents each object class using a uniform Gaussian mixture model (GMM) and uses pseudo-rehearsal to mitigate catastrophic forgetting. The framework also uses uncertainty measures on the Gaussian representations of the previously learned classes to find the most informative samples to be labeled in an increment. We evaluate our approach on the CORe-50 dataset and on a real humanoid robot for the object classification task. The results show that our approach not only produces state-of-the-art results on the dataset but also allows a real robot to continually learn unseen objects in a real environment with limited labeling supervision provided by its user.
翻訳日:2022-10-11 16:09:16 公開日:2022-10-09
# 視覚トランスフォーマによる強重力レンズパラメータ推定

Strong Gravitational Lensing Parameter Estimation with Vision Transformer ( http://arxiv.org/abs/2210.04143v1 )

ライセンス: Link先を確認
Kuan-Wei Huang, Geoff Chih-Fan Chen, Po-Wen Chang, Sheng-Chieh Lin, Chia-Jung Hsu, Vishal Thengane, Joshua Yao-Yu Lin(参考訳) 数百の強いレンズを持つクエーサー系のパラメータと対応する不確かさを定量化することは、最も重要な科学的問題であるハッブル定数(h_{0}$)の解決の鍵である。 一般的に使われているマルコフ連鎖モンテカルロ法(MCMC)は、この目標を達成するのに時間がかかりすぎているが、最近の研究は、畳み込みニューラルネットワーク(CNN)が7桁の速度改善の代替となることを示した。 31,200枚の強く照らされたクエーサー画像を用いて、我々は初めて強い重力レンズのシミュレーションにビジョントランスフォーマー(ViT)を用いた。 vit が cnn と比較して競争力のある結果に到達できることを示し,特にレンズ中心値 $\theta_{1}$ や $\theta_{2}$,楕円率 $e_1$ や $e_2$,ラジアルパワーロームスロープ $\gamma'$ など,いくつかのレンズパラメータが優れていることを示した。 この有望な予備的な結果により、ViT(または注意に基づく)ネットワークアーキテクチャは、次世代のサーベイにとって強力なレンズ科学にとって重要なツールになり得ると信じている。 コードとデータのオープンソースは \url{https://github.com/kuanweih/strong_lensing_vit_resnet} です。

Quantifying the parameters and corresponding uncertainties of hundreds of strongly lensed quasar systems holds the key to resolving one of the most important scientific questions: the Hubble constant ($H_{0}$) tension. The commonly used Markov chain Monte Carlo (MCMC) method has been too time-consuming to achieve this goal, yet recent work has shown that convolution neural networks (CNNs) can be an alternative with seven orders of magnitude improvement in speed. With 31,200 simulated strongly lensed quasar images, we explore the usage of Vision Transformer (ViT) for simulated strong gravitational lensing for the first time. We show that ViT could reach competitive results compared with CNNs, and is specifically good at some lensing parameters, including the most important mass-related parameters such as the center of lens $\theta_{1}$ and $\theta_{2}$, the ellipticities $e_1$ and $e_2$, and the radial power-law slope $\gamma'$. With this promising preliminary result, we believe the ViT (or attention-based) network architecture can be an important tool for strong lensing science for the next generation of surveys. The open source of our code and data is in \url{https://github.com/kuanweih/strong_lensing_vit_resnet}.
翻訳日:2022-10-11 16:08:54 公開日:2022-10-09
# 可逆再スケーリングネットワークとその拡張

Invertible Rescaling Network and Its Extensions ( http://arxiv.org/abs/2210.04188v1 )

ライセンス: Link先を確認
Mingqing Xiao, Shuxin Zheng, Chang Liu, Zhouchen Lin, Tie-Yan Liu(参考訳) イメージリスケーリングは、一般的に使用される双方向操作であり、まず、様々なディスプレイ画面に適合するように高解像度画像をスケールダウンするか、ストレージや帯域幅に優しいものにし、その後、対応する低解像度画像をスケールアップして元の解像度やズームイン画像の詳細を復元する。 しかし、非インジェクティブなダウンスケーリングマッピングは高周波コンテンツを破棄し、逆復元タスクの不正な問題を引き起こす。 これは、情報損失を伴う一般的な画像劣化復元問題として抽象化できる。 本研究では, この一般問題に対処する新しい可逆的枠組みを提案し, 新たな視点,すなわち可逆的単射変換から双方向の劣化と復元をモデル化する。 この可逆性により、フレームワークは、事前劣化による情報損失を分散形式でモデル化することができ、再回復時に生じる問題を軽減することができる。 具体的には, 有効な劣化画像を生成するための可逆モデルを開発し, その一方で, 失われたコンテンツの分布を前方劣化中の潜在変数の固定分布に変換する。 そして、生成した劣化画像にランダムに描画された潜在変数と共に逆変換を適用して復元可能とする。 画像の再スケーリングから始まり、モデルを逆再スケーリングネットワーク(irn)としてインスタンス化します。 さらに,可逆フレームワークと画像圧縮などの既存の劣化手法を組み合わせることで,より広いアプリケーションを実現することを提案する。 実験結果から,ダウンスケールおよびデカラー化画像からのアップスケールおよびカラー化再構成の定量的および定性的評価と,画像圧縮の速度歪みの両面から,既存手法に対するモデルの有効性が示された。

Image rescaling is a commonly used bidirectional operation, which first downscales high-resolution images to fit various display screens or to be storage- and bandwidth-friendly, and afterward upscales the corresponding low-resolution images to recover the original resolution or the details in the zoom-in images. However, the non-injective downscaling mapping discards high-frequency contents, leading to the ill-posed problem for the inverse restoration task. This can be abstracted as a general image degradation-restoration problem with information loss. In this work, we propose a novel invertible framework to handle this general problem, which models the bidirectional degradation and restoration from a new perspective, i.e. invertible bijective transformation. The invertibility enables the framework to model the information loss of pre-degradation in the form of distribution, which could mitigate the ill-posed problem during post-restoration. To be specific, we develop invertible models to generate valid degraded images and meanwhile transform the distribution of lost contents to the fixed distribution of a latent variable during the forward degradation. Then restoration is made tractable by applying the inverse transformation on the generated degraded image together with a randomly-drawn latent variable. We start from image rescaling and instantiate the model as Invertible Rescaling Network (IRN), which can be easily extended to the similar decolorization-colorization task. We further propose to combine the invertible framework with existing degradation methods such as image compression for wider applications. Experimental results demonstrate the significant improvement of our model over existing methods in terms of both quantitative and qualitative evaluations of upscaling and colorizing reconstruction from downscaled and decolorized images, and rate-distortion of image compression.
翻訳日:2022-10-11 16:08:32 公開日:2022-10-09
# 3次元境界拘束型ディープニューラルネットワークによる腹部多臓器分割の改善

Improved Abdominal Multi-Organ Segmentation via 3D Boundary-Constrained Deep Neural Networks ( http://arxiv.org/abs/2210.04285v1 )

ライセンス: Link先を確認
Samra Irshad, Douglas P.S. Gomes and Seong Tae Kim(参考訳) 腹部ct検査による腹部領域の定量的評価には腹部臓器の同時分割が必要である。 高性能な計算資源が利用可能であったため,深層学習による3次元腹部CTスキャンのセグメント化の最先端性能が得られた。 しかし、ファジィ境界を持つ臓器の複雑な特性は、深層学習法がこれらの解剖学的器官を正確に分類することを妨げている。 特に、臓器の境界のボクセルは、組織間の境界の強度が高度に変化するため、誤った予測に対してより脆弱である。 本稿では,臓器境界予測を補完課題として活用することにより,既存の3次元エンコーダデコーダネットワークの腹部画像分割性能を向上させる可能性を検討する。 腹部マルチオルガンセグメンテーションの問題に対処するため,3次元エンコーダ・デコーダネットワークを訓練し,マルチタスク学習により腹部臓器とそれに対応する境界を同時に分割する。 ネットワークは2つのタスク固有の損失、すなわち完全な臓器分割損失と境界予測損失を組み合わせた損失関数を用いてエンドツーエンドに訓練される。 統合マルチタスクフレームワーク内の2つのタスク間で共有される重み度に基づいて、2つの異なるネットワークトポロジを探索する。 3D UNet, 3D UNet++, 3D Attention-UNetの3つの最先端エンコーダデコーダネットワークを用いて, 腹腔内多臓器セグメンテーションの改善における相補的境界予測タスクの利用性を評価する。 腹部多臓器郭清における臓器境界情報の有用性を,2つの腹部CTデータセットを用いて評価した。 pancreas-ct と btcv のデータセットでは,平均 dice スコアで最大 3.5% と 3.6% の相対的改善が見られた。

Quantitative assessment of the abdominal region from clinically acquired CT scans requires the simultaneous segmentation of abdominal organs. Thanks to the availability of high-performance computational resources, deep learning-based methods have resulted in state-of-the-art performance for the segmentation of 3D abdominal CT scans. However, the complex characterization of organs with fuzzy boundaries prevents the deep learning methods from accurately segmenting these anatomical organs. Specifically, the voxels on the boundary of organs are more vulnerable to misprediction due to the highly-varying intensity of inter-organ boundaries. This paper investigates the possibility of improving the abdominal image segmentation performance of the existing 3D encoder-decoder networks by leveraging organ-boundary prediction as a complementary task. To address the problem of abdominal multi-organ segmentation, we train the 3D encoder-decoder network to simultaneously segment the abdominal organs and their corresponding boundaries in CT scans via multi-task learning. The network is trained end-to-end using a loss function that combines two task-specific losses, i.e., complete organ segmentation loss and boundary prediction loss. We explore two different network topologies based on the extent of weights shared between the two tasks within a unified multi-task framework. To evaluate the utilization of complementary boundary prediction task in improving the abdominal multi-organ segmentation, we use three state-of-the-art encoder-decoder networks: 3D UNet, 3D UNet++, and 3D Attention-UNet. The effectiveness of utilizing the organs' boundary information for abdominal multi-organ segmentation is evaluated on two publically available abdominal CT datasets. A maximum relative improvement of 3.5% and 3.6% is observed in Mean Dice Score for Pancreas-CT and BTCV datasets, respectively.
翻訳日:2022-10-11 16:07:59 公開日:2022-10-09
# ELIGN:マルチエージェント固有のリワードとしての期待アライメント

ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward ( http://arxiv.org/abs/2210.04365v1 )

ライセンス: Link先を確認
Zixian Ma, Rose Wang, Li Fei-Fei, Michael Bernstein, Ranjay Krishna(参考訳) 現代のマルチエージェント強化学習フレームワークは、集中的なトレーニングと報酬形成に頼っている。 しかし、集中トレーニングや密集した報酬は現実世界では簡単には利用できない。 現在のマルチエージェントアルゴリズムは、分散トレーニングやスパース報酬の代替設定で学ぶのに苦労している。 これらの課題に対処するため,動物学における自己組織原理に着想を得た自己管理型固有報酬ELIGN(期待アライメントアライメント)を提案する。 動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。 これにより、エージェントは外部の報酬や集中的なトレーニングなしに協調行動を学ぶことができる。 我々は,多エージェント粒子と複雑なGoogle Researchフットボール環境における6つのタスクにまたがるアプローチの有効性を実証し,ELIGNをスパースと好奇心に基づく固有報酬と比較した。 エージェント数が増加すると、エージェントが異なる機能を持つものを除いて、複数のエージェントタスクでelignがうまくスケールする。 エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。 これらの結果は、多エージェント協調のための好奇心駆動探索よりも期待整合が有用な戦略であるタスクを特定し、エージェントはゼロショット整合を行うことができる。

Modern multi-agent reinforcement learning frameworks rely on centralized training and reward shaping to perform well. However, centralized training and dense rewards are not readily available in the real world. Current multi-agent algorithms struggle to learn in the alternative setup of decentralized training or sparse rewards. To address these issues, we propose a self-supervised intrinsic reward ELIGN - expectation alignment - inspired by the self-organization principle in Zoology. Similar to how animals collaborate in a decentralized manner with those in their vicinity, agents trained with expectation alignment learn behaviors that match their neighbors' expectations. This allows the agents to learn collaborative behaviors without any external reward or centralized training. We demonstrate the efficacy of our approach across 6 tasks in the multi-agent particle and the complex Google Research football environments, comparing ELIGN to sparse and curiosity-based intrinsic rewards. When the number of agents increases, ELIGN scales well in all multi-agent tasks except for one where agents have different capabilities. We show that agent coordination improves through expectation alignment because agents learn to divide tasks amongst themselves, break coordination symmetries, and confuse adversaries. These results identify tasks where expectation alignment is a more useful strategy than curiosity-driven exploration for multi-agent coordination, enabling agents to do zero-shot coordination.
翻訳日:2022-10-11 16:01:43 公開日:2022-10-09
# プログラム的弱監督におけるラベルアグリゲーションのインスタンス機能活用

Leveraging Instance Features for Label Aggregation in Programmatic Weak Supervision ( http://arxiv.org/abs/2210.02724v2 )

ライセンス: Link先を確認
Jieyu Zhang, Linxin Song, Alexander Ratner(参考訳) Programmatic Weak Supervision (PWS) はトレーニングラベルを効率的に合成するためのパラダイムとして広く普及している。 PWSのコアコンポーネントはラベルモデルであり、ラベル関数(LF)として抽象化された複数のノイズ管理ソースの出力を集約することで、真のラベルを推論する。 既存の統計ラベルモデルは通常、lfの出力のみに依存し、基礎となる生成過程をモデル化する際にインスタンスの特徴を無視する。 本稿では,提案するFABLEを用いて,インスタンスの特徴を統計的ラベルモデルに組み込もうとする。 特に、相関のグローバルパターンに対応するベイズラベルモデルの混合物の上に構築され、混合成分の係数はインスタンス特徴に基づくガウス過程分類器によって予測される。 ガウス過程とベイズラベルモデルとの非共役問題に対処するために,補助変数に基づく変分推論アルゴリズムを採用する。 11のベンチマークデータセットに対する大規模な比較では、FABLEは9つのベースラインで最高の平均パフォーマンスを達成している。

Programmatic Weak Supervision (PWS) has emerged as a widespread paradigm to synthesize training labels efficiently. The core component of PWS is the label model, which infers true labels by aggregating the outputs of multiple noisy supervision sources abstracted as labeling functions (LFs). Existing statistical label models typically rely only on the outputs of LF, ignoring the instance features when modeling the underlying generative process. In this paper, we attempt to incorporate the instance features into a statistical label model via the proposed FABLE. In particular, it is built on a mixture of Bayesian label models, each corresponding to a global pattern of correlation, and the coefficients of the mixture components are predicted by a Gaussian Process classifier based on instance features. We adopt an auxiliary variable-based variational inference algorithm to tackle the non-conjugate issue between the Gaussian Process and Bayesian label models. Extensive empirical comparison on eleven benchmark datasets sees FABLE achieving the highest averaged performance across nine baselines.
翻訳日:2022-10-11 16:00:03 公開日:2022-10-09
# ニューラルネットワーク拡張カルマンフィルタによる構造系のダイナミクスの学習と予測

Neural Extended Kalman Filters for Learning and Predicting Dynamics of Structural Systems ( http://arxiv.org/abs/2210.04165v1 )

ライセンス: Link先を確認
Wei Liu, Zhilu Lai, Kiran Bacsa, Eleni Chatzi(参考訳) 正確な構造応答予測は、構造的健康モニタリングおよび制御アプリケーションの主要なドライバとなる。 これはしばしば、複雑な構造システムの基盤となるダイナミクスを適切に捉えるために提案されたモデルを必要とする。 本研究では, ニューラルネットワーク拡張カルマンフィルタ (Neural Extended Kalman Filter (Neural EKF) と呼ばれる学習可能な拡張カルマンフィルタ (EKF) を用いて, 複雑な物理系の潜在進化力学を学習する。 ニューラルEKFは従来のEKFの一般化版であり、プロセスダイナミクスと感覚観測のモデリングはニューラルネットワークによってパラメータ化できるため、エンドツーエンドのトレーニングによって学習される。 測定結果から推定を行うEKFを用いて,変分推論の枠組みの下で実装した。 通常、従来の変分推論モデルは潜在力学モデルに依存しないニューラルネットワークによってパラメータ化される。 この特徴は、力学モデルに基づいて推論と再構成の精度を弱め、関連するトレーニングを不十分にする。 本稿では,神経ekfが与える構造が学習プロセスにどのように役立つかを示す。 本研究では,シミュレーションデータと実世界の監視データの両方におけるフレームワークの有効性を実証し,提案手法の有意な予測能力を示す。

Accurate structural response prediction forms a main driver for structural health monitoring and control applications. This often requires the proposed model to adequately capture the underlying dynamics of complex structural systems. In this work, we utilize a learnable Extended Kalman Filter (EKF), named the Neural Extended Kalman Filter (Neural EKF) throughout this paper, for learning the latent evolution dynamics of complex physical systems. The Neural EKF is a generalized version of the conventional EKF, where the modeling of process dynamics and sensory observations can be parameterized by neural networks, therefore learned by end-to-end training. The method is implemented under the variational inference framework with the EKF conducting inference from sensing measurements. Typically, conventional variational inference models are parameterized by neural networks independent of the latent dynamics models. This characteristic makes the inference and reconstruction accuracy weakly based on the dynamics models and renders the associated training inadequate. We here show how the structure imposed by the Neural EKF is beneficial to the learning process. We demonstrate the efficacy of the framework on both simulated and real-world monitoring datasets, with the results indicating significant predictive capabilities of the proposed scheme.
翻訳日:2022-10-11 15:59:46 公開日:2022-10-09
# 惑星衝突の予測のための残留ニューラルネットワーク

Residual Neural Networks for the Prediction of Planetary Collision Outcomes ( http://arxiv.org/abs/2210.04248v1 )

ライセンス: Link先を確認
Philip M. Winter, Christoph Burger, Sebastian Lehner, Johannes Kofler, Thomas I. Maindl, Christoph M. Sch\"afer(参考訳) 現代のN体惑星形成シミュレーションの文脈における衝突の迅速かつ正確な処理は、本質的に複雑な衝突過程のために難しい課題である。 我々は、機械学習(ML)、特に残留ニューラルネットワークによるこの問題に対処することを目指している。 我々のモデルは、データ生成プロセスの基盤となる物理的プロセスによって動機付けられ、衝突後の状態を柔軟に予測することができる。 本モデルでは, 完全非弾性マージやフィードフォワードニューラルネットワークなどの衝突処理手法を, 予測精度と分布外一般化の両方で優れることを示した。 我々のモデルは20/24の実験で最先端の成果を上げている。 10164 Smooth Particle Hydrodynamics (SPH) の2対の惑星衝突をシミュレーションしたデータセットを提供する。 このデータセットは、衝突処理の計算面を改善するためのML研究や、一般に惑星衝突の研究に特に適している。 我々は、MLタスクをマルチタスク回帰問題として定式化し、エンドツーエンドで衝突処理のためのMLモデルの簡易かつ効率的な訓練を可能にする。 我々のモデルは、既存のN体フレームワークに容易に統合することができ、選択された初期条件のパラメータ空間、すなわち、後期地球惑星形成における同様の大きさの衝突が通常起こる場合に使用できる。

Fast and accurate treatment of collisions in the context of modern N-body planet formation simulations remains a challenging task due to inherently complex collision processes. We aim to tackle this problem with machine learning (ML), in particular via residual neural networks. Our model is motivated by the underlying physical processes of the data-generating process and allows for flexible prediction of post-collision states. We demonstrate that our model outperforms commonly used collision handling methods such as perfect inelastic merging and feed-forward neural networks in both prediction accuracy and out-of-distribution generalization. Our model outperforms the current state of the art in 20/24 experiments. We provide a dataset that consists of 10164 Smooth Particle Hydrodynamics (SPH) simulations of pairwise planetary collisions. The dataset is specifically suited for ML research to improve computational aspects for collision treatment and for studying planetary collisions in general. We formulate the ML task as a multi-task regression problem, allowing simple, yet efficient training of ML models for collision treatment in an end-to-end manner. Our models can be easily integrated into existing N-body frameworks and can be used within our chosen parameter space of initial conditions, i.e. where similar-sized collisions during late-stage terrestrial planet formation typically occur.
翻訳日:2022-10-11 15:59:27 公開日:2022-10-09
# 分布確率近似のための濃度境界

A Concentration Bound for Distributed Stochastic Approximation ( http://arxiv.org/abs/2210.04253v1 )

ライセンス: Link先を確認
Harsh Dolhare and Vivek Borkar(参考訳) 我々は,分散確率近似のためのtsitsiklis,bertsekas,athansの古典モデルを再検討する。 主な結果は、確率近似へのODEアプローチを用いたこのスキームの解析であり、好ましく補間された反復と制限微分方程式の間の追従誤差に高い確率境界をもたらす。 今後の方向性も強調される。

We revisit the classical model of Tsitsiklis, Bertsekas and Athans for distributed stochastic approximation with consensus. The main result is an analysis of this scheme using the ODE approach to stochastic approximation, leading to a high probability bound for the tracking error between suitably interpolated iterates and the limiting differential equation. Several future directions will also be highlighted.
翻訳日:2022-10-11 15:59:06 公開日:2022-10-09
# 集合境界解析に基づくニューラルネットワークの安全性検証

Safety Verification for Neural Networks Based on Set-boundary Analysis ( http://arxiv.org/abs/2210.04175v1 )

ライセンス: Link先を確認
Zhen Liang, Dejin Ren, Wanwei Liu, Ji Wang, Wenjing Yang and Bai Xue(参考訳) ニューラルネットワーク(NN)は、自動運転車のような安全クリティカルなシステムにますます適用されている。 しかし、それらは脆弱であり、しばしば悪用される。 したがって、彼らの振る舞いは、実際にデプロイする前に厳格な保証を受けるべきである。 本稿では, NNの安全性検証問題に対するトポロジ的視点から検討する, 集合境界到達可能性法を提案する。 入力セットと安全セットを有するNNが与えられた場合、安全検証問題は、入力セットから生じるNNの出力が安全セットに該当するかどうかを決定することである。 提案手法では, NNの同型性を主に利用し, 境界に対する関係写像境界を確立する。 この特性の活用により、入力セット全体ではなく、入力セットのサブセットを抽出し、到達可能性解析におけるラップ効果を制御し、安全性検証のための計算負担の軽減を容易にする。 この同型性は、可逆NNのような広く使われているNNにも存在している。 注目すべき表現は可逆残留ネットワーク(i-ResNets)とニューラル常微分方程式(Neural ODEs)である。 これらのnnでは、設定境界到達可能性法は入力集合の境界に対して到達可能性解析を行うだけでよい。 入力集合に関してこの性質を特徴としないNNに対して、局所同相性を確立するための入力集合の部分集合を探索し、到達可能性計算のためにこれらの部分集合を放棄する。 最後に,提案手法の性能を示す例を示す。

Neural networks (NNs) are increasingly applied in safety-critical systems such as autonomous vehicles. However, they are fragile and are often ill-behaved. Consequently, their behaviors should undergo rigorous guarantees before deployment in practice. In this paper we propose a set-boundary reachability method to investigate the safety verification problem of NNs from a topological perspective. Given an NN with an input set and a safe set, the safety verification problem is to determine whether all outputs of the NN resulting from the input set fall within the safe set. In our method, the homeomorphism property of NNs is mainly exploited, which establishes a relationship mapping boundaries to boundaries. The exploitation of this property facilitates reachability computations via extracting subsets of the input set rather than the entire input set, thus controlling the wrapping effect in reachability analysis and facilitating the reduction of computation burdens for safety verification. The homeomorphism property exists in some widely used NNs such as invertible NNs. Notable representations are invertible residual networks (i-ResNets) and Neural ordinary differential equations (Neural ODEs). For these NNs, our set-boundary reachability method only needs to perform reachability analysis on the boundary of the input set. For NNs which do not feature this property with respect to the input set, we explore subsets of the input set for establishing the local homeomorphism property, and then abandon these subsets for reachability computations. Finally, some examples demonstrate the performance of the proposed method.
翻訳日:2022-10-11 15:50:04 公開日:2022-10-09
# FairGer:ドイツ議会討論会155年における女性と肥満者のサポート測定にNLPを使う

FairGer: Using NLP to Measure Support for Women and Migrants in 155 Years of German Parliamentary Debates ( http://arxiv.org/abs/2210.04359v1 )

ライセンス: Link先を確認
Dominik Beese and Ole P\"utz and Steffen Eger(参考訳) 我々は過去155年間のドイツの政治討論において、女性や移民への支援を測る。 これを実現するために,(1) 対象グループへの支援のためにアノテートされた1205のテキストスニペットの金本位制,(2) アノテートされたデータにbertモデルをトレーニングする,(3) 大規模傾向を推測する。 これらのことから、女性への支持は移民の支持よりも強いが、時間とともに着実に増加していることが分かる。 女性に対する直接的な支援はほとんど見つからないが、移民に関してはより分極性が高い。 また,政治談話におけるあいまいさと間接性,すなわち,政治家が政敵に起因した態度を関連づける傾向から,アノテーションの難しさについて論じる。 総じて、ドイツの社会は政治的エリートから測られるように、時間とともに公平になったことを示している。

We measure support with women and migrants in German political debates over the last 155 years. To do so, we (1) provide a gold standard of 1205 text snippets in context, annotated for support with our target groups, (2) train a BERT model on our annotated data, with which (3) we infer large-scale trends. These show that support with women is stronger than support with migrants, but both have steadily increased over time. While we hardly find any direct anti-support with women, there is more polarization when it comes to migrants. We also discuss the difficulty of annotation as a result of ambiguity in political discourse and indirectness, i.e., politicians' tendency to relate stances attributed to political opponents. Overall, our results indicate that German society, as measured from its political elite, has become fairer over time.
翻訳日:2022-10-11 15:42:16 公開日:2022-10-09
# 階層的最適輸送を用いたFew-Shot学習のための適応分布校正

Adaptive Distribution Calibration for Few-Shot Learning with Hierarchical Optimal Transport ( http://arxiv.org/abs/2210.04144v1 )

ライセンス: Link先を確認
Dandan Guo, Long Tian, He Zhao, Mingyuan Zhou, Hongyuan Zha(参考訳) Few-shotの分類は、学習中に見知らぬクラスを認識するための分類器を学習することを目的としており、学習されたモデルは、少数のトレーニング例で作られたバイアス分布に基づいて容易に過度に適合できる。 この問題に対する最近の解決策は、基底クラスから新しいクラスへの遷移重み付けを決定する方法が鍵となる、十分な例で統計をベースクラスから転送することで、これらの少数のサンプルクラスの分布を校正することである。 しかし、伝達重みを学習するための原理的なアプローチは慎重に研究されていない。 そこで本研究では,階層的最適輸送(h-ot)フレームワークを基盤とした新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布キャリブレーション手法を提案する。 新たなサンプルとベースクラスの高レベルOT距離を最小化することにより,学習したトランスポートプランを,ベースクラスの統計を伝達するための適応重み情報とみなすことができる。 高レベルのOTにおける基本クラスと新規クラスのコスト関数の学習は、基本クラスのすべてのデータサンプルの重みを考慮に入れた低レベルのOTの導入につながる。 標準ベンチマーク実験の結果,提案するプラグ・アンド・プレイモデルは,所望のクロスドメイン一般化能力を有し,学習した適応重み付けの有効性を示す。

Few-shot classification aims to learn a classifier to recognize unseen classes during training, where the learned model can easily become over-fitted based on the biased distribution formed by only a few training examples. A recent solution to this problem is calibrating the distribution of these few sample classes by transferring statistics from the base classes with sufficient examples, where how to decide the transfer weights from base classes to novel classes is the key. However, principled approaches for learning the transfer weights have not been carefully studied. To this end, we propose a novel distribution calibration method by learning the adaptive weight matrix between novel samples and base classes, which is built upon a hierarchical Optimal Transport (H-OT) framework. By minimizing the high-level OT distance between novel samples and base classes, we can view the learned transport plan as the adaptive weight information for transferring the statistics of base classes. The learning of the cost function between a base class and novel class in the high-level OT leads to the introduction of the low-level OT, which considers the weights of all the data samples in the base class. Experimental results on standard benchmarks demonstrate that our proposed plug-and-play model outperforms competing approaches and owns desired cross-domain generalization ability, indicating the effectiveness of the learned adaptive weights.
翻訳日:2022-10-11 15:35:09 公開日:2022-10-09
# マスク適応CLIPを用いたオープンボキャブラリセマンティックセマンティックセグメンテーション

Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP ( http://arxiv.org/abs/2210.04150v1 )

ライセンス: Link先を確認
Feng Liang, Bichen Wu, Xiaoliang Dai, Kunpeng Li, Yinan Zhao, Hang Zhang, Peizhao Zhang, Peter Vajda, Diana Marculescu(参考訳) open-vocabulary semantic segmentationは、テキスト記述に従ってイメージを意味領域に分割することを目的としている。 最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、CLIPのような事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。 我々は,このパラダイムの性能ボトルネックを,マスク画像上では良好に動作しないため,事前訓練されたCLIPモデルとみなす。 これを解決するために,マスク画像領域とその対応するテキスト記述の集合上でCLIPを微調整することを提案する。 既存の画像キャプチャデータセット(例えばCOCOキャプション)をマイニングしてトレーニングデータを収集し,CLIPを用いて画像キャプション内の名詞にマスクされた画像領域をマッチングする。 より正確で手動で注釈付けされたセグメンテーションラベルと固定クラス(例えばCOCO-Stuff)を比較すると、ノイズがあるが多様なデータセットはCLIPの一般化能力を維持できる。 モデル全体を微調整すると同時に,マスクプロンプトチューニングを行う手法を用いて,マスク画像中の「ブランク」領域を利用する。 実験では、マスクプロンプトチューニングはCLIPの重みを変更することなく大幅に改善され、完全に微調整されたモデルをさらに改善することができる。 特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の最先端よりも+8.5%高い。 オープンボカブラリなジェネラリストモデルが初めて、データセット固有の適応なしに2017年に教師付きスペシャリストモデルのパフォーマンスに一致した。

Open-vocabulary semantic segmentation aims to segment an image into semantic regions according to text descriptions, which may not have been seen during training. Recent two-stage methods first generate class-agnostic mask proposals and then leverage pre-trained vision-language models, e.g., CLIP, to classify masked regions. We identify the performance bottleneck of this paradigm to be the pre-trained CLIP model, since it does not perform well on masked images. To address this, we propose to finetune CLIP on a collection of masked image regions and their corresponding text descriptions. We collect training data by mining an existing image-caption dataset (e.g., COCO Captions), using CLIP to match masked image regions to nouns in the image captions. Compared with the more precise and manually annotated segmentation labels with fixed classes (e.g., COCO-Stuff), we find our noisy but diverse dataset can better retain CLIP's generalization ability. Along with finetuning the entire model, we utilize the "blank" areas in masked images using a method we dub mask prompt tuning. Experiments demonstrate mask prompt tuning brings significant improvement without modifying any weights of CLIP, and it can further improve a fully finetuned model. In particular, when trained on COCO and evaluated on ADE20K-150, our best model achieves 29.6% mIoU, which is +8.5% higher than the previous state-of-the-art. For the first time, open-vocabulary generalist models match the performance of supervised specialist models in 2017 without dataset-specific adaptations.
翻訳日:2022-10-11 15:34:45 公開日:2022-10-09
# Grow and Merge: 継続的カテゴリ発見のための統一フレームワーク

Grow and Merge: A Unified Framework for Continuous Categories Discovery ( http://arxiv.org/abs/2210.04174v1 )

ライセンス: Link先を確認
Xinwei Zhang, Jianwen Jiang, Yutong Feng, Zhi-Fan Wu, Xibin Zhao, Hai Wan, Mingqian Tang, Rong Jin, Yue Gao(参考訳) 多くの研究は、新しいカテゴリ発見に向けられているが、そのほとんどは、ラベル付きデータとラベルなしデータの両方が同時に与えられる静的な設定を前提としている。 本研究では,ラベルのないデータがカテゴリ発見システムに継続的に供給されるアプリケーションシナリオに注目した。 我々は、これを {\bf continuous category discovery} ({\bf ccd})問題と呼び、静的設定よりもかなり難しい。 新たなカテゴリー発見で直面する共通の課題は、分類と分類発見に異なる特徴セットが必要であることである: 分類に分類的特徴が好まれる一方で、リッチで多様な特徴が新しいカテゴリマイニングにより適している。 システムが既知のクラスの優れたパフォーマンスを提供するように要求されると同時に、ラベルのないデータから新しいクラスを継続的に発見するので、この課題は動的設定においてより厳しいものになる。 この課題に対処するため、成長段階と統合段階を交互に交互に作用する {\bf Grow and Merge} ({\bf GM}) のフレームワークを開発し、成長段階においては、効果的なカテゴリマイニングのための継続的自己教師付き学習を通じて特徴の多様性を増大させ、融合段階では、成長モデルと静的なモデルとの融合を行い、既知のクラスのパフォーマンスを満足させる。 本研究は,提案したGMフレームワークが連続圏探索の最先端手法よりも極めて有効であることを示す。

Although a number of studies are devoted to novel category discovery, most of them assume a static setting where both labeled and unlabeled data are given at once for finding new categories. In this work, we focus on the application scenarios where unlabeled data are continuously fed into the category discovery system. We refer to it as the {\bf Continuous Category Discovery} ({\bf CCD}) problem, which is significantly more challenging than the static setting. A common challenge faced by novel category discovery is that different sets of features are needed for classification and category discovery: class discriminative features are preferred for classification, while rich and diverse features are more suitable for new category mining. This challenge becomes more severe for dynamic setting as the system is asked to deliver good performance for known classes over time, and at the same time continuously discover new classes from unlabeled data. To address this challenge, we develop a framework of {\bf Grow and Merge} ({\bf GM}) that works by alternating between a growing phase and a merging phase: in the growing phase, it increases the diversity of features through a continuous self-supervised learning for effective category mining, and in the merging phase, it merges the grown model with a static one to ensure satisfying performance for known classes. Our extensive studies verify that the proposed GM framework is significantly more effective than the state-of-the-art approaches for continuous category discovery.
翻訳日:2022-10-11 15:34:15 公開日:2022-10-09
# 発展途上国における変圧器型洪水シーンセグメンテーション

Transformer-based Flood Scene Segmentation for Developing Countries ( http://arxiv.org/abs/2210.04218v1 )

ライセンス: Link先を確認
Ahan M R, Roshan Roy, Shreyas Sunil Kulkarni, Vaibhav Soni, Ashish Chittora(参考訳) 洪水は大規模な自然災害であり、しばしば大量の死者、大規模な材料被害、経済的混乱を引き起こす。 高人口国や低資源開発国では、この効果はより広範囲で長続きする。 早期警戒システム(EWS)は洪水を予測するための水位やその他の要因を常に評価し、被害を最小限に抑える。 災害後、災害対応チームは、災害ニーズ評価(pdsa)を行い、構造的損傷を評価し、高い影響のある近隣地域に対応するための最適な戦略を決定する。 しかし, 発展途上国においても, EWS と PDSA による大量の画像・映像データの分析は, 第一応答者やボランティアが行う手作業である。 本研究では,災害現場の航空画像から浸水した地域を検知し区分する視覚トランスフォーマモデルとして,我々の知識を最大限に活用するfloodtransformerを提案する。 EWS と PDSA 分析のための区分けされた浸水面積を定量化するために, 独自の測度 Flood Capacity (FC) も提案する。 SWOC Floodセグメンテーションデータセットを使用して0.93mIoUを達成する。 さらに、他の洪水データソースからの未確認洪水画像の検証により、このアプローチの堅牢性を示す。

Floods are large-scale natural disasters that often induce a massive number of deaths, extensive material damage, and economic turmoil. The effects are more extensive and longer-lasting in high-population and low-resource developing countries. Early Warning Systems (EWS) constantly assess water levels and other factors to forecast floods, to help minimize damage. Post-disaster, disaster response teams undertake a Post Disaster Needs Assessment (PDSA) to assess structural damage and determine optimal strategies to respond to highly affected neighbourhoods. However, even today in developing countries, EWS and PDSA analysis of large volumes of image and video data is largely a manual process undertaken by first responders and volunteers. We propose FloodTransformer, which to the best of our knowledge, is the first visual transformer-based model to detect and segment flooded areas from aerial images at disaster sites. We also propose a custom metric, Flood Capacity (FC) to measure the spatial extent of water coverage and quantify the segmented flooded area for EWS and PDSA analyses. We use the SWOC Flood segmentation dataset and achieve 0.93 mIoU, outperforming all other methods. We further show the robustness of this approach by validating across unseen flood images from other flood data sources.
翻訳日:2022-10-11 15:33:47 公開日:2022-10-09
# 確率的ニューラルネットワークによる非線形十分次元削減

Nonlinear Sufficient Dimension Reduction with a Stochastic Neural Network ( http://arxiv.org/abs/2210.04349v1 )

ライセンス: Link先を確認
Siqi Liang, Yan Sun, Faming Liang(参考訳) 十分な次元削減は、高次元データに隠されたコア情報を抽出する強力なツールであり、機械学習タスクにおいて潜在的に多くの重要な応用がある。 しかし、既存の非線形十分次元縮小法は、大規模データを扱うのに必要なスケーラビリティを欠くことが多い。 本稿では,厳密な確率的枠組みに基づく新しいタイプの確率的ニューラルネットワークを提案する。 提案する確率的ニューラルネットワークは適応的確率的勾配マルコフ連鎖モンテカルロアルゴリズムを用いて訓練される。 実世界の分類と回帰問題に関する広範囲な実験を通じて,提案手法は既存の十分次元化手法と好適な比較を行い,大規模データに対して計算効率が高いことを示す。

Sufficient dimension reduction is a powerful tool to extract core information hidden in the high-dimensional data and has potentially many important applications in machine learning tasks. However, the existing nonlinear sufficient dimension reduction methods often lack the scalability necessary for dealing with large-scale data. We propose a new type of stochastic neural network under a rigorous probabilistic framework and show that it can be used for sufficient dimension reduction for large-scale data. The proposed stochastic neural network is trained using an adaptive stochastic gradient Markov chain Monte Carlo algorithm, whose convergence is rigorously studied in the paper as well. Through extensive experiments on real-world classification and regression problems, we show that the proposed method compares favorably with the existing state-of-the-art sufficient dimension reduction methods and is computationally more efficient for large-scale data.
翻訳日:2022-10-11 15:26:10 公開日:2022-10-09
# 非ラベル例に基づく分布シフト時のコンフォーメーション予測器の試験時間再校正

Test-time Recalibration of Conformal Predictors Under Distribution Shift Based on Unlabeled Examples ( http://arxiv.org/abs/2210.04166v1 )

ライセンス: Link先を確認
Fatih Furkan Yilmaz and Reinhard Heckel(参考訳) 現代の画像分類器は高い予測精度を達成するが、予測は信頼性の高い不確実性推定を伴わない。 等式予測アルゴリズムは、分類器の確率推定(ソフトマックススコアなど)に基づいてクラスの集合を予測することによって不確実性推定を提供する。 このような集合に対して、共形予測アルゴリズムは、確率推定のカットオフしきい値の推定にしばしば依存し、このしきい値がキャリブレーションセットに基づいて選択される。 整合予測法は、校正セットがテストセットと同じ分布である場合にのみ信頼性を保証する。 したがって、新しい分布に対する手法の再検討が必要である。 しかし、実際には新しいディストリビューションからのラベル付きデータはほとんど利用できず、キャリブレーションは実現不可能である。 本研究では,ラベルなしの例のみに基づいて,新しい分布のカットオフしきい値を予測する問題を考える。 ラベルのない例に基づいて校正を行う場合,一般に信頼性を保証することは不可能であるが,本手法は分布シフトの特定のモデルに有効であることを示す。

Modern image classifiers achieve high predictive accuracy, but the predictions typically come without reliable uncertainty estimates. Conformal prediction algorithms provide uncertainty estimates by predicting a set of classes based on the probability estimates of the classifier (for example, the softmax scores). To provide such sets, conformal prediction algorithms often rely on estimating a cutoff threshold for the probability estimates, and this threshold is chosen based on a calibration set. Conformal prediction methods guarantee reliability only when the calibration set is from the same distribution as the test set. Therefore, the methods need to be recalibrated for new distributions. However, in practice, labeled data from new distributions is rarely available, making calibration infeasible. In this work, we consider the problem of predicting the cutoff threshold for a new distribution based on unlabeled examples only. While it is impossible in general to guarantee reliability when calibrating based on unlabeled examples, we show that our method provides excellent uncertainty estimates under natural distribution shifts, and provably works for a specific model of a distribution shift.
翻訳日:2022-10-11 15:14:59 公開日:2022-10-09
# アイテム応答理論へのスペクトル的アプローチ

A Spectral Approach to Item Response Theory ( http://arxiv.org/abs/2210.04317v1 )

ライセンス: Link先を確認
Duc Nguyen and Anderson Zhang(参考訳) raschモデルは \emph{item response theory} の最も基本的なモデルの1つであり、教育試験からレコメンデーションシステムまで幅広い応用がある。 x_{li} \in \{0,1\}$ of a user $l$ with parameter $\theta^*_l$ to a item $i$ with parameter $\beta^*_i$ (例:ユーザーが映画が好きで、学生が正しく問題を解く)は$\Pr(X_{li}=1) = 1/(1 + \exp{-(\theta^*_l - \beta^*_i)} として配布される。 本稿では,この有名なモデル(すなわち$\beta^*$ を推定するために)に対する \emph{new item estimation} アルゴリズムを提案する。 我々のアルゴリズムの中核は、アイテム-イムグラフ上で定義されたマルコフ連鎖の定常分布の計算である。 本稿では,アルゴリズムの寄与を有限サンプル誤差保証で補うことにより,本アルゴリズムが一貫性を持ち,良好な最適性を持つことを示す。 実践者が採用できるアルゴリズムを加速し、強化するための実践的な修正について議論する。 小さな教育用データセットから大きなレコメンデーションシステムデータセットまで、合成および実生活データセットの実験では、アルゴリズムがスケーラブルで正確であり、文献でよく使われる手法と競合していることを示している。

The Rasch model is one of the most fundamental models in \emph{item response theory} and has wide-ranging applications from education testing to recommendation systems. In a universe with $n$ users and $m$ items, the Rasch model assumes that the binary response $X_{li} \in \{0,1\}$ of a user $l$ with parameter $\theta^*_l$ to an item $i$ with parameter $\beta^*_i$ (e.g., a user likes a movie, a student correctly solves a problem) is distributed as $\Pr(X_{li}=1) = 1/(1 + \exp{-(\theta^*_l - \beta^*_i)})$. In this paper, we propose a \emph{new item estimation} algorithm for this celebrated model (i.e., to estimate $\beta^*$). The core of our algorithm is the computation of the stationary distribution of a Markov chain defined on an item-item graph. We complement our algorithmic contributions with finite-sample error guarantees, the first of their kind in the literature, showing that our algorithm is consistent and enjoys favorable optimality properties. We discuss practical modifications to accelerate and robustify the algorithm that practitioners can adopt. Experiments on synthetic and real-life datasets, ranging from small education testing datasets to large recommendation systems datasets show that our algorithm is scalable, accurate, and competitive with the most commonly used methods in the literature.
翻訳日:2022-10-11 15:14:40 公開日:2022-10-09
# 重み付き非対称損失関数を用いたニューラルネットワークモデルの予測間隔

Prediction interval for neural network models using weighted asymmetric loss functions ( http://arxiv.org/abs/2210.04318v1 )

ライセンス: Link先を確認
Milo Grillo and Agnieszka Werpachowska(参考訳) 本研究では,エクササイズの適合と予測のための予測区間(PI)を新規かつ簡便に作成する手法を開発した。 重み付けされた非対称損失関数を最小化することにより、区間の上下境界を見つけ、その区間の幅に依存する。 私たちは短い数学的証明を与える。 証明の結果としてパラメータ化関数に制限された値に対するPIを見つけ,従属変数のPIを予測するためになぜこの手法が機能するのかを議論する。 本手法を実世界予測タスクに展開したニューラルネットワークに適用した結果,複雑な機械学習環境における実用的な実装の有効性が証明された。

We develop a novel and simple method to produce prediction intervals (PIs) for fitting and forecasting exercises. It finds the lower and upper bound of the intervals by minimising a weighted asymmetric loss function, where the weight depends on the width of the interval. We give a short mathematical proof. As a corollary of our proof, we find PIs for values restricted to a parameterised function and argue why the method works for predicting PIs of dependent variables. The results of applying the method on a neural network deployed in a real-world forecasting task prove the validity of its practical implementation in complex machine learning setups.
翻訳日:2022-10-11 15:14:06 公開日:2022-10-09
# オフラインRLのための状態アドバンテージウェイト

State Advantage Weighting for Offline RL ( http://arxiv.org/abs/2210.04251v1 )

ライセンス: Link先を確認
Jiafei Lyu and Aicheng Gong and Le Wan and Zongqing Lu and Xiu Li(参考訳) オフライン強化学習(RL)における状態重み付けについて述べる。 QSA学習で一般的に採用されるアクションアドバンテージ$A(s,a)$とは対照的に、オフラインRLでは状態エバンス$A(s,s^\prime)$とQSS学習を活用して、アクションを値から分離する。 エージェントはハイリワード状態になり、アクションはエージェントが対応する状態に到達する方法によって決定されることを期待します。 D4RLデータセットを用いた実験により,提案手法は共通のベースラインに対して顕著な性能が得られることが示された。 さらに,オフラインからオンラインへの移行時の一般化能力も良好である。

We present state advantage weighting for offline reinforcement learning (RL). In contrast to action advantage $A(s,a)$ that we commonly adopt in QSA learning, we leverage state advantage $A(s,s^\prime)$ and QSS learning for offline RL, hence decoupling the action from values. We expect the agent can get to the high-reward state and the action is determined by how the agent can get to that corresponding state. Experiments on D4RL datasets show that our proposed method can achieve remarkable performance against the common baselines. Furthermore, our method shows good generalization capability when transferring from offline to online.
翻訳日:2022-10-11 15:06:14 公開日:2022-10-09
# スコアフォッカー・プランク方程式を用いたスコアベースモデルの正規化

Regularizing Score-based Models with Score Fokker-Planck Equations ( http://arxiv.org/abs/2210.04296v1 )

ライセンス: Link先を確認
Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon(参考訳) スコアベース生成モデルは、ますます多くのノイズを伴うデータ密度に対応する雑音条件スコア関数の族を学習する。 これらのパーチューブデータ密度をフォッカー・プランク方程式(fpe)で結合し、拡散過程を行う密度の空間-時間発展を管理するpdeである。 本研究では、摂動データ密度(すなわち、その勾配)の雑音条件スコアを特徴付ける対応する方程式をFPEと呼ぶ。 驚くべきことに、印象的な経験的性能にもかかわらず、DSM(denoising score matching)を用いて学習したスコアは、基礎となるスコアFPEを満足しない。 スコアfpeを満足することの2つの意味を数学的に解析し,スコアfpeが実際に満足できない理由を説明する。 最終的に、スコアFPEの満足度を高めるためにDSM目標を標準化し、合成データとMNISTにその効果を示すことを提案する。

Score-based generative models learn a family of noise-conditional score functions corresponding to the data density perturbed with increasingly large amounts of noise. These pertubed data densities are tied together by the Fokker-Planck equation (FPE), a PDE governing the spatial-temporal evolution of a density undergoing a diffusion process. In this work, we derive a corresponding equation characterizing the noise-conditional scores of the perturbed data densities (i.e., their gradients), termed the score FPE. Surprisingly, despite impressive empirical performance, we observe that scores learned via denoising score matching (DSM) do not satisfy the underlying score FPE. We mathematically analyze two implications of satisfying the score FPE and a potential explanation for why the score FPE is not satisfied in practice. At last, we propose to regularize the DSM objective to enforce satisfaction of the score FPE, and show its effectiveness on synthetic data and MNIST.
翻訳日:2022-10-11 15:06:01 公開日:2022-10-09
# 名前付きエンティティ認識のためのディープスパン表現

Deep Span Representations for Named Entity Recognition ( http://arxiv.org/abs/2210.04182v1 )

ライセンス: Link先を確認
Enwei Zhu, Yiyang Liu, Jinpeng Li(参考訳) Spanベースのモデルは、名前付きエンティティ認識(NER)の最も単純な方法の1つである。 既存のスパンベースのNERシステムは、トークン表現をスパン表現に浅く集約する。 しかし、これは典型的には、長寿命のエンティティ、重複するスパンの表現間の結合、そして最終的には性能劣化に重大な効果をもたらす。 本研究では,標準変換器とスパン変換器を組み合わせたDSpERT(Deep Span Encoder Representations from Transformers)を提案する。 後者はクエリとして低層スパン表現を使用し、トークン表現をキーと値として集約する。 したがって、DSpERTは深い意味論のスパン表現を生成する。 事前訓練された言語モデルからの重み初期化により、DSpERTは8つのNERベンチマーク上の最新の最先端システムよりも高い性能を達成する。 実験結果はスパン表現における深さの重要性を検証し,dspertが長寿命エンティティとネスト構造において特によく機能することを示す。 さらに、ディープスパン表現は、機能空間においてよく構造化され、容易に分離できる。

Span-based models are one of the most straightforward methods for named entity recognition (NER). Existing span-based NER systems shallowly aggregate the token representations to span representations. However, this typically results in significant ineffectiveness for long-span entities, a coupling between the representations of overlapping spans, and ultimately a performance degradation. In this study, we propose DSpERT (Deep Span Encoder Representations from Transformers), which comprises a standard Transformer and a span Transformer. The latter uses low-layered span representations as queries, and aggregates the token representations as keys and values, layer by layer from bottom to top. Thus, DSpERT produces span representations of deep semantics. With weight initialization from pretrained language models, DSpERT achieves performance higher than or competitive with recent state-of-the-art systems on eight NER benchmarks. Experimental results verify the importance of the depth for span representations, and show that DSpERT performs particularly well on long-span entities and nested structures. Further, the deep span representations are well structured and easily separable in the feature space.
翻訳日:2022-10-11 14:49:13 公開日:2022-10-09
# テンプレートを使ったソーシャルバイアスの定量化は信頼できない

Quantifying Social Biases Using Templates is Unreliable ( http://arxiv.org/abs/2210.04337v1 )

ライセンス: Link先を確認
Preethi Seshadri, Pouya Pezeshkpour, Sameer Singh(参考訳) 近年、大規模言語モデル(llm)が社会バイアスをいかに広め、増幅するかを理解する取り組みが増えている。 これは、研究者が保護された属性ラベルを持つテストセットがない場合、社会的バイアスを定量化することを可能にする。 テンプレート評価はモデル欠陥を理解するのに便利で便利な診断ツールであるが、単純で限定的なテンプレートセットを使用することが多い。 本稿では,ベンチマークに使用するテンプレートの選択にバイアス測定が敏感かどうかを検討する。 具体的には,先行研究で提案されているテンプレートを,意味的に保存する手法で手作業で修正することで,バイアス測定の不安定性について検討する。 バイアス値と結果の結論は4つのタスクのテンプレート修正によって大きく異なり、81%の削減(nli)から162%の(タスク固有の)バイアス測定値(mlm)まで様々である。 以上の結果から, LLMの定量化は, 現状のように不安定であり, より注意と注意を要することが示唆された。

Recently, there has been an increase in efforts to understand how large language models (LLMs) propagate and amplify social biases. Several works have utilized templates for fairness evaluation, which allow researchers to quantify social biases in the absence of test sets with protected attribute labels. While template evaluation can be a convenient and helpful diagnostic tool to understand model deficiencies, it often uses a simplistic and limited set of templates. In this paper, we study whether bias measurements are sensitive to the choice of templates used for benchmarking. Specifically, we investigate the instability of bias measurements by manually modifying templates proposed in previous works in a semantically-preserving manner and measuring bias across these modifications. We find that bias values and resulting conclusions vary considerably across template modifications on four tasks, ranging from an 81% reduction (NLI) to a 162% increase (MLM) in (task-specific) bias measurements. Our results indicate that quantifying fairness in LLMs, as done in current practice, can be brittle and needs to be approached with more care and caution.
翻訳日:2022-10-11 14:48:54 公開日:2022-10-09
# 連続STDP学習を用いたスパイキングニューラルネットワークを用いたSLAM用イベントベースカメラとレーダ

Fusing Event-based Camera and Radar for SLAM Using Spiking Neural Networks with Continual STDP Learning ( http://arxiv.org/abs/2210.04236v1 )

ライセンス: Link先を確認
Ali Safa, Tim Verbelen, Ilja Ocket, Andr\'e Bourdoux, Hichem Sahli, Francky Catthoor, Georges Gielen(参考訳) 本研究は,イベントベースのカメラとfmcw( frequency modulationed continuous wave)レーダをドローンナビゲーションに活用した,its-kind slamアーキテクチャを提案する。 バイオインスパイクスパイキングニューラルネットワーク(snn)によって、各センサーを処理し、脳で観察されるスパイクタイピング依存可塑性(stdp)学習を行う。 ほとんどの学習ベースのslamシステムとは対照的に a) ナビゲーションを行なわなければならない環境の代表的データセットの取得を要求 b) オフライントレーニングフェーズが必要であり,本手法ではオフライントレーニングフェーズを必要とせず,STDPを介して入力データから連続的に特徴を学習する。 同時に、SNN出力はループクロージャ検出とマップ修正のための特徴記述子として使用される。 我々は,DVS-Radar SLAM手法の強い照明条件下でのロバスト性を実証し,現状のRGB法と比較するために多数の実験を行った。

This work proposes a first-of-its-kind SLAM architecture fusing an event-based camera and a Frequency Modulated Continuous Wave (FMCW) radar for drone navigation. Each sensor is processed by a bio-inspired Spiking Neural Network (SNN) with continual Spike-Timing-Dependent Plasticity (STDP) learning, as observed in the brain. In contrast to most learning-based SLAM systems%, which a) require the acquisition of a representative dataset of the environment in which navigation must be performed and b) require an off-line training phase, our method does not require any offline training phase, but rather the SNN continuously learns features from the input data on the fly via STDP. At the same time, the SNN outputs are used as feature descriptors for loop closure detection and map correction. We conduct numerous experiments to benchmark our system against state-of-the-art RGB methods and we demonstrate the robustness of our DVS-Radar SLAM approach under strong lighting variations.
翻訳日:2022-10-11 14:39:36 公開日:2022-10-09
# 文脈内学習による制御可能な対話シミュレーション

Controllable Dialogue Simulation with In-Context Learning ( http://arxiv.org/abs/2210.04185v1 )

ライセンス: Link先を確認
Zekun Li, Wenhu Chen, Shiyang Li, Hong Wang, Jing Qian, Xifeng Yan(参考訳) 対話システムを構築するには、注釈付き対話の大きなコーパスが必要である。 このようなデータセットは通常、クラウドソーシングを通じて作成される。 本稿では,言語モデルに基づく対話シミュレーションの新たな手法を提案し,これを「textsc{Dialogic}」と呼ぶ。 いくつかの注釈付きダイアログを使って、 \textsc{Dialogic} はデモ用のインコンテキストの例を自動的に選択し、GPT-3 に新しいダイアログとアノテーションを制御可能な方法で生成するよう促す。 gpt-3の強力なコンテキスト内学習能力を活用することで、この手法は、小さな対話データセットを、 \textit{human involvement} や \textit{parameter update} を必要とせずに迅速に拡張することができる。 また,MultiWOZデータセットを用いた実験結果から,シミュレーションダイアログ上でのモデルのトレーニングは,低リソース環境での人間生成ダイアログの量と同じで,シードデータと85のダイアログを使用すれば,さらに優れたパフォーマンスが得られることが示された。 また,人間の評価結果から,シミュレートされた対話は,高い言語流動性とアノテーションの正確性を示す。 コードとデータは \href{https://github.com/leezekun/dialogic}{https://github.com/leezekun/dialogic} で入手できる。

Building dialogue systems requires a large corpus of annotated dialogues. Such datasets are usually created via crowdsourcing, which is expensive and time-consuming. In this paper, we propose a novel method for dialogue simulation based on language model in-context learning, dubbed as \textsc{Dialogic}. Seeded with a few annotated dialogues, \textsc{Dialogic} automatically selects in-context examples for demonstration and prompts GPT-3 to generate new dialogues and their annotations in a controllable way. Leveraging the strong in-context learning ability of GPT-3, our method can be used to rapidly expand a small set of dialogue data without requiring \textit{human involvement} or \textit{parameter update}, and is thus much more cost-efficient and time-saving than crowdsourcing. Experimental results on the MultiWOZ dataset demonstrate that training a model on the simulated dialogues leads to even better performance than using the same amount of human-generated dialogues in the low-resource settings, with as few as 85 dialogues as the seed data. Human evaluation results also show that our simulated dialogues has high language fluency and annotation accuracy. The code and data are available at \href{https://github.com/Leezekun/dialogic}{https://github.com/Leezekun/dialogic}.
翻訳日:2022-10-11 14:30:36 公開日:2022-10-09
# 大規模言語モデルによるアナロジー生成:インストラクションGPTを事例として

Analogy Generation by Prompting Large Language Models: A Case Study of InstructGPT ( http://arxiv.org/abs/2210.04186v1 )

ライセンス: Link先を確認
Bhavya Bhavya, Jinjun Xiong, Chengxiang Zhai(参考訳) 本稿では,先行学習言語モデル(PLM)に類似語の生成を促し,与えられた対象概念(アナログ概念生成またはACG)に類似したソース概念を生成し,対象概念と対象概念(アナログ説明生成またはAEG)の類似性を説明するという,2つのタスク設定に対して効果的なプロンプトを設計する手法を提案する。 InstructGPTに意味のあるアナロジーを生成させることは可能であり、特に低温条件下では最良のプロンプトが正確な命令文となる傾向がある。 また,instructgptモデルの感度を系統的に解析し,設計,温度,スペルミスの注入を迅速化することで,モデルが特定のバリエーション(質問対命令文など)に特に敏感であることを見出した。 さらに, 生成したアナログの1.4kに対して人間による評価を行い, 世代ごとの質はモデルサイズによって大きく異なることがわかった。 最大のインストラクトGPTモデルは、AIGタスクの改善の余地がまだ残っている間、与えられた目標に対して意味のあるアナログを生成することで人間レベルの性能を達成することができる。

We propose a novel application of prompting Pre-trained Language Models (PLMs) to generate analogies and study how to design effective prompts for two task settings: generating a source concept analogous to a given target concept (aka Analogous Concept Generation or ACG), and generating an explanation of the similarity between a given pair of target concept and source concept (aka Analogous Explanation Generation or AEG). We found that it is feasible to prompt InstructGPT to generate meaningful analogies and the best prompts tend to be precise imperative statements especially with a low temperature setting. We also systematically analyzed the sensitivity of the InstructGPT model to prompt design, temperature, and injected spelling errors, and found that the model is particularly sensitive to certain variations (e.g., questions vs. imperative statements). Further, we conducted human evaluation on 1.4k of the generated analogies and found that the quality of generations varies substantially by model size. The largest InstructGPT model can achieve human-level performance at generating meaningful analogies for a given target while there is still room for improvement on the AEG task.
翻訳日:2022-10-11 14:30:12 公開日:2022-10-09
# spread love not hate: ヘイトスピーチ検出のためのヘイトフル事前学習の重要性を損なう

Spread Love Not Hate: Undermining the Importance of Hateful Pre-training for Hate Speech Detection ( http://arxiv.org/abs/2210.04267v1 )

ライセンス: Link先を確認
Shantanu Patankar, Omkar Gokhale, Aditya Kane, Tanmay Chavan, Raviraj Joshi(参考訳) BERTのような事前トレーニング済みの大規模ニューラルネットワークモデルは、多くの自然言語処理(NLP)タスクに驚くべき向上をもたらした。 この方法は多くの領域で有効であることが証明されているが、必ずしも望ましい利点を提供するとは限らない。 本稿では,ヘイトフル事前学習が低資源ヘイトスピーチ分類タスクに及ぼす影響について検討する。 これまでの英語研究は、その重要性を強調してきたが、我々の目指すところは、その観察を、不可避な洞察で強化することである。 我々は、40Mツイートデータセットのヘイトフル、非ヘイトフル、混合サブセットに基づいて事前訓練された、ツイートベースのBERTモデルのさまざまなバリエーションを評価する。 この評価はヒンディー語とマラティ語で行われている。 本論文はヘイトフルプレトレーニングがヘイトスピーチ検出に最適な事前トレーニングオプションではないという実証的証拠である。 対象領域から非有害テキストを事前学習することで、類似あるいはより良い結果が得られることを示す。 さらに,Hindi と Marathi のツイートで事前トレーニングされた最初の BERT モデルである HindTweetBERT と MahaTweetBERT を紹介する。 ヘイトスピーチ分類タスクにおいて最先端のパフォーマンスを提供することを示す。 また,ゴールドヘイトスピーチ評価ベンチマークのHateEval-HiとHateEval-Mrもリリースした。

Pre-training large neural language models, such as BERT, has led to impressive gains on many natural language processing (NLP) tasks. Although this method has proven to be effective for many domains, it might not always provide desirable benefits. In this paper we study the effects of hateful pre-training on low resource hate speech classification tasks. While previous studies on English language have emphasized its importance, we aim to to augment their observations with some non-obvious insights. We evaluate different variations of tweet based BERT models pre-trained on hateful, non-hateful and mixed subsets of 40M tweet dataset. This evaluation is carried for Indian languages Hindi and Marathi. This paper is an empirical evidence that hateful pre-training is not the best pre-training option for hate speech detection. We show that pre-training on non-hateful text from target domain provides similar or better results. Further, we introduce HindTweetBERT and MahaTweetBERT, the first publicly available BERT models pre-trained on Hindi and Marathi tweets respectively. We show that they provide state-of-the-art performance on hate speech classification tasks. We also release a gold hate speech evaluation benchmark HateEval-Hi and HateEval-Mr consisting of manually labeled 2000 tweets each.
翻訳日:2022-10-11 14:29:50 公開日:2022-10-09
# KSAT: 知識を注入した自己注意変換 -- 複数のドメイン特有なコンテキストを統合する

KSAT: Knowledge-infused Self Attention Transformer -- Integrating Multiple Domain-Specific Contexts ( http://arxiv.org/abs/2210.04307v1 )

ライセンス: Link先を確認
Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth(参考訳) ドメイン固有の言語理解には、関連する複数のコンテキスト情報を統合する必要がある。 例えば、「私は銃を持っていて、人生にかなり悪いと感じている」という文章には、自殺とうつ病に関連する行動(複数の文脈)の両方が見られます。 自己完結アーキテクチャにおけるドメイン特異性は、関連するドメイン固有リソース(データセットと外部知識-自殺と抑うつに関連するメンタルヘルス診断に関する医学教科書章)からの抜粋を微調整することで処理される。 本稿では、外部知識源を用いて複数のドメイン固有のコンテキストの統合を実現する、知識注入型自己注意変換器(KSAT)を提案する。 KSATは、知識ソースごとに専用の自己注意層に知識誘導バイアスを導入し、これを実現する。 さらに、KSATはデータから学ぶことと知識から学ぶことの間のトレードオフを制御するためのメカニズムを提供する。 定量的および定性的な評価の結果,(1)KSATアーキテクチャは, 注入されたドメインコンテキストのコントリビューションを正確に測定し視覚化するための, 新規な人間理解可能な方法を提供し, (2) KSATは他の知識注入されたベースラインと競合し, ドメイン固有のタスクを微調整するベースラインを著しく上回ることを示した。

Domain-specific language understanding requires integrating multiple pieces of relevant contextual information. For example, we see both suicide and depression-related behavior (multiple contexts) in the text ``I have a gun and feel pretty bad about my life, and it wouldn't be the worst thing if I didn't wake up tomorrow''. Domain specificity in self-attention architectures is handled by fine-tuning on excerpts from relevant domain specific resources (datasets and external knowledge - medical textbook chapters on mental health diagnosis related to suicide and depression). We propose a modified self-attention architecture Knowledge-infused Self Attention Transformer (KSAT) that achieves the integration of multiple domain-specific contexts through the use of external knowledge sources. KSAT introduces knowledge-guided biases in dedicated self-attention layers for each knowledge source to accomplish this. In addition, KSAT provides mechanics for controlling the trade-off between learning from data and learning from knowledge. Our quantitative and qualitative evaluations show that (1) the KSAT architecture provides novel human-understandable ways to precisely measure and visualize the contributions of the infused domain contexts, and (2) KSAT performs competitively with other knowledge-infused baselines and significantly outperforms baselines that use fine-tuning for domain-specific tasks.
翻訳日:2022-10-11 14:29:29 公開日:2022-10-09
# MAMO:細粒度視覚言語表現学習のためのマスク付きマルチモーダルモデリング

MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning ( http://arxiv.org/abs/2210.04183v1 )

ライセンス: Link先を確認
Zijia Zhao, Longteng Guo, Xingjian He, Shuai Shao, Zehuan Yuan, Jing Liu(参考訳) マルチモーダル表現学習は様々な視覚言語タスクにおいて有望な改善を示している。 既存のほとんどの手法は、視覚と言語の間のグローバルレベルのアライメントを構築するのに優れ、効果的なきめ細かい画像とテキストの相互作用を欠いている。 本稿では,細粒度マルチモーダル表現を学習するための複合マスク型マルチモーダルモデリング手法を提案する。 本手法は,画像テキスト入力の共用マスキングを行い,マスキング信号の暗黙的および明示的ターゲットを統合して復元する。 暗黙のターゲットは視覚と言語に対する統一的で不偏の目的を与え、そこでモデルは非マスキーク入力の潜在マルチモーダル表現を予測する。 明示的なターゲットは、画像パッチの運動量視覚的特徴や単語トークンの概念といった高レベルで意味のある情報を復元することで、マルチモーダル表現をさらに強化する。 このようなマスク付きモデリングプロセスを通じて、我々のモデルは微細なマルチモーダル相互作用を学習するだけでなく、高レベルの表現と低レベルの予測ターゲット(画像画素など)のセマンティックギャップを回避し、ゼロショットと微調整の両方でうまく機能するセマンティックにリッチなマルチモーダル表現を生成する。 先行学習モデル(mamo)は,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚接地など,下流の視覚言語タスクにおいて最先端のパフォーマンスを実現する。

Multimodal representation learning has shown promising improvements on various vision-language tasks. Most existing methods excel at building global-level alignment between vision and language while lacking effective fine-grained image-text interaction. In this paper, we propose a jointly masked multimodal modeling method to learn fine-grained multimodal representations. Our method performs joint masking on image-text input and integrates both implicit and explicit targets for the masked signals to recover. The implicit target provides a unified and debiased objective for vision and language, where the model predicts latent multimodal representations of the unmasked input. The explicit target further enriches the multimodal representations by recovering high-level and semantically meaningful information: momentum visual features of image patches and concepts of word tokens. Through such a masked modeling process, our model not only learns fine-grained multimodal interaction, but also avoids the semantic gap between high-level representations and low- or mid-level prediction targets (e.g. image pixels), thus producing semantically rich multimodal representations that perform well on both zero-shot and fine-tuned settings. Our pre-trained model (named MAMO) achieves state-of-the-art performance on various downstream vision-language tasks, including image-text retrieval, visual question answering, visual reasoning, and weakly-supervised visual grounding.
翻訳日:2022-10-11 14:23:57 公開日:2022-10-09
# 精密単段検出器

Precise Single-stage Detector ( http://arxiv.org/abs/2210.04252v1 )

ライセンス: Link先を確認
Aisha Chandio, Gong Gui, Teerath Kumar, Irfan Ullah, Ramin Ranjbarzadeh, Arunabha M Roy, Akhtar Hussain, and Yao Shen(参考訳) There are still two problems in SDD causing some inaccurate results: (1) In the process of feature extraction, with the layer-by-layer acquisition of semantic information, local information is gradually lost, resulting into less representative feature maps; (2) During the Non-Maximum Suppression (NMS) algorithm due to inconsistency in classification and regression tasks, the classification confidence and predicted detection position cannot accurately indicate the position of the prediction boxes. 方法: 上記の問題に対処するため,我々は,PSSD (Precise Single Stage Detector) という,新しいアーキテクチャ,Single Shot Multibox Detector (SSD) の修正版を提案する。 まず、SSDにレイヤーを追加して機能を改善する。 第2に,各レイヤのステップごとに受容領域を拡大し,その局所的・意味的な情報を強化する,シンプルで効果的な機能拡張モジュールを構築する。 最後に,予測ボックスと接地真実ボックス間のIOUを予測するためのより効率的な損失関数を設計し,しきい値IOUはNMSアルゴリズムで使用されるスコアの分類訓練と減衰を行う。 主な結果: 上記の最適化から、提案したモデルPSSDは、リアルタイムでエキサイティングな性能を達成する。 具体的には、titan xpのハードウェアと320 pixの入力サイズにより、pssdは、ms cocoベンチマークで45 fpsの速度で33.8 map、pascal voc 2007で66 fpsの速度で81.28 mapを達成する。 さらに,提案モデルでは,入力サイズが大きくなるほど性能が良好である。 512ピクセル以下では、PSDはMS COCOで27 FPSの37.2 mAP、Pascal VOC 2007で82.82 mAP、Pascal VOC 2007で40 FPSの37.2 mAPが得られる。 実験の結果,提案モデルでは,速度と精度のトレードオフが良好であることが確認された。

There are still two problems in SDD causing some inaccurate results: (1) In the process of feature extraction, with the layer-by-layer acquisition of semantic information, local information is gradually lost, resulting into less representative feature maps; (2) During the Non-Maximum Suppression (NMS) algorithm due to inconsistency in classification and regression tasks, the classification confidence and predicted detection position cannot accurately indicate the position of the prediction boxes. Methods: In order to address these aforementioned issues, we propose a new architecture, a modified version of Single Shot Multibox Detector (SSD), named Precise Single Stage Detector (PSSD). Firstly, we improve the features by adding extra layers to SSD. Secondly, we construct a simple and effective feature enhancement module to expand the receptive field step by step for each layer and enhance its local and semantic information. Finally, we design a more efficient loss function to predict the IOU between the prediction boxes and ground truth boxes, and the threshold IOU guides classification training and attenuates the scores, which are used by the NMS algorithm. Main Results: Benefiting from the above optimization, the proposed model PSSD achieves exciting performance in real-time. Specifically, with the hardware of Titan Xp and the input size of 320 pix, PSSD achieves 33.8 mAP at 45 FPS speed on MS COCO benchmark and 81.28 mAP at 66 FPS speed on Pascal VOC 2007 outperforming state-of-the-art object detection models. Besides, the proposed model performs significantly well with larger input size. Under 512 pix, PSSD can obtain 37.2 mAP with 27 FPS on MS COCO and 82.82 mAP with 40 FPS on Pascal VOC 2007. The experiment results prove that the proposed model has a better trade-off between speed and accuracy.
翻訳日:2022-10-11 14:21:36 公開日:2022-10-09
# 逆例のない逆ロバストニューラルネットワークの動作

Pruning Adversarially Robust Neural Networks without Adversarial Examples ( http://arxiv.org/abs/2210.04311v1 )

ライセンス: Link先を確認
Tong Jian, Zifeng Wang, Yanzhi Wang, Jennifer Dy, Stratis Ioannidis(参考訳) 逆プルーニングはロバスト性を維持しながらモデルを圧縮する。 現在の手法では、刈り込み中に敵の例にアクセスする必要がある。 これは訓練効率を著しく損なう。 また、新たな敵の攻撃や訓練方法が急速に発達するにつれて、敵の刈り取りの方法を変更する必要がある。 本研究では,従来トレーニングされていたロバストニューラルネットワークを,対角的ロバスト性を維持しつつ適用するための新しいフレームワークを提案する。 我々は,Hilbert-Schmidt Information Bottleneck によるプルーンドモデルの正規化とともに,オリジナルのモデルの知識を維持するために,同時自己蒸留とプルーニングを活用する。 MNIST, CIFAR-10, CIFAR-100データセットで訓練されたプレニングアーキテクチャの5つの最先端攻撃に対して, 本提案フレームワークを総合的に評価し, 高い性能を示す。 コードはhttps://github.com/neu-spiral/PwoA/で入手できる。

Adversarial pruning compresses models while preserving robustness. Current methods require access to adversarial examples during pruning. This significantly hampers training efficiency. Moreover, as new adversarial attacks and training methods develop at a rapid rate, adversarial pruning methods need to be modified accordingly to keep up. In this work, we propose a novel framework to prune a previously trained robust neural network while maintaining adversarial robustness, without further generating adversarial examples. We leverage concurrent self-distillation and pruning to preserve knowledge in the original model as well as regularizing the pruned model via the Hilbert-Schmidt Information Bottleneck. We comprehensively evaluate our proposed framework and show its superior performance in terms of both adversarial robustness and efficiency when pruning architectures trained on the MNIST, CIFAR-10, and CIFAR-100 datasets against five state-of-the-art attacks. Code is available at https://github.com/neu-spiral/PwoA/.
翻訳日:2022-10-11 14:21:04 公開日:2022-10-09
# 人間の動き合成を用いた計算コレオグラフィー

Computational Choreography using Human Motion Synthesis ( http://arxiv.org/abs/2210.04366v1 )

ライセンス: Link先を確認
Patrick Perrine, Trevor Kirkby(参考訳) ディープラーニングモデルは人間のパフォーマンスアートを分析するために訓練されるべきか? この質問に答えるために、ディープニューラルネットワークの芸術的人間の動きを合成する応用を探求する。 人間の運動合成における問題課題は、人間の動きの予測や、その予測に基づく新しい動きのシーケンスの生成などである。 ダンス動作の予測に学習モデルを適用するという,より伝統的な応用の可能性について論じる。 例えば、Everybody Dance Now(EDN)学習モデルや、最近のCal Polyの修士論文であるTake The Lead(TTL)などである。 われわれはこの2つの作業と独自のディープニューラルネットワークを効果的に組み合わせて、ダンスの動き予測、画像から画像への変換、ビデオ生成のための新しいシステムを開発した。

Should deep learning models be trained to analyze human performance art? To help answer this question, we explore an application of deep neural networks to synthesize artistic human motion. Problem tasks in human motion synthesis can include predicting the motions of humans in-the-wild, as well as generating new sequences of motions based on said predictions. We will discuss the potential of a less traditional application, where learning models are applied to predicting dance movements. There have been notable, recent efforts to analyze dance movements in a computational light, such as the Everybody Dance Now (EDN) learning model and a recent Cal Poly master's thesis, Take The Lead (TTL). We have effectively combined these two works along with our own deep neural network to produce a new system for dance motion prediction, image-to-image translation, and video generation.
翻訳日:2022-10-11 14:20:49 公開日:2022-10-09
# CHARD:テキスト生成モデルにおける全次元の健康診断

CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models ( http://arxiv.org/abs/2210.04191v1 )

ライセンス: Link先を確認
Steven Y. Feng, Vivek Khetan, Bogdan Sacaleanu, Anatole Gershman, Eduard Hovy(参考訳) そこで我々は,CHARD: 臨床健康に配慮した次元間の推論,テキスト生成モデルが暗黙的な臨床知識ベースとして機能すること,および様々な次元にわたる健康関連条件に関する自由フローテキスト説明を生成する能力について考察した。 我々は3つの臨床次元にわたる52の健康状態に関する説明からなる関連するデータセットCHARDatを収集・提示する。 我々はデータ拡張とともにBARTとT5を用いて広範な実験を行い、自動的、人的、定性的な分析を行う。 われわれのモデルでは十分な性能を発揮できるが、CHARDはさらなる探索に強い可能性を秘めている。

We motivate and introduce CHARD: Clinical Health-Aware Reasoning across Dimensions, to investigate the capability of text generation models to act as implicit clinical knowledge bases and generate free-flow textual explanations about various health-related conditions across several dimensions. We collect and present an associated dataset, CHARDat, consisting of explanations about 52 health conditions across three clinical dimensions. We conduct extensive experiments using BART and T5 along with data augmentation, and perform automatic, human, and qualitative analyses. We show that while our models can perform decently, CHARD is very challenging with strong potential for further exploration.
翻訳日:2022-10-11 14:14:12 公開日:2022-10-09
# オンライン強化学習におけるカバレッジの役割

The Role of Coverage in Online Reinforcement Learning ( http://arxiv.org/abs/2210.04157v1 )

ライセンス: Link先を確認
Tengyang Xie, Dylan J. Foster, Yu Bai, Nan Jiang, Sham M. Kakade(参考訳) カバレッジ条件 -- データロギング分布が状態空間を適切にカバーしていると主張する -- は、オフライン強化学習のサンプル複雑性を決定する上で重要な役割を果たす。 このような状況は、一見してオンライン強化学習とは無関係に思えるかも知れませんが、かなり驚くべきことに、十分なカバレッジを持つデータ分布が存在するだけで、オンラインRLのサンプル効率が向上できることを示して、新たなつながりを確立します。 具体的には、カバー可能性(すなわち、集中性と呼ばれるユビキタスなカバレッジ条件を満たすデータ分布の存在)が、基礎となるMDPの構造特性と見なされ、エージェントがその分布を知らない場合でも、サンプル効率探索のための標準アルゴリズムによって活用できることを示す。 我々は、オフラインrlでは十分であるが、オンラインrlでは不十分であることを示すことにより、この結果を補完する。 また,Bellman ランクや Bellman-Eluder 次元を含むオンライン RL の既存の複雑性尺度では,カバービリティを最適に捉えられず,新たな複雑性尺度であるシーケンシャルな外挿係数を提案する。

Coverage conditions -- which assert that the data logging distribution adequately covers the state space -- play a fundamental role in determining the sample complexity of offline reinforcement learning. While such conditions might seem irrelevant to online reinforcement learning at first glance, we establish a new connection by showing -- somewhat surprisingly -- that the mere existence of a data distribution with good coverage can enable sample-efficient online RL. Concretely, we show that coverability -- that is, existence of a data distribution that satisfies a ubiquitous coverage condition called concentrability -- can be viewed as a structural property of the underlying MDP, and can be exploited by standard algorithms for sample-efficient exploration, even when the agent does not know said distribution. We complement this result by proving that several weaker notions of coverage, despite being sufficient for offline RL, are insufficient for online RL. We also show that existing complexity measures for online RL, including Bellman rank and Bellman-Eluder dimension, fail to optimally capture coverability, and propose a new complexity measure, the sequential extrapolation coefficient, to provide a unification.
翻訳日:2022-10-11 14:11:47 公開日:2022-10-09
# すべてのビジョンモデルは等しくなるか? 開ループ対閉ループ因果関係ギャップに関する研究

Are All Vision Models Created Equal? A Study of the Open-Loop to Closed-Loop Causality Gap ( http://arxiv.org/abs/2210.04303v1 )

ライセンス: Link先を確認
Mathias Lechner, Ramin Hasani, Alexander Amini, Tsun-Hsuan Wang, Thomas A. Henzinger, Daniela Rus(参考訳) 現代のニューラルネットワークモデルには、視覚的な観察からエンドツーエンドの制御を効率的に学習できる動物園がある。 畳み込みからパッチベースのネットワークまで、これらの高度な深層モデルは、オフラインの画像分類と回帰タスクで広範囲にテストされてきた。 本稿では,オープンループからクローズループへの因果関係のギャップ,すなわちオフライントレーニングとオンラインクローズループ展開について,これらの視覚アーキテクチャについて検討する。 この因果性ギャップは通常、人間の制御コマンドを模倣するためにネットワークを訓練する自律運転のようなロボット工学の応用に現れる。 この設定では、2つの状況が生じる。 1) テスト環境がオフライントレーニングデータとプロパティを共有している場合, 流通時のクローズドループテストを行う。 2)流通シフトとアウト・オブ・ディストリビューションによる閉ループ試験。 最近報告された結果とは対照的に,適切なトレーニングガイドラインの下では,すべての視覚モデルが分散配置において,因果性ギャップを解消し,識別不能に機能することを示した。 状況2では、因果差がモデルアーキテクチャの選択に関係なく性能を損なうことが観察される。 提案するトレーニングガイドラインと現代的なネットワークアーキテクチャを組み合わせることで,因果関係のギャップを解決できることを示すとともに,分散一般化(situation two)を実現するには,例えばモデルアーキテクチャではなく,データ多様性に関するさらなる調査が必要である。

There is an ever-growing zoo of modern neural network models that can efficiently learn end-to-end control from visual observations. These advanced deep models, ranging from convolutional to patch-based networks, have been extensively tested on offline image classification and regression tasks. In this paper, we study these vision architectures with respect to the open-loop to closed-loop causality gap, i.e., offline training followed by an online closed-loop deployment. This causality gap typically emerges in robotics applications such as autonomous driving, where a network is trained to imitate the control commands of a human. In this setting, two situations arise: 1) Closed-loop testing in-distribution, where the test environment shares properties with those of offline training data. 2) Closed-loop testing under distribution shifts and out-of-distribution. Contrary to recently reported results, we show that under proper training guidelines, all vision models perform indistinguishably well on in-distribution deployment, resolving the causality gap. In situation 2, We observe that the causality gap disrupts performance regardless of the choice of the model architecture. Our results imply that the causality gap can be solved in situation one with our proposed training guideline with any modern network architecture, whereas achieving out-of-distribution generalization (situation two) requires further investigations, for instance, on data diversity rather than the model architecture.
翻訳日:2022-10-11 14:05:31 公開日:2022-10-09
# 医用画像領域への事前学習型視覚言語基礎モデルの適用

Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains ( http://arxiv.org/abs/2210.04133v1 )

ライセンス: Link先を確認
Pierre Chambon, Christian Bluethgen, Curtis P. Langlotz, Akshay Chaudhari(参考訳) マルチモーダル基礎モデルは、通常、何百万もの自然画像とテキストキャプションに基づいて訓練され、しばしばwebクローリングアプローチによって得られる。 このようなモデルは優れた生成能力を示すが、自然画像に比べて分布が根本的に変化した医療画像のような特定の領域によく当てはまらない。 臨床コンテキストを忠実に描写した医療画像の生成モデルの構築は、医療データセットのポーシティを緩和するのに役立つかもしれない。 そこで本研究では,医用画像に現れる領域固有画像の生成に安定拡散モデルを活用するために,大規模な事前学習基礎モデルの医療概念への表現能力を研究・拡張することを目的とする。 安定拡散パイプライン(変分オートエンコーダ、U-Net、テキストエンコーダ)のサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。 条件付きテキストプロンプトの臨床内容を正確に表現する定量的画像品質指標と定性放射線科医主導評価を用いて,これらの取り組みの有効性を検証した。 本モデルでは, 安定拡散ベースラインを改良し, 合成ラジオグラフィ画像に現実的な異常を挿入し, 95%の精度を維持しながら, 異常を検出できるように訓練した分類器の精度を維持した。

Multi-modal foundation models are typically trained on millions of pairs of natural images and text captions, frequently obtained through web-crawling approaches. Although such models depict excellent generative capabilities, they do not typically generalize well to specific domains such as medical images that have fundamentally shifted distributions compared to natural images. Building generative models for medical images that faithfully depict clinical context may help alleviate the paucity of healthcare datasets. Thus, in this study, we seek to research and expand the representational capabilities of large pretrained foundation models to medical concepts, specifically for leveraging the Stable Diffusion model to generate domain specific images found in medical imaging. We explore the sub-components of the Stable Diffusion pipeline (the variational autoencoder, the U-Net and the text-encoder) to fine-tune the model to generate medical images. We benchmark the efficacy of these efforts using quantitative image quality metrics and qualitative radiologist-driven evaluations that accurately represent the clinical content of conditional text prompts. Our best-performing model improves upon the stable diffusion baseline and can be conditioned to insert a realistic-looking abnormality on a synthetic radiology image, while maintaining a 95% accuracy on a classifier trained to detect the abnormality.
翻訳日:2022-10-11 14:04:41 公開日:2022-10-09
# スパイクニューラルネットワークのための時間的オンライントレーニング

Online Training Through Time for Spiking Neural Networks ( http://arxiv.org/abs/2210.04195v1 )

ライセンス: Link先を確認
Mingqing Xiao, Qingyan Meng, Zongpeng Zhang, Di He, Zhouchen Lin(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。 近年のトレーニング手法の進歩により,レイテンシの低い大規模タスクにおける深層SNNの実現が可能となった。 特に、代理勾配(SG)を持つ時間的バックプロパゲーション(BPTT)は、非常に少数の時間ステップで高い性能を達成するために一般的に使用される。 しかし、トレーニングのための大きなメモリ消費、最適化のための理論的明快さの欠如、生物学的学習のオンライン的特性とニューロモルフィックハードウェアのルールとの整合性が欠如している。 他の研究は、SNNのスパイク表現と等価な人工知能ニューラルネットワークの定式化を結びつけ、等価マッピングからの勾配でSNNを訓練し、降下方向を確保する。 しかし、低レイテンシを達成できず、オンライン化もできない。 本研究では, BPTT から派生した SNN の時間的トレーニング (OTTT) を提案する。 一方,otttの勾配は,フィードフォワードとリカレントの両方の条件下でのスパイク表現に基づく勾配として,同様の降下方向を提供できることを理論的に解析し,証明した。 OTTTは、時間ステップに依存しない絶え間ないトレーニングメモリのみを必要とし、GPUトレーニングのためのBPTTの大幅なメモリコストを回避する。 さらに、OTTTの更新ルールは3要素のHebbian学習の形で、オンラインオンチップ学習の道を開くことができる。 OTTTでは、SGを用いたBPTTとスパイク表現に基づくトレーニングという2つの主流のSNNトレーニング手法が結合され、一方で生物学的に妥当な形で行われるのが初めてである。 CIFAR-10, CIFAR-100, ImageNet, CIFAR10-DVS を用いた実験により, 大規模静的およびニューロモルフィックなデータセットにおいて, 短時間でより優れた性能を示した。

Spiking neural networks (SNNs) are promising brain-inspired energy-efficient models. Recent progress in training methods has enabled successful deep SNNs on large-scale tasks with low latency. Particularly, backpropagation through time (BPTT) with surrogate gradients (SG) is popularly used to achieve high performance in a very small number of time steps. However, it is at the cost of large memory consumption for training, lack of theoretical clarity for optimization, and inconsistency with the online property of biological learning and rules on neuromorphic hardware. Other works connect spike representations of SNNs with equivalent artificial neural network formulation and train SNNs by gradients from equivalent mappings to ensure descent directions. But they fail to achieve low latency and are also not online. In this work, we propose online training through time (OTTT) for SNNs, which is derived from BPTT to enable forward-in-time learning by tracking presynaptic activities and leveraging instantaneous loss and gradients. Meanwhile, we theoretically analyze and prove that gradients of OTTT can provide a similar descent direction for optimization as gradients based on spike representations under both feedforward and recurrent conditions. OTTT only requires constant training memory costs agnostic to time steps, avoiding the significant memory costs of BPTT for GPU training. Furthermore, the update rule of OTTT is in the form of three-factor Hebbian learning, which could pave a path for online on-chip learning. With OTTT, it is the first time that two mainstream supervised SNN training methods, BPTT with SG and spike representation-based training, are connected, and meanwhile in a biologically plausible form. Experiments on CIFAR-10, CIFAR-100, ImageNet, and CIFAR10-DVS demonstrate the superior performance of our method on large-scale static and neuromorphic datasets in small time steps.
翻訳日:2022-10-11 14:03:56 公開日:2022-10-09
# 種々の位置スパイクニューロンを用いたイベント駆動触覚学習

Event-Driven Tactile Learning with Various Location Spiking Neurons ( http://arxiv.org/abs/2210.04277v1 )

ライセンス: Link先を確認
Peng Kang, Srutarshi Banerjee, Henry Chopp, Aggelos Katsaggelos, Oliver Cossairt(参考訳) 触覚センシングは、様々な日常業務に不可欠である。 イベント駆動触覚センサとスパイキングニューラルネットワーク(SNN)の新たな進歩は、関連する分野の研究を加速させる。 しかし、既存のスパイキングニューロンの表現能力の制限とデータの時空間的複雑さのため、snsがイベント駆動型触覚学習はまだ初期段階にある。 本稿では,既存のスパイキングニューロンの表現能力を向上させるために,イベントベースデータの特徴を新しい方法で抽出できる「位置スパイキングニューロン」と呼ばれる新しいニューロンモデルを提案する。 具体的には,従来の時間スパイク応答モデル(tsrm)に基づいて位置スパイク応答モデル(lsrm)を開発した。 さらに、最もよく使われているTime Leaky Integrate-and-Fire(TLIF)モデルに基づいて、Location Leaky Integrate-and-Fire(LLIF)モデルを開発する。 新たな位置スパイクニューロンを利用して、イベント駆動触覚データにおける複雑な時空間依存性を捉えるモデルを提案する。 広範囲にわたる実験は、イベント駆動触覚学習に関する他の研究よりもモデルの大幅な改善を示し、我々のモデルと位置スパイクニューロンの優れたエネルギー効率を示し、ニューロモルフィックハードウェアのポテンシャルを解き放つ可能性がある。

Tactile sensing is essential for a variety of daily tasks. New advances in event-driven tactile sensors and Spiking Neural Networks (SNNs) spur the research in related fields. However, SNN-enabled event-driven tactile learning is still in its infancy due to the limited representation abilities of existing spiking neurons and high spatio-temporal complexity in the data. In this paper, to improve the representation capability of existing spiking neurons, we propose a novel neuron model called "location spiking neuron", which enables us to extract features of event-based data in a novel way. Specifically, based on the classical Time Spike Response Model (TSRM), we develop the Location Spike Response Model (LSRM). In addition, based on the most commonly-used Time Leaky Integrate-and-Fire (TLIF) model, we develop the Location Leaky Integrate-and-Fire (LLIF) model. By exploiting the novel location spiking neurons, we propose several models to capture the complex spatio-temporal dependencies in the event-driven tactile data. Extensive experiments demonstrate the significant improvements of our models over other works on event-driven tactile learning and show the superior energy efficiency of our models and location spiking neurons, which may unlock their potential on neuromorphic hardware.
翻訳日:2022-10-11 14:03:24 公開日:2022-10-09
# 多変量時系列予測のためのエッジ可変フーリエグラフネットワーク

Edge-Varying Fourier Graph Networks for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2210.03093v2 )

ライセンス: Link先を確認
Kun Yi and Qi Zhang and Liang Hu and Hui He and Ning An and LongBing Cao and ZhenDong Niu(参考訳) 多変量時系列解析と予測の鍵となる問題は、共動を駆動する変数間の下位結合を明らかにすることである。 グラフニューラルネットワーク(GNN)は、リレーショナルモデリングに欠かせない能力のため、近年成功しているMSS手法である。 しかし、以前の研究では、時系列変数の静的グラフ構造を使ってMSSをモデル化したが、時間とともに変化する相関を捉えられなかった。 この目的のために、任意の2つの変数を2つのタイムスタンプで接続する完全連結な超グラフが適応的に学習され、効率的なグラフ畳み込みネットワークを介して高分解能な変数依存性をキャプチャする。 具体的には、周波数領域におけるグラフ畳み込みを効率的に行うFourier Graph Shift Operator (FGSO) を備えたEdge-Varying Fourier Graph Networks (EV-FGN) を構築する。 その結果、畳み込み定理に従い、mts分析と予測のための高効率なスケールフリーパラメータ学習法が導出される。 大規模な実験により、EV-FGNは7つの実世界のMSSデータセットで最先端の手法より優れていることが示された。

The key problem in multivariate time series (MTS) analysis and forecasting aims to disclose the underlying couplings between variables that drive the co-movements. Considerable recent successful MTS methods are built with graph neural networks (GNNs) due to their essential capacity for relational modeling. However, previous work often used a static graph structure of time-series variables for modeling MTS failing to capture their ever-changing correlations over time. To this end, a fully-connected supra-graph connecting any two variables at any two timestamps is adaptively learned to capture the high-resolution variable dependencies via an efficient graph convolutional network. Specifically, we construct the Edge-Varying Fourier Graph Networks (EV-FGN) equipped with Fourier Graph Shift Operator (FGSO) which efficiently performs graph convolution in the frequency domain. As a result, a high-efficiency scale-free parameter learning scheme is derived for MTS analysis and forecasting according to the convolution theorem. Extensive experiments show that EV-FGN outperforms state-of-the-art methods on seven real-world MTS datasets.
翻訳日:2022-10-11 11:52:00 公開日:2022-10-09