このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220821となっている論文です。

PDF登録状況(公開日: 20220821)

TitleAuthorsAbstract論文公表日・翻訳日
# 公平と超越性のための二次距離導出

Quadratic Metric Elicitation for Fairness and Beyond ( http://arxiv.org/abs/2011.01516v3 )

ライセンス: Link先を確認
Gaurush Hiranandani, Jatin Mathur, Harikrishna Narasimhan, Oluwasanmi Koyejo(参考訳) metric elicitationは、タスクとコンテキストに基づいて暗黙的なユーザの好みを最も反映する、分類パフォーマンスメトリクスを引き出すための最近のフレームワークである。 しかし、利用可能なエリケーション戦略は予測率の線形(あるいは準線形)関数に限られており、公平性を含む多くのアプリケーションで事実上制限される。 本稿では,人間の嗜好をよりよく反映した2次関数によって定義される,より柔軟なマルチクラスメトリクスの抽出戦略を開発する。 我々は,二次的違反に基づくグループ・フェア・メトリックスを省略して,その適用例を示す。 我々の戦略は相対的な選好フィードバックのみを必要とし、ノイズに頑健であり、最適に近いクエリの複雑さを達成する。 さらに、この戦略を多項式メトリクスの抽出にまで拡張し、メートル法推論のユースケースを広げる。

Metric elicitation is a recent framework for eliciting classification performance metrics that best reflect implicit user preferences based on the task and context. However, available elicitation strategies have been limited to linear (or quasi-linear) functions of predictive rates, which can be practically restrictive for many applications including fairness. This paper develops a strategy for eliciting more flexible multiclass metrics defined by quadratic functions of rates, designed to reflect human preferences better. We show its application in eliciting quadratic violation-based group-fair metrics. Our strategy requires only relative preference feedback, is robust to noise, and achieves near-optimal query complexity. We further extend this strategy to eliciting polynomial metrics -- thus broadening the use cases for metric elicitation.
翻訳日:2022-09-30 04:09:15 公開日:2022-08-21
# CMSBERT-CLR: 言語的,視覚的,音響的表現のためのコントラスト学習を用いたコンテキスト駆動型モダリティシフトBERT

CMSBERT-CLR: Context-driven Modality Shifting BERT with Contrastive Learning for linguistic, visual, acoustic Representations ( http://arxiv.org/abs/2209.07424v1 )

ライセンス: Link先を確認
Junghun Kim, Jihie Kim(参考訳) マルチモーダルなオンラインコンテンツの需要が高まる中、マルチモーダル感情分析は研究分野として人気が高まっている。 マルチモーダル感情分析では、単語は言語的文脈と非言語的情報によって異なる意味を持つので、それに応じて単語の意味を理解することが重要である。 さらに、単語の意味は、非言語情報を含む発話コンテキスト全体の中で解釈されるべきである。 本稿では,言語的,視覚的,音響的表現のためのコントラスト学習(CMSBERT-CLR)を用いたコンテキスト駆動型モダリティシフトBERTを提案する。 まず,文脈駆動型モダリティシフト(CMS)を導入し,非言語的・言語的情報を文発話の全文脈に組み込む。 次に、共通埋め込み空間内の異なるモダリティのアライメントを改善するために、対比学習を適用する。 さらに,指数移動平均パラメータとラベル平滑化を最適化戦略として用いることにより,ネットワークの収束性が向上し,アライメントの柔軟性が向上する。 実験では,本手法が最先端の結果をもたらすことを示す。

Multimodal sentiment analysis has become an increasingly popular research area as the demand for multimodal online content is growing. For multimodal sentiment analysis, words can have different meanings depending on the linguistic context and non-verbal information, so it is crucial to understand the meaning of the words accordingly. In addition, the word meanings should be interpreted within the whole utterance context that includes nonverbal information. In this paper, we present a Context-driven Modality Shifting BERT with Contrastive Learning for linguistic, visual, acoustic Representations (CMSBERT-CLR), which incorporates the whole context's non-verbal and verbal information and aligns modalities more effectively through contrastive learning. First, we introduce a Context-driven Modality Shifting (CMS) to incorporate the non-verbal and verbal information within the whole context of the sentence utterance. Then, for improving the alignment of different modalities within a common embedding space, we apply contrastive learning. Furthermore, we use an exponential moving average parameter and label smoothing as optimization strategies, which can make the convergence of the network more stable and increase the flexibility of the alignment. In our experiments, we demonstrate that our approach achieves state-of-the-art results.
翻訳日:2022-09-18 17:02:04 公開日:2022-08-21
# 粒子群最適化を用いたニューラルネットワークによる心臓発作分類システム

Heart Attack Classification System using Neural Network Trained with Particle Swarm Optimization ( http://arxiv.org/abs/2209.07421v1 )

ライセンス: Link先を確認
Askandar H. Amin, Botan K. Ahmed, Bestan B. Maaroof and Tarik A. Rashid(参考訳) 心臓発作を事前に検出すると、命の節約につながる可能性がある。 差し迫った攻撃を早期に警告するシステムに特定の基準を組み込むことは、今後の心臓発作の予防計画に有利になる。 この目的のためにいくつかの研究が行われたが、患者がそのような病気になるのを防ぐための目標が達成されていない。 本稿では,psonn(particle swarm optimization)で学習したニューラルネットワークを用いて入力基準を分析し,心臓発作予測を増強する。 この疾患に記録されたリアルかつ新しいデータセットが使用される。 データを前処理した後、機能はシステムに供給される。 その結果、psonnの結果は他のアルゴリズムの結果に対して評価されている。 決定木、ランダムフォレスト、バックプロパゲーション(bpnn)で訓練されたニューラルネットワーク、ナイーブベイなどが採用されていた。 次に、上記のアルゴリズムに関して100%、99.2424%、99.2323%、81.3131%、66.4141%の結果が生成され、PSONNが他の全ての試験アルゴリズムの中で最高精度を記録したことを示している。

The prior detection of a heart attack could lead to the saving of one's life. Putting specific criteria into a system that provides an early warning of an imminent at-tack will be advantageous to a better prevention plan for an upcoming heart attack. Some studies have been conducted for this purpose, but yet the goal has not been reached to prevent a patient from getting such a disease. In this paper, Neural Network trained with Particle Swarm Optimization (PSONN) is used to analyze the input criteria and enhance heart attack anticipation. A real and novel dataset that has been recorded on the disease is used. After preprocessing the data, the features are fed into the system. As a result, the outcomes from PSONN have been evaluated against those from other algorithms. Decision Tree, Random Forest, Neural network trained with Backpropagation (BPNN), and Naive Bayes were among those employed. Then the results of 100%, 99.2424%, 99.2323%, 81.3131%, and 66.4141% are produced concerning the mentioned algorithms, which show that PSONN has recorded the highest accuracy rate among all other tested algorithms.
翻訳日:2022-09-18 17:01:43 公開日:2022-08-21
# 事前訓練されたモデルでは、AI支援薬物発見のためのより良い分子表現が学べるか?

Can Pre-trained Models Really Learn Better Molecular Representations for AI-aided Drug Discovery? ( http://arxiv.org/abs/2209.07423v1 )

ライセンス: Link先を確認
Ziqiao Zhang, Yatao Bian, Ailin Xie, Pengju Han, Long-Kai Huang, Shuigeng Zhou(参考訳) 自己教師付き事前学習は、AIによる薬物発見でますます人気が高まっており、分子のより良い特徴表現を抽出できることを約束して、より多くの事前訓練モデルが生まれている。 しかし、学習した表現の質は十分に調査されていない。 本稿では,従来の量的構造活性関係解析(qsar)において,活動崖(acs)と足場ホッピング(sh)の2つの現象に触発されて,事前学習したモデルによって抽出された表現の品質を評価し,表現と特性の関係を可視化する表現・属性関係解析(repra)という手法を提案する。 ACとSHの概念は構造活性文脈から表現固有文脈へ一般化され、RePRAの基本原理は理論的に分析される。 2つのスコアは、RePRAによって検出された一般化ACとSHを測定するように設計されているため、表現の質を評価することができる。 実験では、7つの事前学習されたモデルによって生成された10の目標タスクからの分子の表現を解析した。 以上の結果から,標準的な拡張接続性フィンガープリンツ(ECFP)の欠点を克服できるが,表現空間の基底と特定の分子サブ構造との相関は明確ではない。 したがって、一部の表現は標準的な指紋よりもさらに悪い可能性がある。 本手法により,提案した自己教師付き事前学習モデルにより生成された分子表現の質を評価することができる。 以上の結果から,ACsおよびSHの発生を規則化するために,より優れた事前学習技術の開発をコミュニティに促すことができた。

Self-supervised pre-training is gaining increasingly more popularity in AI-aided drug discovery, leading to more and more pre-trained models with the promise that they can extract better feature representations for molecules. Yet, the quality of learned representations have not been fully explored. In this work, inspired by the two phenomena of Activity Cliffs (ACs) and Scaffold Hopping (SH) in traditional Quantitative Structure-Activity Relationship (QSAR) analysis, we propose a method named Representation-Property Relationship Analysis (RePRA) to evaluate the quality of the representations extracted by the pre-trained model and visualize the relationship between the representations and properties. The concepts of ACs and SH are generalized from the structure-activity context to the representation-property context, and the underlying principles of RePRA are analyzed theoretically. Two scores are designed to measure the generalized ACs and SH detected by RePRA, and therefore the quality of representations can be evaluated. In experiments, representations of molecules from 10 target tasks generated by 7 pre-trained models are analyzed. The results indicate that the state-of-the-art pre-trained models can overcome some shortcomings of canonical Extended-Connectivity FingerPrints (ECFP), while the correlation between the basis of the representation space and specific molecular substructures are not explicit. Thus, some representations could be even worse than the canonical fingerprints. Our method enables researchers to evaluate the quality of molecular representations generated by their proposed self-supervised pre-trained models. And our findings can guide the community to develop better pre-training techniques to regularize the occurrence of ACs and SH.
翻訳日:2022-09-18 17:01:25 公開日:2022-08-21
# 野生のロバストなドローンビジョンを目指して

Towards Robust Drone Vision in the Wild ( http://arxiv.org/abs/2208.12655v1 )

ライセンス: Link先を確認
Xiaoyu Lin(参考訳) ここ数年、コンピュータービジョンが重要な役割を果たすドローンベースのアプリケーションが爆発的に増えている。 しかし、ほとんどのパブリックドローンベースのビジョンデータセットは、検出と追跡に焦点を当てている。 一方,高分解能画像と低分解能画像の分解モデルでは,既存の画像の高分解能手法のほとんどが,データセットに敏感である。 本稿では,ドローンビジョンのための画像超解像データセットを提案する。 画像ペアは、焦点距離の異なる2台のカメラで撮影される。 異なる高度でデータを収集し、画像ペアを整列させる前処理手順を提案する。 広範囲にわたる実証研究は、異なる高度で撮影された画像の間にドメインギャップが存在することを示している。 一方、事前訓練された画像超解像ネットワークの性能もデータセットに低下しており、高度によって異なる。 最後に,高度の異なるロバストな画像超解像ネットワークを構築するための2つの手法を提案する。 1つ目は高度認識層を通じて高度情報をネットワークに供給する。 2つめは、ワンショット学習を使用して、超解像モデルを未知の高度に素早く適応させる。 その結果,提案手法は高度の異なる超解像ネットワークの性能を効率的に向上できることがわかった。

The past few years have witnessed the burst of drone-based applications where computer vision plays an essential role. However, most public drone-based vision datasets focus on detection and tracking. On the other hand, the performance of most existing image super-resolution methods is sensitive to the dataset, specifically, the degradation model between high-resolution and low-resolution images. In this thesis, we propose the first image super-resolution dataset for drone vision. Image pairs are captured by two cameras on the drone with different focal lengths. We collect data at different altitudes and then propose pre-processing steps to align image pairs. Extensive empirical studies show domain gaps exist among images captured at different altitudes. Meanwhile, the performance of pretrained image super-resolution networks also suffers a drop on our dataset and varies among altitudes. Finally, we propose two methods to build a robust image super-resolution network at different altitudes. The first feeds altitude information into the network through altitude-aware layers. The second uses one-shot learning to quickly adapt the super-resolution model to unknown altitudes. Our results reveal that the proposed methods can efficiently improve the performance of super-resolution networks at varying altitudes.
翻訳日:2022-09-04 02:09:48 公開日:2022-08-21
# アフリカにおける大気汚染の時空間的傾向のモデル化

Modelling spatio-temporal trends of air pollution in Africa ( http://arxiv.org/abs/2208.12719v1 )

ライセンス: Link先を確認
Paterne Gahungu, Jean Remy Kubwimana, Lionel Jean Marie Benjamin Muhimpundu, Egide Ndamuzi(参考訳) 大気汚染は世界の公衆衛生上の脅威の一つであり、毎年700万人が死亡している。 アフリカでは、急速な都市化と輸送インフラの貧弱が問題を悪化させている。 本稿では,アフリカ各地におけるPM2.5の時空間変動を分析した。 西アフリカ地域は、ラゴス、アブハ、バマコなどいくつかの都市で1日平均40.856ドル/m^3$という高い汚染の影響を受けている。 東アフリカでは、ウガンダがキガリの平均濃度を56.14ドル/m^3ドル、38.65ドル/m^3ドルと報告している。 アフリカ中部の国々では、日平均PM2.5が90.075ドル\mu g/m^3$と記録されている。 3つのデータ駆動モデルを比較し,汚染レベルの将来予測を行う。 ニューラルネットワークはガウス過程とARIMAモデルを上回っている。

Atmospheric pollution remains one of the major public health threat worldwide with an estimated 7 millions deaths annually. In Africa, rapid urbanization and poor transport infrastructure are worsening the problem. In this paper, we have analysed spatio-temporal variations of PM2.5 across different geographical regions in Africa. The West African region remains the most affected by the high levels of pollution with a daily average of 40.856 $\mu g/m^3$ in some cities like Lagos, Abuja and Bamako. In East Africa, Uganda is reporting the highest pollution level with a daily average concentration of 56.14 $\mu g/m^3$ and 38.65 $\mu g/m^3$ for Kigali. In countries located in the central region of Africa, the highest daily average concentration of PM2.5 of 90.075 $\mu g/m^3$ was recorded in N'Djamena. We compare three data driven models in predicting future trends of pollution levels. Neural network is outperforming Gaussian processes and ARIMA models.
翻訳日:2022-09-04 02:08:45 公開日:2022-08-21
# Fed-FSNet:ファジィ合成ネットワークによる非I.I.D.フェデレーション学習の緩和

Fed-FSNet: Mitigating Non-I.I.D. Federated Learning via Fuzzy Synthesizing Network ( http://arxiv.org/abs/2208.12044v1 )

ライセンス: Link先を確認
Jingcai Guo, Song Guo, Jie Zhang, Ziming Liu(参考訳) フェデレーテッド・ラーニング(FL)は、最近、有望なプライバシー保護分散機械学習フレームワークとして登場した。 エッジデバイス上でローカルに分散トレーニングを実行し、クラウドサーバに生のデータ共有を集中せずにグローバルモデルに集約することで、共有グローバルモデルを共同学習することを目指している。 しかし、エッジデバイス間の大きなローカルデータ不均一性(Non-I.D.データ)のため、FLはローカルデータセットによりシフトした勾配を生成できるグローバルモデルを容易に得ることができ、それによってモデルの性能が低下したり、トレーニング中に非収束に苦しむことさえできる。 本稿では,Fed-FSNet(Fed-FSNet)と呼ばれる新しいFLトレーニングフレームワークを提案する。 具体的には、クラウドサーバにエッジに依存しない隠れモデルを保持し、グローバルモデルの方向対応インバージョンを推定する。 隠れたモデルは、グローバルモデルのみに条件付きI.I.D.データサンプル(サンプル特徴)をファジィに合成し、エッジデバイスで共有することで、FLトレーニングを高速でよりよく収束させる。 さらに、この合成プロセスは、ローカルモデルのパラメータや更新情報へのアクセスや、個々のローカルモデル出力の分析を伴わないため、FLのプライバシを保証できる。 いくつかのFLベンチマークによる実験結果から,本手法は非I.D.問題を大幅に軽減し,他の代表手法よりも優れた性能が得られることが示された。

Federated learning (FL) has emerged as a promising privacy-preserving distributed machine learning framework recently. It aims at collaboratively learning a shared global model by performing distributed training locally on edge devices and aggregating local models into a global one without centralized raw data sharing in the cloud server. However, due to the large local data heterogeneities (Non-I.I.D. data) across edge devices, the FL may easily obtain a global model that can produce more shifted gradients on local datasets, thereby degrading the model performance or even suffering from the non-convergence during training. In this paper, we propose a novel FL training framework, dubbed Fed-FSNet, using a properly designed Fuzzy Synthesizing Network (FSNet) to mitigate the Non-I.I.D. FL at-the-source. Concretely, we maintain an edge-agnostic hidden model in the cloud server to estimate a less-accurate while direction-aware inversion of the global model. The hidden model can then fuzzily synthesize several mimic I.I.D. data samples (sample features) conditioned on only the global model, which can be shared by edge devices to facilitate the FL training towards faster and better convergence. Moreover, since the synthesizing process involves neither access to the parameters/updates of local models nor analyzing individual local model outputs, our framework can still ensure the privacy of FL. Experimental results on several FL benchmarks demonstrate that our method can significantly mitigate the Non-I.I.D. issue and obtain better performance against other representative methods.
翻訳日:2022-08-26 13:18:21 公開日:2022-08-21
# Stack Overflowのフレンドリさが新人へ

Friendliness Of Stack Overflow Towards Newbies ( http://arxiv.org/abs/2208.10488v1 )

ライセンス: Link先を確認
Aneesh Tickoo, Shweta Chauhan, Gagan Raj Gupta(参考訳) 現代のデジタル世界では,stack exchangeやquora,gfgといったオンライン質問と回答のプラットフォームが数多く存在しています。 本稿では,初心者のプログラミング支援におけるstack overflowの有効性を分析した。 このプラットフォーム上のすべてのユーザは旅路をたどる。 最初の12ヶ月は、彼らは新人だと考えています。 12ヶ月後、彼らはExperienced、Lurker、Inquisitiveのカテゴリの1つに分類された。 各質問にはタグが割り当てられており、特定のタグを持つ質問は、他の質問よりも活発なコミュニティを示すより速い応答時間を持つ。 プラットフォームは2013年まで着実に成長し、その後は減少し始めたが、最近では2020年のパンデミックで、プラットフォームでの活動が再開されている。

In today's modern digital world, we have a number of online Question and Answer platforms like Stack Exchange, Quora, and GFG that serve as a medium for people to communicate and help each other. In this paper, we analyzed the effectiveness of Stack Overflow in helping newbies to programming. Every user on this platform goes through a journey. For the first 12 months, we consider them to be a newbie. Post 12 months they come under one of the following categories: Experienced, Lurkers, or Inquisitive. Each question asked has tags assigned to it and we observe that questions with some specific tags have a faster response time indicating an active community in that field over others. The platform had a steady growth up to 2013 after which it started declining, but recently during the pandemic 2020, we can see rejuvenated activity on the platform.
翻訳日:2022-08-24 14:07:21 公開日:2022-08-21
# ディープフェイク音声のシステム指紋検出 : 初期データセットと調査

System Fingerprints Detection for DeepFake Audio: An Initial Dataset and Investigation ( http://arxiv.org/abs/2208.10489v1 )

ライセンス: Link先を確認
Xinrui Yan, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Haoxin Ma, Zhengkun Tian, Ruibo Fu(参考訳) ディープフェイク音声検出には多くの効果的な試みがなされている。 しかし、それらは本物と偽物としか区別できない。 多くの実用的なアプリケーションシナリオでは、deepfakeオーディオを生成するツールやアルゴリズムも必要です。 ディープフェイクオーディオのシステム指紋は検出できるか? そこで本研究では,deepfake音声のシステム指紋を検出するための予備的調査を行う。 5つの最新のディープラーニング音声合成システムによるディープフェイク音声データセットの実験を行った。 その結果,LFCCの特徴はシステム指紋検出に比較的適していることがわかった。 さらに、ResNetはLCNNとx-vectorベースのモデルで最高の検出結果を得る。 t-SNE視覚化は、異なる音声合成システムが異なるシステム指紋を生成することを示す。

Many effective attempts have been made for deepfake audio detection. However, they can only distinguish between real and fake. For many practical application scenarios, what tool or algorithm generated the deepfake audio also is needed. This raises a question: Can we detect the system fingerprints of deepfake audio? Therefore, this paper conducts a preliminary investigation to detect system fingerprints of deepfake audio. Experiments are conducted on deepfake audio datasets from five latest deep-learning speech synthesis systems. The results show that LFCC features are relatively more suitable for system fingerprints detection. Moreover, the ResNet achieves the best detection results among LCNN and x-vector based models. The t-SNE visualization shows that different speech synthesis systems generate distinct system fingerprints.
翻訳日:2022-08-24 13:47:54 公開日:2022-08-21
# 資源制約デバイスにおける効率的な推論のためのメムリシティブ・コンピューティング

Memristive Computing for Efficient Inference on Resource Constrained Devices ( http://arxiv.org/abs/2208.10490v1 )

ライセンス: Link先を確認
Venkatesh Rammamoorthy, Geng Zhao, Bharathi Reddy, Ming-Yang Lin(参考訳) 深層学習の出現は、それが適用された研究領域の景観を変える多くの応用をもたらした。 しかし、人気が高まり、古典的なディープニューラルネットワークの複雑さは長年にわたって増大してきた。 結果として、空間と時間の制約のあるデバイスにデプロイする際、これはかなりの問題を引き起こします。 本研究では,不揮発性メモリの現在の進歩と,抵抗性ramメモリ,特にmemristorの利用が,ディープラーニング研究の進展にどのように寄与するかを概観する。 言い換えれば、経験的技術の分野で進歩するイデオロギーは、エッジデバイスにおける深層学習の推論に大きな影響を与え、影響を及ぼすことができる。

The advent of deep learning has resulted in a number of applications which have transformed the landscape of the research area in which it has been applied. However, with an increase in popularity, the complexity of classical deep neural networks has increased over the years. As a result, this has leads to considerable problems during deployment on devices with space and time constraints. In this work, we perform a review of the present advancements in non-volatile memory and how the use of resistive RAM memory, particularly memristors, can help to progress the state of research in deep learning. In other words, we wish to present an ideology that advances in the field of memristive technology can greatly influence and impact deep learning inference on edge devices.
翻訳日:2022-08-24 13:44:22 公開日:2022-08-21
# vox-surf:voxelベースの暗黙的表面表現

Vox-Surf: Voxel-based Implicit Surface Representation ( http://arxiv.org/abs/2208.10925v1 )

ライセンス: Link先を確認
Hai Li, Xingrui Yang, Hongjia Zhai, Yuqian Liu, Hujun Bao, Guofeng Zhang(参考訳) バーチャルコンテンツの作成とインタラクションは、ARやVRといった現代の3Dアプリケーションにおいて重要な役割を果たす。 実際のシーンから詳細な3Dモデルを復元することは、アプリケーションの範囲を大幅に拡大し、コンピュータビジョンとコンピュータグラフィックスコミュニティで何十年も研究されてきた。 ボクセルに基づく暗黙曲面表現であるVox-Surfを提案する。 我々のVox-Surfは空間を有限有界ボクセルに分割する。 各ボクセルは、角の頂点に幾何学情報と外観情報を格納する。 Vox-Surfは、voxel表現から受け継いだ空間性のおかげで、ほぼあらゆるシナリオに適しており、複数のビューイメージから容易にトレーニングできる。 We leverage the progressive training procedure to extract important voxels gradually for further optimization so that only valid voxels are preserved, which greatly reduces the number of sampling points and increases rendering speed.The fine voxels can also be considered as the bounding volume for collision detection.The experiments show that Vox-Surf representation can learn delicate surface details and accurate color with less memory and faster rendering speed than other methods.We also show that Vox-Surf can be more practical in scene editing and AR applications.

Virtual content creation and interaction play an important role in modern 3D applications such as AR and VR. Recovering detailed 3D models from real scenes can significantly expand the scope of its applications and has been studied for decades in the computer vision and computer graphics community. We propose Vox-Surf, a voxel-based implicit surface representation. Our Vox-Surf divides the space into finite bounded voxels. Each voxel stores geometry and appearance information in its corner vertices. Vox-Surf is suitable for almost any scenario thanks to sparsity inherited from voxel representation and can be easily trained from multiple view images. We leverage the progressive training procedure to extract important voxels gradually for further optimization so that only valid voxels are preserved, which greatly reduces the number of sampling points and increases rendering speed.The fine voxels can also be considered as the bounding volume for collision detection.The experiments show that Vox-Surf representation can learn delicate surface details and accurate color with less memory and faster rendering speed than other methods.We also show that Vox-Surf can be more practical in scene editing and AR applications.
翻訳日:2022-08-24 13:27:36 公開日:2022-08-21
# 病理画像のフェデレーション学習におけるクラスタベースセキュア多人数計算

Cluster Based Secure Multi-Party Computation in Federated Learning for Histopathology Images ( http://arxiv.org/abs/2208.10919v1 )

ライセンス: Link先を確認
S. Maryam Hosseini, Milad Sikaroudi, Morteza Babaei, H.R. Tizhoosh(参考訳) フェデレーション・ラーニング(英語: federated learning, fl)は、病院が個人患者データを共有せずに協調的にモデルを学習できる分散学習手法である。 FLでは、患者病院は、中央サーバーでサンプルをトレーニングするよりも、定期的にトレーニング結果を交換する。 しかし、モデルパラメータや勾配へのアクセスは、プライベートなトレーニングデータサンプルを公開することができる。 この課題に対処するために、我々はセキュアなマルチパーティ計算(SMC)を採用し、プライバシー保護フェデレーション学習フレームワークを確立する。 提案手法では,病院をクラスターに分割する。 地域訓練の後、各病院はモデル重量を同じ集団内の他の病院に分け、単独で他の病院の重量を回収することができない。 そして、すべての病院が受信した体重を合計し、結果を中央サーバーに送信する。 最後に、中央サーバは結果を集約し、モデルの重みの平均を取得し、個々の病院の重みにアクセスすることなくモデルを更新する。 我々は公開リポジトリであるThe Cancer Genome Atlas (TCGA)で実験を行った。 提案するフレームワークの性能を,差分プライバシーとフェデレーション平均化をベースラインとして比較する。 その結果,差分プライバシと比較して,通信オーバーヘッドの高いコストで,プライバシリークリスクを伴わずに高い精度を実現することができた。

Federated learning (FL) is a decentralized method enabling hospitals to collaboratively learn a model without sharing private patient data for training. In FL, participant hospitals periodically exchange training results rather than training samples with a central server. However, having access to model parameters or gradients can expose private training data samples. To address this challenge, we adopt secure multiparty computation (SMC) to establish a privacy-preserving federated learning framework. In our proposed method, the hospitals are divided into clusters. After local training, each hospital splits its model weights among other hospitals in the same cluster such that no single hospital can retrieve other hospitals' weights on its own. Then, all hospitals sum up the received weights, sending the results to the central server. Finally, the central server aggregates the results, retrieving the average of models' weights and updating the model without having access to individual hospitals' weights. We conduct experiments on a publicly available repository, The Cancer Genome Atlas (TCGA). We compare the performance of the proposed framework with differential privacy and federated averaging as the baseline. The results reveal that compared to differential privacy, our framework can achieve higher accuracy with no privacy leakage risk at a cost of higher communication overhead.
翻訳日:2022-08-24 12:56:33 公開日:2022-08-21
# 焦点・校正注意機構による音声感情認識の改善

Improving Speech Emotion Recognition Through Focus and Calibration Attention Mechanisms ( http://arxiv.org/abs/2208.10491v1 )

ライセンス: Link先を確認
Junghun Kim, Yoojin An, Jihie Kim(参考訳) ディープラーニングアプローチでは、注意が最も一般的に使われるメカニズムの1つになっている。 注意機構は、システムが機能領域の臨界領域にもっと焦点を合わせるのに役立つ。 例えば、高振幅領域は、音声感情認識(SER)において重要な役割を果たす。 本稿では,既存のマルチヘッド自己注意における注意と信号振幅のずれを同定する。 注意領域を改善するため,マルチヘッドセルフアテンションと組み合わせて,フォーカスアテンション(fa)機構と新しいキャリブレーションアテンション(ca)機構を用いることを提案する。 FA機構により、ネットワークはセグメントの最大の振幅部分を検出することができる。 CA機構を利用することで、異なる重みをそれぞれのアテンションヘッドに割り当てることで、情報フローを変調し、周囲のコンテキストの利用を改善することができる。 提案手法を評価するため,IEMOCAPおよびRAVDESSデータセットを用いて実験を行った。 実験結果から,提案手法は両データセットの最先端手法よりも優れていた。

Attention has become one of the most commonly used mechanisms in deep learning approaches. The attention mechanism can help the system focus more on the feature space's critical regions. For example, high amplitude regions can play an important role for Speech Emotion Recognition (SER). In this paper, we identify misalignments between the attention and the signal amplitude in the existing multi-head self-attention. To improve the attention area, we propose to use a Focus-Attention (FA) mechanism and a novel Calibration-Attention (CA) mechanism in combination with the multi-head self-attention. Through the FA mechanism, the network can detect the largest amplitude part in the segment. By employing the CA mechanism, the network can modulate the information flow by assigning different weights to each attention head and improve the utilization of surrounding contexts. To evaluate the proposed method, experiments are performed with the IEMOCAP and RAVDESS datasets. Experimental results show that the proposed framework significantly outperforms the state-of-the-art approaches on both datasets.
翻訳日:2022-08-24 12:50:28 公開日:2022-08-21
# グラフ上でのリレーショナル自己監視学習

Relational Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2208.10493v1 )

ライセンス: Link先を確認
Namkyeong Lee, Dongmin Hyun, Junseok Lee, Chanyoung Park(参考訳) 過去数年間、グラフ表現学習(GRL)はグラフ構造化データを解析するための強力な戦略であった。 近年,画像の表現を学習するための自己教師付き学習手法を採用することで,GRL法は有望な結果を示した。 その成功にもかかわらず、既存のGRL法は、画像とグラフの固有の区別、すなわち、画像は独立して同一に分散されていると仮定されるのに対して、グラフはデータインスタンス、すなわちノード間の関係情報を示す。 グラフ構造データに固有の関係情報を完全に活用するために,グラフ自体から生成された関係情報から学習する,RGRLと呼ばれる新しいGRL法を提案する。 RGRLは、ノード間の関係が拡張に不変である、すなわち、ノード間の関係が保存される限りノード表現を変更できる拡張不変関係(augmentation-invariant relationship)を学習する。 グローバルとローカルの両方の観点からノード間の関係を考えることで、rgrlは従来の対比的および非矛盾的方法の限界を克服し、両世界のベストを達成する。 様々な下流タスクに対する14のベンチマークデータセットに対する大規模な実験は、最先端のベースラインよりもRGRLの方が優れていることを示している。 RGRLのソースコードはhttps://github.com/Namkyeong/RGRLで公開されている。

Over the past few years, graph representation learning (GRL) has been a powerful strategy for analyzing graph-structured data. Recently, GRL methods have shown promising results by adopting self-supervised learning methods developed for learning representations of images. Despite their success, existing GRL methods tend to overlook an inherent distinction between images and graphs, i.e., images are assumed to be independently and identically distributed, whereas graphs exhibit relational information among data instances, i.e., nodes. To fully benefit from the relational information inherent in the graph-structured data, we propose a novel GRL method, called RGRL, that learns from the relational information generated from the graph itself. RGRL learns node representations such that the relationship among nodes is invariant to augmentations, i.e., augmentation-invariant relationship, which allows the node representations to vary as long as the relationship among the nodes is preserved. By considering the relationship among nodes in both global and local perspectives, RGRL overcomes limitations of previous contrastive and non-contrastive methods, and achieves the best of both worlds. Extensive experiments on fourteen benchmark datasets over various downstream tasks demonstrate the superiority of RGRL over state-of-the-art baselines. The source code for RGRL is available at https://github.com/Namkyeong/RGRL.
翻訳日:2022-08-24 12:31:51 公開日:2022-08-21
# 潜在空間知識の因子化と共有によるデータセットの凝縮

Dataset Condensation with Latent Space Knowledge Factorization and Sharing ( http://arxiv.org/abs/2208.10494v1 )

ライセンス: Link先を確認
Hae Beom Lee, Dong Bok Lee, Sung Ju Hwang(参考訳) 本稿では,与えられたデータセットの正則性を活用し,効率良くデータセット凝縮問題を体系的に解く新しい手法を提案する。 データセットを元の入力空間で直接凝縮するのではなく、コンパクトな潜在空間で定義された学習可能なコードの集合と、それらを元の入力空間と異なるマップする小さなデコーダの集合とでデータセットの生成過程を仮定する。 異なる符号とデコーダを相互に組み合わせることで、潜在空間がはるかに低次元であることや、データセットで表現される異なるスタイルを無視可能なコストで捉えるために必要なデコーダの数を仮定できるため、基本的に同じパラメータ数で合成例の数を大幅に増やすことができる。 このような知識の分解は、合成例間の情報を体系的に効率的に共有し、圧縮比と生成例の品質のトレードオフをはるかに良くする。 本研究では,SVHN, CIFAR10, CIFAR100, TinyImageNet など,様々なベンチマークデータセットに対して有意なマージンで新たな最先端記録を達成できることを実験的に示す。

In this paper, we introduce a novel approach for systematically solving dataset condensation problem in an efficient manner by exploiting the regularity in a given dataset. Instead of condensing the dataset directly in the original input space, we assume a generative process of the dataset with a set of learnable codes defined in a compact latent space followed by a set of tiny decoders which maps them differently to the original input space. By combining different codes and decoders interchangeably, we can dramatically increase the number of synthetic examples with essentially the same parameter count, because the latent space is much lower dimensional and since we can assume as many decoders as necessary to capture different styles represented in the dataset with negligible cost. Such knowledge factorization allows efficient sharing of information between synthetic examples in a systematic way, providing far better trade-off between compression ratio and quality of the generated examples. We experimentally show that our method achieves new state-of-the-art records by significant margins on various benchmark datasets such as SVHN, CIFAR10, CIFAR100, and TinyImageNet.
翻訳日:2022-08-24 12:31:29 公開日:2022-08-21
# Deepfake: 定義、パフォーマンスメトリクスと標準、データセットとベンチマーク、メタレビュー

Deepfake: Definitions, Performance Metrics and Standards, Datasets and Benchmarks, and a Meta-Review ( http://arxiv.org/abs/2208.10913v1 )

ライセンス: Link先を確認
Enes Altuncu, Virginia N. L. Franqueira and Shujun Li(参考訳) 近年のAIの進歩、特にディープラーニングは、新しい現実的な合成メディア(ビデオ、画像、音声)の作成と既存のメディアの操作に大きく貢献し、「ディープフェイク」という用語が作られた。 本論文は、英語と中国語の両方の研究文献と資源に基づいて、この新興概念の重要な側面を網羅した、ディープフェイクの概要を概観する。 1)異なる定義。 2 一般的に用いられる性能指標及び基準、及び 3)deepfake関連のデータセット、チャレンジ、コンペティション、ベンチマーク。 さらに、2020年と2021年に発表された12のdeepfake関連調査論文のメタレビューも報告しており、上記の側面だけでなく、重要な課題や推奨事項の分析にも焦点を当てている。 この論文は、deepfakeの最も包括的なレビューであり、最初のレビューは英語と中国語の文献と情報源の両方をカバーしている。

Recent advancements in AI, especially deep learning, have contributed to a significant increase in the creation of new realistic-looking synthetic media (video, image, and audio) and manipulation of existing media, which has led to the creation of the new term ``deepfake''. Based on both the research literature and resources in English and in Chinese, this paper gives a comprehensive overview of deepfake, covering multiple important aspects of this emerging concept, including 1) different definitions, 2) commonly used performance metrics and standards, and 3) deepfake-related datasets, challenges, competitions and benchmarks. In addition, the paper also reports a meta-review of 12 selected deepfake-related survey papers published in 2020 and 2021, focusing not only on the mentioned aspects, but also on the analysis of key challenges and recommendations. We believe that this paper is the most comprehensive review of deepfake in terms of aspects covered, and the first one covering both the English and Chinese literature and sources.
翻訳日:2022-08-24 12:19:08 公開日:2022-08-21
# 音声感情認識のためのグラフニューラルネットワークによる表現学習

Representation Learning with Graph Neural Networks for Speech Emotion Recognition ( http://arxiv.org/abs/2208.09830v1 )

ライセンス: Link先を確認
Junghun Kim, Jihie Kim(参考訳) 表現力の学習は深層学習において重要である。 音声感情認識(SER)では、音声中の真空領域やノイズが表現表現学習に干渉する。 しかし、従来のRNNベースのモデルはそのようなノイズの影響を受けやすい。 近年,グラフニューラルネットワーク(gnn)が表現学習の有効性を実証し,このフレームワークをserに適用した。 特に,SERにおける表現学習の理想的なグラフ構造として,コサイン類似性に基づくグラフを提案する。 摂動と雑音に頑健なコサイン類似性に基づくグラフ畳み込みネットワーク(CoGCN)を提案する。 実験の結果,本手法は最先端手法よりも優れており,また1/30のパラメータしか持たないモデルサイズが大幅に削減された。

Learning expressive representation is crucial in deep learning. In speech emotion recognition (SER), vacuum regions or noises in the speech interfere with expressive representation learning. However, traditional RNN-based models are susceptible to such noise. Recently, Graph Neural Network (GNN) has demonstrated its effectiveness for representation learning, and we adopt this framework for SER. In particular, we propose a cosine similarity-based graph as an ideal graph structure for representation learning in SER. We present a Cosine similarity-based Graph Convolutional Network (CoGCN) that is robust to perturbation and noise. Experimental results show that our method outperforms state-of-the-art methods or provides competitive results with a significant model size reduction with only 1/30 parameters.
翻訳日:2022-08-23 14:38:58 公開日:2022-08-21
# ファイナンスにおけるトランスファーランキング:データ不足を伴う横断的モーメントへの応用

Transfer Ranking in Finance: Applications to Cross-Sectional Momentum with Data Scarcity ( http://arxiv.org/abs/2208.09968v1 )

ライセンス: Link先を確認
Daniel Poh, Stephen Roberts and Stefan Zohren(参考訳) クロスセクション戦略は古典的で人気のあるトレーディングスタイルであり、最近の高度なニューラルアーキテクチャを取り入れたハイパフォーマンスなバリエーションがある。 これらの戦略は、長い歴史を持つ成熟した資産を含むデータ豊富な設定にうまく適用されてきたが、限られたサンプルを持つ機器に配置すると、一般的に性能が劣化した過度なモデルが生成される。 本稿では,ハイブリッドパラメータ共有転送ランキングモデルであるFused Encoder Networksを紹介する。 このモデルは、ソースデータセットで操作されるエンコーダ-アテンションモジュールを使用して抽出された情報を、関心のあるより小さなターゲットデータセットに焦点を当てた類似だが分離されたモジュールと融合する。 対象データ不足の問題を軽減することに加えて、モデルの自己照準機構は、モデルトレーニング中の損失レベルだけでなく、推論時間においても、楽器間の相互作用を説明できる。 市場資本化による上位10の暗号通貨に実証的なユースケースとして適用される勢いに着目して、Fused Encoder Networksは、ほとんどのパフォーマンス指標で基準ベンチマークを上回り、古典的な勢いよりもシャープ比が3倍向上し、トランザクションコストのない最高のベンチマークモデルに対して約50%向上した。 暗号通貨取引に伴う高い取引コストを考慮しても、ベースラインを上回り続けている。

Cross-sectional strategies are a classical and popular trading style, with recent high performing variants incorporating sophisticated neural architectures. While these strategies have been applied successfully to data-rich settings involving mature assets with long histories, deploying them on instruments with limited samples generally produces over-fitted models with degraded performance. In this paper, we introduce Fused Encoder Networks -- a hybrid parameter-sharing transfer ranking model. The model fuses information extracted using an encoder-attention module operated on a source dataset with a similar but separate module focused on a smaller target dataset of interest. In addition to mitigating the issue of target data scarcity, the model's self-attention mechanism enables interactions among instruments to be accounted for, not just at the loss level during model training, but also at inference time. Focusing on momentum applied to the top ten cryptocurrencies by market capitalisation as a demonstrative use-case, the Fused Encoder Networks outperforms the reference benchmarks on most performance measures, delivering a three-fold boost in the Sharpe ratio over classical momentum as well as an improvement of approximately 50% against the best benchmark model without transaction costs. It continues outperforming baselines even after accounting for the high transaction costs associated with trading cryptocurrencies.
翻訳日:2022-08-23 14:38:48 公開日:2022-08-21
# G2{\Phi}net: 深層学習による組織の遺伝子型と生体力学的現象の関係

G2{\Phi}net: Relating Genotype and Biomechanical Phenotype of Tissues with Deep Learning ( http://arxiv.org/abs/2208.09889v1 )

ライセンス: Link先を確認
Enrui Zhang, Bart Spronck, Jay D. Humphrey, George Em Karniadakis(参考訳) 多くの遺伝子変異は、負荷を伴う軟組織の構造と機能に悪影響を及ぼすが、臨床後遺症はしばしば障害や死亡の原因となる。 遺伝学とヒストメカニカル・キャラクタリゼーションの並列的な進歩は、これらの状態について重要な洞察を与えるが、そのような情報を統合する必要性が強く残っている。 本稿では, 軟部組織の生体力学的特性を特徴付け, 分類するための新しい遺伝子型-生体力学的-フェノタイプニューラルネットワーク(G2{\Phi}net)を提案する。 細胞外成分の欠損や欠損を含む4種類のマウスモデルに対して, 大動脈の非線形, 遺伝子型依存性構成的挙動を推定することにより, アプローチの有用性を考察した。 G2{\Phi}netは, 限られた, うるさく, 未構造化の実験データを利用して, 関連遺伝子型を正しく記述しながら, 生体力学的応答を推定できることを示す。 より広くは、G2{\Phi}netは遺伝子型と生体力学的表現型を定量的に関連付ける強力な方法とパラダイムシフトを提供し、生体組織におけるそれらの相互作用をよりよく理解することを約束している。

Many genetic mutations adversely affect the structure and function of load-bearing soft tissues, with clinical sequelae often responsible for disability or death. Parallel advances in genetics and histomechanical characterization provide significant insight into these conditions, but there remains a pressing need to integrate such information. We present a novel genotype-to-biomechanical-phenotype neural network (G2{\Phi}net) for characterizing and classifying biomechanical properties of soft tissues, which serve as important functional readouts of tissue health or disease. We illustrate the utility of our approach by inferring the nonlinear, genotype-dependent constitutive behavior of the aorta for four mouse models involving defects or deficiencies in extracellular constituents. We show that G2{\Phi}net can infer the biomechanical response while simultaneously ascribing the associated genotype correctly by utilizing limited, noisy, and unstructured experimental data. More broadly, G2{\Phi}net provides a powerful method and a paradigm shift for correlating genotype and biomechanical phenotype quantitatively, promising a better understanding of their interplay in biological tissues.
翻訳日:2022-08-23 14:35:36 公開日:2022-08-21
# アダムの確率適応性

Provable Adaptivity in Adam ( http://arxiv.org/abs/2208.09900v1 )

ライセンス: Link先を確認
Bohan Wang, Yushun Zhang, Huishuai Zhang, Qi Meng, Zhi-Ming Ma, Tie-Yan Liu, Wei Chen(参考訳) アダプティブモーメント推定(Adam)最適化器は、その高速収束特性のためにディープラーニングタスクで広く利用されている。 しかし、アダムの収束はまだよく理解されていない。 特に、Adamの既存の分析は、SGDよりもAdamの利点を明確に示すことはできない。 この理論上の困惑は、l$-smooth条件(つまり、勾配が常にl$でグローバルにリプシッツ連続であると仮定する)になぞらえており、実際のニューラルネットワークではよく失敗することが指摘されている。 この困惑に対処するために,$(l_0,l_1)$平滑性条件と呼ばれる緩和条件下でのadamの収束を解析し,局所勾配ノルムで勾配リプシッツ定数が変化することを可能にする。 l_0,l_1)$は、l$-smooth条件よりも厳密に弱く、実用的なディープニューラルネットワークを保持することが実証的に証明されている。 L_0,L_1)$の滑らかさ条件の下では、実用的なハイパーパラメータを持つAdamの収束を確立する。 具体的には、アダムは局所的な滑らかさ条件に適応し、アダムの「emph{adaptivity}」を正当化することができると論じる。 対照的に、SGDはこの条件下で任意に遅くすることができる。 我々の結果は、適応的でないものよりも適応的勾配法の利点に光を当てるかもしれない。

Adaptive Moment Estimation (Adam) optimizer is widely used in deep learning tasks because of its fast convergence properties. However, the convergence of Adam is still not well understood. In particular, the existing analysis of Adam cannot clearly demonstrate the advantage of Adam over SGD. We attribute this theoretical embarrassment to $L$-smooth condition (i.e., assuming the gradient is globally Lipschitz continuous with constant $L$) adopted by literature, which has been pointed out to often fail in practical neural networks. To tackle this embarrassment, we analyze the convergence of Adam under a relaxed condition called $(L_0,L_1)$ smoothness condition, which allows the gradient Lipschitz constant to change with the local gradient norm. $(L_0,L_1)$ is strictly weaker than $L$-smooth condition and it has been empirically verified to hold for practical deep neural networks. Under the $(L_0,L_1)$ smoothness condition, we establish the convergence for Adam with practical hyperparameters. Specifically, we argue that Adam can adapt to the local smoothness condition, justifying the \emph{adaptivity} of Adam. In contrast, SGD can be arbitrarily slow under this condition. Our result might shed light on the benefit of adaptive gradient methods over non-adaptive ones.
翻訳日:2022-08-23 14:35:15 公開日:2022-08-21
# MolGraph:TensorFlowとKerasを使った小さな分子グラフとグラフニューラルネットワークの実装のためのPythonパッケージ

MolGraph: a Python package for the implementation of small molecular graphs and graph neural networks with TensorFlow and Keras ( http://arxiv.org/abs/2208.09944v1 )

ライセンス: Link先を確認
Alexander Kensert, Gert Desmet, Deirdre Cabooter(参考訳) 分子機械学習(ML)は、タンパク質-ドラッグ相互作用の予測や脳-バリア透過性の予測など、様々な分子問題に取り組む上で重要であることが証明されている。 比較的最近になって、いわゆるグラフニューラルネットワーク(GNN)が分子MLに実装され、記述子ベースのアプローチと同等または優れたパフォーマンスを示している。 分子MLにGNNを適用するためのさまざまなツールやパッケージが存在するが、MolGraph(https://github.com/akensert/molgraph)と呼ばれる新しいGNNパッケージは、TensorFlowとKerasアプリケーションプログラミングインターフェース(API)と高度に互換性のあるGNNを作成する動機とともに、この作業で開発された。 MolGraphは特に分子MLに特化して、分子MLのためにGNNに入力可能な分子グラフを$\unicode{x2014}$で生成するために化学モジュールが実装された。 GNNを検証するため、MoeculeNetのデータセットと3つのクロマトグラフィー保持時間データセットとをベンチマークした。 これらのベンチマークの結果は、GNNが期待通りに実行されたことを示している。 さらに,GNNは分子識別に有用であり,クロマトグラフィー保持データの解釈性も向上した。

Molecular machine learning (ML) has proven important for tackling various molecular problems, including the prediction of protein-drug interactions and blood brain-barrier permeability. Since relatively recently, so-called graph neural networks (GNNs) have been implemented for molecular ML, showing comparable or superior performance to descriptor-based approaches. Although various tools and packages exist to apply GNNs for molecular ML, a new GNN package, named MolGraph (https://github.com/akensert/molgraph), was developed in this work with the motivation to create GNNs highly compatible with the TensorFlow and Keras application programming interface (API). As MolGraph focuses specifically and exclusively on molecular ML, a chemistry module was implemented to accommodate the generation of molecular graphs $\unicode{x2014}$ which could then be inputted to the GNNs for molecular ML. To validate the GNNs, they were benchmarked against the datasets of MoleculeNet, as well as three chromatographic retention time datasets. The results on these benchmarks show that the GNNs performed as expected. Additionally, the GNNs proved useful for molecular identification and improved interpretability of chromatographic retention data.
翻訳日:2022-08-23 14:34:54 公開日:2022-08-21
# オンライン学習によるo-ranにおける仮想基地局の省エネルギースケジューリング

Energy-aware Scheduling of Virtualized Base Stations in O-RAN with Online Learning ( http://arxiv.org/abs/2208.09956v1 )

ライセンス: Link先を確認
Michail Kalntis, George Iosifidis(参考訳) 仮想化基地局(vbss)を構成するためのo-ran(open radio access network)準拠システムの設計は、ネットワークオペレーターにとって極めて重要である。 vBSスケジューリング手順を最適化するにはパラメータの知識が必要であるため、このタスクは困難である。 本稿では,vBSの性能とエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。 このアルゴリズムは、非定常トラフィックやネットワーク状態といった予期せぬ条件下でのパフォーマンス保証を提供し、vbs操作プロファイルに従わない。 この問題を最も一般的な形式で検討し,提案手法が高速に変化する環境においても,線形後悔(すなわち平均最適性ギャップゼロ)を達成することを実証する。 実世界のデータと様々なトレース駆動評価を用いて,最先端ベンチマークと比較して,vBSの消費電力の最大74.3%の削減効果を示した。

The design of Open Radio Access Network (O-RAN) compliant systems for configuring the virtualized Base Stations (vBSs) is of paramount importance for network operators. This task is challenging since optimizing the vBS scheduling procedure requires knowledge of parameters, which are erratic and demanding to obtain in advance. In this paper, we propose an online learning algorithm for balancing the performance and energy consumption of a vBS. This algorithm provides performance guarantees under unforeseeable conditions, such as non-stationary traffic and network state, and is oblivious to the vBS operation profile. We study the problem in its most general form and we prove that the proposed technique achieves sub-linear regret (i.e., zero average optimality gap) even in a fast-changing environment. By using real-world data and various trace-driven evaluations, our findings indicate savings of up to 74.3% in the power consumption of a vBS in comparison with state-of-the-art benchmarks.
翻訳日:2022-08-23 14:34:32 公開日:2022-08-21
# モデル説明からの感性属性の推測

Inferring Sensitive Attributes from Model Explanations ( http://arxiv.org/abs/2208.09967v1 )

ライセンス: Link先を確認
Vasisht Duddu, Antoine Boutet(参考訳) モデル説明は、トレーニングされた機械学習モデルのブラックボックスの振る舞いをモデルビルダーに提供する。 これらは、異なる入力属性が対応するモデル予測に与える影響を示す。 入力に対する説明の依存性は、センシティブなユーザデータに対するプライバシーの懸念を引き起こす。 しかし、現在の文献では、モデル説明のプライバシーリスクに関する議論は限られている。 本稿では, 属性推論攻撃の特定のプライバシーリスクに着目し, モデル的説明から, 相手が入力(例えば, 人種, 性別)のセンシティブな属性を推測する。 モデルビルダーのどちらでもモデル説明に対する最初の属性推論攻撃を2つの脅威モデルで設計する。 (a) 訓練データ及び入力の繊細な属性を含む、又は b)訓練データ及び入力にそれらを含まないことにより、センシティブ属性を検閲する。 提案する4つのベンチマークデータセットと4つの最先端アルゴリズムに対する攻撃を評価する。 敵は、脅威モデルの両方の説明から、敏感な属性の値を正しく推測できることを実証する。 さらに、センシティブな属性に対応する説明のみを利用して攻撃を成功させる。 これらは、私たちの攻撃が説明に対して有効であり、データプライバシに実用的な脅威をもたらすことを示唆している。 モデル予測(前回の攻撃によって悪用された攻撃面)と説明を組み合わせることで、攻撃成功は改善されないことに留意する。 さらに、モデル説明を悪用する攻撃の成功は、モデル予測のみを悪用するよりも優れている。 これらのことから, モデル説明は敵に有利な攻撃面であることが示唆された。

Model explanations provide transparency into a trained machine learning model's blackbox behavior to a model builder. They indicate the influence of different input attributes to its corresponding model prediction. The dependency of explanations on input raises privacy concerns for sensitive user data. However, current literature has limited discussion on privacy risks of model explanations. We focus on the specific privacy risk of attribute inference attack wherein an adversary infers sensitive attributes of an input (e.g., race and sex) given its model explanations. We design the first attribute inference attack against model explanations in two threat models where model builder either (a) includes the sensitive attributes in training data and input or (b) censors the sensitive attributes by not including them in the training data and input. We evaluate our proposed attack on four benchmark datasets and four state-of-the-art algorithms. We show that an adversary can successfully infer the value of sensitive attributes from explanations in both the threat models accurately. Moreover, the attack is successful even by exploiting only the explanations corresponding to sensitive attributes. These suggest that our attack is effective against explanations and poses a practical threat to data privacy. On combining the model predictions (an attack surface exploited by prior attacks) with explanations, we note that the attack success does not improve. Additionally, the attack success on exploiting model explanations is better compared to exploiting only model predictions. These suggest that model explanations are a strong attack surface to exploit for an adversary.
翻訳日:2022-08-23 14:34:15 公開日:2022-08-21
# 臨界バッハサイズは、ハイパーパラメータを用いたディープラーニングオプティマイザの確率的一階oracle複雑性を最小化する

Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of Deep Learning Optimizer using Hyperparameters Close to One ( http://arxiv.org/abs/2208.09814v1 )

ライセンス: Link先を確認
Hideaki Iiduka(参考訳) 実践的な結果から、小さな定速学習率、1に近いハイパーパラメータ、大きなバッチサイズを用いたディープラーニングオプティマイザは、損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができる。 まず, モーメント法 (Momentum) と適応モーメント推定 (Adam) が, 理論的性能測定値の上限が小さく, 一定の学習率, ハイパーパラメータが1に近く, バッチサイズが大きいという意味で, 有効であることを示す。 次に、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性を最小化するクリティカルバッチサイズと呼ばれるバッチサイズが存在し、バッチサイズが臨界バッチサイズを超えるとSFOの複雑性が増加することを示す。 最後に、理論的結果を支持する数値結果を提供する。 すなわち,Adamが一定の学習速度,ハイパーパラメータを1に近く使用し,SFOの複雑性を最小化する臨界バッチサイズは,モメンタムや確率勾配降下(SGD)よりも早く収束することを示す。

Practical results have shown that deep learning optimizers using small constant learning rates, hyperparameters close to one, and large batch sizes can find the model parameters of deep neural networks that minimize the loss functions. We first show theoretical evidence that the momentum method (Momentum) and adaptive moment estimation (Adam) perform well in the sense that the upper bound of the theoretical performance measure is small with a small constant learning rate, hyperparameters close to one, and a large batch size. Next, we show that there exists a batch size called the critical batch size minimizing the stochastic first-order oracle (SFO) complexity, which is the stochastic gradient computation cost, and that SFO complexity increases once the batch size exceeds the critical batch size. Finally, we provide numerical results that support our theoretical results. That is, the numerical results indicate that Adam using a small constant learning rate, hyperparameters close to one, and the critical batch size minimizing SFO complexity has faster convergence than Momentum and stochastic gradient descent (SGD).
翻訳日:2022-08-23 14:28:12 公開日:2022-08-21
# 相対的バンディットフィードバックを用いた会話レコメンダシステムの比較

Comparison-based Conversational Recommender System with Relative Bandit Feedback ( http://arxiv.org/abs/2208.09837v1 )

ライセンス: Link先を確認
Zhihui Xie, Tong Yu, Canzhe Zhao, Shuai Li(参考訳) 近年の会話レコメンデーションの進歩により、レコメンデーションシステムは対話による対話を通じてユーザの好みを積極的に動的に引き出すことができる。 これを実現するために,ユーザの属性に対する嗜好を定期的にクエリし,フィードバックを収集する。 しかし,既存の会話レコメンデータシステムでは,属性に対する絶対的なフィードバックしか提供できない。 実際には、ユーザーが好みを表現する際にバイアスのあるフィードバックを提供する傾向があるため、絶対的なフィードバックは通常制限される。 その代わり、ユーザーは本質的に相対的な嗜好であるため、比較選好を表現する傾向が強くなる。 そこで本稿では,ユーザが会話の対話中に比較嗜好を提供するために,新しい比較に基づく会話推薦システムを提案する。 相対的なフィードバックはより実践的ではあるが、フィードバックのスケールは常にユーザの絶対的な好みと一致しているため、組み込むのは容易ではない。 対話的手法による相対的フィードバックを効果的に収集し,理解することで,我々はRelativeConUCBと呼ぶ新しい帯域幅アルゴリズムを提案する。 合成データと実世界のデータの両方における実験は、提案手法の利点を検証し、会話型推薦システムにおける既存のバンディットアルゴリズムと比較した。

With the recent advances of conversational recommendations, the recommender system is able to actively and dynamically elicit user preference via conversational interactions. To achieve this, the system periodically queries users' preference on attributes and collects their feedback. However, most existing conversational recommender systems only enable the user to provide absolute feedback to the attributes. In practice, the absolute feedback is usually limited, as the users tend to provide biased feedback when expressing the preference. Instead, the user is often more inclined to express comparative preferences, since user preferences are inherently relative. To enable users to provide comparative preferences during conversational interactions, we propose a novel comparison-based conversational recommender system. The relative feedback, though more practical, is not easy to be incorporated since its feedback scale is always mismatched with users' absolute preferences. With effectively collecting and understanding the relative feedback from an interactive manner, we further propose a new bandit algorithm, which we call RelativeConUCB. The experiments on both synthetic and real-world datasets validate the advantage of our proposed method, compared to the existing bandit algorithms in the conversational recommender systems.
翻訳日:2022-08-23 14:27:48 公開日:2022-08-21
# 2プレイヤーゼロサムゲームにおけるフル・ノイズ情報フィードバックによる最終Iterate Convergence

Last-Iterate Convergence with Full- and Noisy-Information Feedback in Two-Player Zero-Sum Games ( http://arxiv.org/abs/2208.09855v1 )

ライセンス: Link先を確認
Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki(参考訳) ゲームにおける学習の理論はAIコミュニティで顕著であり、マルチエージェント強化学習やジェネレーティブ・アドバイザリアル・ネットワークといったいくつかのアプリケーションによって動機付けられている。 両プレイヤーのゼロサム正規形式ゲームにおける平衡学習のためのM2WU(Mutation-driven Multiplicative Weights Update)を提案する。 全情報フィードバック設定では、プレイヤーはユーティリティ関数の正確な勾配ベクトルを観測する。 一方,ノイズ情報フィードバック設定では,雑音勾配ベクトルのみを観測できる。 既知の乗算重み更新(MWU)や最適化MWU(OMWU)アルゴリズムを含む既存のアルゴリズムは、ノイズ情報フィードバックでナッシュ平衡に収束しない。 対照的に、M2WUは両方のフィードバック設定においてナッシュ平衡付近の静止点に最終点収束を示す。 次に、突然変異項を反復的に適応することにより、正確なナッシュ平衡に収束することを証明する。 我々は,M2WUがMWUやOMWUよりも利用性と収束率が高いことを実証的に確認した。

The theory of learning in games is prominent in the AI community, motivated by several rising applications such as multi-agent reinforcement learning and Generative Adversarial Networks. We propose Mutation-driven Multiplicative Weights Update (M2WU) for learning an equilibrium in two-player zero-sum normal-form games and prove that it exhibits the last-iterate convergence property in both full- and noisy-information feedback settings. In the full-information feedback setting, the players observe their exact gradient vectors of the utility functions. On the other hand, in the noisy-information feedback setting, they can only observe the noisy gradient vectors. Existing algorithms, including the well-known Multiplicative Weights Update (MWU) and Optimistic MWU (OMWU) algorithms, fail to converge to a Nash equilibrium with noisy-information feedback. In contrast, M2WU exhibits the last-iterate convergence to a stationary point near a Nash equilibrium in both of the feedback settings. We then prove that it converges to an exact Nash equilibrium by adapting the mutation term iteratively. We empirically confirm that M2WU outperforms MWU and OMWU in exploitability and convergence rates.
翻訳日:2022-08-23 14:27:28 公開日:2022-08-21
# Twin Papers: カップリングによるキューションの因果推論のシンプルなフレームワーク

Twin Papers: A Simple Framework of Causal Inference for Citations via Coupling ( http://arxiv.org/abs/2208.09862v1 )

ライセンス: Link先を確認
Ryoma Sato, Makoto Yamada, Hisashi Kashima(参考訳) 研究プロセスには、論文の掲載方法や発行場所など、多くの決定が含まれている。 本稿では,そのような意思決定の効果を調査するための一般的な枠組みを紹介する。 この効果を調査する上で大きな困難は、現実には利用できない反事実的な結果を知る必要があることである。 このフレームワークの重要な洞察は、双子を用いた既存の反事実分析にインスパイアされたもので、そこでは双子を反事実単位と見なしている。 提案されたフレームワークは、お互いを双子として引用する2つの論文を扱っている。 このような論文は、類似の話題や類似のコミュニティにおいて、平行して研究される傾向がある。 異なる決定を取り入れた2つの論文を調査し、これらの研究がもたらした研究の影響の進捗を観察し、これらの研究の影響の違いによる決定の影響を推定する。 私たちはコードとデータをリリースしていますが、これは反事実研究におけるデータセットの不足のため、非常に有益だと思います。

The research process includes many decisions, e.g., how to entitle and where to publish the paper. In this paper, we introduce a general framework for investigating the effects of such decisions. The main difficulty in investigating the effects is that we need to know counterfactual results, which are not available in reality. The key insight of our framework is inspired by the existing counterfactual analysis using twins, where the researchers regard twins as counterfactual units. The proposed framework regards a pair of papers that cite each other as twins. Such papers tend to be parallel works, on similar topics, and in similar communities. We investigate twin papers that adopted different decisions, observe the progress of the research impact brought by these studies, and estimate the effect of decisions by the difference in the impacts of these studies. We release our code and data, which we believe are highly beneficial owing to the scarcity of the dataset on counterfactual studies.
翻訳日:2022-08-23 14:27:08 公開日:2022-08-21
# シグモイド型ニューラルネットワークのロバスト性検証のための最適線形近似

Provably Tightest Linear Approximation for Robustness Verification of Sigmoid-like Neural Networks ( http://arxiv.org/abs/2208.09872v1 )

ライセンス: Link先を確認
Zhaodi Zhang, Yiting Wu, Si Liu, Jing Liu, Min Zhang(参考訳) ディープニューラルネットワークの堅牢性は、現代のAI対応システムにとって不可欠であり、正式に検証されるべきである。 sigmoidライクなニューラルネットワークは、幅広い応用に採用されている。 非線型性のため、シグモイド様の活性化関数は通常効率のよい検証のために過剰に近似される。 より正確な検証結果を得るためには、いわゆるより厳密な近似を求める努力が注がれている。 しかし、既存の厳密性の定義はヒューリスティックであり、理論的基礎が欠けている。 我々は、既存の神経細胞のタイトネス特性を徹底的に解析し、特定のニューラルネットワークでのみ優れていることを明らかにする。 次に,ネットワーク間密性の概念を統一的密性定義として導入し,ネットワーク間密性計算が複雑な非凸最適化問題であることを示す。 複雑さを異なる視点から2つの効率的かつ証明可能な最も厳密な近似によってバイパスする。 結果は、最先端技術に対する我々のアプローチの有望な業績を示しています。 (i)認定低ロバスト性限度に対する最大251.28%の改善を達成すること、及び (ii)畳み込みネットワーク上でより正確な検証結果を示す。

The robustness of deep neural networks is crucial to modern AI-enabled systems and should be formally verified. Sigmoid-like neural networks have been adopted in a wide range of applications. Due to their non-linearity, Sigmoid-like activation functions are usually over-approximated for efficient verification, which inevitably introduces imprecision. Considerable efforts have been devoted to finding the so-called tighter approximations to obtain more precise verification results. However, existing tightness definitions are heuristic and lack theoretical foundations. We conduct a thorough empirical analysis of existing neuron-wise characterizations of tightness and reveal that they are superior only on specific neural networks. We then introduce the notion of network-wise tightness as a unified tightness definition and show that computing network-wise tightness is a complex non-convex optimization problem. We bypass the complexity from different perspectives via two efficient, provably tightest approximations. The results demonstrate the promising performance achievement of our approaches over state of the art: (i) achieving up to 251.28% improvement to certified lower robustness bounds; and (ii) exhibiting notably more precise verification results on convolutional networks.
翻訳日:2022-08-23 14:26:54 公開日:2022-08-21
# JVLDLoc:運転シナリオにおける視覚-LiDAR制約と方向優先の併用最適化

JVLDLoc: a Joint Optimization of Visual-LiDAR Constraints and Direction Priors for Localization in Driving Scenario ( http://arxiv.org/abs/2208.09777v1 )

ライセンス: Link先を確認
Longrui Dong and Gang Zeng(参考訳) 移動エージェントが環境内をローカライズする能力は、自律運転などの新興アプリケーションに対する基本的な需要である。 複数のセンサに基づく既存の方法の多くは、依然としてドリフトに苦しんでいる。 本稿では,方向投影誤差と呼ばれる回転のみに制約されたエネルギー項を確立可能な,画像からの地図と点を融合する手法を提案する。 次に、これらの方向を視覚-LiDAR SLAMシステムに組み込み、カメラとLiDARの測定をバックエンドで密結合した方法で統合する。 具体的には,スキャン制約の視覚的再投射誤差とImplicit moving Least Square (IMLS)面へのポインタを生成し,大域的最適化における方向投射誤差と共同で解決する。 KITTI,KITTI-360およびOxford Radar Robotcarを用いた実験により,本手法が有効であることを示す先行マップよりもローローカライゼーション誤差(Absolute Pose Error,APE)が低いことを示す。

The ability for a moving agent to localize itself in environment is the basic demand for emerging applications, such as autonomous driving, etc. Many existing methods based on multiple sensors still suffer from drift. We propose a scheme that fuses map prior and vanishing points from images, which can establish an energy term that is only constrained on rotation, called the direction projection error. Then we embed these direction priors into a visual-LiDAR SLAM system that integrates camera and LiDAR measurements in a tightly-coupled way at backend. Specifically, our method generates visual reprojection error and point to Implicit Moving Least Square(IMLS) surface of scan constraints, and solves them jointly along with direction projection error at global optimization. Experiments on KITTI, KITTI-360 and Oxford Radar Robotcar show that we achieve lower localization error or Absolute Pose Error (APE) than prior map, which validates our method is effective.
翻訳日:2022-08-23 14:11:57 公開日:2022-08-21
# 口唇読解のためのmoocに向けて - 口唇読解における人間の訓練のための合成音声ヘッドの利用-

Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale ( http://arxiv.org/abs/2208.09796v1 )

ライセンス: Link先を確認
Aditya Agarwal, Bipasha Sen, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V Jawahar(参考訳) ある種の聴覚障害を持つ多くの人々は、リップリーディングを日々のコミュニケーションの第一のモードとみなしている。 しかし、リップリードスキルを習得または改善するためのリソースを見つけることは困難である。 新型コロナウイルス(COVID-19)のパンデミックでは、ピアやスピーチセラピストとの直接の交流が制限され、さらに悪化している。 今日では、courseraやudemyといったオンラインmoocsプラットフォームが、さまざまなスキル開発において最も効果的なトレーニング形式になっています。 しかし、このようなリソースを作成するには、何ヶ月もの手作業が必要であり、オンラインのリップリーダーリソースは乏しい。 手動パイプラインのため、このようなプラットフォームは語彙、サポート言語、アクセント、スピーカーにも制限されており、使用コストが高い。 本研究では,人間の会話映像を合成生成ビデオに置き換える可能性について検討する。 合成データは、より大きな語彙、アクセントのバリエーション、さらには地元の言語、そして多くの話者を組み込むのに利用できる。 本稿では,最先端の対話型音声生成ネットワーク,テキスト音声モデル,コンピュータビジョン技術を用いたエンドツーエンド自動パイプラインを提案する。 次に、慎重に検討したリップリーディング演習を用いて、既存のリップリーディングプラットフォームに対する設計プラットフォームの品質評価を行う。 本研究は, 何百万人もの難聴者に影響を与える大規模口唇読取型MOOCsプラットフォームの開発に向けたアプローチの可能性を示すものである。

Many people with some form of hearing loss consider lipreading as their primary mode of day-to-day communication. However, finding resources to learn or improve one's lipreading skills can be challenging. This is further exacerbated in COVID$19$ pandemic due to restrictions on direct interactions with peers and speech therapists. Today, online MOOCs platforms like Coursera and Udemy have become the most effective form of training for many kinds of skill development. However, online lipreading resources are scarce as creating such resources is an extensive process needing months of manual effort to record hired actors. Because of the manual pipeline, such platforms are also limited in the vocabulary, supported languages, accents, and speakers, and have a high usage cost. In this work, we investigate the possibility of replacing real human talking videos with synthetically generated videos. Synthetic data can be used to easily incorporate larger vocabularies, variations in accent, and even local languages, and many speakers. We propose an end-to-end automated pipeline to develop such a platform using state-of-the-art talking heading video generator networks, text-to-speech models, and computer vision techniques. We then perform an extensive human evaluation using carefully thought out lipreading exercises to validate the quality of our designed platform against the existing lipreading platforms. Our studies concretely point towards the potential of our approach for the development of a large-scale lipreading MOOCs platform that can impact millions of people with hearing loss.
翻訳日:2022-08-23 14:11:39 公開日:2022-08-21
# 修正深層学習ニューラルネットワークを用いた法医学的歯科年齢推定

Forensic Dental Age Estimation Using Modified Deep Learning Neural Network ( http://arxiv.org/abs/2208.09799v1 )

ライセンス: Link先を確認
Isa Atas, Cuneyt Ozdemir, Musa Atas, Yahya Dogan(参考訳) 歯年齢は、個人の年齢を特定する最も信頼できる方法の1つである。 歯科パノラマX線撮影(DPR)画像を用いて、法医学の医師や病理学者は、法的に有効な記録や登録された患者を持たない個人の年代を確定させようとする。 現在の方法は、労働力、時間、資格のある専門家を必要とする。 医用画像処理の分野での深層学習アルゴリズムの開発により,画像時間の処理速度を低減しつつ,真理値の予測精度が向上した。 本研究では,1,332dpr画像を用いて8歳から68歳までの被検者の法医学年齢を自動推定する手法を提案した。 当初、inceptionv3, densenet201, efficientnetb4, mobilenetv2, vgg16, resnet50v2などのトランスファー学習モデルを用いて実験分析を行い、最適なモデルであるinceptionv3を改良し、新しいニューラルネットワークモデルを開発した。 発達したモデルアーキテクチャで既に利用可能なパラメータの数を減らすことで、より高速で正確な歯年齢推定が可能となった。 その結果,平均絶対誤差(MAE)は3.13,根平均二乗誤差(RMSE)は4.77,相関係数(R$^2$)は87%であった。 鑑識科学や歯科医学において, 潜在的に信頼でき, 実用的な補助装置として, 新たなモデルを提案することは可能である。

Dental age is one of the most reliable methods to identify an individual's age. By using dental panoramic radiography (DPR) images, physicians and pathologists in forensic sciences try to establish the chronological age of individuals with no valid legal records or registered patients. The current methods in practice demand intensive labor, time, and qualified experts. The development of deep learning algorithms in the field of medical image processing has improved the sensitivity of predicting truth values while reducing the processing speed of imaging time. This study proposed an automated approach to estimate the forensic ages of individuals ranging in age from 8 to 68 using 1,332 DPR images. Initially, experimental analyses were performed with the transfer learning-based models, including InceptionV3, DenseNet201, EfficientNetB4, MobileNetV2, VGG16, and ResNet50V2; and accordingly, the best-performing model, InceptionV3, was modified, and a new neural network model was developed. Reducing the number of the parameters already available in the developed model architecture resulted in a faster and more accurate dental age estimation. The performance metrics of the results attained were as follows: mean absolute error (MAE) was 3.13, root mean square error (RMSE) was 4.77, and correlation coefficient R$^2$ was 87%. It is conceivable to propose the new model as potentially dependable and practical ancillary equipment in forensic sciences and dental medicine.
翻訳日:2022-08-23 14:11:15 公開日:2022-08-21
# 実画像を用いた単眼深度とデフォーカス推定のためのマルチタスク学習

Multi-task Learning for Monocular Depth and Defocus Estimations with Real Images ( http://arxiv.org/abs/2208.09848v1 )

ライセンス: Link先を確認
Renzhi He, Hualin Hong, Boya Fu, Fei Liu(参考訳) 単眼深度推定とデフォーカス推定はコンピュータビジョンにおける2つの基本的なタスクである。 既存の手法の多くは、深度推定とデフォーカス推定を2つの別々のタスクとして扱い、それら間の強いつながりを無視している。 本研究では、2つのデコーダを持つエンコーダからなるマルチタスク学習ネットワークを提案し、単一の焦点画像から深度とデフォーカスマップを推定する。 マルチタスクネットワークを通じて、デフォーカス推定が弱テクスチャ領域におけるより良い結果を得るのに役立ち、デフォーカス推定は2つのマップ間の強い物理的接続によるデフォーカス推定を容易にする。 このデータセットは100Kのオールインフォーカス画像、フォーカス深度、深度マップ、デフォーカスマップからなる最初のオールリアル画像データセットである。 これにより、ネットワークは深度と実際のデフォーカス画像との間の特徴や物理的な接続を学習することができる。 実験により、ネットワークは合成焦点画像よりも実際の焦点画像からより堅固な特徴を学習できることが示される。 異なるタスクが互いに助け合うこのマルチタスク構造から、私たちの深さとデフォーカス推定は、他の最先端アルゴリズムよりも大幅にパフォーマンスが向上する。 コードとデータセットはhttps://github.com/cubhe/MDDNetで公開されている。

Monocular depth estimation and defocus estimation are two fundamental tasks in computer vision. Most existing methods treat depth estimation and defocus estimation as two separate tasks, ignoring the strong connection between them. In this work, we propose a multi-task learning network consisting of an encoder with two decoders to estimate the depth and defocus map from a single focused image. Through the multi-task network, the depth estimation facilitates the defocus estimation to get better results in the weak texture region and the defocus estimation facilitates the depth estimation by the strong physical connection between the two maps. We set up a dataset (named ALL-in-3D dataset) which is the first all-real image dataset consisting of 100K sets of all-in-focus images, focused images with focus depth, depth maps, and defocus maps. It enables the network to learn features and solid physical connections between the depth and real defocus images. Experiments demonstrate that the network learns more solid features from the real focused images than the synthetic focused images. Benefiting from this multi-task structure where different tasks facilitate each other, our depth and defocus estimations achieve significantly better performance than other state-of-art algorithms. The code and dataset will be publicly available at https://github.com/cubhe/MDDNet.
翻訳日:2022-08-23 14:10:47 公開日:2022-08-21
# hst: 圧縮画像超解像のための階層型スウィントランス

HST: Hierarchical Swin Transformer for Compressed Image Super-resolution ( http://arxiv.org/abs/2208.09885v1 )

ライセンス: Link先を確認
Bingchen Li, Xin Li, Yiting Lu, Sen Liu, Ruoyu Feng, Zhibo Chen(参考訳) 圧縮画像スーパーレゾリューションは近年注目されており、圧縮アーチファクトと低解像度アーティファクトで画像が劣化している。 複雑なハイブリッド歪みのため、超解像と圧縮アーティファクトの簡易な協力により歪み像を復元することは困難である。 本稿では,階層的特徴表現をそれぞれキャプチャし,スウィントランスによる各スケール表現を強化する低分解能圧縮画像を復元する階層的スウィントランス(hst)ネットワークを提案する。 さらに,圧縮画像の超解像にはsr(pretraining with super- resolution)タスクが不可欠であることがわかった。 異なるSR事前学習の効果を探るため、一般的に使用されるSRタスク(例えば、バイコビックおよび異なる実超解法シミュレーション)を事前訓練タスクとみなし、圧縮された画像超解法においてSRが不定の役割を果たすことを明らかにした。 HSTと事前学習の協力により,低画質画像超解像トラックにおけるAIM 2022チャレンジの5位を達成し,PSNRは23.51dBとなった。 広範な実験とアブレーション研究により,提案手法の有効性が検証された。

Compressed Image Super-resolution has achieved great attention in recent years, where images are degraded with compression artifacts and low-resolution artifacts. Since the complex hybrid distortions, it is hard to restore the distorted image with the simple cooperation of super-resolution and compression artifacts removing. In this paper, we take a step forward to propose the Hierarchical Swin Transformer (HST) network to restore the low-resolution compressed image, which jointly captures the hierarchical feature representations and enhances each-scale representation with Swin transformer, respectively. Moreover, we find that the pretraining with Super-resolution (SR) task is vital in compressed image super-resolution. To explore the effects of different SR pretraining, we take the commonly-used SR tasks (e.g., bicubic and different real super-resolution simulations) as our pretraining tasks, and reveal that SR plays an irreplaceable role in the compressed image super-resolution. With the cooperation of HST and pre-training, our HST achieves the fifth place in AIM 2022 challenge on the low-quality compressed image super-resolution track, with the PSNR of 23.51dB. Extensive experiments and ablation studies have validated the effectiveness of our proposed methods.
翻訳日:2022-08-23 14:10:27 公開日:2022-08-21
# カラープロジェクション演算子の等化と輝度マッピングモード

Equalization and Brightness Mapping Modes of Color-to-Gray Projection Operators ( http://arxiv.org/abs/2208.09950v1 )

ライセンス: Link先を確認
Diego Frias(参考訳) 本稿では,3色チャネルを1つに投影する数学的演算子を特徴付けることにより,カラーRGB画像のグレースケールへの変換を行う。 ほとんどのオペレータが256^3$の色を1つのグレーレベル(0から255まで)に割り当てているという事実に基づいて、彼らは色人口を256クラスタに分散して輝度を増加させるクラスタリングアルゴリズムである。 オペレーターの働き方を視覚化し、クラスタのサイズと各クラスタの平均輝度をプロットする。 この研究で導入された等化モード(EQ)はクラスタサイズに焦点をあて、一方、輝度マッピング(BM)モードはクラスタごとのCIE L*輝度分布を記述する。 eqモードの3つのクラスとbmモードの2つのクラスが線形作用素に存在し、6-クラス分類を定義する。 理論的・方法論的枠組みは、一様一様演算子、NTSC標準演算子、および黒人の顔に光を当てて現在の偏見分類器の顔認識を改善するために選択された演算子を考慮したケーススタディで適用された。 色からグレーへの変換の質を評価するために用いられる現在のメトリクスのほとんどは、bmモードの2つのクラスのうちの1つをよりよく評価するが、人間のチームによって選択された理想的なオペレータは他のクラスに属することが判明した。 したがって、これらの一般的なメトリクスを特定の目的のカラー・ツー・グレイ変換に使用することに注意する。 このフレームワークの非線形演算子への最終的な応用は、新しいEQおよびBMモードのクラスを生み出すことに注意する必要がある。 この記事では、モデルの説明可能性の向上という現在のトレンドの中で、機械学習に基づくものであっても、グレーのコンバータに色をよりよく理解するためのツールを提供する。

In this article, the conversion of color RGB images to grayscale is covered by characterizing the mathematical operators used to project 3 color channels to a single one. Based on the fact that most operators assign each of the $256^3$ colors a single gray level, ranging from 0 to 255, they are clustering algorithms that distribute the color population into 256 clusters of increasing brightness. To visualize the way operators work the sizes of the clusters and the average brightness of each cluster are plotted. The equalization mode (EQ) introduced in this work focuses on cluster sizes, while the brightness mapping (BM) mode describes the CIE L* luminance distribution per cluster. Three classes of EQ modes and two classes of BM modes were found in linear operators, defining a 6-class taxonomy. The theoretical/methodological framework introduced was applied in a case study considering the equal-weights uniform operator, the NTSC standard operator, and an operator chosen as ideal to lighten the faces of black people to improve facial recognition in current biased classifiers. It was found that most current metrics used to assess the quality of color-to-gray conversions better assess one of the two BM mode classes, but the ideal operator chosen by a human team belongs to the other class. Therefore, this cautions against using these general metrics for specific purpose color-to-gray conversions. It should be noted that eventual applications of this framework to non-linear operators can give rise to new classes of EQ and BM modes. The main contribution of this article is to provide a tool to better understand color to gray converters in general, even those based on machine learning, within the current trend of better explainability of models.
翻訳日:2022-08-23 14:10:05 公開日:2022-08-21
# 多様なマイクロバイオームデータを用いたグラフィカルモデル

A Graphical Model for Fusing Diverse Microbiome Data ( http://arxiv.org/abs/2208.09934v1 )

ライセンス: Link先を確認
Mehmet Aktukmak, Haonan Zhu, Marc G. Chevrette, Julia Nepper, Jo Handelsman, Alfred Hero(参考訳) 本稿では,異なる種類のカウントデータを融合するベイズ図形モデルを提案する。 モチベーション応用は、様々な高次元の特徴から細菌群集の研究であり、この場合、異なる治療法から収集される転写産物である。 このようなデータセットでは、コミュニティ間に明確な対応がなく、それぞれが異なる要因に対応し、データの融合を困難にしている。 このような数値データを共同でモデル化するための柔軟な多項ガウシアン生成モデルを提案する。 この潜在変数モデルは、トランスクリプトームカウントの多項確率のセットをパラメータ化する共通の多変量ガウス的潜在空間を通して観測データを共同で特徴付ける。 潜在変数の共分散行列は、全ての転写物間の共分散行列を誘導し、複数のデータソースを効果的に活用する。 本稿では,モデルの潜在変数とパラメータを推定するための計算スケーラブルな変分期待最大化(em)アルゴリズムを提案する。 推定潜在変数は、データを視覚化するための共通次元還元を提供し、推定パラメータは予測後分布を提供する。 変動EM法を実証するシミュレーション研究に加えて,細菌のマイクロバイオームデータセットに本モデルを適用した。

This paper develops a Bayesian graphical model for fusing disparate types of count data. The motivating application is the study of bacterial communities from diverse high dimensional features, in this case transcripts, collected from different treatments. In such datasets, there are no explicit correspondences between the communities and each correspond to different factors, making data fusion challenging. We introduce a flexible multinomial-Gaussian generative model for jointly modeling such count data. This latent variable model jointly characterizes the observed data through a common multivariate Gaussian latent space that parameterizes the set of multinomial probabilities of the transcriptome counts. The covariance matrix of the latent variables induces a covariance matrix of co-dependencies between all the transcripts, effectively fusing multiple data sources. We present a computationally scalable variational Expectation-Maximization (EM) algorithm for inferring the latent variables and the parameters of the model. The inferred latent variables provide a common dimensionality reduction for visualizing the data and the inferred parameters provide a predictive posterior distribution. In addition to simulation studies that demonstrate the variational EM procedure, we apply our model to a bacterial microbiome dataset.
翻訳日:2022-08-23 14:05:11 公開日:2022-08-21
# Pad\'e近似を用いた回帰解析について

On regression analysis with Pad\'e approximants ( http://arxiv.org/abs/2208.09945v1 )

ライセンス: Link先を確認
Glib Yevkin and Olexandr Yevkin(参考訳) 2次元回帰解析へのPad\'e近似の適用の利点と難しさについて論じる。 残差の新しい定式化は最小二乗法で提案されている。 これは有理関数の場合の線形方程式の系につながる。 過剰フィッティングを避けるためにtikhonov正規化手法を使用する可能性を示す。 提案手法の効率性を説明するために,物理と信頼性理論の実践事例をいくつか検討した。

The advantages and difficulties of application of Pad\'e approximants to two-dimensional regression analysis are discussed. New formulation of residuals is suggested in the method of least squares. It leads to a system of linear equations in case of rational functions. The possibility of using Tikhonov regularization technique to avoid overfitting is demonstrated in this approach. To illustrate the efficiency of the suggested method, several practical cases from physics and reliability theory are considered.
翻訳日:2022-08-23 14:04:53 公開日:2022-08-21
# SHAPの統計的側面:モデル解釈のための機能的ANOVA

Statistical Aspects of SHAP: Functional ANOVA for Model Interpretation ( http://arxiv.org/abs/2208.09970v1 )

ライセンス: Link先を確認
Andrew Herren and P. Richard Hahn(参考訳) SHAPは機械学習モデルにおける変数の重要性を測定する一般的な方法である。 本稿では,SHAPのスコアを推定するアルゴリズムについて検討し,それが機能的ANOVA分解の変換であることを示す。 この接続を用いて、SHAP近似の課題は、特徴分布の選択と推定される2ドル^p$ANOVA項の数に大きく関係していることを示す。 この場合、機械学習の説明可能性と感度分析の関係は照らされているが、二つの分野が異なる制約の組に直面しているため、すぐには実践的な結果が明らかではない。 機械学習の説明可能性(Machine Learning explainability)は、安価なが、数千、あるいは数千の機能を持つモデルに関するものだ。 感度分析は一般的に、非常に時間を要するが比較的小さな入力空間で動作する物理学や工学のモデルを扱う。

SHAP is a popular method for measuring variable importance in machine learning models. In this paper, we study the algorithm used to estimate SHAP scores and show that it is a transformation of the functional ANOVA decomposition. We use this connection to show that challenges in SHAP approximations largely relate to the choice of a feature distribution and the number of $2^p$ ANOVA terms estimated. We argue that the connection between machine learning explainability and sensitivity analysis is illuminating in this case, but the immediate practical consequences are not obvious since the two fields face a different set of constraints. Machine learning explainability concerns models which are inexpensive to evaluate but often have hundreds, if not thousands, of features. Sensitivity analysis typically deals with models from physics or engineering which may be very time consuming to run, but operate on a comparatively small space of inputs.
翻訳日:2022-08-23 14:04:47 公開日:2022-08-21
# Tyche: Pythonの確率論的推論と信念モデリングのためのライブラリ

Tyche: A library for probabilistic reasoning and belief modelling in Python ( http://arxiv.org/abs/2208.09838v1 )

ライセンス: Link先を確認
Padraig X. Lamont(参考訳) 本稿では,信条モデルの構築,問合せ,学習を通じて不確定な世界での確率的推論を容易にするpythonライブラリtycheを提案する。 tyche は aleatoric description logic (adl) を使い、他の記述論理よりも計算上の利点を提供する。 tyche belief modelは、個人のクラス、それらに関する確率的信念(概念)、それらの間の確率的関係(ロール)を定義することによって簡潔に作成することができる。 また,複雑なadl観察からの学習を容易にする観察伝播法を提案する。 匿名化されたメッセージの著者を予測し、匿名化されたメッセージから著者の執筆傾向を抽出するTycheのデモンストレーションを提供する。 ティッシュは専門家システム、知識抽出システム、エージェントが不完全で確率的な情報でゲームをするのを支援する可能性がある。

This paper presents Tyche, a Python library to facilitate probabilistic reasoning in uncertain worlds through the construction, querying, and learning of belief models. Tyche uses aleatoric description logic (ADL), which provides computational advantages in its evaluation over other description logics. Tyche belief models can be succinctly created by defining classes of individuals, the probabilistic beliefs about them (concepts), and the probabilistic relationships between them (roles). We also introduce a method of observation propagation to facilitate learning from complex ADL observations. A demonstration of Tyche to predict the author of anonymised messages, and to extract author writing tendencies from anonymised messages, is provided. Tyche has the potential to assist in the development of expert systems, knowledge extraction systems, and agents to play games with incomplete and probabilistic information.
翻訳日:2022-08-23 13:58:37 公開日:2022-08-21
# グループフェアネスと個人フェアネス制約による両部マッチング

Bipartite Matchings with Group Fairness and Individual Fairness Constraints ( http://arxiv.org/abs/2208.09951v1 )

ライセンス: Link先を確認
Atasi Panda, Anand Louis, Prajakta Nibhorkar(参考訳) プラットフォームにアイテムを割り当てるコンテキストにおいて、マッチングにおけるグループだけでなく、個々の公正性の制約にも対処する。 それぞれのアイテムは特定のグループに属し、プラットフォーム上の優先順序を持つ。 各プラットフォームは、各グループからマッチできるアイテムの数の上限と下限を指定することで、グループフェア性を強制する。 群フェアネス制約を満たす複数の最適解が存在するかもしれない。 個々の公平性を達成するために,「確率的個々公平性」を導入し,「グループフェア」マッチングの分布を計算し,各項目が最上位の選択の中でプラットフォームにマッチする合理的な確率を持つようにする。 各項目がちょうど1つのグループに属する場合、確率的に公平な分布を群フェアマッチング上で計算する多項式時間アルゴリズムを提供する。 アイテムが複数のグループに属し、グループフェアネス制約が上界のみとして指定される場合、同じアルゴリズムをリハッシュして3つの異なる多項式時間近似アルゴリズムを実現する。

We address group as well as individual fairness constraints in matchings in the context of assigning items to platforms. Each item belongs to certain groups and has a preference ordering over platforms. Each platform enforces group fairness by specifying an upper and a lower bound on the number of items that can be matched to it from each group. There could be multiple optimal solutions that satisfy the group fairness constraints. To achieve individual fairness, we introduce `probabilistic individual fairness', where the goal is to compute a distribution over `group fair' matchings such that every item has a reasonable probability of being matched to a platform among its top choices. In the case where each item belongs to exactly one group, we provide a polynomial-time algorithm that computes a probabilistic individually fair distribution over group fair matchings. When an item can belong to multiple groups, and the group fairness constraints are specified as only upper bounds, we rehash the same algorithm to achieve three different polynomial-time approximation algorithms.
翻訳日:2022-08-23 13:58:22 公開日:2022-08-21
# カーネル識別器を用いたGANトレーニングにおける不安定性と局所最小化

Instability and Local Minima in GAN Training with Kernel Discriminators ( http://arxiv.org/abs/2208.09938v1 )

ライセンス: Link先を確認
Evan Becker, Parthe Pandit, Sundeep Rangan, Alyson K. Fletcher(参考訳) generative adversarial networks (gans) は複雑なデータの生成モデリングに広く使われているツールである。 実験的な成功にもかかわらず、ジェネレータと判別器のmin-max最適化のため、GANの訓練は完全には理解されていない。 本稿では, 真のサンプルと生成したサンプルが離散有限集合であり, 判別器がカーネルベースである場合, それらのジョイントダイナミクスを解析する。 $\textit{Isolated Points Model}$と呼ばれるトレーニングを分析するためのシンプルな表現力のあるフレームワークを紹介します。 提案モデルでは,真の標本間の距離がカーネル幅を大きく超えるので,各生成点が少なくとも1つの真点に影響される。 本モデルにより, コンバージェンス条件を, 良くも悪くも正確に評価できる。 特に、分析では2つの一般的な障害モードを説明しています。 (i)近似モード崩壊と近似モード崩壊 (ii)多様化。 これらの挙動を予測的に再現する数値シミュレーションが提供される。

Generative Adversarial Networks (GANs) are a widely-used tool for generative modeling of complex data. Despite their empirical success, the training of GANs is not fully understood due to the min-max optimization of the generator and discriminator. This paper analyzes these joint dynamics when the true samples, as well as the generated samples, are discrete, finite sets, and the discriminator is kernel-based. A simple yet expressive framework for analyzing training called the $\textit{Isolated Points Model}$ is introduced. In the proposed model, the distance between true samples greatly exceeds the kernel width, so each generated point is influenced by at most one true point. Our model enables precise characterization of the conditions for convergence, both to good and bad minima. In particular, the analysis explains two common failure modes: (i) an approximate mode collapse and (ii) divergence. Numerical simulations are provided that predictably replicate these behaviors.
翻訳日:2022-08-23 13:54:10 公開日:2022-08-21
# 不均一グラフマスクオートエンコーダ

Heterogeneous Graph Masked Autoencoders ( http://arxiv.org/abs/2208.09957v1 )

ライセンス: Link先を確認
Yijun Tian, Kaiwen Dong, Chunhui Zhang, Chuxu Zhang, Nitesh V. Chawla(参考訳) 生成的自己教師型学習(SSL)、特にマスク付き自己エンコーダは、最もエキサイティングな学習パラダイムの1つとなり、グラフデータを扱う大きな可能性を示している。 しかし、現実世界のグラフは常に異質であり、既存の方法が無視する3つの重大な課題を引き起こす。 1) 複雑なグラフ構造を捉えるには? 2) 様々なノード属性をどのように組み込むか? そして 3) 異なるノード位置をエンコードする方法? これを踏まえて,不均質グラフにおける生成sslの問題を考察し,これらの課題に対処するために,新しい異種グラフマスクオートエンコーダモデルであるhgmaeを提案する。 HGMAEは、2つの革新的なマスキング技術と3つのユニークなトレーニング戦略を通じて、包括的なグラフ情報をキャプチャする。 特に,動的マスク率を持つメタパスマスキングと適応属性マスキングを開発し,ヘテロジニアスグラフ上で効果的かつ安定した学習を可能にした。 次に、メタパスに基づくエッジ再構築、様々なノード属性を組み込むターゲット属性復元、ノード位置情報を符号化する位置特徴予測などのトレーニング戦略を設計する。 大規模な実験により、HGMAEは、複数のデータセットにわたる複数のタスクにおいて、コントラストと生成された最先端のベースラインの両方を上回ります。

Generative self-supervised learning (SSL), especially masked autoencoders, has become one of the most exciting learning paradigms and has shown great potential in handling graph data. However, real-world graphs are always heterogeneous, which poses three critical challenges that existing methods ignore: 1) how to capture complex graph structure? 2) how to incorporate various node attributes? and 3) how to encode different node positions? In light of this, we study the problem of generative SSL on heterogeneous graphs and propose HGMAE, a novel heterogeneous graph masked autoencoder model to address these challenges. HGMAE captures comprehensive graph information via two innovative masking techniques and three unique training strategies. In particular, we first develop metapath masking and adaptive attribute masking with dynamic mask rate to enable effective and stable learning on heterogeneous graphs. We then design several training strategies including metapath-based edge reconstruction to adopt complex structural information, target attribute restoration to incorporate various node attributes, and positional feature prediction to encode node positional information. Extensive experiments demonstrate that HGMAE outperforms both contrastive and generative state-of-the-art baselines on several tasks across multiple datasets.
翻訳日:2022-08-23 13:53:59 公開日:2022-08-21
# グラフ上のロバストノード分類:ベイジアンラベル遷移とトポロジーに基づくラベル伝播の連成

Robust Node Classification on Graphs: Jointly from Bayesian Label Transition and Topology-based Label Propagation ( http://arxiv.org/abs/2208.09779v1 )

ライセンス: Link先を確認
Jun Zhuang, Mohammad Al Hasan(参考訳) グラフニューラルネットワーク(GNN)を用いたノード分類は、様々な実世界のシナリオで広く適用されている。 しかし近年,gnnに基づくノード分類の性能は,ランダム接続や逆攻撃といったトポロジカルな摂動によって著しく低下する可能性が指摘されている。 トポロジカル・デノベーション法や機構設計法といった様々なソリューションは、堅牢なGNNベースのノード分類器を開発するために提案されているが、これらの研究は、トポロジ的摂動に関わる問題を完全に解決することはできない。 近年,この問題に対処するためにベイズラベル遷移モデルが提案されているが,その収束が遅いと性能が低下する可能性がある。 本研究では,GNNのトポロジ的摂動に対する堅牢性を改善するため,ベイズラベル遷移とトポロジに基づくラベル伝搬を統合した新しいラベル推論モデル LInDT を提案する。 LInDTは、近傍のラベル伝搬を利用して不確実なノードのラベル予測を改善することで、ラベル推測の収束を改善するため、既存のラベル遷移法よりも優れている。 さらに、LIndTは前者として非対称なディリクレ分布を採用しており、ラベル推論の改善にも役立っている。 5つのグラフデータセットに対する大規模な実験により、GNNに基づくノード分類におけるLInDTの優位性を示す。

Node classification using Graph Neural Networks (GNNs) has been widely applied in various real-world scenarios. However, in recent years, compelling evidence emerges that the performance of GNN-based node classification may deteriorate substantially by topological perturbation, such as random connections or adversarial attacks. Various solutions, such as topological denoising methods and mechanism design methods, have been proposed to develop robust GNN-based node classifiers but none of these works can fully address the problems related to topological perturbations. Recently, the Bayesian label transition model is proposed to tackle this issue but its slow convergence may lead to inferior performance. In this work, we propose a new label inference model, namely LInDT, which integrates both Bayesian label transition and topology-based label propagation for improving the robustness of GNNs against topological perturbations. LInDT is superior to existing label transition methods as it improves the label prediction of uncertain nodes by utilizing neighborhood-based label propagation leading to better convergence of label inference. Besides, LIndT adopts asymmetric Dirichlet distribution as a prior, which also helps it to improve label inference. Extensive experiments on five graph datasets demonstrate the superiority of LInDT for GNN-based node classification under three scenarios of topological perturbations.
翻訳日:2022-08-23 13:47:03 公開日:2022-08-21
# Stop&Hop: 不規則時系列の早期分類

Stop&Hop: Early Classification of Irregular Time Series ( http://arxiv.org/abs/2208.09795v1 )

ライセンス: Link先を確認
Thomas Hartvigsen, Walter Gerych, Jidapa Thadajarassiri, Xiangnan Kong, Elke Rundensteiner(参考訳) 早期分類アルゴリズムは、機械学習モデルの予測に素早く反応するのに役立つ。 例えば、病院の早期警戒システムでは、臨床医は感染を正確に予測することで患者の結果を改善できる。 初期の分類システムは急速に進歩しているが、大きなギャップは残る: 既存のシステムは不規則な時系列を考慮していない。 このようなシリーズは、医療のような影響力のある分野に広く浸透している。 このギャップを埋め、より現実的な問題への扉を開く早期分類器の新たな設定である不規則時系列の早期分類を研究する。 私たちのソリューションであるStop&Hopは、継続中の不規則な時系列をリアルタイムにモデル化するために、連続時間リカレントネットワークを使用します。 実数値のステップサイズを取ることで、停止ポリシーは、継続するシリーズをリアルタイムで停止するタイミングを柔軟に決定する。 このように、Stop&Hopは観測のタイミングに含まれる情報をシームレスに統合し、この設定における早期分類のための新しい重要な情報源であり、時系列値を使って不規則な時系列の早期分類を提供する。 4つの合成データセットと3つの実世界のデータセットを用いて、Stop&Hopが新しい問題に適応した最先端の代替モデルよりも、より早く、より正確な予測を一貫して行うことを示した。 私たちのコードはhttps://github.com/thartvigsen/StopAndHopで公開されています。

Early classification algorithms help users react faster to their machine learning model's predictions. Early warning systems in hospitals, for example, let clinicians improve their patients' outcomes by accurately predicting infections. While early classification systems are advancing rapidly, a major gap remains: existing systems do not consider irregular time series, which have uneven and often-long gaps between their observations. Such series are notoriously pervasive in impactful domains like healthcare. We bridge this gap and study early classification of irregular time series, a new setting for early classifiers that opens doors to more real-world problems. Our solution, Stop&Hop, uses a continuous-time recurrent network to model ongoing irregular time series in real time, while an irregularity-aware halting policy, trained with reinforcement learning, predicts when to stop and classify the streaming series. By taking real-valued step sizes, the halting policy flexibly decides exactly when to stop ongoing series in real time. This way, Stop&Hop seamlessly integrates information contained in the timing of observations, a new and vital source for early classification in this setting, with the time series values to provide early classifications for irregular time series. Using four synthetic and three real-world datasets, we demonstrate that Stop&Hop consistently makes earlier and more-accurate predictions than state-of-the-art alternatives adapted to this new problem. Our code is publicly available at https://github.com/thartvigsen/StopAndHop.
翻訳日:2022-08-23 13:46:38 公開日:2022-08-21
# 2段階の2次元サンプル選択によるノイズラベルと不均衡データの圧縮

Combating Noisy-Labeled and Imbalanced Data by Two Stage Bi-Dimensional Sample Selection ( http://arxiv.org/abs/2208.09833v1 )

ライセンス: Link先を確認
Yiliang Zhang, Yang Lu, Bo Han, Yiu-ming Cheung, Hanzi Wang(参考訳) ラベルノイズが直接深層学習モデルの一般化を損なうため,ノイズラベル付きデータのロバスト学習は実アプリケーションにおいて重要な課題となっている。 既存のラベルノイズ学習法では、トレーニングデータの基幹クラスがバランスしていると仮定することが多い。 しかし、実世界のデータはしばしば不均衡であり、ラベルノイズによる観測と固有のクラス分布の不整合をもたらす。 分布の不整合は,固有テールクラスにおいてクリーンなサンプルとノイズの多いサンプルを区別することが困難であるため,ラベルノイズ学習の問題をより困難にする。 本稿では,本質的ロングテールデータを用いたラベルノイズ学習のための学習フレームワークを提案する。 具体的には、2段階の2次元サンプル選択(TBSS)と呼ばれる頑健なサンプル選択手法を提案する。 TBSSは2つの新しい分離指標で構成され、各クラスで共同でサンプルを分離する。 本手法の有効性を実証するため,複数の雑音ラベル付きデータセットに対する拡張実験を行った。

Robust learning on noisy-labeled data has been an important task in real applications, because label noise directly leads to the poor generalization of deep learning models. Existing label-noise learning methods usually assume that the ground-truth classes of the training data are balanced. However, the real-world data is often imbalanced, leading to the inconsistency between observed and intrinsic class distribution due to label noises. Distribution inconsistency makes the problem of label-noise learning more challenging because it is hard to distinguish clean samples from noisy samples on the intrinsic tail classes. In this paper, we propose a learning framework for label-noise learning with intrinsically long-tailed data. Specifically, we propose a robust sample selection method called two-stage bi-dimensional sample selection (TBSS) to better separate clean samples from noisy samples, especially for the tail classes. TBSS consists of two new separation metrics to jointly separate samples in each class. Extensive experiments on multiple noisy-labeled datasets with intrinsically long-tailed class distribution demonstrate the effectiveness of our method.
翻訳日:2022-08-23 13:46:12 公開日:2022-08-21
# MentorGNN: 事前トレーニングGNNのカリキュラムの派生

MentorGNN: Deriving Curriculum for Pre-Training GNNs ( http://arxiv.org/abs/2208.09905v1 )

ライセンス: Link先を確認
Dawei Zhou, Lecheng Zheng, Dongqi Fu, Jiawei Han, Jingrui He(参考訳) グラフ事前学習戦略は、ラベル情報のないグラフニューラルネットワーク(GNN)のパラメータ化の柔軟性のため、グラフマイニングコミュニティで注目を集めている。 キーとなるアイデアは、入力グラフから抽出されたマスキンググラフ信号を予測することによって、貴重な情報をバックボーンGNNに符号化することにある。 多様なグラフ信号(ノード、エッジ、サブグラフなど)の重要性のバランスをとるために、既存のアプローチは主にグラフ信号の重要性を再重み付けするためにハイパーパラメータを導入することで手作業で行う。 しかしながら、サブ・オプティカル・ハイパーパラメーターを用いた人間の介入は、しばしばバイアスを注入し、下流のアプリケーションにおける一般化性能を低下させる。 本稿では,これらの制約を新たな視点,すなわち事前学習GNNのカリキュラムの導出から解決する。 我々は,GNNの事前学習過程を,多様な構造と異なる特徴空間を持つグラフ間で監視することを目的とした,MentorGNNというエンドツーエンドモデルを提案する。 異なる粒度で不均質なグラフ信号を理解するために,対象領域における適切な一般化を確保するために,自動的にグラフ信号を緩和するカリキュラム学習パラダイムを提案する。 さらに,事前学習したgnnの一般化誤差に自然かつ解釈可能な上限を導出することにより,関係データ(グラフ)に対するドメイン適応の問題に新たな光を当てた。 豊富な実グラフに関する大規模な実験は、MentorGNNの性能を検証し、検証する。

Graph pre-training strategies have been attracting a surge of attention in the graph mining community, due to their flexibility in parameterizing graph neural networks (GNNs) without any label information. The key idea lies in encoding valuable information into the backbone GNNs, by predicting the masked graph signals extracted from the input graphs. In order to balance the importance of diverse graph signals (e.g., nodes, edges, subgraphs), the existing approaches are mostly hand-engineered by introducing hyperparameters to re-weight the importance of graph signals. However, human interventions with sub-optimal hyperparameters often inject additional bias and deteriorate the generalization performance in the downstream applications. This paper addresses these limitations from a new perspective, i.e., deriving curriculum for pre-training GNNs. We propose an end-to-end model named MentorGNN that aims to supervise the pre-training process of GNNs across graphs with diverse structures and disparate feature spaces. To comprehend heterogeneous graph signals at different granularities, we propose a curriculum learning paradigm that automatically re-weighs graph signals in order to ensure a good generalization in the target domain. Moreover, we shed new light on the problem of domain adaption on relational data (i.e., graphs) by deriving a natural and interpretable upper bound on the generalization error of the pre-trained GNNs. Extensive experiments on a wealth of real graphs validate and verify the performance of MentorGNN.
翻訳日:2022-08-23 13:45:55 公開日:2022-08-21
# Alexa、フライト遅延を予測

Alexa, Predict My Flight Delay ( http://arxiv.org/abs/2208.09921v1 )

ライセンス: Link先を確認
Sia Gholami, Saba Khashe(参考訳) 航空は今日、時間通りに人や商品を運ぶために欠かせない。 これらの飛行機のスケジュールの遅れは、いつでも何千人もの従業員のビジネスと取引を混乱させる可能性がある。 したがって、正確な飛行遅延予測は航空産業や旅客輸送にとって有益である。 最近の研究では、人工知能アルゴリズムを使用して飛行遅延の可能性を予測している。 初期の予測アルゴリズムは特定の航空路や飛行場向けに設計されていた。 現在の飛行遅延予測アルゴリズムの多くは小さなサンプルに依存しており、理解が難しいため、機械学習の実装の余地はほとんどない。 本研究は、米国内における国内便のデータ分析による飛行遅延予測システムの開発である。 提案モデルでは,フライト遅延とキャンセルの原因と,出発と到着の遅延の関連について考察する。

Airlines are critical today for carrying people and commodities on time. Any delay in the schedule of these planes can potentially disrupt the business and trade of thousands of employees at any given time. Therefore, precise flight delay prediction is beneficial for the aviation industry and passenger travel. Recent research has focused on using artificial intelligence algorithms to predict the possibility of flight delays. Earlier prediction algorithms were designed for a specific air route or airfield. Many present flight delay prediction algorithms rely on tiny samples and are challenging to understand, allowing almost no room for machine learning implementation. This research study develops a flight delay prediction system by analyzing data from domestic flights inside the United States of America. The proposed models learn about the factors that cause flight delays and cancellations and the link between departure and arrival delays.
翻訳日:2022-08-23 13:45:30 公開日:2022-08-21
# 半監督セマンティックセマンティックセグメンテーションにおける弱-ストロング整合性の再検討

Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.09910v1 )

ライセンス: Link先を確認
Lihe Yang, Lei Qi, Litong Feng, Wayne Zhang, Yinghuan Shi(参考訳) 本研究では,弱摂動画像の予測が強摂動画像の監視に役立ち,半教師付き分類のフィクスマッチによって一般化された弱対強一貫性フレームワークを再考する。 興味深いことに、このような単純なパイプラインは、セグメント化シナリオに移行する際に、最近の先進的な作業に対してすでに競合的な結果が得られる。 しかし、その成功は強いデータ拡張のマニュアル設計に大きく依存しており、より広い摂動空間を探索するには限定的で不十分である可能性がある。 そこで我々は,補助的特徴摂動流を補足として提案し,拡張された摂動空間を創出する。 一方,オリジナル画像レベルの拡張を十分に調査するために,2つの強い視点を同時に共通の弱視点で導く2つの流れ摂動手法を提案する。 その結果、我々のUnified Dual-Stream Perturbations(UniMatch)アプローチは、Pascal、Cityscapes、COCOベンチマーク上のすべての評価プロトコルにおいて、既存のすべてのメソッドを大幅に上回っている。 また,リモートセンシングと医用画像解析における手法の優位性を実証した。 コードはhttps://github.com/LiheYoung/UniMatch.comで入手できる。

In this work, we revisit the weak-to-strong consistency framework, popularized by FixMatch from semi-supervised classification, where the prediction of a weakly perturbed image serves as supervision for its strongly perturbed version. Intriguingly, we observe that such a simple pipeline already achieves competitive results against recent advanced works, when transferred to our segmentation scenario. Its success heavily relies on the manual design of strong data augmentations, however, which may be limited and inadequate to explore a broader perturbation space. Motivated by this, we propose an auxiliary feature perturbation stream as a supplement, leading to an expanded perturbation space. On the other, to sufficiently probe original image-level augmentations, we present a dual-stream perturbation technique, enabling two strong views to be simultaneously guided by a common weak view. Consequently, our overall Unified Dual-Stream Perturbations approach (UniMatch) surpasses all existing methods significantly across all evaluation protocols on the Pascal, Cityscapes, and COCO benchmarks. We also demonstrate the superiority of our method in remote sensing interpretation and medical image analysis. Code is available at https://github.com/LiheYoung/UniMatch.
翻訳日:2022-08-23 13:31:20 公開日:2022-08-21
# FaceOff:ビデオ対ビデオの顔スワップシステム

FaceOff: A Video-to-Video Face Swapping System ( http://arxiv.org/abs/2208.09788v1 )

ライセンス: Link先を確認
Aditya Agarwal, Bipasha Sen, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V. Jawahar(参考訳) ダブルスは映画業界で欠かせない役割を演じている。 危険なスタントシーンや、同じ俳優が複数のキャラクターを演じるシーンで、俳優の代わりとなる。 ダブルの顔はその後、高価なCGI技術を使って手動で俳優の顔と表情に置き換わり、数百万ドルを投じて完成までに数ヶ月を要した。 自動化され、安価で、高速な方法は、元の顔ビデオ(または画像)からターゲットの顔ビデオにIDを交換することを目的としたフェイススワッピング技術を使用することができる。 しかし、そのような手法はシーンの文脈において重要なアクターのソース表現を保存できない。 %であった。 %であった。 この課題に対処するために,ビデオ・ツー・ビデオ(V2V)のフェイス・スワッピング,(1)ソース(アクター)の顔映像のアイデンティティと表現,(2)ターゲット(ダブル)映像の背景とポーズを保存できるフェイス・スワッピングの新たなタスクを導入する。 上記の制約に従って2つの顔ビデオを統合するために,ロバストなブレンディング操作を学習して動作するV2VフェイススワッピングシステムであるFaceOffを提案する。 まず、ビデオを量子化された潜在空間に縮小し、その後、縮小された空間にブレンドする。 FaceOffは自己指導型で訓練され、V2Vのフェイススワッピングの非自明な課題にしっかりと取り組みます。 実験セクションで示されるように、FaceOffは、定性的かつ定量的に代替アプローチを著しく上回る。

Doubles play an indispensable role in the movie industry. They take the place of the actors in dangerous stunt scenes or in scenes where the same actor plays multiple characters. The double's face is later replaced with the actor's face and expressions manually using expensive CGI technology, costing millions of dollars and taking months to complete. An automated, inexpensive, and fast way can be to use face-swapping techniques that aim to swap an identity from a source face video (or an image) to a target face video. However, such methods can not preserve the source expressions of the actor important for the scene's context. % essential for the scene. % that are essential in cinemas. To tackle this challenge, we introduce video-to-video (V2V) face-swapping, a novel task of face-swapping that can preserve (1) the identity and expressions of the source (actor) face video and (2) the background and pose of the target (double) video. We propose FaceOff, a V2V face-swapping system that operates by learning a robust blending operation to merge two face videos following the constraints above. It first reduces the videos to a quantized latent space and then blends them in the reduced space. FaceOff is trained in a self-supervised manner and robustly tackles the non-trivial challenges of V2V face-swapping. As shown in the experimental section, FaceOff significantly outperforms alternate approaches qualitatively and quantitatively.
翻訳日:2022-08-23 13:24:44 公開日:2022-08-21
# LWA-HAND:ハンドリコンストラクションのための軽量アテンションハンド

LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction ( http://arxiv.org/abs/2208.09815v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu(参考訳) 視覚現実感や拡張現実といったリアルタイムアプリケーションにおいて、効率的なトランスフォーマーによる両手再構成と対話しながら、ハンドレコンストラクションは大きな成功を収めている。 本稿では,軽量アテンションハンド (lwa-hand) と呼ばれる,単一のrgb画像から低フラップで手を取り替える手法を提案する。 効率的なアテンションアーキテクチャにおけるオクルージョンとインタラクションの課題を解決するため,3つのモバイルアテンションモジュールを導入する。 第1モジュールは、局所閉塞表現とグローバルイメージパッチ表現の両方を粗い方法で抽出する軽量な機能注意モジュールである。 第2のモジュールは、イメージコンテキストとハンド頂点を融合するクロスイメージおよびグラフブリッジモジュールである。 第3のモジュールは軽量なクロスアテンション機構であり、線形複雑度において両手のクロスアテンションに要素操作を用いる。 その結果得られたモデルは、interhand2.6mベンチマークで最先端モデルと比較して同等のパフォーマンスを達成している。 同時にフロップを0.47GFlops$に減らし、最先端モデルは10GFlops$から20GFlops$の間で重い計算を行う。

Hand reconstruction has achieved great success in real-time applications such as visual reality and augmented reality while interacting with two-hand reconstruction through efficient transformers is left unexplored. In this paper, we propose a method called lightweight attention hand (LWA-HAND) to reconstruct hands in low flops from a single RGB image. To solve the occlusion and interaction challenges in efficient attention architectures, we introduce three mobile attention modules. The first module is a lightweight feature attention module that extracts both local occlusion representation and global image patch representation in a coarse-to-fine manner. The second module is a cross image and graph bridge module which fuses image context and hand vertex. The third module is a lightweight cross-attention mechanism that uses element-wise operation for cross attention of two hands in linear complexity. The resulting model achieves comparable performance on the InterHand2.6M benchmark in comparison with the state-of-the-art models. Simultaneously, it reduces the flops to $0.47GFlops$ while the state-of-the-art models have heavy computations between $10GFlops$ and $20GFlops$.
翻訳日:2022-08-23 13:24:18 公開日:2022-08-21
# 航空画像分割のための奥行き支援ResiDualGAN

Depth-Assisted ResiDualGAN for Cross-Domain Aerial Images Semantic Segmentation ( http://arxiv.org/abs/2208.09823v1 )

ライセンス: Link先を確認
Yang Zhao, Peng Guo, Han Gao, Xiuwan Chen(参考訳) 非教師なしドメイン適応(unsupervised domain adaptation, uda)は、ドメイン間隙を最小化するアプローチである。 生成手法は、例えばクロスドメインセマンティックセグメンテーションのような下流タスクの性能を向上させるために、航空画像の領域ギャップを最小限にする一般的なアプローチである。 空中画像の場合、デジタルサーフェスモデル(DSM)は通常、ソースドメインとターゲットドメインの両方で利用可能である。 dsmの深さ情報は生成モデルに外部情報をもたらす。 しかし、これを利用する研究は少ない。 本稿では, 深度制御型ResiDualGAN (DRDG) を提案し, 深度管理型損失 (DSL) と深度サイクル整合性損失 (DCCL) を用いて深度情報を生成する。 実験の結果,DRDGはドメイン間セマンティックセグメンテーションタスクにおける生成手法間の最先端の精度に達することがわかった。

Unsupervised domain adaptation (UDA) is an approach to minimizing domain gap. Generative methods are common approaches to minimizing the domain gap of aerial images which improves the performance of the downstream tasks, e.g., cross-domain semantic segmentation. For aerial images, the digital surface model (DSM) is usually available in both the source domain and the target domain. Depth information in DSM brings external information to generative models. However, little research utilizes it. In this paper, depth-assisted ResiDualGAN (DRDG) is proposed where depth supervised loss (DSL), and depth cycle consistency loss (DCCL) are used to bring depth information into the generative model. Experimental results show that DRDG reaches state-of-the-art accuracy between generative methods in cross-domain semantic segmentation tasks.
翻訳日:2022-08-23 13:24:00 公開日:2022-08-21
# CenDerNet:Render-and-Compare 6D Pose 推定のための中心と曲率表現

CenDerNet: Center and Curvature Representations for Render-and-Compare 6D Pose Estimation ( http://arxiv.org/abs/2208.09829v1 )

ライセンス: Link先を確認
Peter De Roovere, Rembert Daems, Jonathan Croenen, Taoufik Bourgana, Joris de Hoog and Francis wyffels(参考訳) 中心および曲率表現に基づく多視点画像から6次元ポーズ推定を行うフレームワークであるCenDerNetを紹介する。 反射性のあるテクスチャレスオブジェクトの正確なポーズを見つけることは、産業用ロボティクスにとって重要な課題である。 まず、完全畳み込みニューラルネットワークは、各ビューにおける中心および曲率ヒートマップを予測する。第2に、中心ヒートマップは、オブジェクトインスタンスを検出して3dセンタを見つけるために使用され、第3の6dオブジェクトポーズは、3dセンタと曲率ヒートマップを使用して見積もる。 レンダリング・アンド・コンパレントアプローチを用いてビュー間のポーズを協調的に最適化することにより、本手法は自然にオクルージョンやオブジェクト対称性を処理する。 CenDerNetは、DIMOとT-LESSの2つの業界関連データセットにおいて、従来の手法よりも優れていることを示す。

We introduce CenDerNet, a framework for 6D pose estimation from multi-view images based on center and curvature representations. Finding precise poses for reflective, textureless objects is a key challenge for industrial robotics. Our approach consists of three stages: First, a fully convolutional neural network predicts center and curvature heatmaps for each view; Second, center heatmaps are used to detect object instances and find their 3D centers; Third, 6D object poses are estimated using 3D centers and curvature heatmaps. By jointly optimizing poses across views using a render-and-compare approach, our method naturally handles occlusions and object symmetries. We show that CenDerNet outperforms previous methods on two industry-relevant datasets: DIMO and T-LESS.
翻訳日:2022-08-23 13:23:46 公開日:2022-08-21
# qDWI-Morph: 胎児肺成熟度評価のための運動補償定量拡散強調MRI解析

qDWI-Morph: Motion-compensated quantitative Diffusion-Weighted MRI analysis for fetal lung maturity assessment ( http://arxiv.org/abs/2208.09836v1 )

ライセンス: Link先を確認
Yael Zaffrani-Reznikov, Onur Afacan, Sila Kurugol, Simon Warfield, Moti Freiman(参考訳) 胎児肺拡散強調MRI(DWI)データの定量的解析は、胎児肺成熟を間接的に反映する定量的イメージングバイオマーカーを提供する可能性を示している。 しかし, 胎児の運動は, 得られたDWIデータの定量的解析を妨げ, その結果, 信頼性の高い臨床利用が可能となった。 運動補償量DWI(qDWI)解析のための教師なしディープニューラルネットワークアーキテクチャであるqDWI-morphを導入する。 提案手法は,登録サブネットワークと定量的DWIモデル適合サブネットワークを結合する。 登録損失とモデル適合品質損失を組み合わせた生体インフォームド損失関数を最小化することにより,qDWIパラメータと運動モデルとを同時に推定する。 我々はqDWI-morph overの付加値を示した。 1)動作補償を伴わないベースラインqdwi解析 2)登録損失のみを取り入れたベースライン深層学習モデル。 qDWI形態は胎児肺DWIデータ(R-squared=0.32 vs. 0.13, 0.28)のin-vivo qDWI解析により妊娠年齢との相関を著しく改善した。 我々のqDWI-morphは、DWIデータの運動補償定量分析を可能にする可能性があり、非侵襲的胎児肺成熟度評価のための臨床的に実現可能なバイオマーカーを提供する。 私たちのコードは、https://github.com/TechnionComputationalMRILab/qDWI-Morphで利用可能です。

Quantitative analysis of fetal lung Diffusion-Weighted MRI (DWI) data shows potential in providing quantitative imaging biomarkers that indirectly reflect fetal lung maturation. However, fetal motion during the acquisition hampered quantitative analysis of the acquired DWI data and, consequently, reliable clinical utilization. We introduce qDWI-morph, an unsupervised deep-neural-network architecture for motion compensated quantitative DWI (qDWI) analysis. Our approach couples a registration sub-network with a quantitative DWI model fitting sub-network. We simultaneously estimate the qDWI parameters and the motion model by minimizing a bio-physically-informed loss function integrating a registration loss and a model fitting quality loss. We demonstrated the added-value of qDWI-morph over: 1) a baseline qDWI analysis without motion compensation and 2) a baseline deep-learning model incorporating registration loss solely. The qDWI-morph achieved a substantially improved correlation with the gestational age through in-vivo qDWI analysis of fetal lung DWI data (R-squared=0.32 vs. 0.13, 0.28). Our qDWI-morph has the potential to enable motion-compensated quantitative analysis of DWI data and to provide clinically feasible bio-markers for non-invasive fetal lung maturity assessment. Our code is available at: https://github.com/TechnionComputationalMRILab/qDWI-Morph.
翻訳日:2022-08-23 13:23:32 公開日:2022-08-21
# CoDER: 画像テキスト検索のための多元性感性モーメントコントラスト学習

CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval ( http://arxiv.org/abs/2208.09843v1 )

ライセンス: Link先を確認
Haoran Wang, Dongliang He, Wenhao Wu, Boyang Xia, Min Yang, Fu Li, Yunlong Yu, Zhong Ji, Errui Ding, Jingdong Wang(参考訳) Image-Text Retrieval (ITR) は視覚的・言語的モダリティをブリッジする上で困難である。 コントラスト学習は、ほとんどの先行芸術で採用されている。 限定的な画像とテキストのペアを除いては、拘束学習の能力は、外部知識の無知だけでなく、手動で負のペアを重み付けすることで制限される。 本稿では,クロスモーダル表現を改善するために,共用多元性感性モーメント・コンストラシティブ・ラーニング(CODER)を提案する。 まず、多様性に敏感な新しいコントラスト学習(DCL)アーキテクチャを考案する。 画像テキスト対のスケールを拡大するために動的辞書を導入し,適応的な負の重み付けによって多様性に敏感性を実現する。 さらに2つのブランチがCODERで設計されている。 画像/テキストからインスタンスレベルの埋め込みを学び、その埋め込みに基づいて入力画像/テキストの擬似オンラインクラスタリングラベルを生成する。 一方、他のブランチは、コモンセンス知識グラフからクエリを学習し、両方のモダリティのコンセプトレベルの記述子を形成する。 その後、両ブランチはDCLを利用してクロスモーダル埋め込み空間を整列し、さらに擬似クラスタリングラベル予測損失を利用して第2ブランチの概念レベルの表現学習を促進する。 mscocoとflicker30kという2つの人気のあるベンチマークで行った広範囲な実験は、最先端のアプローチを著しく上回っている。

Image-Text Retrieval (ITR) is challenging in bridging visual and lingual modalities. Contrastive learning has been adopted by most prior arts. Except for limited amount of negative image-text pairs, the capability of constrastive learning is restricted by manually weighting negative pairs as well as unawareness of external knowledge. In this paper, we propose our novel Coupled Diversity-Sensitive Momentum Constrastive Learning (CODER) for improving cross-modal representation. Firstly, a novel diversity-sensitive contrastive learning (DCL) architecture is invented. We introduce dynamic dictionaries for both modalities to enlarge the scale of image-text pairs, and diversity-sensitiveness is achieved by adaptive negative pair weighting. Furthermore, two branches are designed in CODER. One learns instance-level embeddings from image/text, and it also generates pseudo online clustering labels for its input image/text based on their embeddings. Meanwhile, the other branch learns to query from commonsense knowledge graph to form concept-level descriptors for both modalities. Afterwards, both branches leverage DCL to align the cross-modal embedding spaces while an extra pseudo clustering label prediction loss is utilized to promote concept-level representation learning for the second branch. Extensive experiments conducted on two popular benchmarks, i.e. MSCOCO and Flicker30K, validate CODER remarkably outperforms the state-of-the-art approaches.
翻訳日:2022-08-23 13:23:12 公開日:2022-08-21
# cycletrans:可視赤外人物再同定のための中立的かつ差別的特徴の学習

CycleTrans: Learning Neutral yet Discriminative Features for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2208.09844v1 )

ライセンス: Link先を確認
Qiong Wu, Jiaer Xia, Pingyang Dai, Yiyi Zhou, Yongjian Wu, Rongrong Ji(参考訳) Visible-infrared person re-identification (VI-ReID) は、可視・赤外線モダリティ間で同一人物をマッチングするタスクである。 主な課題は、異なるスペクトルで動作するカメラによって生じるモダリティギャップである。 既存のVI-ReID手法は主に、特徴識別性を犠牲にして、モダリティを越えて一般的な特徴を学習することに焦点を当てている。 そこで本研究では,ニュートラルかつ識別的特徴学習のための新しいサイクル構築型ネットワークであるcycletransを提案する。 具体的には、CycleTransは軽量なKCM(Knowledge Capturing Module)を使用して、擬似クエリに従ってモダリティ関連機能マップからリッチなセマンティクスをキャプチャする。 その後、DMM(Disdisrepancy Modeling Module)が展開され、これらの特徴をモダリティ非関連プロトタイプに従って中立的なものに変換する。 特徴の識別性を確保するため、さらに2つのKCMが機能サイクル構築のためにデプロイされる。 サイクル構成により,本手法は可視・近赤外画像に対して有効な中性特徴を学習し,その有能な意味を保存できる。 SYSU-MM01とRegDBデータセットの大規模な実験は、CycleTransの利点を最先端の手法の流行に対して検証し、SYSU-MM01のランク1では+4.57%、RegDBのランク1では+2.2%である。

Visible-infrared person re-identification (VI-ReID) is a task of matching the same individuals across the visible and infrared modalities. Its main challenge lies in the modality gap caused by cameras operating on different spectra. Existing VI-ReID methods mainly focus on learning general features across modalities, often at the expense of feature discriminability. To address this issue, we present a novel cycle-construction-based network for neutral yet discriminative feature learning, termed CycleTrans. Specifically, CycleTrans uses a lightweight Knowledge Capturing Module (KCM) to capture rich semantics from the modality-relevant feature maps according to pseudo queries. Afterwards, a Discrepancy Modeling Module (DMM) is deployed to transform these features into neutral ones according to the modality-irrelevant prototypes. To ensure feature discriminability, another two KCMs are further deployed for feature cycle constructions. With cycle construction, our method can learn effective neutral features for visible and infrared images while preserving their salient semantics. Extensive experiments on SYSU-MM01 and RegDB datasets validate the merits of CycleTrans against a flurry of state-of-the-art methods, +4.57% on rank-1 in SYSU-MM01 and +2.2% on rank-1 in RegDB.
翻訳日:2022-08-23 13:22:49 公開日:2022-08-21
# オブジェクトは動く:幾何変換による3次元変化検出

Objects Can Move: 3D Change Detection by Geometric Transformation Constistency ( http://arxiv.org/abs/2208.09870v1 )

ライセンス: Link先を確認
Aikaterini Adam, Torsten Sattler, Konstantinos Karantzalos and Tomas Pajdla(参考訳) AR/VRアプリケーションとロボットは、シーンがいつ変わったかを知る必要がある。 例えば、オブジェクトがシーンから移動、追加、削除される場合です。 本研究では,シーン変化のみに基づく3次元オブジェクト探索手法を提案する。 提案手法では,オブジェクトとは何かという仮定をエンコードする必要はなく,そのコヒーレントな動きを利用してオブジェクトを発見する。 変化はまず深度マップの相違として検出され、剛体運動を受けると物体として分割される。 グラフカット最適化は、変化ラベルを幾何学的に一貫した領域に伝播する。 実験により,3rscanデータセットにおける競合ベースラインに対する最先端性能が得られた。 このメソッドのソースコードはhttps://github.com/katadam/objectscanmoveにあります。

AR/VR applications and robots need to know when the scene has changed. An example is when objects are moved, added, or removed from the scene. We propose a 3D object discovery method that is based only on scene changes. Our method does not need to encode any assumptions about what is an object, but rather discovers objects by exploiting their coherent move. Changes are initially detected as differences in the depth maps and segmented as objects if they undergo rigid motions. A graph cut optimization propagates the changing labels to geometrically consistent regions. Experiments show that our method achieves state-of-the-art performance on the 3RScan dataset against competitive baselines. The source code of our method can be found at https://github.com/katadam/ObjectsCanMove.
翻訳日:2022-08-23 13:22:22 公開日:2022-08-21
# DPTNet:シーンテキスト検出のためのデュアルパストランスアーキテクチャ

DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection ( http://arxiv.org/abs/2208.09878v1 )

ライセンス: Link先を確認
Jingyu Lin, Jie Jiang, Yan Yan, Chunchao Guo, Hongfa Wang, Wei Liu, Hanzi Wang(参考訳) 深層学習の繁栄は、シーンテキストの検出の急速な進歩に寄与する。 畳み込みネットワークを用いた手法では,任意の形状のテキストインスタンスや極端なアスペクト比の検出が優れているため,セグメンテーションベースの手法が注目されている。 しかし,ボトムアップ手法はセグメンテーションモデルの性能に制限されている。 本稿では,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する簡易かつ効果的なアーキテクチャであるdptnet(dual-path transformer network)を提案する。 さらに,コンボリューションネットワークと強力な自己認識機構を統合し,注目経路と畳み込み経路の相補的な手がかりを提供する並列設計を提案する。 さらに,両経路にまたがる双方向相互作用モジュールを開発し,チャネルと空間次元の補足的な手がかりを提供する。 また,追加のマルチヘッドアテンション層を付加することにより,集中操作を改良する。 我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。

The prosperity of deep learning contributes to the rapid progress in scene text detection. Among all the methods with convolutional networks, segmentation-based ones have drawn extensive attention due to their superiority in detecting text instances of arbitrary shapes and extreme aspect ratios. However, the bottom-up methods are limited to the performance of their segmentation models. In this paper, we propose DPTNet (Dual-Path Transformer Network), a simple yet effective architecture to model the global and local information for the scene text detection task. We further propose a parallel design that integrates the convolutional network with a powerful self-attention mechanism to provide complementary clues between the attention path and convolutional path. Moreover, a bi-directional interaction module across the two paths is developed to provide complementary clues in the channel and spatial dimensions. We also upgrade the concentration operation by adding an extra multi-head attention layer to it. Our DPTNet achieves state-of-the-art results on the MSRA-TD500 dataset, and provides competitive results on other standard benchmarks in terms of both detection accuracy and speed.
翻訳日:2022-08-23 13:22:13 公開日:2022-08-21
# 超音波乳がん診断のための相関対応コントラスト学習を用いた仮面ビデオモデリング

Masked Video Modeling with Correlation-aware Contrastive Learning for Breast Cancer Diagnosis in Ultrasound ( http://arxiv.org/abs/2208.09881v1 )

ライセンス: Link先を確認
Zehui Lin, Ruobing Huang, Dong Ni, Jiayi Wu, Baoming Luo(参考訳) 乳癌は女性のがん死の主要な原因の1つである。 乳房検診の主要な出力として,乳房超音波(US)ビデオには,がん診断のための排他的ダイナミック情報が含まれている。 しかし、ビデオ分析のためのトレーニングモデルは、注釈が高価なvoluminousデータセットを必要とするため、ささいなものではない。 さらに, 乳腺病変の診断には, クラス間類似性やクラス内変動などの特異な課題がある。 本稿では,コンピュータ支援乳がん診断においてUSビデオを直接活用する先駆的アプローチを提案する。 マスク付きビデオモデリングをプリトランとして利用し、データセットのサイズや詳細なアノテーションへの依存を減らす。 また,良性病変と悪性病変との内部・外的関係の同定を容易にするために,相関対応型コントラスト損失法が開発されている。 実験の結果,提案手法は有望な分類性能を達成し,他の最先端手法よりも優れていることがわかった。

Breast cancer is one of the leading causes of cancer deaths in women. As the primary output of breast screening, breast ultrasound (US) video contains exclusive dynamic information for cancer diagnosis. However, training models for video analysis is non-trivial as it requires a voluminous dataset which is also expensive to annotate. Furthermore, the diagnosis of breast lesion faces unique challenges such as inter-class similarity and intra-class variation. In this paper, we propose a pioneering approach that directly utilizes US videos in computer-aided breast cancer diagnosis. It leverages masked video modeling as pretraning to reduce reliance on dataset size and detailed annotations. Moreover, a correlation-aware contrastive loss is developed to facilitate the identifying of the internal and external relationship between benign and malignant lesions. Experimental results show that our proposed approach achieved promising classification performance and can outperform other state-of-the-art methods.
翻訳日:2022-08-23 13:21:55 公開日:2022-08-21
# RGBD1K:RGB-Dオブジェクト追跡のための大規模データセットとベンチマーク

RGBD1K: A Large-scale Dataset and Benchmark for RGB-D Object Tracking ( http://arxiv.org/abs/2208.09787v1 )

ライセンス: Link先を確認
Xue-Feng Zhu, Tianyang Xu, Zhangyong Tang, Zucheng Wu, Haodong Liu, Xiao Yang, Xiao-Jun Wu, Josef Kittler(参考訳) rgb-dオブジェクトトラッキングは最近注目を集めており、視覚と奥行きチャネルの共生により有望な性能を実現している。 しかし、注釈付きRGB-D追跡データが限られているため、最先端のRGB-Dトラッカーのほとんどは、オフライントレーニング段階における深度チャネルの基盤となるポテンシャルを完全に活用することなく、高性能なRGB-Dトラッカーの拡張である。 データセット不足問題に対処するため,RGBD1Kという新しいRGB-Dデータセットを報告した。 RGBD1Kには1,050のシーケンスがあり、合計2.5Mフレームがある。 一般的なRGB-DデータセットとRGBD1Kのトレーニングの利点を示すため,SPTと呼ばれるトランスフォーマーベースのRGB-Dトラッカーを,新しいデータセットを用いた将来のビジュアルオブジェクト追跡研究のベースラインとして開発する。 SPTトラッカーを用いた広範囲な実験により、RGBD1Kデータセットの可能性を実証し、RGB-Dトラッカーの性能を改善し、効率的なトラッカー設計の今後の発展を刺激する。 データセットとコードはプロジェクトのホームページで利用可能になる。

RGB-D object tracking has attracted considerable attention recently, achieving promising performance thanks to the symbiosis between visual and depth channels. However, given a limited amount of annotated RGB-D tracking data, most state-of-the-art RGB-D trackers are simple extensions of high-performance RGB-only trackers, without fully exploiting the underlying potential of the depth channel in the offline training stage. To address the dataset deficiency issue, a new RGB-D dataset named RGBD1K is released in this paper. The RGBD1K contains 1,050 sequences with about 2.5M frames in total. To demonstrate the benefits of training on a larger RGB-D data set in general, and RGBD1K in particular, we develop a transformer-based RGB-D tracker, named SPT, as a baseline for future visual object tracking studies using the new dataset. The results, of extensive experiments using the SPT tracker emonstrate the potential of the RGBD1K dataset to improve the performance of RGB-D tracking, inspiring future developments of effective tracker designs. The dataset and codes will be available on the project homepage: https://will.be.available.at.this.website.
翻訳日:2022-08-23 13:16:05 公開日:2022-08-21
# CAVを用いた断面制御システムの開発と回廊レベル影響評価

Development of a CAV-based Intersection Control System and Corridor Level Impact Assessment ( http://arxiv.org/abs/2208.09973v1 )

ライセンス: Link先を確認
Ardeshir Mirbakhsh, Joyoung Lee, Dejan Besenski(参考訳) 本稿では,画素予約アルゴリズムと深層強化学習(drl)決定論理を組み合わせたcavsの信号自由交差点制御システムと,提案モデルの廊下レベル影響評価について述べる。 画素予約アルゴリズムは潜在的な衝突操作を検出し、DRLロジックは車両の動きを最適化して衝突を避け、交差点での全体的な遅延を最小限にする。 提案方式は分散スパース座標系 (DSCLS) と呼ばれ、各車両は独自の制御論理を持ち、調整状態のみにおいて他の車両と相互作用する。 DRLのトレーニングコースにおけるランダムな動作の連鎖的な影響により、トレーニングされたモデルは前例のないボリューム条件に対処することができる。 開発したモデルの性能は,VISSIMソフトウェアにおける4つの交差点の廊下において,固定信号機,アクティベート信号機,LQF(Longest Queue First)制御システムなど,従来のCAVベースの制御システムと比較される。 シミュレーションの結果,提案手法は,他のCAV制御システムと比較して,中等度,高次,極端の容積状態において50%,29%,23%の遅延を減少させることがわかった。 走行時間、燃料消費量、排出ガス、サロゲート安全対策(ssm)も改善されている。

This paper presents a signal-free intersection control system for CAVs by combination of a pixel reservation algorithm and a Deep Reinforcement Learning (DRL) decision-making logic, followed by a corridor-level impact assessment of the proposed model. The pixel reservation algorithm detects potential colliding maneuvers and the DRL logic optimizes vehicles' movements to avoid collision and minimize the overall delay at the intersection. The proposed control system is called Decentralized Sparse Coordination System (DSCLS) since each vehicle has its own control logic and interacts with other vehicles in coordinated states only. Due to the chain impact of taking random actions in the DRL's training course, the trained model can deal with unprecedented volume conditions, which poses the main challenge in intersection management. The performance of the developed model is compared with conventional and CAV-based control systems, including fixed traffic lights, actuated traffic lights, and the Longest Queue First (LQF) control system under three volume regimes in a corridor of four intersections in VISSIM software. The simulation result revealed that the proposed model reduces delay by 50%, 29%, and 23% in moderate, high, and extreme volume regimes compared to the other CAV-based control system. Improvements in travel time, fuel consumption, emission, and Surrogate Safety Measures (SSM) are also noticeable.
翻訳日:2022-08-23 13:12:02 公開日:2022-08-21
# 言語技術のためのラベル付きte reo m\=aori英語バイリンガルデータベースの開発

The Development of a Labelled te reo M\=aori-English Bilingual Database for Language Technology ( http://arxiv.org/abs/2208.09778v1 )

ライセンス: Link先を確認
Jesin James, Isabella Shields, Vithya Yogarajan, Peter J. Keegan, Catherine Watson, Peter-Lucas Jones, and Keoni Mahelona(参考訳) ニュージーランドの先住民語であるTe reo M\=aori (M\=aori) は、言語技術で不足している。 M\=aori話者はバイリンガルであり、M\=aoriは英語でコードスイッチされる。 残念ながら、M\=aori言語技術、言語検出、M\=aori- Englishペア間のコードスウィッチ検出には最小限のリソースがある。 英語とM\=aoriはローマ語由来の正書法を用いて、言語とコードスイッチングの制限を検出する。 ほとんどのM\=aori言語検出は、言語専門家が手作業で行う。 本研究では,66,016,807語のM\=aori- English bilingual databaseを構築した。 ニュージーランド議会のハンサードの議論はデータベース構築に使われた。 言語ラベルは、言語固有のルールと専門家のマニュアルアノテーションを使って割り当てられる。 同じ綴りを持つ単語は、m\=aoriと英語には異なる意味を持つ。 これらの単語は、単語レベルの言語規則に基づいてM\=aoriまたは英語に分類することはできない。 そのため手動の注釈が必要であった。 また、メタデータ、年次分析、頻出語、文長、N-gramsなどのデータベースの様々な側面を報告する分析を報告する。 ここで開発されたデータベースは、Aotearoa New Zealandの将来の言語および音声技術開発のための貴重なツールである。 続いてデータベースにラベルをつける手法は、他の低リソースの言語ペアも従うことができる。

Te reo M\=aori (referred to as M\=aori), New Zealand's indigenous language, is under-resourced in language technology. M\=aori speakers are bilingual, where M\=aori is code-switched with English. Unfortunately, there are minimal resources available for M\=aori language technology, language detection and code-switch detection between M\=aori-English pair. Both English and M\=aori use Roman-derived orthography making rule-based systems for detecting language and code-switching restrictive. Most M\=aori language detection is done manually by language experts. This research builds a M\=aori-English bilingual database of 66,016,807 words with word-level language annotation. The New Zealand Parliament Hansard debates reports were used to build the database. The language labels are assigned using language-specific rules and expert manual annotations. Words with the same spelling, but different meanings, exist for M\=aori and English. These words could not be categorised as M\=aori or English based on word-level language rules. Hence, manual annotations were necessary. An analysis reporting the various aspects of the database such as metadata, year-wise analysis, frequently occurring words, sentence length and N-grams is also reported. The database developed here is a valuable tool for future language and speech technology development for Aotearoa New Zealand. The methodology followed to label the database can also be followed by other low-resourced language pairs.
翻訳日:2022-08-23 13:07:08 公開日:2022-08-21
# K12数学問題に対する知識点の自動タグ付け

Automatic tagging of knowledge points for K12 math problems ( http://arxiv.org/abs/2208.09867v1 )

ライセンス: Link先を確認
Xiaolu Wang, Ziqi Ding, Liangyu Chen(参考訳) 実践問題に対する知識ポイントの自動タグ付けは、質問ベースを管理し、教育の自動化と知性を向上させるための基礎である。 したがって, 実践問題に対する自動タグ付け技術の研究は, 実用上非常に重要である。 しかし,数学問題に対する知識点の自動タグ付けに関する研究はほとんどない。 数学のテキストは、記号や公式のようなユニークな要素を含むため、一般的なテキストよりも複雑な構造と意味を持っている。 したがって、一般的なドメインでテキスト分類技術を直接適用することで、知識ポイント予測の精度要件を満たすことは困難である。 本稿では,研究対象とするk12数学問題,ラベル・セマンティクス的注意に基づくラボモデル,テキスト特徴量を組み合わせたマルチラベル平滑化モデルを提案し,数学問題に対する知識点の自動タグ付けを改善する。 このモデルは、一般分野におけるテキスト分類技術と数学テキストの特徴を組み合わせたものである。 その結果,ラベル・セマンティック・アテンションやマルチラベル・スムーシングを用いたモデルでは,従来のBiLSTMモデルよりも精度,リコール,F1スコアの指標が向上し,LABSモデルでは両者が最良であることがわかった。 ラベル情報はニューラルネットワークを誘導し、問題テキストから意味のある情報を抽出することで、モデルのテキスト分類性能を向上させることができる。 さらに、テキスト特徴を組み合わせたマルチラベルスムーシングは、テキストとラベルの関係を十分に探求し、新しいデータに対するモデルの予測能力を改善し、モデルの分類精度を向上させることができる。

Automatic tagging of knowledge points for practice problems is the basis for managing question bases and improving the automation and intelligence of education. Therefore, it is of great practical significance to study the automatic tagging technology for practice problems. However, there are few studies on the automatic tagging of knowledge points for math problems. Math texts have more complex structures and semantics compared with general texts because they contain unique elements such as symbols and formulas. Therefore, it is difficult to meet the accuracy requirement of knowledge point prediction by directly applying the text classification techniques in general domains. In this paper, K12 math problems taken as the research object, the LABS model based on label-semantic attention and multi-label smoothing combining textual features is proposed to improve the automatic tagging of knowledge points for math problems. The model combines the text classification techniques in general domains and the unique features of math texts. The results show that the models using label-semantic attention or multi-label smoothing perform better on precision, recall, and F1-score metrics than the traditional BiLSTM model, while the LABS model using both performs best. It can be seen that label information can guide the neural networks to extract meaningful information from the problem text, which improves the text classification performance of the model. Moreover, multi-label smoothing combining textual features can fully explore the relationship between text and labels, improve the model's prediction ability for new data and improve the model's classification accuracy.
翻訳日:2022-08-23 13:06:50 公開日:2022-08-21
# キュリキュラム・フレームワークにおける整形クエリ同定のための構文認識BERT

A Syntax Aware BERT for Identifying Well-Formed Queries in a Curriculum Framework ( http://arxiv.org/abs/2208.09912v1 )

ライセンス: Link先を確認
Avinash Madasu and Anvesh Rao Vijjini(参考訳) 精巧なクエリは、問い合わせのやり方で定式化され、正しい質問文、スペル、文法で定義されるクエリとして定義される。 適切に構築されたクエリを特定することは重要なタスクであるが、それに対処しようとする作業はほとんどない。 本稿では,変換器を用いた言語モデルBidirectional Encoder Representations from Transformer (BERT)を提案する。 従来の作品からヒントを得たパート・オブ・音声の情報をBERTに付与する。 さらに,性能向上のために,複数のカリキュラムでモデルをトレーニングする。 タスク上のカリキュラム学習は、ベビーステップとワンパステクニックで実験されます。 提案されたアーキテクチャはそのタスクで非常にうまく機能する。 最良のアプローチは83.93%の精度を達成し、以前の最先端の75.0%を上回り、人間の平均上限88.4%近くに達する。

A well formed query is defined as a query which is formulated in the manner of an inquiry, and with correct interrogatives, spelling and grammar. While identifying well formed queries is an important task, few works have attempted to address it. In this paper we propose transformer based language model - Bidirectional Encoder Representations from Transformers (BERT) to this task. We further imbibe BERT with parts-of-speech information inspired from earlier works. Furthermore, we also train the model in multiple curriculum settings for improvement in performance. Curriculum Learning over the task is experimented with Baby Steps and One Pass techniques. Proposed architecture performs exceedingly well on the task. The best approach achieves accuracy of 83.93%, outperforming previous state-of-the-art at 75.0% and reaching close to the approximate human upper bound of 88.4%.
翻訳日:2022-08-23 13:06:23 公開日:2022-08-21
# MockingBERT: NLPモデルにレジリエンスを反復的に付加する方法

MockingBERT: A Method for Retroactively Adding Resilience to NLP Models ( http://arxiv.org/abs/2208.09915v1 )

ライセンス: Link先を確認
Jan Jezabek and Akash Singh(参考訳) 事故か敵かのミススペルからNLPモデルを保護することが、過去数年間の研究の関心の対象となっている。 既存の修復は、通常、精度を損なうか、新しいタイプの攻撃ごとに完全なモデルの再訓練を必要とする。 そこで本稿では,トランスフォーマーベースNLPモデルに再帰的にレジリエンスを付加する手法を提案する。 この堅牢性は、元のNLPモデルの再トレーニングを必要とせず、ミススペルなしで入力に対する言語理解性能を最小限に抑えることができる。 さらに,攻撃に対するモデルのレジリエンスを評価するのに要するコストを大幅に削減する,敵対的ミススペルを生成する新しい効率的な近似手法を提案する。

Protecting NLP models against misspellings whether accidental or adversarial has been the object of research interest for the past few years. Existing remediations have typically either compromised accuracy or required full model re-training with each new class of attacks. We propose a novel method of retroactively adding resilience to misspellings to transformer-based NLP models. This robustness can be achieved without the need for re-training of the original NLP model and with only a minimal loss of language understanding performance on inputs without misspellings. Additionally we propose a new efficient approximate method of generating adversarial misspellings, which significantly reduces the cost needed to evaluate a model's resilience to adversarial attacks.
翻訳日:2022-08-23 13:06:11 公開日:2022-08-21
# GRETEL:長い文書抽出要約のためのグラフコントラストトピック拡張言語モデル

GRETEL: Graph Contrastive Topic Enhanced Language Model for Long Document Extractive Summarization ( http://arxiv.org/abs/2208.09982v1 )

ライセンス: Link先を確認
Qianqian Xie and Jimin Huang and Tulika Saha and Sophia Ananiadou(参考訳) 近年,学習済み言語モデル (PLM) にニューラルトピックモデル (NTM) が組み込まれ,テキスト要約のための大域的意味情報を収集している。 しかし、これらの手法では、グローバル意味情報のキャプチャと統合の方法に制限が残っている。 本稿では,グラフコントラストトピックモデルと事前学習された言語モデルを組み合わせた,グラフコントラストトピック拡張言語モデル(gretel)を提案する。 グラフコントラストトピックモデルは、グローバルな意味情報を PLM に取り込み、よりうまく取り込み、階層的なトランスフォーマーエンコーダとグラフコントラスト学習を統合し、グローバルな文書コンテキストと金の要約から意味情報を融合させる。 この目的のために、GRETELは、最適でないトピックをカバーする冗長な文ではなく、金の要約にトポロジ的に関係する有能な文を効率的に抽出することをモデルに推奨する。 一般領域およびバイオメディカルデータセットの実験結果から,提案手法がSOTA法より優れていることが示された。

Recently, neural topic models (NTMs) have been incorporated into pre-trained language models (PLMs), to capture the global semantic information for text summarization. However, in these methods, there remain limitations in the way they capture and integrate the global semantic information. In this paper, we propose a novel model, the graph contrastive topic enhanced language model (GRETEL), that incorporates the graph contrastive topic model with the pre-trained language model, to fully leverage both the global and local contextual semantics for long document extractive summarization. To better capture and incorporate the global semantic information into PLMs, the graph contrastive topic model integrates the hierarchical transformer encoder and the graph contrastive learning to fuse the semantic information from the global document context and the gold summary. To this end, GRETEL encourages the model to efficiently extract salient sentences that are topically related to the gold summary, rather than redundant sentences that cover sub-optimal topics. Experimental results on both general domain and biomedical datasets demonstrate that our proposed method outperforms SOTA methods.
翻訳日:2022-08-23 13:05:58 公開日:2022-08-21
# 多重ランダム特徴モデルにおける多重降下

Multiple Descent in the Multiple Random Feature Model ( http://arxiv.org/abs/2208.09897v1 )

ライセンス: Link先を確認
Xuran Meng, Jianfeng Yao, Yuan Cao(参考訳) モデルパラメータの数が増えるにつれて、過剰なリスクは最初に$\mathsf{u}$-shapeになり、モデルが過度に過度にパラメータ化されると再び減少する。 この現象は線形モデル、ランダム特徴モデル、カーネルメソッドなど、近年の研究によって研究されているが、理論上は完全には理解されていない。 本稿では,2種類のランダム特徴からなる二重ランダム特徴モデル(drfm)を考察し,リッジ回帰におけるdrfmによる過剰なリスクについて検討する。 トレーニングサンプルサイズ,データ次元,ランダム特徴の次元が比例的に無限大となる高次元枠組みにおいて,過剰リスクの正確な限界を計算する。 この計算に基づいて,drfmのリスク曲線が三重降下を示すことを実証する。 次に, 3次降下現象の説明を行い, ランダム特徴量, 正規化パラメータ, 信号対雑音比の比が, drfmのリスク曲線の形状をどのように制御するかについて議論した。 最後に、この研究をMRFM(Multiple random Feature Model)に拡張し、$K$のランダムな特徴を持つMRFMが$(K+1)$-fold降下を示すことを示した。 分析では、特定の降下数を持つリスク曲線は、一般にランダムな特徴に基づく回帰が存在することを指摘している。 もう1つの興味深い発見は、ニューラルネットワークが"neural tangent kernel"レジームにある場合、文献に報告されたリスクピークの位置を回復できることである。

Recent works have demonstrated a double descent phenomenon in over-parameterized learning: as the number of model parameters increases, the excess risk has a $\mathsf{U}$-shape at beginning, then decreases again when the model is highly over-parameterized. Although this phenomenon has been investigated by recent works under different settings such as linear models, random feature models and kernel methods, it has not been fully understood in theory. In this paper, we consider a double random feature model (DRFM) consisting of two types of random features, and study the excess risk achieved by the DRFM in ridge regression. We calculate the precise limit of the excess risk under the high dimensional framework where the training sample size, the dimension of data, and the dimension of random features tend to infinity proportionally. Based on the calculation, we demonstrate that the risk curves of DRFMs can exhibit triple descent. We then provide an explanation of the triple descent phenomenon, and discuss how the ratio between random feature dimensions, the regularization parameter and the signal-to-noise ratio control the shape of the risk curves of DRFMs. At last, we extend our study to the multiple random feature model (MRFM), and show that MRFMs with $K$ types of random features may exhibit $(K+1)$-fold descent. Our analysis points out that risk curves with a specific number of descent generally exist in random feature based regression. Another interesting finding is that our result can recover the risk peak locations reported in the literature when learning neural networks are in the "neural tangent kernel" regime.
翻訳日:2022-08-23 12:55:25 公開日:2022-08-21
# Do-AIQ:AIミスラベル検出アルゴリズムの品質評価のための実験的アプローチ

Do-AIQ: A Design-of-Experiment Approach to Quality Evaluation of AI Mislabel Detection Algorithm ( http://arxiv.org/abs/2208.09953v1 )

ライセンス: Link先を確認
J. Lian, K. Choi, B. Veeramani, A. Hu, L. Freeman, E. Bowen, X. Deng(参考訳) 人工知能(AI)アルゴリズムの品質は、サイバーセキュリティ、ヘルスケア、自動運転など、さまざまなアプリケーションにアルゴリズムを確実に採用する上で非常に重要である。 本研究は、do-aiqと呼ばれるaiアルゴリズムの質を体系的に評価する実験的手法を用いた原則的枠組みを提案する。 具体的には、AIミスラベルデータアルゴリズムの品質をデータ中毒に対して調査することに焦点を当てる。 AIアルゴリズムのパフォーマンスは、アルゴリズムにおけるハイパーパラメータとデータ品質、特にデータミスラベル、クラス不均衡、データタイプの影響を受けます。 そこで我々は,AIアルゴリズムの品質を評価するために,高次元制約空間における効率的な空間充填設計を構築するための実験フレームワークを構築し,加法ガウス法を用いて効果的なサロゲートモデルを構築し,AIアルゴリズムの品質のエミュレーションを可能にする。 理論的および数値的研究は、提案フレームワークの利点を正当化するために行われた。 提案したフレームワークは、堅牢性、再現性、透明性のAI保証を強化するために、AIアルゴリズムの例を設定できる。

The quality of Artificial Intelligence (AI) algorithms is of significant importance for confidently adopting algorithms in various applications such as cybersecurity, healthcare, and autonomous driving. This work presents a principled framework of using a design-of-experimental approach to systematically evaluate the quality of AI algorithms, named as Do-AIQ. Specifically, we focus on investigating the quality of the AI mislabel data algorithm against data poisoning. The performance of AI algorithms is affected by hyperparameters in the algorithm and data quality, particularly, data mislabeling, class imbalance, and data types. To evaluate the quality of the AI algorithms and obtain a trustworthy assessment on the quality of the algorithms, we establish a design-of-experiment framework to construct an efficient space-filling design in a high-dimensional constraint space and develop an effective surrogate model using additive Gaussian process to enable the emulation of the quality of AI algorithms. Both theoretical and numerical studies are conducted to justify the merits of the proposed framework. The proposed framework can set an exemplar for AI algorithm to enhance the AI assurance of robustness, reproducibility, and transparency.
翻訳日:2022-08-23 12:54:58 公開日:2022-08-21
# ポイントDP:3Dポイントクラウド認識における逆攻撃に対する拡散駆動的浄化

PointDP: Diffusion-driven Purification against Adversarial Attacks on 3D Point Cloud Recognition ( http://arxiv.org/abs/2208.09801v1 )

ライセンス: Link先を確認
Jiachen Sun, Weili Nie, Zhiding Yu, Z. Morley Mao, and Chaowei Xiao(参考訳) 3d point cloudは、自動運転、ロボティクス、医療画像など、多くの現実世界のアプリケーションにおいて、重要なデータ表現になりつつある。 ディープラーニングの成功は物理的な世界での3Dポイントクラウドの採用をさらに加速させるが、ディープラーニングは敵の攻撃に対する脆弱性で悪名高い。 本研究では, 現状の実証的防御, 対角訓練が, 勾配難読化による3次元点雲モデルの適用に大きく制限されていることを最初に確認する。 さらに,拡散モデルを利用して3次元攻撃に対する防御を行うPポイントDPを提案する。 我々は,6つの代表的3Dポイントクラウドアーキテクチャ上でPointDPを広範囲に評価し,その低バウンドロバスト性を示すために10以上の強い適応攻撃を利用する。 評価の結果,pointdpは最先端の浄化法よりも強靭性が向上した。 ランダム化平滑化とPointDPを併用した認証防御の成果は、近い将来に含まれる予定である。

3D Point cloud is becoming a critical data representation in many real-world applications like autonomous driving, robotics, and medical imaging. Although the success of deep learning further accelerates the adoption of 3D point clouds in the physical world, deep learning is notorious for its vulnerability to adversarial attacks. In this work, we first identify that the state-of-the-art empirical defense, adversarial training, has a major limitation in applying to 3D point cloud models due to gradient obfuscation. We further propose PointDP, a purification strategy that leverages diffusion models to defend against 3D adversarial attacks. We extensively evaluate PointDP on six representative 3D point cloud architectures, and leverage 10+ strong and adaptive attacks to demonstrate its lower-bound robustness. Our evaluation shows that PointDP achieves significantly better robustness than state-of-the-art purification methods under strong attacks. Results of certified defenses on randomized smoothing combined with PointDP will be included in the near future.
翻訳日:2022-08-23 12:53:13 公開日:2022-08-21
# グループスペクトル規則化による長期データのためのGANの改善

Improving GANs for Long-Tailed Data through Group Spectral Regularization ( http://arxiv.org/abs/2208.09932v1 )

ライセンス: Link先を確認
Harsh Rangwani, Naman Jaswani, Tejan Karmali, Varun Jampani, R. Venkatesh Babu(参考訳) 深層ロングテール学習(deep long-tailed learning)は、実用的で実世界の不均衡分布上で有用なディープネットワークをトレーニングすることを目的としている。 ロングテール分布の視覚認識のための識別モデルを訓練するための大規模な研究がなされている。 対照的に、我々は長期分布上の画像生成モデルのクラスである条件付き生成適応ネットワークを訓練することを目指している。 認識と同様、画像生成の最先端手法もテールクラスの性能劣化に悩まされている。 性能劣化は主にテールクラスのクラス特異的モード崩壊によるものであり,条件付きパラメータ行列のスペクトル爆発と相関することが確認された。 本稿では, スペクトル爆発によるモード崩壊を防止し, テールクラスにおいても多様な画像生成が可能である新しいグループスペクトル正規化器(gSR)を提案する。 我々はgsrが既存の拡張と正規化技術を効果的に組み合わせ、ロングテールデータでの最先端画像生成性能をもたらすことを見出した。 広範囲な実験により、不均衡の度合いの異なる長いデータセットに対する正則化器の有効性が実証された。

Deep long-tailed learning aims to train useful deep networks on practical, real-world imbalanced distributions, wherein most labels of the tail classes are associated with a few samples. There has been a large body of work to train discriminative models for visual recognition on long-tailed distribution. In contrast, we aim to train conditional Generative Adversarial Networks, a class of image generation models on long-tailed distributions. We find that similar to recognition, state-of-the-art methods for image generation also suffer from performance degradation on tail classes. The performance degradation is mainly due to class-specific mode collapse for tail classes, which we observe to be correlated with the spectral explosion of the conditioning parameter matrix. We propose a novel group Spectral Regularizer (gSR) that prevents the spectral explosion alleviating mode collapse, which results in diverse and plausible image generation even for tail classes. We find that gSR effectively combines with existing augmentation and regularization techniques, leading to state-of-the-art image generation performance on long-tailed data. Extensive experiments demonstrate the efficacy of our regularizer on long-tailed datasets with different degrees of imbalance.
翻訳日:2022-08-23 12:52:55 公開日:2022-08-21
# パフォーマンス、不透明性、結果、仮定: 機械学習ソリューションの責任計画のための単純な質問

Performance, Opaqueness, Consequences, and Assumptions: Simple questions for responsible planning of machine learning solutions ( http://arxiv.org/abs/2208.09966v1 )

ライセンス: Link先を確認
Przemyslaw Biecek(参考訳) データ革命は、データ駆動ソリューションに対する大きな需要を生み出した。 この需要は、予測モデルの迅速な構築を可能にするデータサイエンティストを志すための、多くの使いやすいツールとトレーニングを促進する。 今日では、詳細な計画や検証なしに、数学の破壊兵器を簡単に構築、展開することができる。 これはAIの失敗のリスト、すなわち経済的損失を招いたり、平等や自由、正義といった民主的価値を侵害するデプロイメントを急速に拡張する。 モデル開発に関する計画やルール、標準の欠如は、"AIの非構造化"につながります。 この問題は、検証債務、再現性危機、説明可能性の欠如といった異なる名前で報告される。 AI障害の事後分析は、モデル開発やデータ取得の初期段階で犯された誤りをしばしば明らかにする。 したがって、有害なモデルを配置する結果を修正する代わりに、初期計画段階により多くの注意を払って可能な限り早期に防止する。 本稿では,AIソリューションの計画を支援するための,迅速かつシンプルなフレームワークを提案する。 POCAフレームワークは、パフォーマンス、不透明性、連続性、そして仮定の4つの柱に基づいている。 任意のモデルが構築され、データが収集される前に、期待値を設定し、AIソリューションの制約を計画するのに役立つ。 POCA法の助けを借りて、モデル構築プロセスの予備要件を定義することができ、コストのかかるモデルミス特定エラーをできるだけ早く特定したり、回避したりすることができる。 AI研究者、プロダクトオーナ、ビジネスアナリストは、AIソリューションを構築する初期段階でこのフレームワークを使用することができる。

The data revolution has generated a huge demand for data-driven solutions. This demand propels a growing number of easy-to-use tools and training for aspiring data scientists that enable the rapid building of predictive models. Today, weapons of math destruction can be easily built and deployed without detailed planning and validation. This rapidly extends the list of AI failures, i.e. deployments that lead to financial losses or even violate democratic values such as equality, freedom and justice. The lack of planning, rules and standards around the model development leads to the ,,anarchisation of AI". This problem is reported under different names such as validation debt, reproducibility crisis, and lack of explainability. Post-mortem analysis of AI failures often reveals mistakes made in the early phase of model development or data acquisition. Thus, instead of curing the consequences of deploying harmful models, we shall prevent them as early as possible by putting more attention to the initial planning stage. In this paper, we propose a quick and simple framework to support planning of AI solutions. The POCA framework is based on four pillars: Performance, Opaqueness, Consequences, and Assumptions. It helps to set the expectations and plan the constraints for the AI solution before any model is built and any data is collected. With the help of the POCA method, preliminary requirements can be defined for the model-building process, so that costly model misspecification errors can be identified as soon as possible or even avoided. AI researchers, product owners and business analysts can use this framework in the initial stages of building AI solutions.
翻訳日:2022-08-23 12:48:57 公開日:2022-08-21
# 意味強調画像クラスタリング

Semantic-enhanced Image Clustering ( http://arxiv.org/abs/2208.09849v1 )

ライセンス: Link先を確認
Shaotian Cai, Liping Qiu, Xiaojun Chen, Qin Zhang, Longteng Chen(参考訳) 画像クラスタリングはコンピュータビジョンにおいて重要かつオープンな課題である。 画像クラスタリングタスクを解決するために多くの方法が提案されているが、画像の特徴に従って画像やクラスタを探索するのみであり、視覚的に類似しているが意味的に異なる画像を区別できない。 本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。 クラス名が知られているゼロショット設定とは異なり、この設定でクラスタの数しか分かっていません。 したがって、画像を適切な意味空間にマッピングする方法と、画像と意味空間の両方から画像をクラスタリングする方法は、2つの重要な問題である。 そこで,本稿では,視覚言語事前学習モデルクリップを用いた新しい画像クラスタリング手法である \textbf{semantic-enhanced image clustering (sic)"を提案する。 本手法では,与えられた画像を適切な意味空間にマップする手法を最初に提案し,画像と意味論の関係に応じて擬似ラベルを生成する効率的な手法を提案する。 最後に,画像空間と意味空間の両方において,自己教師あり学習方式で一貫性学習によるクラスタリングを実現することを提案する。 収束解析に関する理論的結果は,提案手法が部分線形速度で収束することを示す。 また,予測リスクに関する理論的分析により,近隣の整合性の向上や予測信頼度の向上,近隣の不均衡の低減などにより予測リスクを低減できることが示された。 5つのベンチマークデータセットの実験結果から,新しい手法の優位性が明らかとなった。

Image clustering is an important, and open challenge task in computer vision. Although many methods have been proposed to solve the image clustering task, they only explore images and uncover clusters according to the image features, thus are unable to distinguish visually similar but semantically different images. In this paper, we propose to investigate the task of image clustering with the help of visual-language pre-training model. Different from the zero-shot setting in which the class names are known, we only know the number of clusters in this setting. Therefore, how to map images to a proper semantic space and how to cluster images from both image and semantic spaces are two key problems. To solve the above problems, we propose a novel image clustering method guided by the visual-language pre-training model CLIP, named as \textbf{Semantic-enhanced Image Clustering (SIC)}. In this new method, we propose a method to map the given images to a proper semantic space first and efficient methods to generate pseudo-labels according to the relationships between images and semantics. Finally, we propose to perform clustering with the consistency learning in both image space and semantic space, in a self-supervised learning fashion. Theoretical result on convergence analysis shows that our proposed method can converge in sublinear speed. Theoretical analysis on expectation risk also shows that we can reduce the expectation risk by improving the neighborhood consistency or prediction confidence or reducing neighborhood imbalance. Experimental results on five benchmark datasets clearly show the superiority of our new method.
翻訳日:2022-08-23 12:43:17 公開日:2022-08-21
# 混合サンプルデータ拡張の統一的解析:損失関数の観点から

A Unified Analysis of Mixed Sample Data Augmentation: A Loss Function Perspective ( http://arxiv.org/abs/2208.09913v1 )

ライセンス: Link先を確認
Chanwoo Park and Sangdoo Yun and Sanghyuk Chun(参考訳) 本研究では,mixup や cutmix などの混合サンプルデータ拡張 (msda) に関する最初の統一的理論解析を提案する。 その結果,MSDAは混合戦略の選択によらず,基礎となるトレーニング損失の画素レベルの正規化と第1層のパラメータの正規化として振る舞うことがわかった。 同様に,我々は,msdaのトレーニング戦略がバニラのトレーニング戦略と比較して,敵対的ロバスト性と一般化を改善できることを理論的に支持する。 理論的結果を用いて,MSDAの異なる設計選択がどう機能するかを高レベルに理解する。 例えば、最も人気のあるmsdaメソッドであるmixupとcutmixは異なる振る舞いをする。例えば、cutmixはピクセル距離によって入力勾配を規則化し、mixupはピクセル距離に関係なく入力勾配を規則化する。 また, 最適msda戦略はタスクやデータセット, モデルパラメータに依存することを示した。 これらの観測結果から,Mix と CutMix のハイブリッド版である MSDA と,Mix と CutMix の単純な拡張である Gaussian Mixup (GMix) を提案する。 われわれの実装はmixupとcutmixの利点を活用できるが、その実装は非常に効率的であり、計算コストはmixupやcutmixのように無視できる。 我々のHMixとGMixは、CIFAR-100とImageNetの分類タスクにおいて、これまでの最先端のMSDA手法よりも優れていた。 ソースコードはhttps://github.com/naver-ai/hmix-gmixで入手できる。

We propose the first unified theoretical analysis of mixed sample data augmentation (MSDA), such as Mixup and CutMix. Our theoretical results show that regardless of the choice of the mixing strategy, MSDA behaves as a pixel-level regularization of the underlying training loss and a regularization of the first layer parameters. Similarly, our theoretical results support that the MSDA training strategy can improve adversarial robustness and generalization compared to the vanilla training strategy. Using the theoretical results, we provide a high-level understanding of how different design choices of MSDA work differently. For example, we show that the most popular MSDA methods, Mixup and CutMix, behave differently, e.g., CutMix regularizes the input gradients by pixel distances, while Mixup regularizes the input gradients regardless of pixel distances. Our theoretical results also show that the optimal MSDA strategy depends on tasks, datasets, or model parameters. From these observations, we propose generalized MSDAs, a Hybrid version of Mixup and CutMix (HMix) and Gaussian Mixup (GMix), simple extensions of Mixup and CutMix. Our implementation can leverage the advantages of Mixup and CutMix, while our implementation is very efficient, and the computation cost is almost neglectable as Mixup and CutMix. Our empirical study shows that our HMix and GMix outperform the previous state-of-the-art MSDA methods in CIFAR-100 and ImageNet classification tasks. Source code is available at https://github.com/naver-ai/hmix-gmix
翻訳日:2022-08-23 12:42:53 公開日:2022-08-21
# 外科的ツール検出と局所化のための半教師制学習フレームワーク

A semi-supervised Teacher-Student framework for surgical tool detection and localization ( http://arxiv.org/abs/2208.09926v1 )

ライセンス: Link先を確認
Mansoor Ali and Gilberto Ochoa-Ruiz and Sharib Ali(参考訳) 最小侵襲手術における外科的ツール検出は、コンピュータによる介入の不可欠な部分である。 現在のアプローチは、主に教師付きモデルをトレーニングするために大きなラベル付きデータを必要とする教師付きメソッドに基づいており、クラス不均衡のために擬似ラベルバイアスに悩まされている。 しかし、バウンディングボックスアノテーションを持つ大きなイメージデータセットは、しばしばほとんど利用できない。 半教師付き学習(SSL)は、アノテーションコストの削減とは別に、わずかな量の注釈付きデータだけで大規模なモデルをトレーニングする手段として最近登場した。 SSLはまた、より堅牢で一般化可能なモデルを作成することを約束している。 そこで本研究では,知識蒸留によるトレーニングデータの不足とデータの不均衡を軽減することを目的とした,外科的ツール検出パラダイムにおける半教師付き学習(SSL)フレームワークを提案する。 提案研究では,教師-学生共同学習を初期化するラベル付きデータを用いたモデルを訓練し,教師が作成したラベル付きデータから擬似ラベルを訓練する。 本研究では,被検出者の被検出領域におけるマージンに基づく分類損失関数を用いた多種間距離を提案し,背景領域から前景クラスを効果的に分離する。 m2cai16-tool-locations データセットを用いた結果,最先端SSL法と完全教師付きベースラインに対して,各モデルが 8%,12%,27% のmAP(1% ラベル付きデータ)を総合的に改善する,異なる教師付きデータ設定(1%,2%,5%,10%)に対するアプローチの優位性を示した。 コードはhttps://github.com/mansoor-at/semi-supervised-surgical-tool-detで入手できる。

Surgical tool detection in minimally invasive surgery is an essential part of computer-assisted interventions. Current approaches are mostly based on supervised methods which require large fully labeled data to train supervised models and suffer from pseudo label bias because of class imbalance issues. However large image datasets with bounding box annotations are often scarcely available. Semi-supervised learning (SSL) has recently emerged as a means for training large models using only a modest amount of annotated data; apart from reducing the annotation cost. SSL has also shown promise to produce models that are more robust and generalizable. Therefore, in this paper we introduce a semi-supervised learning (SSL) framework in surgical tool detection paradigm which aims to mitigate the scarcity of training data and the data imbalance through a knowledge distillation approach. In the proposed work, we train a model with labeled data which initialises the Teacher-Student joint learning, where the Student is trained on Teacher-generated pseudo labels from unlabeled data. We propose a multi-class distance with a margin based classification loss function in the region-of-interest head of the detector to effectively segregate foreground classes from background region. Our results on m2cai16-tool-locations dataset indicate the superiority of our approach on different supervised data settings (1%, 2%, 5%, 10% of annotated data) where our model achieves overall improvements of 8%, 12% and 27% in mAP (on 1% labeled data) over the state-of-the-art SSL methods and a fully supervised baseline, respectively. The code is available at https://github.com/Mansoor-at/Semi-supervised-surgical-tool-det
翻訳日:2022-08-23 12:42:25 公開日:2022-08-21
# オンライン意思決定におけるロバストテスト

Robust Tests in Online Decision-Making ( http://arxiv.org/abs/2208.09819v1 )

ライセンス: Link先を確認
Gi-Soo Kim, Hyun-Joon Yang, Jane P. Kim(参考訳) バンドアルゴリズムは累積報酬を最大化するために逐次決定問題に広く用いられている。 モバイルヘルスは、ウェアラブルデバイスから取得したユーザ固有の情報に基づいて、パーソナライズされた介入を通じてユーザーの健康を促進することを目的としている。 重要な考慮事項としては、データ収集のタイプ、頻度(GPSや継続的監視など)などが挙げられる。 アプリケーションのパフォーマンスに影響を与えるという制約で有用なデータを収集する必要性のバランスをとるためには、変数の有用性を評価する必要がある。 バンディットフィードバックデータは順次相関するので、独立したデータのために開発された従来のテスト手順は適用できない。 近年,actor-critic banditアルゴリズムのための統計的テスト手法が開発されている。 アクタ-クリティックアルゴリズムは、アクタのための1つ、アクション選択ポリシー、批評家のためのもう1つ、報酬モデルという2つの異なるモデルを維持する。 評価モデルが正しく特定された場合にのみ、アルゴリズムの性能とテストの有効性が保証される。 しかし、不正確な機能形態や共変量の欠如により、実際には誤特定が頻繁に発生する。 本研究では,不特定化を批判し,この場合のアクタパラメータの新しいテスト手順を導出するために頑健な修正アクタ-クリティックアルゴリズムを提案する。

Bandit algorithms are widely used in sequential decision problems to maximize the cumulative reward. One potential application is mobile health, where the goal is to promote the user's health through personalized interventions based on user specific information acquired through wearable devices. Important considerations include the type of, and frequency with which data is collected (e.g. GPS, or continuous monitoring), as such factors can severely impact app performance and users' adherence. In order to balance the need to collect data that is useful with the constraint of impacting app performance, one needs to be able to assess the usefulness of variables. Bandit feedback data are sequentially correlated, so traditional testing procedures developed for independent data cannot apply. Recently, a statistical testing procedure was developed for the actor-critic bandit algorithm. An actor-critic algorithm maintains two separate models, one for the actor, the action selection policy, and the other for the critic, the reward model. The performance of the algorithm as well as the validity of the test are guaranteed only when the critic model is correctly specified. However, misspecification is frequent in practice due to incorrect functional form or missing covariates. In this work, we propose a modified actor-critic algorithm which is robust to critic misspecification and derive a novel testing procedure for the actor parameters in this case.
翻訳日:2022-08-23 12:36:07 公開日:2022-08-21
# AA-Forecast: 極端イベントの異常認識予測

AA-Forecast: Anomaly-Aware Forecast for Extreme Events ( http://arxiv.org/abs/2208.09933v1 )

ライセンス: Link先を確認
Ashkan Farhangi, Jiang Bian, Arthur Huang, Haoyi Xiong, Jun Wang, Zhishan Guo(参考訳) 時系列モデルは、現実世界のデータセットでよく見られる極端なイベントや異常を扱うことが多い。 このようなモデルは、ハリケーンやパンデミックのような極端な事象のリスク管理に不可欠な、慎重な確率的予測を提供する必要がある。 しかし、大規模なデータセットに対して、極端なイベントや異常を自動的に検出し、学習することは困難である。 そこで本研究では,異常の既知効果を利用した異常認識予測フレームワークを提案し,その予測精度を極端事象発生前後に向上させる。 特に、このフレームワークは自動で異常を抽出し、注意機構を通じてそれらを組み込んで、将来の極端な事象の精度を高める。 さらに、このフレームワークは動的不確実性最適化アルゴリズムを採用し、オンライン手法で予測の不確実性を低減する。 提案手法は、現在の予測モデルに対して、異なる種類の異常を持つ3つのデータセットに対して、一貫性に優れた精度を示す。

Time series models often deal with extreme events and anomalies, both prevalent in real-world datasets. Such models often need to provide careful probabilistic forecasting, which is vital in risk management for extreme events such as hurricanes and pandemics. However, it is challenging to automatically detect and learn to use extreme events and anomalies for large-scale datasets, which often require manual effort. Hence, we propose an anomaly-aware forecast framework that leverages the previously seen effects of anomalies to improve its prediction accuracy during and after the presence of extreme events. Specifically, the framework automatically extracts anomalies and incorporates them through an attention mechanism to increase its accuracy for future extreme events. Moreover, the framework employs a dynamic uncertainty optimization algorithm that reduces the uncertainty of forecasts in an online manner. The proposed framework demonstrated consistent superior accuracy with less uncertainty on three datasets with different varieties of anomalies over the current prediction models.
翻訳日:2022-08-23 12:35:47 公開日:2022-08-21
# 多次元時空間データに対するベイズ補間学習

Bayesian Complementary Kernelized Learning for Multidimensional Spatiotemporal Data ( http://arxiv.org/abs/2208.09978v1 )

ライセンス: Link先を確認
Mengying Lei, Aurelie Labbe, Lijun Sun(参考訳) 多次元時空間データの確率的モデリングは多くの実世界応用に不可欠である。 しかし、実世界の時空間データは、しばしば非定常な複雑な依存関係、すなわち相関構造は位置/時間によって異なり、非分離可能、すなわち空間と時間の間に依存関係が存在する。 長距離および短スケールの両方の変動を含む非定常/非分離プロセスに対応するための効率的かつ効率的な統計モデルの開発は、特に様々な汚職/欠落構造を持つ大規模データセットにおいて難しい課題となる。 本稿では,多次元時空間データに対するスケーラブルな確率的モデリングを実現するため,ベイズ補足化学習(BCKL)という新しい統計フレームワークを提案する。 複雑な依存関係を効果的に記述するために、BCKLはカーネル化された低ランク因数分解と短距離時空間ガウス過程(GP)を統合する。 具体的には,データ内の大域的/長期的相関を捉えるために,マルチ線形低ランク分解成分を用い,コンパクトにサポートされたカーネル関数に基づく付加的短スケールGPを導入し,残りの局所変数を特徴付ける。 モデル推論のための効率的なマルコフ連鎖モンテカルロ (MCMC) アルゴリズムを開発し, 合成および実世界の時空間データセット上でのBCKLフレームワークの評価を行った。 以上の結果から,BCKLの高精度な後部平均および高品質不確実性評価における優れた性能が確認された。

Probabilistic modeling of multidimensional spatiotemporal data is critical to many real-world applications. However, real-world spatiotemporal data often exhibits complex dependencies that are nonstationary, i.e., correlation structure varies with location/time, and nonseparable, i.e., dependencies exist between space and time. Developing effective and computationally efficient statistical models to accommodate nonstationary/nonseparable processes containing both long-range and short-scale variations becomes a challenging task, especially for large-scale datasets with various corruption/missing structures. In this paper, we propose a new statistical framework -- Bayesian Complementary Kernelized Learning (BCKL) -- to achieve scalable probabilistic modeling for multidimensional spatiotemporal data. To effectively describe complex dependencies, BCKL integrates kernelized low-rank factorization with short-range spatiotemporal Gaussian processes (GP), in which the two components complement each other. Specifically, we use a multi-linear low-rank factorization component to capture the global/long-range correlations in the data and introduce an additive short-scale GP based on compactly supported kernel functions to characterize the remaining local variabilities. We develop an efficient Markov chain Monte Carlo (MCMC) algorithm for model inference and evaluate the proposed BCKL framework on both synthetic and real-world spatiotemporal datasets. Our results confirm the superior performance of BCKL in providing accurate posterior mean and high-quality uncertainty estimates.
翻訳日:2022-08-23 12:35:33 公開日:2022-08-21
# FastCPH: ニューラルネットワークの効率的な生存分析

FastCPH: Efficient Survival Analysis for Neural Networks ( http://arxiv.org/abs/2208.09793v1 )

ライセンス: Link先を確認
Xuelin Yang, Louis Abraham, Sejin Kim, Petr Smirnov, Feng Ruan, Benjamin Haibe-Kains, Robert Tibshirani(参考訳) Cox比例的ハザードモデル(Cox proportional hazards model)は、臨床または遺伝的共変体が与えられた患者の寿命を予測するための標準的分析法である。 近年、coxモデルをニューラルネットワークに一般化する手法がいくつか提案されているが、いずれも数値的に正確で計算効率が良いものはない。 線形時間に動作し,結合イベントに対する標準breslow法とefron法の両方をサポートする新しい手法であるfastcphを提案する。 また,fastcphとlassonetを組み合わせることで,サバイバルデータセット上で特徴スパーシティを通した解釈性を提供するニューラルネットの性能を示す。 最終的な手順は効率的で、有用な共変量を選択し、既存のCoxPHアプローチより優れている。

The Cox proportional hazards model is a canonical method in survival analysis for prediction of the life expectancy of a patient given clinical or genetic covariates -- it is a linear model in its original form. In recent years, several methods have been proposed to generalize the Cox model to neural networks, but none of these are both numerically correct and computationally efficient. We propose FastCPH, a new method that runs in linear time and supports both the standard Breslow and Efron methods for tied events. We also demonstrate the performance of FastCPH combined with LassoNet, a neural network that provides interpretability through feature sparsity, on survival datasets. The final procedure is efficient, selects useful covariates and outperforms existing CoxPH approaches.
翻訳日:2022-08-23 12:34:53 公開日:2022-08-21
# Z-Code++:抽象要約に最適化された事前学習言語モデル

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization ( http://arxiv.org/abs/2208.09770v1 )

ライセンス: Link先を確認
Pengcheng He, Baolin Peng, Liyang Lu, Song Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao, Xuedong Huang(参考訳) 本稿では、抽象テキスト要約に最適化された新しい事前学習言語モデルZ-Code++を提案する。 このモデルは、3つの手法を用いてアートエンコーダ・デコーダモデルの状態を拡張する。 まず,低リソース要約タスクにおけるモデルの性能向上のために,二相事前学習プロセスを用いる。 このモデルはまず、言語理解のためのテキストコーパスを用いて事前訓練を行い、その後、接地テキスト生成のための要約コーパス上で継続的に事前訓練する。 第二に、エンコーダ内の自己注意層を、各単語がそれぞれその内容と位置をエンコードする2つのベクトルで表現される無絡注意層に置き換える。 第3に,長いシーケンスを階層的に符号化する単純かつ効果的な方法である fusion-in-encoder を用いる。 Z-Code++は、5つの言語にまたがる13のテキスト要約タスクのうち9つに新しい状態を生成する。 XSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを示した。 ゼロショットと少数ショットの設定では、我々のモデルは競合モデルを大幅に上回っています。

This paper presents Z-Code++, a new pre-trained language model optimized for abstractive text summarization. The model extends the state of the art encoder-decoder model using three techniques. First, we use a two-phase pre-training process to improve model's performance on low-resource summarization tasks. The model is first pre-trained using text corpora for language understanding, and then is continually pre-trained on summarization corpora for grounded text generation. Second, we replace self-attention layers in the encoder with disentangled attention layers, where each word is represented using two vectors that encode its content and position, respectively. Third, we use fusion-in-encoder, a simple yet effective method of encoding long sequences in a hierarchical manner. Z-Code++ creates new state of the art on 9 out of 13 text summarization tasks across 5 languages. Our model is parameter-efficient in that it outperforms the 600x larger PaLM-540B on XSum, and the finetuned 200x larger GPT3-175B on SAMSum. In zero-shot and few-shot settings, our model substantially outperforms the competing models.
翻訳日:2022-08-23 12:30:31 公開日:2022-08-21
# ディープラーニングによる階層型モードの創発

Emergence of hierarchical modes from deep learning ( http://arxiv.org/abs/2208.09859v1 )

ライセンス: Link先を確認
Chan Li and Haiping Huang(参考訳) 大規模深層ニューラルネットワークは、高価なトレーニングコストを消費するが、トレーニングの結果、ネットワークを構成する重み行列が解釈不能になる。 本稿では,重み行列を潜在モードの階層として解釈できるモード分解学習を提案する。 これらのモードは、メモリネットワークの物理研究におけるパターンに似ている。 モード分解学習は、トレーニングコストを大幅に削減するだけでなく、ネットワークのパフォーマンスを先行モードで説明する。 モード学習方式は、ネットワーク階層全体にわたって徐々にコンパクトな潜在空間を示し、最小数のモードはネットワーク幅と対数的にしか増加しない。 このモード分解学習は,複数段階の学習ダイナミクスを明らかにするオンライン解析学習環境においても研究されている。 そこで,提案したモード分解学習は,魔法の深層学習への安価で解釈可能な経路を指す。

Large-scale deep neural networks consume expensive training costs, but the training results in less-interpretable weight matrices constructing the networks. Here, we propose a mode decomposition learning that can interpret the weight matrices as a hierarchy of latent modes. These modes are akin to patterns in physics studies of memory networks. The mode decomposition learning not only saves a significant large amount of training costs, but also explains the network performance with the leading modes. The mode learning scheme shows a progressively compact latent space across the network hierarchy, and the least number of modes increases only logarithmically with the network width. Our mode decomposition learning is also studied in an analytic on-line learning setting, which reveals multi-stage of learning dynamics. Therefore, the proposed mode decomposition learning points to a cheap and interpretable route towards the magical deep learning.
翻訳日:2022-08-23 12:30:14 公開日:2022-08-21
# ProPaLL:確率論的部分ラベル学習

ProPaLL: Probabilistic Partial Label Learning ( http://arxiv.org/abs/2208.09931v1 )

ライセンス: Link先を確認
{\L}ukasz Struski, Jacek Tabor, Bartosz Zieli\'nski(参考訳) 部分的ラベル学習は弱い教師付き学習の一種であり、各トレーニングインスタンスは候補ラベルのセットに対応し、1つだけが真である。 本稿では,本問題に対する新しい確率論的アプローチであるProPaLLを紹介し,既存のアプローチと比較して少なくとも3つの利点がある。 人工および実世界のデータセットで実施された実験は、ProPaLLが既存のアプローチより優れていることを示している。

Partial label learning is a type of weakly supervised learning, where each training instance corresponds to a set of candidate labels, among which only one is true. In this paper, we introduce ProPaLL, a novel probabilistic approach to this problem, which has at least three advantages compared to the existing approaches: it simplifies the training process, improves performance, and can be applied to any deep architecture. Experiments conducted on artificial and real-world datasets indicate that ProPaLL outperforms the existing approaches.
翻訳日:2022-08-23 12:28:32 公開日:2022-08-21
# SIM2E:対応マッチングアルゴリズムの群等価性ベンチマーク

SIM2E: Benchmarking the Group Equivariant Capability of Correspondence Matching Algorithms ( http://arxiv.org/abs/2208.09896v1 )

ライセンス: Link先を確認
Shuai Su, Zhongkai Zhao, Yixin Fei, Shuda Li, Qijun Chen, Rui Fan(参考訳) 対応マッチングはコンピュータビジョンとロボット工学の応用における基本的な問題である。 近年,ニューラルネットワークを用いた対応マッチング問題の解決が進んでいる。 回転等分散とスケール等分散はどちらも対応マッチング応用において重要である。 古典的な対応マッチングアプローチは、スケーリングと回転変換に耐えるように設計されている。 しかし、畳み込みニューラルネットワーク(CNN)を用いて抽出された特徴は、ある程度の翻訳等価である。 近年,グループ理論に基づくCNNの回転等価性の向上が試みられている。 Sim(2) は 2次元平面における類似性変換の群である。 本稿では,sim(2)-同変対応マッチングアルゴリズムの評価専用のデータセットを提案する。 16の最先端対応マッチング手法(sota)の性能比較を行った。 実験の結果,様々なsim(2)変換条件における対応マッチングにおける群同変アルゴリズムの重要性が示された。 CNNベースの対応マッチングアプローチによって達成されるサブピクセル精度は満足できないため、この特定領域は今後の研究により多くの注意を要する。 私たちのデータセットは、mias.group/SIM2Eで公開されています。

Correspondence matching is a fundamental problem in computer vision and robotics applications. Solving correspondence matching problems using neural networks has been on the rise recently. Rotation-equivariance and scale-equivariance are both critical in correspondence matching applications. Classical correspondence matching approaches are designed to withstand scaling and rotation transformations. However, the features extracted using convolutional neural networks (CNNs) are only translation-equivariant to a certain extent. Recently, researchers have strived to improve the rotation-equivariance of CNNs based on group theories. Sim(2) is the group of similarity transformations in the 2D plane. This paper presents a specialized dataset dedicated to evaluating sim(2)-equivariant correspondence matching algorithms. We compare the performance of 16 state-of-the-art (SoTA) correspondence matching approaches. The experimental results demonstrate the importance of group equivariant algorithms for correspondence matching on various sim(2) transformation conditions. Since the subpixel accuracy achieved by CNN-based correspondence matching approaches is unsatisfactory, this specific area requires more attention in future works. Our dataset is publicly available at: mias.group/SIM2E.
翻訳日:2022-08-23 12:23:16 公開日:2022-08-21
# バイタルサインの遠隔測定実験と検証のためのwebアプリケーション

A Web Application for Experimenting and Validating Remote Measurement of Vital Signs ( http://arxiv.org/abs/2208.09916v1 )

ライセンス: Link先を確認
Amtul Haq Ayesha, Donghao Qiao, Farhana Zulkernine(参考訳) 患者バイタルの遠隔監視に関するオンライン医療助言の急増が求められている。 これは、顔ビデオから重要な兆候を計算するRemote Photoplethysmography (rPPG)技術で容易に実現できる。 ビデオフレームを処理して皮膚のピクセルを取得し、心臓データを抽出し、信号処理フィルタを適用して血液量パルス(BVP)信号を抽出する。 BVP信号に異なるアルゴリズムを適用し、様々なバイタルサインを推定する。 対象者の心拍数(HR)、心拍変動(HRV)、酸素飽和度(SpO2)、呼吸速度(RR)、血圧(BP)、顔ビデオからのストレスを測定するためのWebアプリケーションフレームワークを実装した。 rPPG技術は照明や動きの変化に非常に敏感である。 Webアプリケーションは、これらの変動によるノイズを低減するようユーザに誘導し、よりクリーンなBVP信号を生成する。 フレームワークの正確性と堅牢性はボランティアの助けを借りて検証された。

With a surge in online medical advising remote monitoring of patient vitals is required. This can be facilitated with the Remote Photoplethysmography (rPPG) techniques that compute vital signs from facial videos. It involves processing video frames to obtain skin pixels, extracting the cardiac data from it and applying signal processing filters to extract the Blood Volume Pulse (BVP) signal. Different algorithms are applied to the BVP signal to estimate the various vital signs. We implemented a web application framework to measure a person's Heart Rate (HR), Heart Rate Variability (HRV), Oxygen Saturation (SpO2), Respiration Rate (RR), Blood Pressure (BP), and stress from the face video. The rPPG technique is highly sensitive to illumination and motion variation. The web application guides the users to reduce the noise due to these variations and thereby yield a cleaner BVP signal. The accuracy and robustness of the framework was validated with the help of volunteers.
翻訳日:2022-08-23 12:23:06 公開日:2022-08-21
# ビザンチンは歴史から学ぶこともできる:フェデレート学習における中心的クリッピングの崩壊

Byzantines can also Learn from History: Fall of Centered Clipping in Federated Learning ( http://arxiv.org/abs/2208.09894v1 )

ライセンス: Link先を確認
Kerem Ozfatura and Emre Ozfatura and Alptekin Kupcu and Deniz Gunduz(参考訳) 広範囲の協調学習タスクの成功により、連合学習フレームワークの人気が高まり、学習プロセスに参加する悪意のあるクライアントの可能性から、学習モデルに関する特定のセキュリティ上の懸念も引き起こされる。 したがって、悪意のある参加者の影響力を中和し、最終モデルが信頼できることを保証することが目的である。 ビザンチン攻撃に関する一般的な観察の1つは、クライアントのモデル/アップデートのばらつきが大きいほど、攻撃を隠蔽するスペースが大きくなることである。 この目的のために、近年、運動量を利用して分散を減少させることで、既知のビザンチン攻撃の強さを弱めることができることが示されている。 Centered Clipping framework (ICML 2021) はさらに、分散の低減に加えて、前回のイテレーションからのモーメント項が、ビザンツ攻撃を中和し、よく知られた攻撃に対して印象的なパフォーマンスを示す基準点として使用できることを示した。 しかし,本研究の範囲では,中心クリッピングフレームワークには特定の脆弱性があり,これらの脆弱性に基づいて既存の攻撃を修正して,中心クリッピング防御を回避できることが示されている。 そこで,本研究では,集中型クリッピングフレームワークを回避し,テスト精度をベストケースシナリオで5~40に下げることにより,中心型クリッピングと他の既知の防御戦略の有効性を数値的に説明するための攻撃設計手法を提案する。

The increasing popularity of the federated learning framework due to its success in a wide range of collaborative learning tasks also induces certain security concerns regarding the learned model due to the possibility of malicious clients participating in the learning process. Hence, the objective is to neutralize the impact of the malicious participants and to ensure the final model is trustable. One common observation regarding the Byzantine attacks is that the higher the variance among the clients' models/updates, the more space for attacks to be hidden. To this end, it has been recently shown that by utilizing momentum, thus reducing the variance, it is possible to weaken the strength of the known Byzantine attacks. The Centered Clipping framework (ICML 2021) has further shown that, besides reducing the variance, the momentum term from the previous iteration can be used as a reference point to neutralize the Byzantine attacks and show impressive performance against well-known attacks. However, in the scope of this work, we show that the centered clipping framework has certain vulnerabilities, and existing attacks can be revised based on these vulnerabilities to circumvent the centered clipping defense. Hence, we introduce a strategy to design an attack to circumvent the centered clipping framework and numerically illustrate its effectiveness against centered clipping as well as other known defense strategies by reducing test accuracy to 5-40 on best-case scenarios.
翻訳日:2022-08-23 12:19:05 公開日:2022-08-21
# 並列接続型ニューラルネットワークの協調 -- 人工ニューラルネットワークと自然臓器の区別基準の可能性

Collaboration between parallel connected neural networks -- A possible criterion for distinguishing artificial neural networks from natural organs ( http://arxiv.org/abs/2208.09983v1 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 実験により, ニューラルネットワークが並列に接続され, 共に訓練された場合, 以下の特性を示すことがわかった。 i) 並列接続ニューラルネットワーク(PNN)が最適化されると、接続内の各サブネットワークは最適化されない。 (II)PNN全体に対する下位サブネットワークの寄与は、上位サブネットワークのそれと同程度である。 三)PNNは、すべてのサブネットワークが不正な結果を与えた場合でも、正しい結果を出力することができる。 これらの性質は、自然の生物学的感覚器官にはあり得ない。 したがって、ニューラルネットワークのバイオニックレベルを測定するための、単純で効果的な基準として機能することができる。 この基準により、活性化関数として機能する場合、ReLU関数はシグモイドやTanh関数よりも、人工ニューラルネットワークをよりバイオニックにすることができることを示す。

We find experimentally that when artificial neural networks are connected in parallel and trained together, they display the following properties. (i) When the parallel-connected neural network (PNN) is optimized, each sub-network in the connection is not optimized. (ii) The contribution of an inferior sub-network to the whole PNN can be on par with that of the superior sub-network. (iii) The PNN can output the correct result even when all sub-networks give incorrect results. These properties are unlikely for natural biological sense organs. Therefore, they could serve as a simple yet effective criterion for measuring the bionic level of neural networks. With this criterion, we further show that when serving as the activation function, the ReLU function can make an artificial neural network more bionic than the sigmoid and Tanh functions do.
翻訳日:2022-08-23 12:18:25 公開日:2022-08-21
# 知らないこと:共蒸留学習による知識グラフの埋め込み

I Know What You Do Not Know: Knowledge Graph Embedding via Co-distillation Learning ( http://arxiv.org/abs/2208.09828v1 )

ライセンス: Link先を確認
Yang Liu and Zequn Sun Guangyao Li and Wei Hu(参考訳) 知識グラフ(KG)埋め込みは、実体と関係のベクトル表現を学習しようとする。 従来のモデルはグラフ構造を推論するが、グラフの不完全性とロングテールエンティティの問題に苦しむ。 最近の研究では、事前学習された言語モデルを使用して、エンティティとリレーションのテキスト情報に基づいて埋め込みを学ぶが、グラフ構造を活用できない。 本稿では,これら2種類の特徴がkg埋め込みに相補的であることを実証的に示す。 そこで本研究では,グラフ構造とテキスト情報の相補性を利用したKG埋め込みの共蒸留学習手法であるCoLEを提案する。 グラフ埋め込みモデルはtransformerを使用して、その近傍のサブグラフからエンティティの表現を再構築する。 そのテキスト埋め込みモデルは、事前学習された言語モデルを使用して、名前、記述、関係の隣人のソフトプロンプトからエンティティ表現を生成する。 本研究では,2つのモデルを相互に促進するために,相互の予測ロジットから選択的な知識を抽出できる共蒸留学習を提案する。 共蒸留学習では、各モデルは教師と学生の両方として機能する。 ベンチマークデータセットの実験では、2つのモデルが関連するベースラインより優れており、共蒸留学習のColeはKG埋め込みの最先端を前進させる。

Knowledge graph (KG) embedding seeks to learn vector representations for entities and relations. Conventional models reason over graph structures, but they suffer from the issues of graph incompleteness and long-tail entities. Recent studies have used pre-trained language models to learn embeddings based on the textual information of entities and relations, but they cannot take advantage of graph structures. In the paper, we show empirically that these two kinds of features are complementary for KG embedding. To this end, we propose CoLE, a Co-distillation Learning method for KG Embedding that exploits the complementarity of graph structures and text information. Its graph embedding model employs Transformer to reconstruct the representation of an entity from its neighborhood subgraph. Its text embedding model uses a pre-trained language model to generate entity representations from the soft prompts of their names, descriptions, and relational neighbors. To let the two model promote each other, we propose co-distillation learning that allows them to distill selective knowledge from each other's prediction logits. In our co-distillation learning, each model serves as both a teacher and a student. Experiments on benchmark datasets demonstrate that the two models outperform their related baselines, and the ensemble method CoLE with co-distillation learning advances the state-of-the-art of KG embedding.
翻訳日:2022-08-23 12:17:02 公開日:2022-08-21
# DiscrimLoss: ハードサンプルと不正サンプル識別のためのユニバーサルロス

DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples Discrimination ( http://arxiv.org/abs/2208.09884v1 )

ライセンス: Link先を確認
Tingting Wu, Xiao Ding, Hao Zhang, Jinglong Gao, Li Du, Bing Qin, Ting Liu(参考訳) ラベルノイズを伴うデータ(すなわち誤ったデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズを徐々に記憶し、モデル性能を損なう。 この問題を軽減するために, 有意義な(例えば, 難しい)シーケンスでトレーニングサンプルを順序付けすることで, モデル性能と一般化を改善するためのカリキュラム学習が提案されている。 これまでの研究では、不正確なサンプルを、ハードサンプル(例えば、正しいデータのハードサンプル)と間違ったサンプルを区別することなく、一般的なハードサンプルとして扱う。 実際、モデルは間違ったサンプルに過度に適合するのではなく、一般化を促進するためにハードサンプルから学ぶべきです。 本稿では,既存のタスク損失の上に,新規な損失関数DiscrimLossを付加することで,この問題に対処する。 その主な効果は、訓練の初期段階における簡単なサンプルと難しいサンプル(ハードと間違ったサンプルを含む)の重要性を自動的に安定して推定し、モデルの性能を改善することである。 次に、以下の段階では、モデルの一般化を改善するために、ハードサンプルと不正サンプルの判別にdiscrimlossが使われる。 このような学習戦略は自己指導的な方法で動的に定式化することができ、カリキュラム学習の原則を効果的に模倣することができる。 画像分類,画像回帰,テキスト列回帰,事象関係推論の実験により,多彩なノイズレベルが存在する場合において,本手法の汎用性と有効性を示す。

Given data with label noise (i.e., incorrect data), deep neural networks would gradually memorize the label noise and impair model performance. To relieve this issue, curriculum learning is proposed to improve model performance and generalization by ordering training samples in a meaningful (e.g., easy to hard) sequence. Previous work takes incorrect samples as generic hard ones without discriminating between hard samples (i.e., hard samples in correct data) and incorrect samples. Indeed, a model should learn from hard samples to promote generalization rather than overfit to incorrect ones. In this paper, we address this problem by appending a novel loss function DiscrimLoss, on top of the existing task loss. Its main effect is to automatically and stably estimate the importance of easy samples and difficult samples (including hard and incorrect samples) at the early stages of training to improve the model performance. Then, during the following stages, DiscrimLoss is dedicated to discriminating between hard and incorrect samples to improve the model generalization. Such a training strategy can be formulated dynamically in a self-supervised manner, effectively mimicking the main principle of curriculum learning. Experiments on image classification, image regression, text sequence regression, and event relation reasoning demonstrate the versatility and effectiveness of our method, particularly in the presence of diversified noise levels.
翻訳日:2022-08-23 12:11:15 公開日:2022-08-21