このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220710となっている論文です。

PDF登録状況(公開日: 20220710)

TitleAuthorsAbstract論文公表日・翻訳日
# 複雑なデジタル時代の倫理的枠組みに向けて

Towards an Ethical Framework in the Complex Digital Era ( http://arxiv.org/abs/2010.10028v2 )

ライセンス: Link先を確認
David Pastor-Escuredo and Ricardo Vinuesa(参考訳) デジタル革命は、テクノロジー、行動、真実の倫理的交差をもたらした。 しかし、デジタルプラットフォームがグローバルなカオス的で真実に依存しないシステムを構築するのに使われてきたため、包括的で建設的な倫理的枠組みの必要性が浮かび上がっている。 グローバルシステムの不平等な構造は、動的変化とシステム的問題を引き起こし、最も脆弱なシステムにさらに大きな影響を与える。 個々のレベルのみに基づく倫理的なフレームワークは、新たな課題に対するソリューションを提供するために必要な記述が欠如しているため、もはや不十分である。 新しい倫理的ビジョンは、現代社会システムの因果連鎖と同様に、スケールと複雑な相互接続の理解を構成する必要がある。 これらのシステムの多くは内部的に脆弱であり、外部の要因や脅威に非常に敏感であり、個人を中心とした体系的な解決策を必要とする非倫理的な状況につながる。 さらに、多層網状の社会組織は、特定のコミュニティが適切な発達を阻害する力のクラスターを生成する。 デジタル技術は、より均質で予測可能で、究極的には制御可能な人類のリスクとなる個人レベルでも影響している。 人類の核心と共通の真実の願望を維持するために、新しい倫理的枠組みは、個人と独特性、文化的異質性、そしてデジタル化の否定的な結果に対処する必要がある。 人間中心と集団指向のデジタル開発を組み合わせれば、倫理的な新しい社会モデルと相互作用を構築することができる。 このビジョンは、社会システムの特性を変革し構成するために、真理に基づく行動を支援するために計算ツールを使用して倫理的枠組みと原則を強化するために科学を必要とする。

The digital revolution has brought ethical crossroads of technology, behavior and truth. However, the need of a comprehensive and constructive ethical framework is emerging as digital platforms have been used to build a global chaotic and truth-agnostic system. The unequal structure of the global system leads to dynamic changes and systemic problems, which have a more significant impact on those that are most vulnerable. Ethical frameworks based only on the individual level are no longer sufficient as they lack the necessary articulation to provide solutions to the new challenges. A new ethical vision must comprise the understanding of the scales and complex interconnections, as well as the causal chains of modern social systems. Many of these systems are internally fragile and very sensitive to external factors and threats, which lead to unethical situations that require systemic solutions still centered on individuals. Furthermore, the multi-layered net-like social tissue generates clusters of power that prevent certain communities from proper development. Digital technology has also impacted at the individual level posing the risk of a more homogeneous, predictable and ultimately controllable humankind. To preserve the core of humanity and the aspiration of common truth, a new ethical framework must empower individuals and uniqueness, as well as cultural heterogeneity, tackling the negative outcomes of digitalization. Only combining human-centered and collectiveness-oriented digital development will it be possible to construct new social models and interactions that are ethical. This vision requires science to enhance ethical frameworks and principles using computational tools to support truth-grounded actions, so as to transform and configure properties of the social systems.
翻訳日:2022-10-05 22:59:59 公開日:2022-07-10
# 対数クラスストレージを用いた連続的なファウショット学習

Continual Few-Shot Learning with Adversarial Class Storage ( http://arxiv.org/abs/2207.12303v1 )

ライセンス: Link先を確認
Kun Wu, Chengxiang Yin, Jian Tang, Zhiyuan Xu, Yanzhi Wang, Dejun Yang(参考訳) 人間は、古い知識を忘れずに、継続的に新しい概念を迅速かつ効果的に学べる素晴らしい能力を持っている。 ディープラーニングは様々なコンピュータビジョンタスクで大きな成功を収めてきたが、そのような人間レベルの知性を達成するための課題に直面している。 本稿では,タスクが順次到着し,各タスクがいくつかのトレーニングサンプルに関連付けられる,連続的少数ショット学習と呼ばれる新しい問題を定義する。 この問題を解決するために,CML(Continuous Meta-Learner)を提案する。 CMLは、メトリックベースの分類とメモリベースのメカニズムと、敵対的学習をメタラーニングフレームワークに統合し、望ましい特性をもたらす。 1) 新しいタスクの処理を迅速かつ効果的に行うことができる。 2) 破滅的な忘れを克服する。 3)モデルに依存しない。 我々は,2つの画像データセット,MiniImageNetとCIFAR100について広範な実験を行った。 実験結果から,cmlは破壊的忘れずに,マイトショット学習タスクの分類精度の面で最先端のパフォーマンスを提供することがわかった。

Humans have a remarkable ability to quickly and effectively learn new concepts in a continuous manner without forgetting old knowledge. Though deep learning has made tremendous successes on various computer vision tasks, it faces challenges for achieving such human-level intelligence. In this paper, we define a new problem called continual few-shot learning, in which tasks arrive sequentially and each task is associated with a few training samples. We propose Continual Meta-Learner (CML) to solve this problem. CML integrates metric-based classification and a memory-based mechanism along with adversarial learning into a meta-learning framework, which leads to the desirable properties: 1) it can quickly and effectively learn to handle a new task; 2) it overcomes catastrophic forgetting; 3) it is model-agnostic. We conduct extensive experiments on two image datasets, MiniImageNet and CIFAR100. Experimental results show that CML delivers state-of-the-art performance in terms of classification accuracy on few-shot learning tasks without catastrophic forgetting.
翻訳日:2022-07-31 14:39:24 公開日:2022-07-10
# ソーシャルメディアにおける非自殺自傷者の検出

Detecting People Interested in Non-Suicidal Self-Injury on Social Media ( http://arxiv.org/abs/2207.07014v1 )

ライセンス: Link先を確認
Zaihan Yang, Dmitry Zinoviev(参考訳) nsi(non-suicidal self-injury)に関心のある人を検出するための教師付き学習手法を提案する。 タスクを二分分類問題として扱い、自己宣言的関心事から抽出した特徴に基づく分類器を構築する。 livejournal social blogging networkingプラットフォームである実世界のデータセットに関する実験的評価は、提案モデルの有効性を示している。

We propose a supervised learning approach to detect people interested in Non-Suicidal Self-Injury (NSSI). We treat the task as a binary classification problem, and build classifiers based upon features extracted from people self-declared interests. Experimental evaluation on a real-world dataset, the LiveJournal social blogging networking platform, demonstrates the effectiveness of our proposed model.
翻訳日:2022-07-15 14:53:23 公開日:2022-07-10
# (参考訳) 新型ウイルスの増殖予測のためのプレ層正規化による深部変圧器モデル

Deep Transformer Model with Pre-Layer Normalization for COVID-19 Growth Prediction ( http://arxiv.org/abs/2207.06356v1 )

ライセンス: CC BY 4.0
Rizki Ramadhan Fitra, Novanto Yudistira, Wayan Firdaus Mahmudy(参考訳) コロナウイルス(Coronavirus)は、SARS-CoV-2ウイルスによって引き起こされる感染症である。 2019年12月末に中国武漢市で初めて確認された。 この事件は、インドネシアを含む世界中に広がった。 そのため、WHOは新型コロナウイルスを世界的なパンデミックに指定した。 特にインドネシアでは、Deep Neural Network(DNN)など、いくつかのアプローチで新型コロナウイルスの感染拡大を予測することができる。 使用可能なDNNモデルの1つは、時系列を予測できるDeep Transformerである。 モデルは、最良のモデルを得るために、いくつかのテストシナリオで訓練されます。 評価は最高のハイパーパラメータを見つけることです。 次に,予測日数,オプティマイザ数,特徴数,およびLong Short-Term Memory (LSTM) とRecurrent Neural Network (RNN) の旧モデルとの比較を行った。 全ての評価は平均絶対パーセンテージ誤差(MAPE)の測定値を使用した。 評価結果に基づき、Deep Transformerは、プレ層正規化を用いて1日先を18.83のMAPE値で予測する際の最良の結果を生成する。 さらに、Adamaxオプティマイザでトレーニングされたモデルは、他のテストされたオプティマイザの中で最高のパフォーマンスを得る。 Deep Transformerの性能はLSTMやRNNといった他のテストモデルを上回る。

Coronavirus disease or COVID-19 is an infectious disease caused by the SARS-CoV-2 virus. The first confirmed case caused by this virus was found at the end of December 2019 in Wuhan City, China. This case then spread throughout the world, including Indonesia. Therefore, the COVID-19 case was designated as a global pandemic by WHO. The growth of COVID-19 cases, especially in Indonesia, can be predicted using several approaches, such as the Deep Neural Network (DNN). One of the DNN models that can be used is Deep Transformer which can predict time series. The model is trained with several test scenarios to get the best model. The evaluation is finding the best hyperparameters. Then, further evaluation was carried out using the best hyperparameters setting of the number of prediction days, the optimizer, the number of features, and comparison with the former models of the Long Short-Term Memory (LSTM) and Recurrent Neural Network (RNN). All evaluations used metric of the Mean Absolute Percentage Error (MAPE). Based on the results of the evaluations, Deep Transformer produces the best results when using the Pre-Layer Normalization and predicting one day ahead with a MAPE value of 18.83. Furthermore, the model trained with the Adamax optimizer obtains the best performance among other tested optimizers. The performance of the Deep Transformer also exceeds other test models, which are LSTM and RNN.
翻訳日:2022-07-15 08:01:29 公開日:2022-07-10
# (参考訳) 合成生物学の倫理的・法的・社会的意味を考慮したNLPベースのレコメンダシステムの開発

Developing an NLP-based Recommender System for the Ethical, Legal, and Social Implications of Synthetic Biology ( http://arxiv.org/abs/2207.06360v1 )

ライセンス: CC BY 4.0
Damien Dablain, Lilian Huang and Brandon Sepulvado(参考訳) 合成生物学は、食品の安全性、健康、環境保護などの目的で生物の工学と再設計を含む新興分野である。 そのため、研究者や政策立案者には倫理的、法的、社会的な意味合い(ELSI)が多々ある。 社会に責任のある合成生物学を保証する様々な取り組みが進行中である。 政策立案は規制の道のりのひとつであり、他の取り組みは社会科学者や倫理学者を合成生物学プロジェクトに組み込もうとしている。 しかし、合成生物学の不均一な領域の数、そして多くの倫理的疑問のオープンな性質などによって、広く具体的な政策を確立することは困難であることが証明されており、合成生物学チームにおける社会科学者や倫理学者を含む様々な成功を収めている。 このテキストは異なるアプローチを提案し、その代わりに自然言語処理(NLP)に基づいて、合成生物学者と特定の研究のELSIに関する情報を結びつける優れたレコメンデーターモデルを開発することができるのか? この勧告者は、合成生物学設計空間の発見と探索を加速するSBKS(Synthetic Biology Knowledge System)の構築プロジェクトの一環として開発された。 本研究の目的は, 倫理的, 社会科学的情報に関連する合成生物学者を蒸留し, 合成生物学研究のワークフローに組み込むことである。

Synthetic biology is an emerging field that involves the engineering and re-design of organisms for purposes such as food security, health, and environmental protection. As such, it poses numerous ethical, legal, and social implications (ELSI) for researchers and policy makers. Various efforts to ensure socially responsible synthetic biology are underway. Policy making is one regulatory avenue, and other initiatives have sought to embed social scientists and ethicists on synthetic biology projects. However, given the nascency of synthetic biology, the number of heterogeneous domains it spans, and the open nature of many ethical questions, it has proven challenging to establish widespread concrete policies, and including social scientists and ethicists on synthetic biology teams has met with mixed success. This text proposes a different approach, asking instead is it possible to develop a well-performing recommender model based upon natural language processing (NLP) to connect synthetic biologists with information on the ELSI of their specific research? This recommender was developed as part of a larger project building a Synthetic Biology Knowledge System (SBKS) to accelerate discovery and exploration of the synthetic biology design space. Our approach aims to distill for synthetic biologists relevant ethical and social scientific information and embed it into synthetic biology research workflows.
翻訳日:2022-07-15 07:47:31 公開日:2022-07-10
# 1st Place Solution to the EPIC-Kitchens Action Precipation Challenge 2022

1st Place Solution to the EPIC-Kitchens Action Anticipation Challenge 2022 ( http://arxiv.org/abs/2207.05730v1 )

ライセンス: Link先を確認
Zeyu Jiang, Changxing Ding(参考訳) 本報告では,EPIC-Kitchens Action Precipation Challenge 2022への提出の技術的詳細について述べる。 この競争では、以下の2つのアプローチを開発します。 1)教師モデルで学習したソフトラベルを学生ネットワークに案内して予測時間に関する情報を学習するための知識として利用した予知時間知識蒸留 2)動詞と名詞の関係を構築するための動詞-名詞関係モジュール 本手法は,EPIC-Kitchens Action Precipation Challenge 2022の試験セットにおける最先端の成果を達成する。

In this report, we describe the technical details of our submission to the EPIC-Kitchens Action Anticipation Challenge 2022. In this competition, we develop the following two approaches. 1) Anticipation Time Knowledge Distillation using the soft labels learned by the teacher model as knowledge to guide the student network to learn the information of anticipation time; 2) Verb-Noun Relation Module for building the relationship between verbs and nouns. Our method achieves state-of-the-art results on the testing set of EPIC-Kitchens Action Anticipation Challenge 2022.
翻訳日:2022-07-13 14:29:57 公開日:2022-07-10
# 因果的背景知識の表現とその因果推論への応用について

On the Representation of Causal Background Knowledge and its Applications in Causal Inference ( http://arxiv.org/abs/2207.05067v1 )

ライセンス: Link先を確認
Zhuangyan Fang, Ruiqi Zhao, Yue Liu, Yangbo He(参考訳) 因果縁と経路の存在または欠如に関する因果的背景知識は、観察的研究においてしばしば遭遇する。 背景知識により洗練されたマルコフ等価なDAGのサブクラスの共有有向エッジとリンクは、因果極大部分非巡回グラフ(MPDAG)で表すことができる。 本稿では,まず,因果性MPDAGの音響的,完全なグラフィカルな特徴を提示し,因果性MPDAGの最小表現を与える。 そこで本研究では,すべての因果的背景知識を統一形式で表現するために,DCC(direct causal clause)という新しい表現を導入する。 因果的背景知識の一貫性と等価性をDCCを用いて検討し,任意の因果的背景知識集合を因果的MPDAGと最小限のDCC集合に等価に分解可能であることを示す。 多項式時間アルゴリズムは、整合性、等価性を確認し、分解されたMPDAGと残留DCCを見つけるためにも提供される。 最後に,因果関係の知識を用いて因果関係の同定に十分かつ必要な条件を証明し,因果関係の識別可能性が分解MPDAGにのみ依存していることを見出した。 また,不特定効果の可能な値を推定する局所IDA型アルゴリズムを開発した。 シミュレーションは因果的背景知識が因果的効果の識別性を大幅に改善することを示唆している。

Causal background knowledge about the existence or the absence of causal edges and paths is frequently encountered in observational studies. The shared directed edges and links of a subclass of Markov equivalent DAGs refined due to background knowledge can be represented by a causal maximally partially directed acyclic graph (MPDAG). In this paper, we first provide a sound and complete graphical characterization of causal MPDAGs and give a minimal representation of a causal MPDAG. Then, we introduce a novel representation called direct causal clause (DCC) to represent all types of causal background knowledge in a unified form. Using DCCs, we study the consistency and equivalency of causal background knowledge and show that any causal background knowledge set can be equivalently decomposed into a causal MPDAG plus a minimal residual set of DCCs. Polynomial-time algorithms are also provided for checking the consistency, equivalency, and finding the decomposed MPDAG and residual DCCs. Finally, with causal background knowledge, we prove a sufficient and necessary condition to identify causal effects and surprisingly find that the identifiability of causal effects only depends on the decomposed MPDAG. We also develop a local IDA-type algorithm to estimate the possible values of an unidentifiable effect. Simulations suggest that causal background knowledge can significantly improve the identifiability of causal effects.
翻訳日:2022-07-13 13:04:33 公開日:2022-07-10
# (参考訳) 生涯指導型学習入門

An Introduction to Lifelong Supervised Learning ( http://arxiv.org/abs/2207.04354v1 )

ライセンス: CC BY 4.0
Shagun Sodhani, Mojtaba Farmazi, Sanket Vaibhav Mehta, Pranshu Malviya, Mohamed Abdelsalam, Janarthanan Janarthanan, Sarath Chandar(参考訳) このプライマーは、生涯学習のさまざまな側面の詳細な概要を提供する試みである。 まず、生涯学習システムの高レベルな概要を提供する2章から始める。 本章では、生涯学習における顕著なシナリオについて論じる(第2.4章)。第2.5章)、理想的な生涯学習システムのためのデシラタを列挙する(第2.6章)、生涯学習が他の学習パラダイムとどのように関連しているかを論じる(第2.7章)、生涯学習システムを評価するために使用される一般的な指標を説明する(第2.8章)。 この章は、生涯学習に慣れて、特定のアプローチやベンチマークに集中することなく、この分野に導入したい読者にとってより有用なものです。

This primer is an attempt to provide a detailed summary of the different facets of lifelong learning. We start with Chapter 2 which provides a high-level overview of lifelong learning systems. In this chapter, we discuss prominent scenarios in lifelong learning (Section 2.4), provide 8 Introduction a high-level organization of different lifelong learning approaches (Section 2.5), enumerate the desiderata for an ideal lifelong learning system (Section 2.6), discuss how lifelong learning is related to other learning paradigms (Section 2.7), describe common metrics used to evaluate lifelong learning systems (Section 2.8). This chapter is more useful for readers who are new to lifelong learning and want to get introduced to the field without focusing on specific approaches or benchmarks.
翻訳日:2022-07-13 08:46:22 公開日:2022-07-10
# (参考訳) 自己教師付き音声表現に基づく音声変換の比較検討

A Comparative Study of Self-supervised Speech Representation Based Voice Conversion ( http://arxiv.org/abs/2207.04356v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Tomoki Toda(参考訳) 本稿では,自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究を行う。 認識合成VCの文脈では、S3Rは、現在最先端のVCシステムで一般的に採用されている音声後部グラフ(PPG)のような高価な教師付き表現を置き換える可能性があるため、魅力的である。 これまでに開発したオープンソースのVCソフトウェアであるS3PRL-VCを使用して、音声変換チャレンジ2020(VCC2020)データセットを使用して、3つのVC設定に基づいて、詳細な目標と主観的な分析を行う。 モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。 また,k-meansクラスタリングを用いたポストディスクリタイズ処理の効果について検討し,a2a設定における改善効果を示した。 最後に、最先端のVCシステムとの比較は、S3RベースのVCの競争力を示し、また、改善可能な方向性に光を当てる。

We present a large-scale comparative study of self-supervised speech representation (S3R)-based voice conversion (VC). In the context of recognition-synthesis VC, S3Rs are attractive owing to their potential to replace expensive supervised representations such as phonetic posteriorgrams (PPGs), which are commonly adopted by state-of-the-art VC systems. Using S3PRL-VC, an open-source VC software we previously developed, we provide a series of in-depth objective and subjective analyses under three VC settings: intra-/cross-lingual any-to-one (A2O) and any-to-any (A2A) VC, using the voice conversion challenge 2020 (VCC2020) dataset. We investigated S3R-based VC in various aspects, including model type, multilinguality, and supervision. We also studied the effect of a post-discretization process with k-means clustering and showed how it improves in the A2A setting. Finally, the comparison with state-of-the-art VC systems demonstrates the competitiveness of S3R-based VC and also sheds light on the possible improving directions.
翻訳日:2022-07-13 08:45:11 公開日:2022-07-10
# (参考訳) 非信号交差点での自動運転のための州立ドロップアウト型カリキュラム強化学習

State Dropout-Based Curriculum Reinforcement Learning for Self-Driving at Unsignalized Intersections ( http://arxiv.org/abs/2207.04361v1 )

ライセンス: CC BY 4.0
Shivesh Khaitan and John M. Dolan(参考訳) 交差点を横断することは、特に交差点に交通制御がない場合、自動運転車にとって難しい問題である。 近年,自律走行作業の成功により,深層強化学習に大きな注目を集めている。 本研究では, 深層強化学習のための新しいカリキュラムを用いて, 不特定交差点を横断する問題に対処する。 提案されたカリキュラムは 1)強化学習エージェントの学習過程の高速化、及び 2)カリキュラムなしで訓練したエージェントに比べ,パフォーマンスが向上した。 私たちの主な貢献は2つあります。 1)深層強化学習エージェント育成のためのユニークなカリキュラムの提示、及び 2) 未署名の交差点横断作業に対する提案カリキュラムの適用性を示す。 この枠組みは、自動運転車の知覚システムから周囲の処理された観察を期待する。 我々は,T区間と4方向交差点におけるCommonRoad運動計画シミュレータで本手法をテストする。

Traversing intersections is a challenging problem for autonomous vehicles, especially when the intersections do not have traffic control. Recently deep reinforcement learning has received massive attention due to its success in dealing with autonomous driving tasks. In this work, we address the problem of traversing unsignalized intersections using a novel curriculum for deep reinforcement learning. The proposed curriculum leads to: 1) A faster training process for the reinforcement learning agent, and 2) Better performance compared to an agent trained without curriculum. Our main contribution is two-fold: 1) Presenting a unique curriculum for training deep reinforcement learning agents, and 2) showing the application of the proposed curriculum for the unsignalized intersection traversal task. The framework expects processed observations of the surroundings from the perception system of the autonomous vehicle. We test our method in the CommonRoad motion planning simulator on T-intersections and four-way intersections.
翻訳日:2022-07-13 08:22:08 公開日:2022-07-10
# (参考訳) 好中球近傍におけるグラフニューラルネットワークの公正性について

On Graph Neural Network Fairness in the Presence of Heterophilous Neighborhoods ( http://arxiv.org/abs/2207.04376v1 )

ライセンス: CC BY 4.0
Donald Loveland, Jiong Zhu, Mark Heimann, Ben Fish, Michael T. Schaub, Danai Koutra(参考訳) 本稿では,グラフニューラルネットワーク(gnns)のノード分類の課題について検討し,統計的パリティと等機会によって測定されるグループフェアネスと,類似する属性を持つリンクノードの傾向との相関性を確立する。 このような随伴性はしばしばホモフィリーによって引き起こされ、類似した性質のノードが接続する傾向にある。 ホモフィリーは、システム的要因が個人をセンシティブな属性を共有するコミュニティに強制したソーシャルネットワークで一般的である。 合成グラフを用いて局所的に発生するホモフィリーと公正な予測の相互作用を研究し、全てのノード近傍がこの点において等しくはないことを見出し、感度の高い属性の1つのカテゴリが支配する近傍は、特に局所的なクラスと感度の高い属性のホモフィリーが分岐する場合において、公正な扱いを得るのに苦労することが多い。 局所的ホモフィリーと公平性の関係を判定した後、適用されたGNNモデルの設計に不公平性の問題が関係しているかどうかを考察する。 異種グループラベルを扱える不均質なGNN設計を採用することで、局所異種地域におけるグループフェアネスを、実データや合成データセットにおけるホモフレンドリなデザインよりも最大25%向上させることができることを示す。

We study the task of node classification for graph neural networks (GNNs) and establish a connection between group fairness, as measured by statistical parity and equal opportunity, and local assortativity, i.e., the tendency of linked nodes to have similar attributes. Such assortativity is often induced by homophily, the tendency for nodes of similar properties to connect. Homophily can be common in social networks where systemic factors have forced individuals into communities which share a sensitive attribute. Through synthetic graphs, we study the interplay between locally occurring homophily and fair predictions, finding that not all node neighborhoods are equal in this respect -- neighborhoods dominated by one category of a sensitive attribute often struggle to obtain fair treatment, especially in the case of diverging local class and sensitive attribute homophily. After determining that a relationship between local homophily and fairness exists, we investigate if the issue of unfairness can be associated to the design of the applied GNN model. We show that by adopting heterophilous GNN designs capable of handling disassortative group labels, group fairness in locally heterophilous neighborhoods can be improved by up to 25% over homophilous designs in real and synthetic datasets.
翻訳日:2022-07-13 08:10:36 公開日:2022-07-10
# (参考訳) Bregman Proximal Langevin Monte Carlo via Bregman--Moreau Envelopes

Bregman Proximal Langevin Monte Carlo via Bregman--Moreau Envelopes ( http://arxiv.org/abs/2207.04387v1 )

ライセンス: CC BY 4.0
Tim Tsz-Kit Lau, Han Liu(参考訳) 連続微分可能関数と潜在的に非スムース関数の和である非スムース凸複合ポテンシャルを持つ分布をサンプリングするための効率的なランジュバンモンテカルロアルゴリズムを提案する。 We devise such algorithms leveraging recent advances in convex analysis and optimization methods involving Bregman divergences, namely the Bregman--Moreau envelopes and the Bregman proximity operators, and in the Langevin Monte Carlo algorithms reminiscent of mirror descent. The proposed algorithms extend existing Langevin Monte Carlo algorithms in two aspects -- the ability to sample nonsmooth distributions with mirror descent-like algorithms, and the use of the more general Bregman--Moreau envelope in place of the Moreau envelope as a smooth approximation of the nonsmooth part of the potential. 提案手法の特定の例は、ブレグマン近位勾配アルゴリズムを思い起こさせるものである。 提案手法の効率性は, 既存のLangevin Monte Carlo法が低性能であることが知られている様々なサンプリングタスクで示される。

We propose efficient Langevin Monte Carlo algorithms for sampling distributions with nonsmooth convex composite potentials, which is the sum of a continuously differentiable function and a possibly nonsmooth function. We devise such algorithms leveraging recent advances in convex analysis and optimization methods involving Bregman divergences, namely the Bregman--Moreau envelopes and the Bregman proximity operators, and in the Langevin Monte Carlo algorithms reminiscent of mirror descent. The proposed algorithms extend existing Langevin Monte Carlo algorithms in two aspects -- the ability to sample nonsmooth distributions with mirror descent-like algorithms, and the use of the more general Bregman--Moreau envelope in place of the Moreau envelope as a smooth approximation of the nonsmooth part of the potential. A particular case of the proposed scheme is reminiscent of the Bregman proximal gradient algorithm. The efficiency of the proposed methodology is illustrated with various sampling tasks at which existing Langevin Monte Carlo methods are known to perform poorly.
翻訳日:2022-07-13 08:01:20 公開日:2022-07-10
# (参考訳) グラフ畳み込みネットワークのためのスケーラブルなプライバシー強化ベンチマークグラフ生成モデル

Scalable Privacy-enhanced Benchmark Graph Generative Model for Graph Convolutional Networks ( http://arxiv.org/abs/2207.04396v1 )

ライセンス: CC BY 4.0
Minji Yoon, Yue Wu, John Palowitch, Bryan Perozzi, and Ruslan Salakhutdinov(参考訳) グラフ畳み込みネットワーク(GCN)への関心の高まりにより、毎年何百ものGCNが導入された。 対照的に、多くのGCNモデルは、ソーシャルや商用ネットワークなどの多くの関心グラフがプロプライエタリであるため、少数のベンチマークデータセットのみを再使用します。 ソースグラフ(おそらくプロプライエタリな)を3つの要件で配布した後に,GCNのベンチマークグラフの多様なセットを生成することのできる,新たなグラフ生成問題を提案する。 1)gcn研究のソースグラフの代替としてのベンチマークの有効性 2)大規模実世界のグラフ処理のスケーラビリティ 3) エンドユーザのプライバシ保証。 新しいグラフ符号化方式により,大規模グラフ生成問題を中長系列生成問題に再構成し,グラフ領域にトランスフォーマアーキテクチャの強力な生成パワーを適用する。 多数のグラフ生成モデルにわたる広範囲な実験により,本モデルは,ノード分類タスクでgcnをベンチマークするのに必要なグラフ構造,ノード属性,ノードラベルを用いたベンチマークグラフを効果的に生成できることが確認された。

A surge of interest in Graph Convolutional Networks (GCN) has produced thousands of GCN variants, with hundreds introduced every year. In contrast, many GCN models re-use only a handful of benchmark datasets as many graphs of interest, such as social or commercial networks, are proprietary. We propose a new graph generation problem to enable generating a diverse set of benchmark graphs for GCNs following the distribution of a source graph -- possibly proprietary -- with three requirements: 1) benchmark effectiveness as a substitute for the source graph for GCN research, 2) scalability to process large-scale real-world graphs, and 3) a privacy guarantee for end-users. With a novel graph encoding scheme, we reframe large-scale graph generation problem into medium-length sequence generation problem and apply the strong generation power of the Transformer architecture to the graph domain. Extensive experiments across a vast body of graph generative models show that our model can successfully generate benchmark graphs with the realistic graph structure, node attributes, and node labels required to benchmark GCNs on node classification tasks.
翻訳日:2022-07-13 07:59:58 公開日:2022-07-10
# (参考訳) 局所的コントラスト損失を伴う自己教師付き学習による検出と意味セグメンテーション

Self-supervised Learning with Local Contrastive Loss for Detection and Semantic Segmentation ( http://arxiv.org/abs/2207.04398v1 )

ライセンス: CC BY 4.0
Ashraful Islam, Ben Lundell, Harpreet Sawhney, Sudipta Sinha, Peter Morales, Richard J. Radke(参考訳) 本稿では,オブジェクト検出やセマンティクスセグメンテーションといった半グローバルタスクに適した自己教師付き学習(ssl)手法を提案する。 我々は,訓練中の画素レベルの局所的コントラスト(LC)損失を最小限に抑え,同一画像の変換された画像位置を表す自己学習特徴間の局所的一貫性を強制する。 LC-lossは、最小限のオーバーヘッドで既存の自己教師付き学習手法に追加することができる。 我々は、COCO、PASCAL VOC、CityScapesデータセットを用いて、オブジェクト検出とセマンティックセグメンテーションという2つの下流タスクに対するSSLアプローチを評価した。 提案手法は,COCOオブジェクト検出では1.9%,PASCALVOC検出では1.4%,CityScapesセグメンテーションでは0.6%,既存の最先端SSLアプローチでは1.9%向上した。

We present a self-supervised learning (SSL) method suitable for semi-global tasks such as object detection and semantic segmentation. We enforce local consistency between self-learned features, representing corresponding image locations of transformed versions of the same image, by minimizing a pixel-level local contrastive (LC) loss during training. LC-loss can be added to existing self-supervised learning methods with minimal overhead. We evaluate our SSL approach on two downstream tasks -- object detection and semantic segmentation, using COCO, PASCAL VOC, and CityScapes datasets. Our method outperforms the existing state-of-the-art SSL approaches by 1.9% on COCO object detection, 1.4% on PASCAL VOC detection, and 0.6% on CityScapes segmentation.
翻訳日:2022-07-13 07:41:13 公開日:2022-07-10
# (参考訳) LM-Nav:言語,視覚,行動の大規模事前学習モデルを用いたロボットナビゲーション

LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action ( http://arxiv.org/abs/2207.04429v1 )

ライセンス: CC BY 4.0
Dhruv Shah, Blazej Osinski, Brian Ichter, Sergey Levine(参考訳) ロボットナビゲーションのための目標条件付きポリシーは、大規模で注釈のないデータセットでトレーニングすることができる。 しかし、特に目標を特定するために画像を必要とする視覚ベースの設定では、これは不自然なインターフェースとなる。 言語はロボットとのコミュニケーションにより便利なモダリティを提供するが、現代の手法は一般的に、言語記述に注釈を付けた軌跡の形で、高価な監督を必要とする。 我々は,未注釈の大規模軌跡データセットのトレーニングの恩恵を享受しつつ,ユーザに対してハイレベルなインターフェースを提供するロボットナビゲーションシステムLM-Navを提案する。 データセットに続くラベル付き命令を使用する代わりに,事前学習されたナビゲーションモデル(ving),画像言語連想モデル(clip),言語モデリングモデル(gpt-3)から,微調整や言語アノテーション付きロボットデータを必要としないシステムを構築することができることを示す。 実世界の移動ロボット上でLM-Navをインスタンス化し、自然言語による複雑な屋外環境における長距離ナビゲーションを実演する。 実験のビデオやコードリリース,ブラウザで動作するインタラクティブなColabノートブックについては,プロジェクトページ https://sites.google.com/view/lmnav をご覧ください。

Goal-conditioned policies for robotic navigation can be trained on large, unannotated datasets, providing for good generalization to real-world settings. However, particularly in vision-based settings where specifying goals requires an image, this makes for an unnatural interface. Language provides a more convenient modality for communication with robots, but contemporary methods typically require expensive supervision, in the form of trajectories annotated with language descriptions. We present a system, LM-Nav, for robotic navigation that enjoys the benefits of training on unannotated large datasets of trajectories, while still providing a high-level interface to the user. Instead of utilizing a labeled instruction following dataset, we show that such a system can be constructed entirely out of pre-trained models for navigation (ViNG), image-language association (CLIP), and language modeling (GPT-3), without requiring any fine-tuning or language-annotated robot data. We instantiate LM-Nav on a real-world mobile robot and demonstrate long-horizon navigation through complex, outdoor environments from natural language instructions. For videos of our experiments, code release, and an interactive Colab notebook that runs in your browser, please check out our project page https://sites.google.com/view/lmnav
翻訳日:2022-07-13 07:23:35 公開日:2022-07-10
# (参考訳) SRRT:検索領域規制追跡

SRRT: Search Region Regulation Tracking ( http://arxiv.org/abs/2207.04438v1 )

ライセンス: CC BY 4.0
Jiawen Zhu, Xin Chen, Dong Wang, Wenda Zhao, Huchuan Lu(参考訳) 支配トラッカーは、モデル入力、すなわち探索領域として、前回の予測または初期境界ボックスに基づいて、固定サイズの矩形領域を生成する。 この方法ではトラッキング効率が向上するが、固定サイズの検索領域は柔軟性に欠け、高速な動きや干渉などの場合に失敗する可能性がある。 トラッカーは探索領域が限られているため対象物を失ったり、過剰な探索領域によって妨害される傾向にある。 本研究では,提案する探索領域レギュレータを用いてフレーム毎に最適な探索領域を動的に推定する,探索領域レギュレーショントラッキング(srrt)と呼ばれる新しい追跡パラダイムを提案する。 さらに,トラッキング中のオブジェクトの外観変化に適応するため,参照フレーム更新のためのロック状態決定更新戦略を提案する。 当社のsrtフレームワークはデザインを凝らさずに非常に簡潔なものですが,7つの難易度ベンチマークにおいて,他の最先端トラッカと比較してベースラインと競合性が明らかに向上しています。 大規模なLaSOTベンチマークでは、SRRTはSiamRPN++とTransTをAUCの4.6%と3.1%で改善しています。

Dominant trackers generate a fixed-size rectangular region based on the previous prediction or initial bounding box as the model input, i.e., search region. While this manner leads to improved tracking efficiency, a fixed-size search region lacks flexibility and is likely to fail in cases, e.g., fast motion and distractor interference. Trackers tend to lose the target object due to the limited search region or be interfered by distractors due to excessive search region. In this work, we propose a novel tracking paradigm, called Search Region Regulation Tracking (SRRT), which applies a proposed search region regulator to estimate an optimal search region dynamically for every frame. To adapt the object's appearance variation during tracking, we further propose a locking-state determined updating strategy for reference frame updating. Our SRRT framework is very concise without fancy design, yet achieves evident improvements on the baselines and competitive results with other state-of-the-art trackers on seven challenging benchmarks. On the large-scale LaSOT benchmark, our SRRT improves SiamRPN++ and TransT with the absolute gains of 4.6% and 3.1% in terms of AUC.
翻訳日:2022-07-13 06:58:24 公開日:2022-07-10
# (参考訳) プログレッシブコネクテッド・ライトフィールドネットワークによる効率的なビュー合成

Progressively-connected Light Field Network for Efficient View Synthesis ( http://arxiv.org/abs/2207.04465v1 )

ライセンス: CC BY 4.0
Peng Wang, Yuan Liu, Guying Lin, Jiatao Gu, Lingjie Liu, Taku Komura, Wenping Wang(参考訳) 本稿では,複雑な前方シーンの新たな視点合成を行うためのプログレッシブ接続型光フィールドネットワーク(prolif)を提案する。 ProLiFは4Dライトフィールドをエンコードし、画像やパッチレベルの損失に対するトレーニングステップで大量の光線をレンダリングすることができる。 画像からニューラルライトフィールドを直接学習することは、基礎となる3次元幾何学の無意識のため、多視点一貫した画像をレンダリングするのは難しい。 そこで本研究では,多視点一貫性を実現するとともに,レンダリング品質が大幅に向上する,トレーニング中の基本形状を推定するプログレッシブトレーニングスキームと正規化損失を提案する。 実験により,本手法はバニラニューラルライトフィールドよりはるかに優れたレンダリング品質を達成でき,llffデータセットや光沢オブジェクトデータセットにおけるnerfライクなレンダリング手法と同等の結果が得られることを示した。 さらに,LPIPSロスとの整合性を向上し,様々な光条件に対する堅牢性,シーンのレンダリングスタイルを制御するCLIPロスを実現する。 プロジェクトページ: https://totoro97.github.io/projects/prolif。

This paper presents a Progressively-connected Light Field network (ProLiF), for the novel view synthesis of complex forward-facing scenes. ProLiF encodes a 4D light field, which allows rendering a large batch of rays in one training step for image- or patch-level losses. Directly learning a neural light field from images has difficulty in rendering multi-view consistent images due to its unawareness of the underlying 3D geometry. To address this problem, we propose a progressive training scheme and regularization losses to infer the underlying geometry during training, both of which enforce the multi-view consistency and thus greatly improves the rendering quality. Experiments demonstrate that our method is able to achieve significantly better rendering quality than the vanilla neural light fields and comparable results to NeRF-like rendering methods on the challenging LLFF dataset and Shiny Object dataset. Moreover, we demonstrate better compatibility with LPIPS loss to achieve robustness to varying light conditions and CLIP loss to control the rendering style of the scene. Project page: https://totoro97.github.io/projects/prolif.
翻訳日:2022-07-13 06:31:22 公開日:2022-07-10
# (参考訳) 音楽音響表現のためのコントラスト型自己教師型学習戦略

Towards Proper Contrastive Self-supervised Learning Strategies For Music Audio Representation ( http://arxiv.org/abs/2207.04471v1 )

ライセンス: CC BY 4.0
Jeong Choi, Seongwon Jang, Hyunsouk Cho, Sehee Chung(参考訳) 自己教師付き学習の一般的な研究目標は、任意の下流タスクが恩恵を受ける一般的な表現を抽出することである。 本研究では,異なるコントラスト的自己指導型学習手法から学習した音楽の音響表現について検討し,音楽知覚のレベルが異なる様々な音楽情報検索(MIR)タスクにおける埋め込みベクトルを実験的に評価する。 この結果を分析し、異なるMIRタスクに対するコントラスト学習戦略の適切な方向性について考察する。 これらの表現は概して音楽の聴覚特性に関する包括的情報を伝達するが、それぞれの自己監督戦略は情報の特定の側面において独自の効果を有する。

The common research goal of self-supervised learning is to extract a general representation which an arbitrary downstream task would benefit from. In this work, we investigate music audio representation learned from different contrastive self-supervised learning schemes and empirically evaluate the embedded vectors on various music information retrieval (MIR) tasks where different levels of the music perception are concerned. We analyze the results to discuss the proper direction of contrastive learning strategies for different MIR tasks. We show that these representations convey a comprehensive information about the auditory characteristics of music in general, although each of the self-supervision strategies has its own effectiveness in certain aspect of information.
翻訳日:2022-07-13 06:10:11 公開日:2022-07-10
# (参考訳) 事前学習した言語モデルを用いたソーシャルメディアテキストからのmyers-briggsパーソナリティ分類

Myers-Briggs personality classification from social media text using pre-trained language models ( http://arxiv.org/abs/2207.04476v1 )

ライセンス: CC BY 4.0
Vitor Garcia dos Santos, Ivandr\'e Paraboni(参考訳) 自然言語処理では、感情分析や著者識別など、下流の多くのタスクにおいて、事前学習された言語モデルの使用が最先端の結果を得ることが示されている。 本稿では,テキストからのパーソナリティ分類におけるこれらの手法の利用について述べる。 マイヤーズ・ブリッグス(MBTI)パーソナリティモデルに焦点をあて、よく知られた変換器(BERT)モデルからの双方向エンコーダ表現を細調整してMBTI分類を行う一連の実験について述べる。 本手法は,複数の評価シナリオにまたがって,単語のバッグ・オブ・ワードや静的単語の埋め込みに基づくテキスト分類モデルよりも優れており,一般的に現場での作業よりも優れていた。

In Natural Language Processing, the use of pre-trained language models has been shown to obtain state-of-the-art results in many downstream tasks such as sentiment analysis, author identification and others. In this work, we address the use of these methods for personality classification from text. Focusing on the Myers-Briggs (MBTI) personality model, we describe a series of experiments in which the well-known Bidirectional Encoder Representations from Transformers (BERT) model is fine-tuned to perform MBTI classification. Our main findings suggest that the current approach significantly outperforms well-known text classification models based on bag-of-words and static word embeddings alike across multiple evaluation scenarios, and generally outperforms previous work in the field.
翻訳日:2022-07-13 06:01:06 公開日:2022-07-10
# (参考訳) 生物学における微分方程式モデルの自動微分と最適化

Automatic differentiation and the optimization of differential equation models in biology ( http://arxiv.org/abs/2207.04487v1 )

ライセンス: CC BY 4.0
Steven A. Frank(参考訳) 計算革命は、人工ニューラルネットワークの力を解き放った。 その革命の核心にあるのは自動微分であり、多数のパラメータに対する性能尺度の微分を計算する。 差別化は、かつては困難か不可能であった大きなモデルの性能向上の発見を促進する。 近年、第2の計算進路は微分方程式によって追跡される時間軌道を最適化する。 最適化には、微分方程式のパラメータに関して、環境の追跡の近さなど、軌道上の性能の尺度を微分する必要がある。 モデル軌跡は通常、runge-kutta のような多段階アルゴリズムによって数値的に計算されるので、自動微分は数値アルゴリズムに渡さなければならない。 本稿では,このような軌道の自動微分を実現する方法について述べる。 また、このような計算ブレークスルーが、変数を時間と空間の動的な経路と見なすことができる生物学的問題の理論的および統計的研究を進展させる可能性についても論じている。 多くの一般的な問題は、パフォーマンスランドスケープよりも計算学習モデルの成功の改善、適応的なランドスケープよりも進化的適合性の向上、情報ランドスケープよりのデータに対する統計的適合性の向上などである。

A computational revolution unleashed the power of artificial neural networks. At the heart of that revolution is automatic differentiation, which calculates the derivative of a performance measure relative to a large number of parameters. Differentiation enhances the discovery of improved performance in large models, an achievement that was previously difficult or impossible. Recently, a second computational advance optimizes the temporal trajectories traced by differential equations. Optimization requires differentiating a measure of performance over a trajectory, such as the closeness of tracking the environment, with respect to the parameters of the differential equations. Because model trajectories are usually calculated numerically by multistep algorithms, such as Runge-Kutta, the automatic differentiation must be passed through the numerical algorithm. This article explains how such automatic differentiation of trajectories is achieved. It also discusses why such computational breakthroughs are likely to advance theoretical and statistical studies of biological problems, in which one can consider variables as dynamic paths over time and space. Many common problems arise between improving success in computational learning models over performance landscapes, improving evolutionary fitness over adaptive landscapes, and improving statistical fits to data over information landscapes.
翻訳日:2022-07-13 05:36:26 公開日:2022-07-10
# (参考訳) DPText-DETR:変換器の動的点によるシーンテキストの検出の改善

DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer ( http://arxiv.org/abs/2207.04491v1 )

ライセンス: CC BY 4.0
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao(参考訳) 近年,テキストのローカライズのために多角点やベジエ曲線制御ポイントを予測できるトランスフォーマティブ・ベース手法が,シーンのテキスト検出において非常に人気がある。 しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。 モデルアーキテクチャに関して、デコーダで使用されるクエリの定式化は、以前の方法では十分に検討されていない。 本稿では,ポイント座標を直接クエリとして使用し,デコーダ層間で動的に更新する,簡潔な動的ポイントシーン検出トランスフォーマーネットワークdptext-detrを提案する。 そこで,本論文では,原点の副作用に対処するために,単純だが効果的な位置ラベル形式を指摘する。 さらに、非局所的な注意を超えた多角形点列の円形状を明示的にモデル化する拡張因子自己保持モジュールを設計する。 様々な任意の形状のシーンテキストベンチマークにおいて、訓練効率、堅牢性、最先端性能を実証する実験が盛んである。 検出器以外にも、既存のエンドツーエンドスポッターは逆テキストを認識するのに苦労している。 その性能を客観的に評価し,今後の研究を容易にするために,500個の手動ラベル付き画像を含む逆テキストテストセットを提案する。 コードとInverse-Textテストセットはhttps://github.com/ymy-k/DPText-DETRで入手できる。

Recently, Transformer-based methods, which predict polygon points or Bezier curve control points to localize texts, are quite popular in scene text detection. However, the used point label form implies the reading order of humans, which affects the robustness of Transformer model. As for the model architecture, the formulation of queries used in decoder has not been fully explored by previous methods. In this paper, we propose a concise dynamic point scene text detection Transformer network termed DPText-DETR, which directly uses point coordinates as queries and dynamically updates them between decoder layers. We point out a simple yet effective positional point label form to tackle the side effect of the original one. Moreover, an Enhanced Factorized Self-Attention module is designed to explicitly model the circular shape of polygon point sequences beyond non-local attention. Extensive experiments prove the training efficiency, robustness, and state-of-the-art performance on various arbitrary shape scene text benchmarks. Beyond detector, we observe that existing end-to-end spotters struggle to recognize inverse-like texts. To evaluate their performance objectively and facilitate future research, we propose an Inverse-Text test set containing 500 manually labeled images. The code and Inverse-Text test set will be available at https://github.com/ymy-k/DPText-DETR.
翻訳日:2022-07-13 05:23:25 公開日:2022-07-10
# (参考訳) FIB:多次元データにおける特徴衝突バランスの評価方法

FIB: A Method for Evaluation of Feature Impact Balance in Multi-Dimensional Data ( http://arxiv.org/abs/2207.04500v1 )

ライセンス: CC BY 4.0
Xavier F. Cadet, Sara Ahmadi-Abhari, Hamed Haddadi(参考訳) エラーは、手元にあるタスクによって同じ結果にならないかもしれません。 それにもかかわらず、エラーベクトルにおける異なる特徴の寄与における不均衡の影響についての研究は限られている。 そこで本稿では,FIB(Feature Impact Balance)スコアを提案する。 2つのベクトル間の相違点に特徴のバランスの取れた影響があるかどうかを測定する。 私たちは[0, 1]にあるfibスコアを設計しました。 0に近いスコアは、少数の機能がエラーの大部分に寄与し、1に近いスコアは、ほとんどの機能がエラーに等しく寄与していることを示している。 我々は、AutoEncoders と Variational AutoEncoders を用いて、異なるデータセット上で FIB を実験的に研究した。 トレーニング中に機能への影響バランスがどのように変化するかを示し、単一出力タスクとマルチアウトプットタスクのモデル選択をサポートするユーザビリティを示す。

Errors might not have the same consequences depending on the task at hand. Nevertheless, there is limited research investigating the impact of imbalance in the contribution of different features in an error vector. Therefore, we propose the Feature Impact Balance (FIB) score. It measures whether there is a balanced impact of features in the discrepancies between two vectors. We designed the FIB score to lie in [0, 1]. Scores close to 0 indicate that a small number of features contribute to most of the error, and scores close to 1 indicate that most features contribute to the error equally. We experimentally study the FIB on different datasets, using AutoEncoders and Variational AutoEncoders. We show how the feature impact balance varies during training and showcase its usability to support model selection for single output and multi-output tasks.
翻訳日:2022-07-13 05:07:03 公開日:2022-07-10
# (参考訳) 金属有機フレームワーク(MOF-KG)のためのオープン知識グラフの構築 : 課題と事例研究

Building Open Knowledge Graph for Metal-Organic Frameworks (MOF-KG): Challenges and Case Studies ( http://arxiv.org/abs/2207.04502v1 )

ライセンス: CC BY 4.0
Yuan An, Jane Greenberg, Xintong Zhao, Xiaohua Hu, Scott McCLellan, Alex Kalinowski, Fernando J. Uribe-Romo, Kyle Langlois, Jacob Furst, Diego A. G\'omez-Gualdr\'on, Fernando Fajardo-Rojas, Katherine Ardila(参考訳) 金属有機フレームワーク(英: Metal-Organic Frameworks、MOF)は、ガス貯蔵、分子分離、化学センシング、触媒、薬物の放出といった応用に革命をもたらす大きな可能性を持つモジュラーで多孔質の結晶材料である。 ケンブリッジ構造データベース (CSD) は、10,636個の合成MOF結晶を報告している。 114,373基のMOF構造。 合成された(さらに合成可能な)MOF構造は、研究者がMOF候補のスクリーニングと分離を行うための計算技術を追求する必要がある。 本稿では,MOF予測,発見,合成を容易にする知識グラフ手法の活用に向けた取り組みについて述べる。 本稿では,(1)構造化及び非構造化ソースからMOF知識グラフ(MOF-KG)を構築すること,(2)新しい知識の発見にMOF-KGを活用することの課題と事例について述べる。

Metal-Organic Frameworks (MOFs) are a class of modular, porous crystalline materials that have great potential to revolutionize applications such as gas storage, molecular separations, chemical sensing, catalysis, and drug delivery. The Cambridge Structural Database (CSD) reports 10,636 synthesized MOF crystals which in addition contains ca. 114,373 MOF-like structures. The sheer number of synthesized (plus potentially synthesizable) MOF structures requires researchers pursue computational techniques to screen and isolate MOF candidates. In this demo paper, we describe our effort on leveraging knowledge graph methods to facilitate MOF prediction, discovery, and synthesis. We present challenges and case studies about (1) construction of a MOF knowledge graph (MOF-KG) from structured and unstructured sources and (2) leveraging the MOF-KG for discovery of new or missing knowledge.
翻訳日:2022-07-13 04:55:18 公開日:2022-07-10
# (参考訳) 発展途上国におけるイメージベース果実品質評価のためのファシリケート機械学習

Facilitated machine learning for image-based fruit quality assessment in developing countries ( http://arxiv.org/abs/2207.04523v1 )

ライセンス: CC BY 4.0
Manuel Knott, Fernando Perez-Cruz, Thijs Defraeye(参考訳) 自動画像分類は食品科学における教師あり機械学習の一般的な課題である。 例として、果実の外観品質や熟度をイメージベースで分類する例がある。 この目的のために、深層畳み込みニューラルネットワーク(cnns)が一般的に用いられる。 これらのモデルは通常、多数のラベル付きトレーニングサンプルと強化された計算資源を必要とする。 商業的な果物の選別ラインはこれらの要件を容易に満たすが、機械学習アプローチの使用はこれらの前提条件、特に発展途上国の小規模農家によって妨げられる。 本稿では,データ可用性の低い領域や限られた計算資源に特に適する,事前学習型視覚変換器(ViT)に基づく代替手法を提案する。 標準的なデバイス上で限られたリソースで容易に実装でき、発展途上国のスマートフォンベースの画像分類にこれらのモデルを使用することを民主化することができる。 我々はバナナとリンゴの実のドメインデータセットに2つの異なる分類タスクをCNNアプローチでベンチマークすることで,本手法の競争力を実証する。 提案手法は,3745画像のトレーニングデータセット上で最高のCNN(0.950 vs. 0.958)よりも1%未満の精度で分類する。 同時に,少数のラベル付きトレーニングサンプルが利用可能である場合には,本手法が優れている。 CNNと比べて0.90の精度を達成するには3倍のデータを要求される。 さらに,低次元特徴埋め込みの可視化により,本研究で用いたモデルは,ラベルを割り当てることなく,見えないデータから優れた特徴を抽出することを示した。

Automated image classification is a common task for supervised machine learning in food science. An example is the image-based classification of the fruit's external quality or ripeness. For this purpose, deep convolutional neural networks (CNNs) are typically used. These models usually require a large number of labeled training samples and enhanced computational resources. While commercial fruit sorting lines readily meet these requirements, the use of machine learning approaches can be hindered by these prerequisites, especially for smallholder farmers in the developing world. We propose an alternative method based on pre-trained vision transformers (ViTs) that is particularly suitable for domains with low availability of data and limited computational resources. It can be easily implemented with limited resources on a standard device, which can democratize the use of these models for smartphone-based image classification in developing countries. We demonstrate the competitiveness of our method by benchmarking two different classification tasks on domain data sets of banana and apple fruits with well-established CNN approaches. Our method achieves a classification accuracy of less than one percent below the best-performing CNN (0.950 vs. 0.958) on a training data set of 3745 images. At the same time, our method is superior when only a small number of labeled training samples is available. It requires three times less data to achieve a 0.90 accuracy compared to CNNs. In addition, visualizations of low-dimensional feature embeddings show that the model used in our study extracts excellent features from unseen data without allocating labels.
翻訳日:2022-07-13 04:49:34 公開日:2022-07-10
# (参考訳) 局所グローバル情報融合を用いた単眼深度推定のためのマルチスケール視覚変換器

Depthformer : Multiscale Vision Transformer For Monocular Depth Estimation With Local Global Information Fusion ( http://arxiv.org/abs/2207.04535v1 )

ライセンス: CC BY 4.0
Ashutosh Agarwal and Chetan Arora(参考訳) トランスフォーマなどの注意に基づくモデルは、画像の長距離依存性を捉える能力から、セマンティックセグメンテーションのような密集した予測タスクにおいて優れた性能を示している。 しかし,単眼深度予測における変圧器の利点は,これまでほとんど解明されていない。 本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。 本稿では,提案するデコーダネットワークと組み合わさったマルチスケール特徴マップを作成するために,マルチヘッドセルフアテンションを用いた単眼深度推定のための新しいアテンションベースアーキテクチャである depthformer を提案する。 また、画像毎に中心値が適応的に推定されるビンに深さ範囲を分割するトランスビンスモジュールを提案する。 最後の深さは各ピクセルのビン中心の線形結合である。 Transbinsモジュールは、エンコーディングステージにおけるTransformerモジュールを使用して、グローバルな受信フィールドを利用する。 NYUV2 と KITTI の深さ推定ベンチマークによる実験結果から,提案手法はルート平均正方形誤差(RMSE)においてそれぞれ3.3%,3.3%改善することが示された。

Attention-based models such as transformers have shown outstanding performance on dense prediction tasks, such as semantic segmentation, owing to their capability of capturing long-range dependency in an image. However, the benefit of transformers for monocular depth prediction has seldom been explored so far. This paper benchmarks various transformer-based models for the depth estimation task on an indoor NYUV2 dataset and an outdoor KITTI dataset. We propose a novel attention-based architecture, Depthformer for monocular depth estimation that uses multi-head self-attention to produce the multiscale feature maps, which are effectively combined by our proposed decoder network. We also propose a Transbins module that divides the depth range into bins whose center value is estimated adaptively per image. The final depth estimated is a linear combination of bin centers for each pixel. Transbins module takes advantage of the global receptive field using the transformer module in the encoding stage. Experimental results on NYUV2 and KITTI depth estimation benchmark demonstrate that our proposed method improves the state-of-the-art by 3.3%, and 3.3% respectively in terms of Root Mean Squared Error (RMSE).
翻訳日:2022-07-13 04:32:34 公開日:2022-07-10
# (参考訳) 継続的学習におけるタスク数の拡大

Scaling the Number of Tasks in Continual Learning ( http://arxiv.org/abs/2207.04543v1 )

ライセンス: CC BY 4.0
Timoth\'ee Lesort, Oleksiy Ostapenko, Diganta Misra, Md Rifat Arefin, Pau Rodr\'iguez, Laurent Charlin, Irina Rish(参考訳) タスクのシーケンスに適用される標準的な勾配降下アルゴリズムは、ディープニューラルネットワークで壊滅的な忘れを生じることが知られている。 シーケンス内の新しいタスクでトレーニングされると、モデルは現在のタスクのパラメータを更新し、過去の知識を忘れます。 本稿では,有限環境におけるタスク数を拡大するシナリオについて考察する。 これらのシナリオは、繰り返しデータを含む長い一連のタスクで構成されます。 このような環境では、確率的勾配降下は学習し、進行し、収束し、既存の文献によれば連続学習アルゴリズムが必要である。 言い換えれば、モデルが特定の記憶機構を使わずに知識保持と蓄積を行うことを示す。 タスクの無限列におけるアルゴリズムの知識保持と蓄積を研究するための新しい実験フレームワークであるSCoLe(Scaling Continual Learning)を提案する。 この設定を探索するために、この新しい設定のファミリーをよりよく理解するために、1000のタスクのシーケンスについて多数の実験を行った。 また,この設定における連続学習を容易にするために,バニラ確率勾配勾配の微修正も提案する。 scoleフレームワークは、繰り返し発生する状況を伴う実践的なトレーニング環境のよいシミュレーションであり、長いシーケンスにおける収束行動の研究を可能にする。 我々の実験は、短いシナリオでの以前の結果は、常に長いシナリオに外挿できないことを示した。

Standard gradient descent algorithms applied to sequences of tasks are known to produce catastrophic forgetting in deep neural networks. When trained on a new task in a sequence, the model updates its parameters on the current task, forgetting past knowledge. This article explores scenarios where we scale the number of tasks in a finite environment. Those scenarios are composed of a long sequence of tasks with reoccurring data. We show that in such setting, stochastic gradient descent can learn, progress, and converge to a solution that according to existing literature needs a continual learning algorithm. In other words, we show that the model performs knowledge retention and accumulation without specific memorization mechanisms. We propose a new experimentation framework, SCoLe (Scaling Continual Learning), to study the knowledge retention and accumulation of algorithms in potentially infinite sequences of tasks. To explore this setting, we performed a large number of experiments on sequences of 1,000 tasks to better understand this new family of settings. We also propose a slight modifications to the vanilla stochastic gradient descent to facilitate continual learning in this setting. The SCoLe framework represents a good simulation of practical training environments with reoccurring situations and allows the study of convergence behavior in long sequences. Our experiments show that previous results on short scenarios cannot always be extrapolated to longer scenarios.
翻訳日:2022-07-13 04:22:48 公開日:2022-07-10
# (参考訳) 損失販売と不確実な供給を伴う在庫システムの発注の学習

Learning to Order for Inventory Systems with Lost Sales and Uncertain Supplies ( http://arxiv.org/abs/2207.04550v1 )

ライセンス: CC BY 4.0
Boxiao Chen, Jiashuo Jiang, Jiawei Zhang and Zhengyuan Zhou(参考訳) 計画的地平線上でのリードタイムが$L$である確率的ロスセール在庫管理システムを考察する。 供給は不確実であり、(ランダムな収量/容量などによる)順序量の関数である。 私たちは、需要と供給の既知の分布下でも計算が難しい問題であるt$周期コストを最小化することを目指している。 本稿では,需要分布と供給分布の両方が未知であると仮定し,計算効率の高いオンライン学習アルゴリズムを開発した。 提案アルゴリズムは,O(L+\sqrt{T})$が$L\geq\log(T)$である場合に,そのアルゴリズムのコストと,O(L+\sqrt{T})$に対する最適ポリシーとの相違(英語版)を生じることを示す。 私たちはそうします 1) 完全情報(よく知られ、広く使われているアルゴリズム)に基づく最適定数順序ポリシーと比較して、任意の$l\geq 0$に対して最大$o(l+\sqrt{t})$でアルゴリズムコストを示す。 2) 既知の性能保証を既存文献から活用すること。 私たちの知る限りでは、オンライン在庫管理の文献では、最適なポリシーに対してベンチマークを行った場合、有限サンプルの$o(\sqrt{t})$(および$l$の多項式)が制限される。 この学習問題の鍵となる課題は、需要データと供給データの両方が検閲可能であることである。 注文量$q^2$の下で生成されたデータは、すべての$q^1<q^2$に対して$q^1$のパフォーマンスをシミュレートできることを示すことにより、この課題を回避する。 高確率カップリングの議論を確立することで、有限時間地平線内の定常状態における異なる順序ポリシーの性能を評価し、比較することができる。 この問題には凸性が欠けているため,亜最適解を適応的に排除する能動除去法を開発した。

We consider a stochastic lost-sales inventory control system with a lead time $L$ over a planning horizon $T$. Supply is uncertain, and is a function of the order quantity (due to random yield/capacity, etc). We aim to minimize the $T$-period cost, a problem that is known to be computationally intractable even under known distributions of demand and supply. In this paper, we assume that both the demand and supply distributions are unknown and develop a computationally efficient online learning algorithm. We show that our algorithm achieves a regret (i.e. the performance gap between the cost of our algorithm and that of an optimal policy over $T$ periods) of $O(L+\sqrt{T})$ when $L\geq\log(T)$. We do so by 1) showing our algorithm cost is higher by at most $O(L+\sqrt{T})$ for any $L\geq 0$ compared to an optimal constant-order policy under complete information (a well-known and widely-used algorithm) and 2) leveraging its known performance guarantee from the existing literature. To the best of our knowledge, a finite-sample $O(\sqrt{T})$ (and polynomial in $L$) regret bound when benchmarked against an optimal policy is not known before in the online inventory control literature. A key challenge in this learning problem is that both demand and supply data can be censored; hence only truncated values are observable. We circumvent this challenge by showing that the data generated under an order quantity $q^2$ allows us to simulate the performance of not only $q^2$ but also $q^1$ for all $q^1<q^2$, a key observation to obtain sufficient information even under data censoring. By establishing a high probability coupling argument, we are able to evaluate and compare the performance of different order policies at their steady state within a finite time horizon. Since the problem lacks convexity, we develop an active elimination method that adaptively rules out suboptimal solutions.
翻訳日:2022-07-13 04:00:43 公開日:2022-07-10
# (参考訳) フェデレーション学習におけるデータ共有を促すメカニズム

Mechanisms that Incentivize Data Sharing in Federated Learning ( http://arxiv.org/abs/2207.04557v1 )

ライセンス: CC0 1.0
Sai Praneeth Karimireddy, Wenshuo Guo, Michael I. Jordan(参考訳) フェデレートラーニングは一般的に、複数のエージェントが互いに協力し合い、モデルの精度を改善し、それ以外はデータ集約的でコストがかかる問題を個別に解決する、有益な技術であると考えられている。 しかし、他のエージェントがデータを共有するという期待のもと、合理的なエージェントは、データを提供しないが改善されたモデルを楽しむフリーライディングのような有害な行動に関与する誘惑を受けるかもしれない。 本研究では,このような有理データ生成装置の挙動を解析するためのフレームワークを提案する。 まず,ナイーブなスキームが,データ共有のメリットが完全に損なわれるような,破滅的なフリーライダーのレベルにどのようにつながるかを示す。 そして,契約理論のアイデアを用いて,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。 これらは、支払いメカニズムを必要とせずに、確実にフリーライディングを防止します。

Federated learning is typically considered a beneficial technology which allows multiple agents to collaborate with each other, improve the accuracy of their models, and solve problems which are otherwise too data-intensive / expensive to be solved individually. However, under the expectation that other agents will share their data, rational agents may be tempted to engage in detrimental behavior such as free-riding where they contribute no data but still enjoy an improved model. In this work, we propose a framework to analyze the behavior of such rational data generators. We first show how a naive scheme leads to catastrophic levels of free-riding where the benefits of data sharing are completely eroded. Then, using ideas from contract theory, we introduce accuracy shaping based mechanisms to maximize the amount of data generated by each agent. These provably prevent free-riding without needing any payment mechanism.
翻訳日:2022-07-13 03:59:16 公開日:2022-07-10
# (参考訳) 説明可能な機械学習による小児眼底画像の乳頭腫自動検出

Automating Detection of Papilledema in Pediatric Fundus Images with Explainable Machine Learning ( http://arxiv.org/abs/2207.04565v1 )

ライセンス: CC BY 4.0
Kleanthis Avramidis, Mohammad Rostami, Melinda Chang, Shrikanth Narayanan(参考訳) パピレデマは眼神経疾患であり、頭蓋内圧が上昇すると視神経が膨らむ。 小児の無診断の乳頭腫は盲目を引き起こす可能性があり、脳腫瘍などの生命を脅かす兆候である。 この症候群のロバストかつ正確な臨床診断は、深層学習を用いた眼底画像の自動解析により、特に、眼底に類似するが臨床的に異なる意味を持つ偽てんかんによる課題の存在下で、容易である。 小児パピレデマの自動検出のためのディープラーニングに基づくアルゴリズムを提案する。 本手法は,光ディスクの局在化とデータ拡張による説明可能なパピレドマインジケータの検出に基づく。 実世界の臨床データを用いて,本手法が専門眼科医に匹敵する診断精度で有効であることを示す。

Papilledema is an ophthalmic neurologic disorder in which increased intracranial pressure leads to swelling of the optic nerves. Undiagnosed papilledema in children may lead to blindness and may be a sign of life-threatening conditions, such as brain tumors. Robust and accurate clinical diagnosis of this syndrome can be facilitated by automated analysis of fundus images using deep learning, especially in the presence of challenges posed by pseudopapilledema that has similar fundus appearance but distinct clinical implications. We present a deep learning-based algorithm for the automatic detection of pediatric papilledema. Our approach is based on optic disc localization and detection of explainable papilledema indicators through data augmentation. Experiments on real-world clinical data demonstrate that our proposed method is effective with a diagnostic accuracy comparable to expert ophthalmologists.
翻訳日:2022-07-13 03:29:41 公開日:2022-07-10
# (参考訳) dyadic face-to-face 設定におけるインタラクションダイナミクスの確率論的モデル

A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face Settings ( http://arxiv.org/abs/2207.04566v1 )

ライセンス: CC BY 4.0
Renke Wang and Ifeoma Nwogu(参考訳) 人間同士の自然な会話は、会話を通じて重要な時間に現れる多くの非言語的なニュアンス表現を伴う。 これらの複雑な相互作用の理解とモデル化は、仮想世界であれ物理的な世界であれ、現実的な人間とエージェントのコミュニケーションを作るのに不可欠である。 社会ロボットやインテリジェントなアバターが人気と実用性で出現するにつれて、会話を通してこれらのダイナミックな表現を現実的にモデル化し、生成できることが不可欠である。 我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを構築し,両者の同期表現の符号化を可能にする。 この相互作用エンコーディングは、一方のエージェントの将来のダイナミクスを予測するとき、他方の現在のダイナミクスに基づいて、生成に影響を与えるために使用される。 FLAMEの特徴は、対話モデルを訓練するための被験者間の自然な会話を含むビデオから抽出される。 定量的指標と質的指標を用いて,提案モデルの有効性を評価し,相互作用するdyadのダイナミクスを捉えることに成功した。 また,dyad間の通信モードの異なる2つの異なる2つのモードからなる,それまでは存在しなかったペアレント-インファントデータセットを用いてモデルをテストする。

Natural conversations between humans often involve a large number of non-verbal nuanced expressions, displayed at key times throughout the conversation. Understanding and being able to model these complex interactions is essential for creating realistic human-agent communication, whether in the virtual or physical world. As social robots and intelligent avatars emerge in popularity and utility, being able to realistically model and generate these dynamic expressions throughout conversations is critical. We develop a probabilistic model to capture the interaction dynamics between pairs of participants in a face-to-face setting, allowing for the encoding of synchronous expressions between the interlocutors. This interaction encoding is then used to influence the generation when predicting one agent's future dynamics, conditioned on the other's current dynamics. FLAME features are extracted from videos containing natural conversations between subjects to train our interaction model. We successfully assess the efficacy of our proposed model via quantitative metrics and qualitative metrics, and show that it successfully captures the dynamics of a pair of interacting dyads. We also test the model with a never-before-seen parent-infant dataset comprising of two different modes of communication between the dyads, and show that our model successfully delineates between the modes, based on their interacting dynamics.
翻訳日:2022-07-13 03:17:25 公開日:2022-07-10
# (参考訳) fedss: クライアントのスマート選択による連合学習

FedSS: Federated Learning with Smart Selection of clients ( http://arxiv.org/abs/2207.04569v1 )

ライセンス: CC BY 4.0
Ammar Tahir, Yongzhou Chen, Prashanti Nilayam(参考訳) フェデレーション学習は、ユーザのプライバシを維持しながら、異種ユーザデータを分散形式で学習する機能を提供する。 しかし、現在のクライアント選択技術は、遅いクライアントと差別化するため、バイアスの源となっている。 まず、特定のネットワークやシステム固有の基準を満たすクライアントを選択し、遅いクライアントを選択しない。 このようなクライアントがトレーニングプロセスに含まれている場合でも、トレーニングを混乱させるか、あるいは遅すぎるためにラウンドから完全に外れる。 提案するアイデアは,スマートクライアントの選択とスケジューリング手法を検討することで,高速収束と不均一性の間のスイートスポットを見つけることを目的としている。

Federated learning provides the ability to learn over heterogeneous user data in a distributed manner, while preserving user privacy. However, its current clients selection technique is a source of bias as it discriminates against slow clients. For starters, it selects clients that satisfy certain network and system specific criteria, thus not selecting slow clients. Even when such clients are included in the training process, they either straggle the training or are altogether dropped from the round for being too slow. Our proposed idea looks to find a sweet spot between fast convergence and heterogeneity by looking at smart clients selection and scheduling techniques.
翻訳日:2022-07-13 03:05:06 公開日:2022-07-10
# NGAME:極端分類のための負のマイニング対応ミニバッチ

NGAME: Negative Mining-aware Mini-batching for Extreme Classification ( http://arxiv.org/abs/2207.04452v1 )

ライセンス: Link先を確認
Kunal Dahiya, Nilesh Gupta, Deepak Saini, Akshay Soni, Yajun Wang, Kushal Dave, Jian Jiao, Gururaj K, Prasenjit Dey, Amit Singh, Deepesh Hada, Vidit Jain, Bhawna Paliwal, Anshul Mittal, Sonu Mehta, Ramachandran Ramjee, Sumeet Agarwal, Purushottam Kar, Manik Varma(参考訳) extreme classification (xc) は、非常に大きなラベルセットから最も関連するラベルのサブセットでデータポイントをタグ付けする。 深部XCをデータポイントやラベルの密度の高い学習表現で実行することは、スパースで手作りの機能を使った初期のXC手法よりも優れているため、多くの注目を集めている。 負の鉱業技術は、数百万のラベルにスケール可能なすべての深部XCメソッドの重要な構成要素として現れている。 しかし、近年の進歩にもかかわらず、トランスフォーマーのような大きなエンコーダアーキテクチャで深層XCモデルを訓練するのは難しい。 本稿では、一般的な負のマイニング手法のメモリオーバーヘッドは、しばしばミニバッチサイズを小さくし、トレーニングを遅くする。 本報告では, NGAMEについて述べる。NGAMEは軽量なミニバッチ生成技術で, 正に正確なバッチ内負のサンプルを提供する。 これにより、既存のネガティブサンプリング技術よりもはるかに高速な収束と高精度なトレーニングが可能になる。 ngameは、極端な分類のための幅広いベンチマークデータセットにおいて、最先端の方法よりも最大16%正確であることが分かり、また、パーソナライズされた広告を表示するために、ユーザのwebページ訪問に応じて、検索エンジンクエリを取得するのに3%正確であることが判明した。 人気検索エンジンのライブA/Bテストでは、NGAMEはクリックスルーレートで最大23%上昇した。

Extreme Classification (XC) seeks to tag data points with the most relevant subset of labels from an extremely large label set. Performing deep XC with dense, learnt representations for data points and labels has attracted much attention due to its superiority over earlier XC methods that used sparse, hand-crafted features. Negative mining techniques have emerged as a critical component of all deep XC methods that allow them to scale to millions of labels. However, despite recent advances, training deep XC models with large encoder architectures such as transformers remains challenging. This paper identifies that memory overheads of popular negative mining techniques often force mini-batch sizes to remain small and slow training down. In response, this paper introduces NGAME, a light-weight mini-batch creation technique that offers provably accurate in-batch negative samples. This allows training with larger mini-batches offering significantly faster convergence and higher accuracies than existing negative sampling techniques. NGAME was found to be up to 16% more accurate than state-of-the-art methods on a wide array of benchmark datasets for extreme classification, as well as 3% more accurate at retrieving search engine queries in response to a user webpage visit to show personalized ads. In live A/B tests on a popular search engine, NGAME yielded up to 23% gains in click-through-rates.
翻訳日:2022-07-12 16:32:21 公開日:2022-07-10
# ドットを接続する: プライバシー損失分布の厳密な離散近似

Connect the Dots: Tighter Discrete Approximations of Privacy Loss Distributions ( http://arxiv.org/abs/2207.04380v1 )

ライセンス: Link先を確認
Vadym Doroshenko and Badih Ghazi and Pritish Kamath and Ravi Kumar and Pasin Manurangsi(参考訳) プライバシ損失分散(pld)は、差分プライバシ(dp)のコンテキストにおけるメカニズムのプライバシ損失の厳密な特徴を提供する。 最近の研究は、PLDベースの会計によって、他の既知の方法と比較して多くの一般的なメカニズムに対する$(\varepsilon, \delta)$-DP保証がより厳格になることを示している。 PLDベースの会計における重要な疑問は、特定の個別サポートに対してPLDと(潜在的に連続的な)PLDをどのように近似するかである。 我々はこの問題に新しいアプローチを提示する。 我々のアプローチは、ホッケースティックの偏差(すなわち$\delta$)を$\varepsilon$の値で過大評価する悲観的推定と、ホッケースティックの偏差を過小評価する楽観的推定の両方をサポートする。 さらに,全ての悲観的評価において,我々の悲観的推定が最良であることを示す。 実験評価の結果,従来の手法に比べて誤差のバウンドを保ちつつ,より大きな離散化間隔で動作し,従来の手法よりもよい近似値が得られることがわかった。

The privacy loss distribution (PLD) provides a tight characterization of the privacy loss of a mechanism in the context of differential privacy (DP). Recent work has shown that PLD-based accounting allows for tighter $(\varepsilon, \delta)$-DP guarantees for many popular mechanisms compared to other known methods. A key question in PLD-based accounting is how to approximate any (potentially continuous) PLD with a PLD over any specified discrete support. We present a novel approach to this problem. Our approach supports both pessimistic estimation, which overestimates the hockey-stick divergence (i.e., $\delta$) for any value of $\varepsilon$, and optimistic estimation, which underestimates the hockey-stick divergence. Moreover, we show that our pessimistic estimate is the best possible among all pessimistic estimates. Experimental evaluation shows that our approach can work with much larger discretization intervals while keeping a similar error bound compared to previous approaches and yet give a better approximation than existing methods.
翻訳日:2022-07-12 16:22:46 公開日:2022-07-10
# 離散化の進化による高速なプライバシ会計

Faster Privacy Accounting via Evolving Discretization ( http://arxiv.org/abs/2207.04381v1 )

ライセンス: Link先を確認
Badih Ghazi and Pritish Kamath and Ravi Kumar and Pasin Manurangsi(参考訳) そこで本稿では,プライバシ・ランダム変数の数値構成のための新しいアルゴリズムを提案する。 このアルゴリズムは、メカニズムを自己合成するタスクに対して、実行時間およびメモリ使用量として$\mathrm{polylog}(k)$ を、幅広いメカニズムクラスから$k$ times で達成する。 これに対して、Gopiらによる最近の研究(NeurIPS 2021)は、同じタスクに対して$\widetilde{O}(\sqrt{k})$のランニングタイムを得た。 我々のアプローチは、同じクラスで$k$の異なるメカニズムを構成する場合に拡張され、実行時間とメモリ使用量を$\widetilde{O}(k^{1.5})$から$\widetilde{O}(k)$に改善します。

We introduce a new algorithm for numerical composition of privacy random variables, useful for computing the accurate differential privacy parameters for composition of mechanisms. Our algorithm achieves a running time and memory usage of $\mathrm{polylog}(k)$ for the task of self-composing a mechanism, from a broad class of mechanisms, $k$ times; this class, e.g., includes the sub-sampled Gaussian mechanism, that appears in the analysis of differentially private stochastic gradient descent. By comparison, recent work by Gopi et al. (NeurIPS 2021) has obtained a running time of $\widetilde{O}(\sqrt{k})$ for the same task. Our approach extends to the case of composing $k$ different mechanisms in the same class, improving upon their running time and memory usage from $\widetilde{O}(k^{1.5})$ to $\widetilde{O}(k)$.
翻訳日:2022-07-12 16:22:26 公開日:2022-07-10
# 話者表現学習のためのマルチ周波数情報強化チャネルアテンションモジュール

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning ( http://arxiv.org/abs/2207.04540v1 )

ライセンス: Link先を確認
Mufan Sang, John H.L. Hansen(参考訳) 近年,ニューラルネットワークを用いた話者認証システムにおいて,注意機構が適用されている。 Squeeze-and-Excitationブロックを畳み込みニューラルネットワークに組み込むことで、優れたパフォーマンスを実現した。 しかし、グローバル平均プーリング(GAP)を使用して、時間と周波数次元に沿った特徴を単純に平均し、特徴マップに十分な話者情報を保持することができない。 本研究では,周波数分解における最小周波数成分のみを用いて,時間周波数領域における離散コサイン変換(dct)の特別な場合であることを示す。 話者情報抽出能力を高めるために,マルチ周波数情報を利用して,単一周波数単一チャネル(SFSC)アテンションモジュールとマルチ周波数単一チャネル(MFSC)アテンションモジュールと呼ばれる,新しい2つのアテンションモジュールを設計することを提案する。 提案したアテンションモジュールは、DCTに基づいて複数の周波数成分からより多くの話者情報を効果的に取得することができる。 我々は,VoxCelebデータセットの総合的な実験を行い,第1報48-UTD法定コーパスのプローブ評価を行った。 実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,ネットワークパラメータを追加せずに,相対20.9%,20.2%削減したResNet34-SEおよびECAPA-TDNNシステムより効率よく識別可能な話者表現を生成することができた。

Recently, attention mechanisms have been applied successfully in neural network-based speaker verification systems. Incorporating the Squeeze-and-Excitation block into convolutional neural networks has achieved remarkable performance. However, it uses global average pooling (GAP) to simply average the features along time and frequency dimensions, which is incapable of preserving sufficient speaker information in the feature maps. In this study, we show that GAP is a special case of a discrete cosine transform (DCT) on time-frequency domain mathematically using only the lowest frequency component in frequency decomposition. To strengthen the speaker information extraction ability, we propose to utilize multi-frequency information and design two novel and effective attention modules, called Single-Frequency Single-Channel (SFSC) attention module and Multi-Frequency Single-Channel (MFSC) attention module. The proposed attention modules can effectively capture more speaker information from multiple frequency components on the basis of DCT. We conduct comprehensive experiments on the VoxCeleb datasets and a probe evaluation on the 1st 48-UTD forensic corpus. Experimental results demonstrate that our proposed SFSC and MFSC attention modules can efficiently generate more discriminative speaker representations and outperform ResNet34-SE and ECAPA-TDNN systems with relative 20.9% and 20.2% reduction in EER, without adding extra network parameters.
翻訳日:2022-07-12 16:22:08 公開日:2022-07-10
# コンタクトグラフにおける逐次タスクの計画

Planning Sequential Tasks on Contact Graph ( http://arxiv.org/abs/2207.04364v1 )

ライセンス: Link先を確認
Ziyuan Jiao, Yida Niu, Zeyu Zhang, Song-Chun Zhu, Yixin Zhu, Hangxin Liu(参考訳) 3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案し,逐次的なタスク計画を行う。 述語的属性を付加したこの接触グラフに基づく表現は、簡潔な幾何学情報と有効なロボットとシーンの相互作用でシーンレイアウトを抽象化する。 接触グラフに自然に指定された目標構成は、確率的最適化法を用いて遺伝的アルゴリズムによって生成することができる。 タスクプランは、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算して初期化され、ロボットの動作に対応するグラフ編集操作を生成する。 我々は,グラフ編集作業の時間的実現性を制限する制約を課し,有効なタスクと動作対応を確保することでタスク計画の確定を図った。 一連のシミュレーションと実験において、ロボットは、計画ドメイン定義言語(PDDL)のような従来の計画言語を用いて特定し難い複雑な逐次的オブジェクト再構成タスクを完了し、コンタクトグラフ上でロボットシーケンシャルタスク計画の可能性と可能性を示す。

We devise a 3D scene graph representation, contact graph+ (cg+), for efficient sequential task planning. Augmented with predicate-like attributes, this contact graph-based representation abstracts scene layouts with succinct geometric information and valid robot-scene interactions. Goal configurations, naturally specified on contact graphs, can be produced by a genetic algorithm with a stochastic optimization method. A task plan is then initialized by computing the Graph Editing Distance (GED) between the initial contact graphs and the goal configurations, which generates graph edit operations corresponding to possible robot actions. We finalize the task plan by imposing constraints to regulate the temporal feasibility of graph edit operations, ensuring valid task and motion correspondences. In a series of simulations and experiments, robots successfully complete complex sequential object rearrangement tasks that are difficult to specify using conventional planning language like Planning Domain Definition Language (PDDL), demonstrating the high feasibility and potential of robot sequential task planning on contact graph.
翻訳日:2022-07-12 15:45:39 公開日:2022-07-10
# AI対応IIoTプラットフォームの開発 -- 早期ユースケース検証から学んだ教訓

Developing an AI-enabled IIoT platform -- Lessons learned from early use case validation ( http://arxiv.org/abs/2207.04515v1 )

ライセンス: Link先を確認
Holger Eichelberger, Gregory Palmer, Svenja Reimer, Tat Trong Vu, Hieu Do, Sofiane Laridi, Alexander Weber, Claudia Nieder\'ee, Thomas Hildebrandt(参考訳) 工業生産におけるaiの広範な採用には、適切なインフラストラクチャ能力が不可欠である。 これには、AIと産業機器との統合の緩和、分散デプロイメントのサポート、監視、一貫性のあるシステム構成が含まれる。 既存のIIoTプラットフォームには、再利用可能なAIサービスやAsset Administration ShellsやOPC UAといった関連する標準を、オープンでエコシステムベースの方法で柔軟に統合するために必要な機能がない。 iip-ecosphere(intelligent industrial production ecosphere)プラットフォームは、高度に構成可能な低コードベースのアプローチを採用しています。 本稿では,このプラットフォームの設計について紹介し,AIを利用した視覚的品質検査の実証者の観点からの早期評価について述べる。 これは、この初期の評価活動で学んだ洞察と教訓によって補完される。

For a broader adoption of AI in industrial production, adequate infrastructure capabilities are crucial. This includes easing the integration of AI with industrial devices, support for distributed deployment, monitoring, and consistent system configuration. Existing IIoT platforms still lack required capabilities to flexibly integrate reusable AI services and relevant standards such as Asset Administration Shells or OPC UA in an open, ecosystem-based manner. This is exactly what our next level Intelligent Industrial Production Ecosphere (IIP-Ecosphere) platform addresses, employing a highly configurable low-code based approach. In this paper, we introduce the design of this platform and discuss an early evaluation in terms of a demonstrator for AI-enabled visual quality inspection. This is complemented by insights and lessons learned during this early evaluation activity.
翻訳日:2022-07-12 15:45:21 公開日:2022-07-10
# 道路交通問題における地域交通

Local Area Routes for Vehicle Routing Problems ( http://arxiv.org/abs/2207.04520v1 )

ライセンス: Link先を確認
Udayan Mandal, Amelia Regan, Julian Yarkony(参考訳) 車両経路問題の解法として,コラム生成法(CG)の効率性を向上させる手法を検討する。 本稿では,一般のngルート緩和とDSSR(Decremental State Space Relaxations)の代替として,ローカルエリア(LA)経路緩和を導入する。 LAルートはngルートのサブセットであり、基本ルートのスーパーセットである。 通常、cgの価格設定段階は、計算コストがかかるプロセスを使用して、繰り返し顧客を伴わないルートである基本ルートを生産しなければならない。 非要素ルートは、少なくとも1回以上の顧客を訪れ、サイクルを作成します。 LAルートは、効率的な価格設定を可能にするため、基本的なルートであるという制約を緩和する。 LAルートはngルート緩和の観点から最もよく理解されている。 Ngルートは、非局所化サイクルが許されるルートである。つまり、サイクル内の少なくとも1つの中間顧客(ブレーカーと呼ばれる)は、サイクルの開始顧客を空間的に遠くまで考慮しなければならない。 laルートは、ルートの開始から終了までの経路において、顧客に対応する一連の特別なインデックスを用いて記述される。 laルート緩和はngルートを超える許容サイクルの組をさらに制限し、さらにブレーカーは特別なインデックスの集合が再帰的に定義される特別なインデックスでなければならないことを強制する。 ルートにおける最初の特別インデックスはインデックス1であり、ルートの最初の顧客と関連付けられることを意味する。 k の特別指数は、k-1 の特別指数の後の最初の顧客に対応しており、k-1 の特別指数に位置する顧客の(空間的に離れた)隣人と見なされない。 LA経路緩和は標準DSSRと比較して価格の計算速度を大幅に向上させることができることを示す。

We consider an approach for improving the efficiency of column generation (CG) methods for solving vehicle routing problems. We introduce Local Area (LA) route relaxations, an alternative/complement to the commonly used ng-route relaxations and Decremental State Space Relaxations (DSSR) inside of CG formulations. LA routes are a subset of ng-routes and a super-set of elementary routes. Normally, the pricing stage of CG must produce elementary routes, which are routes without repeated customers, using processes which can be computationally expensive. Non-elementary routes visit at least one customer more than once, creating a cycle. LA routes relax the constraint of being an elementary route in such a manner as to permit efficient pricing. LA routes are best understood in terms of ng-route relaxations. Ng-routes are routes which are permitted to have non-localized cycles in space; this means that at least one intermediate customer (called a breaker) in the cycle must consider the starting customer in the cycle to be spatially far away. LA routes are described using a set of special indexes corresponding to customers on the route ordered from the start to the end of the route. LA route relaxations further restrict the set of permitted cycles beyond that of ng-routes by additionally enforcing that the breaker must be a located at a special index where the set of special indexes is defined recursively as follows. The first special index in the route is at index 1 meaning that it is associated with the first customer in the route. The k'th special index corresponds to the first customer after the k-1'th special index, that is not considered to be a neighbor of (considered spatially far from) the customer located at the k-1'th special index. We demonstrate that LA route relaxations can significantly improve the computational speed of pricing when compared to the standard DSSR.
翻訳日:2022-07-12 15:45:09 公開日:2022-07-10
# 信号の保持: PPGベースの生体認証のセキュリティ分析

Hiding Your Signals: A Security Analysis of PPG-based Biometric Authentication ( http://arxiv.org/abs/2207.04434v1 )

ライセンス: Link先を確認
Lin Li, Chao Chen, Lei Pan, Yonghang Tai, Jun Zhang, Yang Xiang(参考訳) 近年,生理的信号に基づく生体計測システムが注目されている。 従来の生体計測の特徴とは異なり、生理的信号は容易には妥協できない(通常は人間の目では観察できない)。 photoplethysmography (ppg) 信号は測定が容易であり、生体認証のための他の多くの生理的信号よりも魅力的である。 しかしながら、リモートPSG(rPPG)の出現により、攻撃者が被害者の顔を監視してリモートでrPPG信号を盗むことができ、その後PPGベースのバイオメトリックスに脅威を与えると、監視不能が問題視されている。 PPGベースの生体認証では、現在の攻撃アプローチは被害者のPSG信号を指示し、rPPGベースの攻撃を無視する。 本稿では,まず,ユーザ認証や通信プロトコルを含むppgベースの生体認証のセキュリティを解析する。 我々は,従来の4つの光学計算法(CHROM,POS,LGI,PCA)と1つの深層学習法(CL_rPPG)を含む5つのrPPG法により抽出された信号波形,心拍数,パルス間区間情報を評価した。 我々は,5つのデータセット (PURE, UBFC_rPPG, UBFC_Phys, LGI_PPGI, COHFACE) を用いて総合的な結果収集実験を行った。 我々の実証研究は、rPPGが認証システムに深刻な脅威をもたらすことを示している。 ユーザ認証システムにおけるrPPG信号スプーフィング攻撃の成功率は0.35である。 ビットヒットレートは、パルスインターバルベースのセキュリティプロトコルで0.6である。 さらに,攻撃に対する顔の生理的信号を隠すための積極的な防御戦略を提案する。 ユーザ認証におけるrPPGスプーフィング攻撃の成功率を0.05に削減する。 ビットヒット率は0.5に減少し、これはランダムな推測のレベルである。 当社の戦略は, PPG信号の露出を効果的に防止し, ユーザの生理的データを保護している。

Recently, physiological signal-based biometric systems have received wide attention. Unlike traditional biometric features, physiological signals can not be easily compromised (usually unobservable to human eyes). Photoplethysmography (PPG) signal is easy to measure, making it more attractive than many other physiological signals for biometric authentication. However, with the advent of remote PPG (rPPG), unobservability has been challenged when the attacker can remotely steal the rPPG signals by monitoring the victim's face, subsequently posing a threat to PPG-based biometrics. In PPG-based biometric authentication, current attack approaches mandate the victim's PPG signal, making rPPG-based attacks neglected. In this paper, we firstly analyze the security of PPG-based biometrics, including user authentication and communication protocols. We evaluate the signal waveforms, heart rate and inter-pulse-interval information extracted by five rPPG methods, including four traditional optical computing methods (CHROM, POS, LGI, PCA) and one deep learning method (CL_rPPG). We conducted experiments on five datasets (PURE, UBFC_rPPG, UBFC_Phys, LGI_PPGI, and COHFACE) to collect a comprehensive set of results. Our empirical studies show that rPPG poses a serious threat to the authentication system. The success rate of the rPPG signal spoofing attack in the user authentication system reached 0.35. The bit hit rate is 0.6 in inter-pulse-interval-based security protocols. Further, we propose an active defence strategy to hide the physiological signals of the face to resist the attack. It reduces the success rate of rPPG spoofing attacks in user authentication to 0.05. The bit hit rate was reduced to 0.5, which is at the level of a random guess. Our strategy effectively prevents the exposure of PPG signals to protect users' sensitive physiological data.
翻訳日:2022-07-12 15:41:33 公開日:2022-07-10
# エネルギーツリー:構造的および混合型共変量による回帰と分類

Energy Trees: Regression and Classification With Structured and Mixed-Type Covariates ( http://arxiv.org/abs/2207.04430v1 )

ライセンス: Link先を確認
Riccardo Giubilei, Tullia Padellini, Pierpaolo Brutti(参考訳) データ複雑性の継続的な成長には、単純化が情報の損失を引き起こす可能性があるため、非自明な構造を適切に説明する手法とモデルが必要である。 多くの分析ツールは、元の形式で複雑なデータオブジェクトを扱うために導入されたが、そのようなツールは典型的にはシングルタイプ変数のみを扱うことができる。 本研究では,共変数が構造的かつ異なる型を持つ回帰および分類タスクのモデルとして,エネルギーツリーを提案する。 エネルギー木はエネルギー統計学を取り入れて条件木を一般化し、そこから統計的に健全な基礎、解釈可能性、スケール不変性、分布仮定の欠如を継承する。 構造共変数としての関数やグラフに焦点をあて、モデルが他のどの種類の変数とも容易に対応可能であることを示す。 広範なシミュレーション研究を通じて,提案手法の優れた性能を,変数選択と過剰適合に対するロバスト性の観点から強調する。 最後に,人間の生体データを用いて2つの実験分析を行い,モデルの予測能力を検証する。

The continuous growth of data complexity requires methods and models that adequately account for non-trivial structures, as any simplification may induce loss of information. Many analytical tools have been introduced to work with complex data objects in their original form, but such tools can typically deal with single-type variables only. In this work, we propose Energy Trees as a model for regression and classification tasks where covariates are potentially both structured and of different types. Energy Trees incorporate Energy Statistics to generalize Conditional Trees, from which they inherit statistically sound foundations, interpretability, scale invariance, and lack of distributional assumptions. We focus on functions and graphs as structured covariates and we show how the model can be easily adapted to work with almost any other type of variable. Through an extensive simulation study, we highlight the good performance of our proposal in terms of variable selection and robustness to overfitting. Finally, we validate the model's predictive ability through two empirical analyses with human biological data.
翻訳日:2022-07-12 15:38:46 公開日:2022-07-10
# 自然時系列移動行動認識のための行動・時間変化下の領域適応

Domain Adaptation Under Behavioral and Temporal Shifts for Natural Time Series Mobile Activity Recognition ( http://arxiv.org/abs/2207.04367v1 )

ライセンス: Link先を確認
Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook(参考訳) モバイル機器では人間の行動がますます捉えられ、自動化された人間の行動認識への関心が高まっている。 しかし、既存のデータセットは典型的にはスクリプト化された動きで構成されている。 当社の長期的な目標は、自然環境においてモバイルアクティビティ認識を行うことです。 私たちは、健康監視や介入といった下流タスクに関連するアクティビティカテゴリで、この目標をサポートするデータセットを収集します。 ヒトの行動に大きな変化があるため、2つの異なる年齢グループから多くの参加者からデータを収集します。 人間の行動は時間とともに変化する可能性があるため、参加者のデータを1ヶ月以上収集して時間的ドリフトを捉えます。 我々は、モバイルアクティビティ認識が教師なしドメイン適応アルゴリズムの恩恵を受けると仮定する。 このニーズに対処し、この仮説をテストするために、私たちは人々と時間にわたってドメイン適応のパフォーマンスを分析します。 そして、ラベル比率が利用可能な場合、対照学習による教師なしドメイン適応と弱い監督を強化する。 データセットはhttps://github.com/WSU-CASAS/smartwatch-dataで公開されている。

Increasingly, human behavior is captured on mobile devices, leading to an increased interest in automated human activity recognition. However, existing datasets typically consist of scripted movements. Our long-term goal is to perform mobile activity recognition in natural settings. We collect a dataset to support this goal with activity categories that are relevant for downstream tasks such as health monitoring and intervention. Because of the large variations present in human behavior, we collect data from many participants across two different age groups. Because human behavior can change over time, we also collect data from participants over a month's time to capture the temporal drift. We hypothesize that mobile activity recognition can benefit from unsupervised domain adaptation algorithms. To address this need and test this hypothesis, we analyze the performance of domain adaptation across people and across time. We then enhance unsupervised domain adaptation with contrastive learning and with weak supervision when label proportions are available. The dataset is available at https://github.com/WSU-CASAS/smartwatch-data
翻訳日:2022-07-12 15:20:33 公開日:2022-07-10
# 企業クレジットレーティング移行早期予測のためのマルチタスクトランスフォーマーベースオートエンコーダ

Multi-task Envisioning Transformer-based Autoencoder for Corporate Credit Rating Migration Early Prediction ( http://arxiv.org/abs/2207.04539v1 )

ライセンス: Link先を確認
Han Yue, Steve Xia, Hongfu Liu(参考訳) 第三者格付け機関が発行する企業信用格付けは、会社の信用度を定量的に評価する。 信用格付けは、会社が債務義務を履行する可能性と高い相関関係がある。 これらの評価は投資決定において重要な役割を担っている。 また、金融機関に必要な資本を算定するBASEL IIのような規制枠組みの中心でもある。 格付け変更を予測できることは、投資家と規制当局の両方にも大きな利益をもたらすだろう。 本稿では、当時最新の財務報告情報に基づいて、発行者の信用格付けを12カ月後にアップグレード、変更、または格下げすると予測する企業信用格付け移行早期予測問題を考察する。 異なる標準機械学習アルゴリズムの有効性を検証し、これらのモデルが劣った性能をもたらすと結論付ける。 本稿では,この課題に対処するためのマルチタスク・エンビジョン・トランスフォーマー・ベース・オートエンコーダ(META)モデルを提案する。 METAは、位置エンコーディング、トランスフォーマーベースのオートエンコーダ、マルチタスク予測で構成され、マイグレーション予測とレーティング予測の両方の効果的な表現を学習する。 これにより、METAは1年後の予測のために、トレーニング段階での履歴データをよりよく探索することができる。 実験の結果,METAはすべてのベースラインモデルより優れていた。

Corporate credit ratings issued by third-party rating agencies are quantified assessments of a company's creditworthiness. Credit Ratings highly correlate to the likelihood of a company defaulting on its debt obligations. These ratings play critical roles in investment decision-making as one of the key risk factors. They are also central to the regulatory framework such as BASEL II in calculating necessary capital for financial institutions. Being able to predict rating changes will greatly benefit both investors and regulators alike. In this paper, we consider the corporate credit rating migration early prediction problem, which predicts the credit rating of an issuer will be upgraded, unchanged, or downgraded after 12 months based on its latest financial reporting information at the time. We investigate the effectiveness of different standard machine learning algorithms and conclude these models deliver inferior performance. As part of our contribution, we propose a new Multi-task Envisioning Transformer-based Autoencoder (META) model to tackle this challenging problem. META consists of Positional Encoding, Transformer-based Autoencoder, and Multi-task Prediction to learn effective representations for both migration prediction and rating prediction. This enables META to better explore the historical data in the training stage for one-year later prediction. Experimental results show that META outperforms all baseline models.
翻訳日:2022-07-12 15:20:19 公開日:2022-07-10
# mix-teaching:単眼3次元物体検出のためのシンプルで統一的で効果的な半教師付き学習フレームワーク

Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning Framework for Monocular 3D Object Detection ( http://arxiv.org/abs/2207.04448v1 )

ライセンス: Link先を確認
Lei Yang, Xinyu Zhang, Li Wang, Minghan Zhu, Chuang Zhang, Jun Li(参考訳) モノキュラー3d物体検出は、自動運転に不可欠な知覚課題である。 しかし、大規模ラベル付きデータへの高い依存は、モデル最適化においてコストと時間を要する。 そこで本研究では,ラベル付き画像とラベル付き画像の両方を訓練段階で使用するための効果的な半教師付き学習フレームワークであるmix-teachingを提案する。 Mix-Teachingはまず、自己学習によりラベルなし画像のための擬似ラベルを生成する。 学生モデルは、インスタンスレベルのイメージパッチを空の背景やラベル付きイメージにマージすることで、より集中的で正確なラベル付けを持つ混合イメージでトレーニングされる。 これは、画像レベルの制限を破り、高品質な擬似ラベルを複数のフレームから1つの画像にまとめ、半教師付きトレーニングを行う最初の方法である。 また、信頼スコアとローカライゼーション品質の相違により、信頼基準のみを用いてノイズ予測から高品質な擬似ラベルを識別することは困難である。 そこで我々はさらに不確実性に基づくフィルタを導入し、上記の混合動作に対する信頼性の高い疑似ボックスの選択を支援する。 我々の知る限りでは、これはモノクロ3Dオブジェクト検出のための初めての統合SSLフレームワークである。 Mix-Teaching は MonoFlex と GUPNet を KITTI データセット上で様々なラベル付け比率で大幅に改善している。 例えば、10%のラベル付きデータを使用すると、検証セットでgupnetのベースラインに対して約6.34%のap@0.7改善が得られます。 さらに、完全なトレーニングセットと48krawイメージのkittiを活用することで、自動車検出のためのap@0.7の+4.65%の改善により、monoflexをさらに改善することができ、18.54%のap@0.7に達する。 コードと事前トレーニングされたモデルはhttps://github.com/yanglei18/mix-teachingでリリースされる。

Monocular 3D object detection is an essential perception task for autonomous driving. However, the high reliance on large-scale labeled data make it costly and time-consuming during model optimization. To reduce such over-reliance on human annotations, we propose Mix-Teaching, an effective semi-supervised learning framework applicable to employ both labeled and unlabeled images in training stage. Mix-Teaching first generates pseudo-labels for unlabeled images by self-training. The student model is then trained on the mixed images possessing much more intensive and precise labeling by merging instance-level image patches into empty backgrounds or labeled images. This is the first to break the image-level limitation and put high-quality pseudo labels from multi frames into one image for semi-supervised training. Besides, as a result of the misalignment between confidence score and localization quality, it's hard to discriminate high-quality pseudo-labels from noisy predictions using only confidence-based criterion. To that end, we further introduce an uncertainty-based filter to help select reliable pseudo boxes for the above mixing operation. To the best of our knowledge, this is the first unified SSL framework for monocular 3D object detection. Mix-Teaching consistently improves MonoFlex and GUPNet by significant margins under various labeling ratios on KITTI dataset. For example, our method achieves around +6.34% AP@0.7 improvement against the GUPNet baseline on validation set when using only 10% labeled data. Besides, by leveraging full training set and the additional 48K raw images of KITTI, it can further improve the MonoFlex by +4.65% improvement on AP@0.7 for car detection, reaching 18.54% AP@0.7, which ranks the 1st place among all monocular based methods on KITTI test leaderboard. The code and pretrained models will be released at https://github.com/yanglei18/Mix-Teaching.
翻訳日:2022-07-12 14:59:53 公開日:2022-07-10
# クラス化パラドックスによるUniversal Domain Adaptationのための適応的未知認証に向けて

Towards Adaptive Unknown Authentication for Universal Domain Adaptation by Classifier Paradox ( http://arxiv.org/abs/2207.04494v1 )

ライセンス: Link先を確認
Yunyun Wang, Yao Liu, Songcan Chen(参考訳) ユニバーサルドメイン適応(UniDA)は、一般的な教師なしドメイン適応設定であり、適応におけるドメインシフトとラベルシフトの両方に対処する。 主な課題は、未共有または未知のクラスでターゲットサンプルを識別する方法である。 従来の手法では、サンプルの"信条"を未知を拒絶するしきい値と共に記述し、ドメイン間で共有クラスの特徴分布を調整しようと試みていた。 しかし、様々な実タスクに適応する「信頼」基準としきい値の事前指定は依然として困難であり、未知の予測は共有クラスにおける特徴の誤調整をさらに引き起こす。 本稿では、パラドックス予測を持つサンプルが、おそらくソースクラスに属さない未知であると考えられることを考慮し、分類パラドックス(uacp)による適応的未知認証を持つ新しいunida法を提案する。 UACPでは、複合分類器は2種類の予測器で共同設計される。 すなわち、マルチクラス(mc)予測器はサンプルを複数のソースクラスのいずれかに分類し、バイナリのone-vs-all(ova)予測器はmc予測器による予測をさらに検証する。 検証失敗やパラドックスのあるサンプルは未知である。 さらに、共有クラスの機能アライメントの代わりに、暗黙的なドメインアライメントが出力空間で行われ、ドメイン間のサンプルは同じ決定境界を共有する。 UACPはオープンセットとユニバーサルUDA設定の両方で検証される。

Universal domain adaptation (UniDA) is a general unsupervised domain adaptation setting, which addresses both domain and label shifts in adaptation. Its main challenge lies in how to identify target samples in unshared or unknown classes. Previous methods commonly strive to depict sample "confidence" along with a threshold for rejecting unknowns, and align feature distributions of shared classes across domains. However, it is still hard to pre-specify a "confidence" criterion and threshold which are adaptive to various real tasks, and a mis-prediction of unknowns further incurs misalignment of features in shared classes. In this paper, we propose a new UniDA method with adaptive Unknown Authentication by Classifier Paradox (UACP), considering that samples with paradoxical predictions are probably unknowns belonging to none of the source classes. In UACP, a composite classifier is jointly designed with two types of predictors. That is, a multi-class (MC) predictor classifies samples to one of the multiple source classes, while a binary one-vs-all (OVA) predictor further verifies the prediction by MC predictor. Samples with verification failure or paradox are identified as unknowns. Further, instead of feature alignment for shared classes, implicit domain alignment is conducted in output space such that samples across domains share the same decision boundary, though with feature discrepancy. Empirical results validate UACP under both open-set and universal UDA settings.
翻訳日:2022-07-12 14:59:20 公開日:2022-07-10
# 学習に基づく鳥類の単眼3次元再構成 : 現代調査

Learning-based Monocular 3D Reconstruction of Birds: A Contemporary Survey ( http://arxiv.org/abs/2207.04512v1 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Mohammad N.S. Jahromi, Javad Khaghanix, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) 自然界では、飛ぶ鳥のような動物の集団行動は同じ種の個体間の相互作用によって支配される。 しかし、鳥類種間のこのような行動の研究は、自然界の焦点サンプリングのような従来の視覚観察技術では実行できない複雑なプロセスである。 鳥類のような社会動物にとって、集団形成のメカニズムは、生態学者が社会的な手がかりと視覚的特徴(例えば、ポーズや形)との関係を理解するのに役立つ。 しかし、飛ぶ鳥の様々なポーズや形を復元することは非常に難しい問題である。 このボトルネックに取り組むための広く研究されている解決策は、ポーズと形状情報を2D画像から3D対応に抽出することである。 近年の3D視覚の進歩は、3D形状とポーズ推定に関する多くの印象的な研究につながっている。 我々の知る限り、この研究は、単眼視覚に基づく最近の3D鳥の復元の進歩を概観する最初の試みであり、コンピュータビジョンと生物学研究者の両方に既存のアプローチの概要を与え、それらの特性を比較する。

In nature, the collective behavior of animals, such as flying birds is dominated by the interactions between individuals of the same species. However, the study of such behavior among the bird species is a complex process that humans cannot perform using conventional visual observational techniques such as focal sampling in nature. For social animals such as birds, the mechanism of group formation can help ecologists understand the relationship between social cues and their visual characteristics over time (e.g., pose and shape). But, recovering the varying pose and shapes of flying birds is a highly challenging problem. A widely-adopted solution to tackle this bottleneck is to extract the pose and shape information from 2D image to 3D correspondence. Recent advances in 3D vision have led to a number of impressive works on the 3D shape and pose estimation, each with different pros and cons. To the best of our knowledge, this work is the first attempt to provide an overview of recent advances in 3D bird reconstruction based on monocular vision, give both computer vision and biology researchers an overview of existing approaches, and compare their characteristics.
翻訳日:2022-07-12 14:58:55 公開日:2022-07-10
# 縦断的全脳白質病変分類のためのオープンソースツール

An Open-Source Tool for Longitudinal Whole-Brain and White Matter Lesion Segmentation ( http://arxiv.org/abs/2207.04534v1 )

ライセンス: Link先を確認
Stefano Cerri, Douglas N. Greve, Andrew Hoopes, Henrik Lundell, Hartwig R. Siebner, Mark M\"uhlau, Koen Van Leemput(参考訳) 本稿では,縦型mriスキャンにおける全脳セグメンテーション(全脳セグメンテーション)の縦方向法について述べる。 これは、マルチコントラストデータを処理し、白質病変のある画像を堅牢に分析できる既存の全脳セグメンテーション法に基づいている。 この方法は、被験者固有の潜伏変数で拡張され、セグメンテーション結果間の時間的一貫性が促進され、何十もの神経解剖学的構造と白質病変の微妙な形態変化をよりよく追跡することができる。 本手法は,アルツハイマー病および多発性硬化症に罹患する患者とコントロール対象者の複数のデータセットについて検証し,元の横断的定式化法と2つのベンチマーク縦断法との比較を行った。 以上の結果から, 患者群間の縦断的疾患効果差に敏感でありながら, 高い検査信頼性が得られることが示唆された。 実装はオープンソースのニューロイメージングパッケージFreeSurferの一部として公開されている。

In this paper we describe and validate a longitudinal method for whole-brain segmentation of longitudinal MRI scans. It builds upon an existing whole-brain segmentation method that can handle multi-contrast data and robustly analyze images with white matter lesions. This method is here extended with subject-specific latent variables that encourage temporal consistency between its segmentation results, enabling it to better track subtle morphological changes in dozens of neuroanatomical structures and white matter lesions. We validate the proposed method on multiple datasets of control subjects and patients suffering from Alzheimer's disease and multiple sclerosis, and compare its results against those obtained with its original cross-sectional formulation and two benchmark longitudinal methods. The results indicate that the method attains a higher test-retest reliability, while being more sensitive to longitudinal disease effect differences between patient groups. An implementation is publicly available as part of the open-source neuroimaging package FreeSurfer.
翻訳日:2022-07-12 14:58:35 公開日:2022-07-10
# 深度視点を考慮した複数物体追跡

Depth Perspective-aware Multiple Object Tracking ( http://arxiv.org/abs/2207.04551v1 )

ライセンス: Link先を確認
Kha Gia Quach, Huu Le, Pha Nguyen, Chi Nhan Duong, Tien Dai Bui, Khoa Luu(参考訳) 本稿では,コンピュータビジョンにおける重要な問題であるMOT(Multiple Object Tracking)に取り組むことを目的としている。 実際、我々はMOTの閉塞問題に取り組むために、DP-MOT(Real-time Depth Perspective-aware Multiple Object Tracking)アプローチを提案する。 簡易かつ効率的な主観的深度推定法(SODE)が提案され、2次元シーンにおける検出対象の深度位置を自動的に教師なしで順序付けする。 sodeの出力を用いて、動的制御変数を持つカルマンフィルタの単純かつ効果的な拡張である新しいアクティブ擬似3dカルマンフィルタを提案し、オブジェクトの移動を動的に更新する。 さらに、検出対象間の一階と二階の関係を組み込むために、データアソシエーションステップに新しい高階のアソシエーションアプローチを示す。 提案手法は, 標準MOTベンチマークにおける最近のMOT手法と比較して, 常に最先端性能を実現する。

This paper aims to tackle Multiple Object Tracking (MOT), an important problem in computer vision but remains challenging due to many practical issues, especially occlusions. Indeed, we propose a new real-time Depth Perspective-aware Multiple Object Tracking (DP-MOT) approach to tackle the occlusion problem in MOT. A simple yet efficient Subject-Ordered Depth Estimation (SODE) is first proposed to automatically order the depth positions of detected subjects in a 2D scene in an unsupervised manner. Using the output from SODE, a new Active pseudo-3D Kalman filter, a simple but effective extension of Kalman filter with dynamic control variables, is then proposed to dynamically update the movement of objects. In addition, a new high-order association approach is presented in the data association step to incorporate first-order and second-order relationships between the detected objects. The proposed approach consistently achieves state-of-the-art performance compared to recent MOT methods on standard MOT benchmarks.
翻訳日:2022-07-12 14:58:19 公開日:2022-07-10
# 室内環境におけるマルチタスクRGB-Dシーン解析の効率化

Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments ( http://arxiv.org/abs/2207.04526v1 )

ライセンス: Link先を確認
Daniel Seichter, S\"ohnke Benedikt Fischedick, Mona K\"ohler, Horst-Michael Gro{\ss}(参考訳) セマンティックシーン理解は,様々な環境で行動する移動エージェントにとって不可欠である。 セマンティクスのセグメンテーションはすでに多くの情報を提供しているが、個々のオブジェクトや一般的なシーンの詳細は欠落しているが、現実世界のアプリケーションでは必須である。 しかし、複数のタスクを個別に解くことは高価であり、モバイルプラットフォーム上で限られた計算能力とバッテリー能力によってリアルタイムでは達成できない。 本稿では,semantic and instance segmentation~(panoptic segmentation), instance orientation estimation, scene classificationを同時に実行する,rgb-d scene analysis~(emsanet)のための効率的なマルチタスク手法を提案する。 私たちは、モバイルプラットフォーム上で単一のニューラルネットワークを使って、パフォーマンスを低下させることなく、すべてのタスクをリアルタイムで達成できることを示しました。 マルチタスク・アプローチを評価するため, 共通RGB-D屋内データセットであるNYUv2とSUNRGB-Dのアノテーションを拡張した。 我々の知る限り、我々は、NYUv2とSUNRGB-Dの屋内シーン分析のための総合的なマルチタスク設定を初めて提供する。

Semantic scene understanding is essential for mobile agents acting in various environments. Although semantic segmentation already provides a lot of information, details about individual objects as well as the general scene are missing but required for many real-world applications. However, solving multiple tasks separately is expensive and cannot be accomplished in real time given limited computing and battery capabilities on a mobile platform. In this paper, we propose an efficient multi-task approach for RGB-D scene analysis~(EMSANet) that simultaneously performs semantic and instance segmentation~(panoptic segmentation), instance orientation estimation, and scene classification. We show that all tasks can be accomplished using a single neural network in real time on a mobile platform without diminishing performance - by contrast, the individual tasks are able to benefit from each other. In order to evaluate our multi-task approach, we extend the annotations of the common RGB-D indoor datasets NYUv2 and SUNRGB-D for instance segmentation and orientation estimation. To the best of our knowledge, we are the first to provide results in such a comprehensive multi-task setting for indoor scene analysis on NYUv2 and SUNRGB-D.
翻訳日:2022-07-12 14:35:35 公開日:2022-07-10
# 線形確率近似によるポリak-ruppert平均イテレートの有限時間高確率境界

Finite-time High-probability Bounds for Polyak-Ruppert Averaged Iterates of Linear Stochastic Approximation ( http://arxiv.org/abs/2207.04475v1 )

ライセンス: Link先を確認
Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov(参考訳) 本稿では, 線形確率近似(LSA)アルゴリズムの有限時間解析, 統計学および機械学習における中核的手法について述べる。 lsa は、$d$-次元線型系 $\bar{\mathbf{a}} \theta = \bar{\mathbf{b}}$ の近似解を計算するのに使われ、ここで $(\bar{\mathbf{a}}, \bar{\mathbf{b}})$ は(漸近的に)偏りのない観測値 $\{(\mathbf{a}(z_n),\mathbf{b}(z_n))\}_{n \in \mathbb{n}}$ でしか推定できない。 ここで、$\{z_n\}_{n \in \mathbb{n}}$ が i.i.d. 列または一様幾何学的にエルゴードマルコフ鎖であり、 lsa とそのポリアック・ラッパート平均化バージョンで定義されるイテレートに対する $p$-moments の不等式と高い確率境界が導かれる場合を考える。 より正確には、次数 $(p \alpha t_{\operatorname{mix}})^{1/2}d^{1/p}$ の有界を LSA の最終反復点の$p$-番目のモーメントに設定する。 この式では、$\alpha$ は手続きのステップサイズであり、$t_{\operatorname{mix}}$ は、基礎となるチェーンの混合時間 (t_{\operatorname{mix}}=1$ in the i.i.d. set) である。 次に、イテレートのPolyak-Ruppert平均列上の有限時間インスタンス依存境界を証明する。 これらの結果は、我々が得る先行項が、高次項のパラメータ $(d,t_{\operatorname{mix}})$ に対する厳密な依存を含む局所漸近的ミニマックス極限と一致するという意味で鋭い。

This paper provides a finite-time analysis of linear stochastic approximation (LSA) algorithms with fixed step size, a core method in statistics and machine learning. LSA is used to compute approximate solutions of a $d$-dimensional linear system $\bar{\mathbf{A}} \theta = \bar{\mathbf{b}}$, for which $(\bar{\mathbf{A}}, \bar{\mathbf{b}})$ can only be estimated through (asymptotically) unbiased observations $\{(\mathbf{A}(Z_n),\mathbf{b}(Z_n))\}_{n \in \mathbb{N}}$. We consider here the case where $\{Z_n\}_{n \in \mathbb{N}}$ is an i.i.d. sequence or a uniformly geometrically ergodic Markov chain, and derive $p$-moments inequality and high probability bounds for the iterates defined by LSA and its Polyak-Ruppert averaged version. More precisely, we establish bounds of order $(p \alpha t_{\operatorname{mix}})^{1/2}d^{1/p}$ on the $p$-th moment of the last iterate of LSA. In this formula $\alpha$ is the step size of the procedure and $t_{\operatorname{mix}}$ is the mixing time of the underlying chain ($t_{\operatorname{mix}}=1$ in the i.i.d. setting). We then prove finite-time instance-dependent bounds on the Polyak-Ruppert averaged sequence of iterates. These results are sharp in the sense that the leading term we obtain matches the local asymptotic minimax limit, including tight dependence on the parameters $(d,t_{\operatorname{mix}})$ in the higher order terms.
翻訳日:2022-07-12 14:34:59 公開日:2022-07-10
# NLPのための人間中心研究 : 定義と指導に向けて

Human-Centric Research for NLP: Towards a Definition and Guiding Questions ( http://arxiv.org/abs/2207.04447v1 )

ライセンス: Link先を確認
Bhushan Kotnis, Kiril Gashteovski, Julia Gastinger, Giuseppe Serra, Francesco Alesiani, Timo Sztyler, Ammar Shaker, Na Gong, Carolin Lawrence, Zhao Xu(参考訳) HCR(Human-Centric Research)では,研究成果がエンドユーザなどの利害関係者に利益をもたらすように,研究活動を運営することができる。 しかし、研究が人間中心になる理由は何だろうか? 作業定義を提供することでこの問題に対処し、研究パイプラインを人間中心のコンポーネントを追加可能な異なるステージに分割する方法を定義します。 さらに,既存のNLPをHCRコンポーネントで議論し,人間中心の研究手法を探究する研究者の出発点となる一連の指導的質問を定義する。 この研究が、提案された定義を洗練させ、HCRを達成する上で有意義な他の疑問を提起するよう、研究者に促すことを願っている。

With Human-Centric Research (HCR) we can steer research activities so that the research outcome is beneficial for human stakeholders, such as end users. But what exactly makes research human-centric? We address this question by providing a working definition and define how a research pipeline can be split into different stages in which human-centric components can be added. Additionally, we discuss existing NLP with HCR components and define a series of guiding questions, which can serve as starting points for researchers interested in exploring human-centric research approaches. We hope that this work would inspire researchers to refine the proposed definition and to pose other questions that might be meaningful for achieving HCR.
翻訳日:2022-07-12 14:32:46 公開日:2022-07-10
# 多言語説得検出:NLPのための貴重なデータソースとしてのビデオゲーム

Multilingual Persuasion Detection: Video Games as an Invaluable Data Source for NLP ( http://arxiv.org/abs/2207.04453v1 )

ライセンス: Link先を確認
Teemu P\"oyh\"onen, Mika H\"am\"al\"ainen, Khalid Alnajjar(参考訳) ロールプレイングゲーム(RPG)は、ビデオゲームの対話においてかなりの量のテキストを持っている。 このテキストはゲーム開発者によってセミアノテートされることが多い。 本稿では,複数のrpgから説得対話の多言語データセットを抽出する。 BERTと呼ばれる自然言語処理(NLP)モデルを用いた説得検出システムの構築において,このデータの有効性を示す。 ビデオゲームは、さまざまなNLPタスクのためのデータソースとして、多くの未使用の可能性を秘めていると考えています。 この論文で記述されたコードとデータはzenodoで利用可能である。

Role-playing games (RPGs) have a considerable amount of text in video game dialogues. Quite often this text is semi-annotated by the game developers. In this paper, we extract a multilingual dataset of persuasive dialogue from several RPGs. We show the viability of this data in building a persuasion detection system using a natural language processing (NLP) model called BERT. We believe that video games have a lot of unused potential as a datasource for a variety of NLP tasks. The code and data described in this paper are available on Zenodo.
翻訳日:2022-07-12 14:32:33 公開日:2022-07-10
# 放射線誘導グローバルローカ変換器による胸部X線診断

Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays ( http://arxiv.org/abs/2207.04394v1 )

ライセンス: Link先を確認
Yan Han, Gregory Holste, Ying Ding, Ahmed Tewfik, Yifan Peng, and Zhangyang Wang(参考訳) 医療画像の自動解析のためのディープラーニング手法が最近成功する以前、実践者は医療画像の局所的なパッチを定量的に記述するために手作りの放射線学的特徴を使用していた。 しかし, 診断的放射線学的特徴の抽出は, 正確な病理組織局在に依存するため, 実世界では獲得が困難である。 疾患の分類や胸部x線からの局在化の進歩にもかかわらず、多くのアプローチは臨床で不正なドメイン知識を取り入れられていない。 これらの理由から,Radiomics-Guided Transformer (RGT) を提案する。このトランスフォーマは,<textit{global} 画像情報を \textit{local} 知識誘導無線情報と融合し,正確な心肺疾患の局在と分類を行う。 RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。 rgtは、画像ブランチの学習されたセルフアテンションを用いて、放射線ブランチによってさらに処理される放射線特徴を計算するための境界ボックスを抽出し、学習画像と放射線特徴を融合してクロスアテンション層を介して相互に相互作用させる。 このようにして、RGTは画像レベルの疾患ラベルのみを用いて、正確な病理局在をブートストラップできる新しいエンドツーエンドフィードバックループを利用する。 NIH ChestXRayデータセットの実験では、RGTは、弱制御された疾患の局所化(様々な交叉対ユニオン閾値の平均マージン 3.6 %)と分類(レシーバーの操作特性曲線の下での平均領域 1.1 % )において、以前よりも優れていたことが示されている。 コードとトレーニングされたモデルは受け入れ次第リリースされる。

Before the recent success of deep learning methods for automated medical image analysis, practitioners used handcrafted radiomic features to quantitatively describe local patches of medical images. However, extracting discriminative radiomic features relies on accurate pathology localization, which is difficult to acquire in real-world settings. Despite advances in disease classification and localization from chest X-rays, many approaches fail to incorporate clinically-informed domain knowledge. For these reasons, we propose a Radiomics-Guided Transformer (RGT) that fuses \textit{global} image information with \textit{local} knowledge-guided radiomics information to provide accurate cardiopulmonary pathology localization and classification \textit{without any bounding box annotations}. RGT consists of an image Transformer branch, a radiomics Transformer branch, and fusion layers that aggregate image and radiomic information. Using the learned self-attention of its image branch, RGT extracts a bounding box for which to compute radiomic features, which are further processed by the radiomics branch; learned image and radiomic features are then fused and mutually interact via cross-attention layers. Thus, RGT utilizes a novel end-to-end feedback loop that can bootstrap accurate pathology localization only using image-level disease labels. Experiments on the NIH ChestXRay dataset demonstrate that RGT outperforms prior works in weakly supervised disease localization (by an average margin of 3.6\% over various intersection-over-union thresholds) and classification (by 1.1\% in average area under the receiver operating characteristic curve). Code and trained models will be released upon acceptance.
翻訳日:2022-07-12 14:26:07 公開日:2022-07-10
# 2dpass:2d priors によるlidar point cloudのセマンティクスセグメンテーション

2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds ( http://arxiv.org/abs/2207.04397v1 )

ライセンス: Link先を確認
Xu Yan, Jiantao Gao, Chaoda Zheng, Chao Zheng, Ruimao Zhang, Shenghui Cui, Zhen Li(参考訳) カメラとLiDARセンサーは、自律運転で使用される補完情報を取得するため、多モードデータ融合によるセマンティックセグメンテーションアルゴリズムの開発に多大な努力が払われている。 しかし、融合ベースのアプローチでは、トレーニングと推論の両方の入力として、LiDARポイントクラウドとカメライメージの厳密なポイント・ツー・ピクセルマッピングのようなペアデータを必要とする。 そこで本研究では,2dプリエント支援意味セグメンテーション(semantic segmentation, 2dpass)を提案する。 実際、2DPASSは、補助的なモーダル融合とマルチスケールフュージョン・ツー・シングル・ナレッジ蒸留(MSFSKD)を利用して、マルチモーダルデータからよりリッチなセマンティックおよび構造情報を取得し、純3Dネットワークにオンライン蒸留する。 その結果, 2DPASS を組み込んだベースラインでは, ポイントクラウド入力のみによる大幅な改善が見られた。 具体的には、SemanticKITTIとNuScenesの2つの大規模ベンチマーク(セマンティックKITTIとNuScenes)において、シングルスキャンとマルチスキャンの両コンペティションのトップ1結果を含む最先端技術を実現している。

As camera and LiDAR sensors capture complementary information used in autonomous driving, great efforts have been made to develop semantic segmentation algorithms through multi-modality data fusion. However, fusion-based approaches require paired data, i.e., LiDAR point clouds and camera images with strict point-to-pixel mappings, as the inputs in both training and inference, which seriously hinders their application in practical scenarios. Thus, in this work, we propose the 2D Priors Assisted Semantic Segmentation (2DPASS), a general training scheme, to boost the representation learning on point clouds, by fully taking advantage of 2D images with rich appearance. In practice, by leveraging an auxiliary modal fusion and multi-scale fusion-to-single knowledge distillation (MSFSKD), 2DPASS acquires richer semantic and structural information from the multi-modal data, which are then online distilled to the pure 3D network. As a result, equipped with 2DPASS, our baseline shows significant improvement with only point cloud inputs. Specifically, it achieves the state-of-the-arts on two large-scale benchmarks (i.e. SemanticKITTI and NuScenes), including top-1 results in both single and multiple scan(s) competitions of SemanticKITTI.
翻訳日:2022-07-12 14:25:35 公開日:2022-07-10
# 変圧器の水平および垂直方向の注意

Horizontal and Vertical Attention in Transformers ( http://arxiv.org/abs/2207.04399v1 )

ライセンス: Link先を確認
Litao Yu, Jian Zhang(参考訳) トランスフォーマーはマルチヘッドスケールのドットプロダクトアテンションと位置エンコーディングに基づいて構築されており、特徴表現とトークン依存性を学習することを目的としている。 本研究では, 変圧器の自己着脱機構を用いて特徴マップを拡張させることにより, 特徴表現の強化に着目する。 具体的には,次元減少前における大規模ドット製品注目のマルチヘッド出力を再重み付けする水平アテンションを提案し,異なるチャネル間の依存性を明示的にモデル化することにより,チャネルワイド特徴応答を適応的に補正する垂直アテンションを提案する。 2つの注意力を備えたトランスフォーマーモデルは,教師あり学習タスクにまたがって高い一般化能力を持ち,計算コストのオーバーヘッドも極めて小さい。 提案した水平および垂直の注意は高度にモジュール化されており、様々なトランスフォーマーモデルに挿入することでパフォーマンスをさらに向上することができる。 私たちのコードは補足資料で入手できる。

Transformers are built upon multi-head scaled dot-product attention and positional encoding, which aim to learn the feature representations and token dependencies. In this work, we focus on enhancing the distinctive representation by learning to augment the feature maps with the self-attention mechanism in Transformers. Specifically, we propose the horizontal attention to re-weight the multi-head output of the scaled dot-product attention before dimensionality reduction, and propose the vertical attention to adaptively re-calibrate channel-wise feature responses by explicitly modelling inter-dependencies among different channels. We demonstrate the Transformer models equipped with the two attentions have a high generalization capability across different supervised learning tasks, with a very minor additional computational cost overhead. The proposed horizontal and vertical attentions are highly modular, which can be inserted into various Transformer models to further improve the performance. Our code is available in the supplementary material.
翻訳日:2022-07-12 14:25:09 公開日:2022-07-10
# シーンセグメンテーションのためのマルチシフトウィンドウの自己注意

Self-attention on Multi-Shifted Windows for Scene Segmentation ( http://arxiv.org/abs/2207.04403v1 )

ライセンス: Link先を確認
Litao Yu, Zhibin Li, Jian Zhang, Qiang Wu(参考訳) 画像のシーンセグメンテーションは、視覚的コンテンツ理解の基本的な問題であり、すべての画像ピクセルを分類ラベルに割り当てるモデルを学ぶことである。 この学習課題の1つは、記述的特徴表現を得るための空間的・意味的関係を考察することであり、複数の尺度から特徴写像を学習することはシーンセグメンテーションにおける一般的な実践である。 本稿では,マルチスケール画像ウィンドウ内での自己注意を効果的に活用して記述的視覚特徴を学習し,これらの特徴マップを集約して高密度な予測のために特徴表現をデコードする3つの戦略を提案する。 我々の設計は、畳み込み操作を完全に破棄する最近提案されたSwin Transformerモデルに基づいている。 単純かつ効果的なマルチスケール機能学習と集約により,我々は,pascal voc2012,coco-stuff 10k,ade20k,cityscapesの4つのパブリックシーンセグメンテーションデータセットにおいて,非常に有望なパフォーマンスを実現する。

Scene segmentation in images is a fundamental yet challenging problem in visual content understanding, which is to learn a model to assign every image pixel to a categorical label. One of the challenges for this learning task is to consider the spatial and semantic relationships to obtain descriptive feature representations, so learning the feature maps from multiple scales is a common practice in scene segmentation. In this paper, we explore the effective use of self-attention within multi-scale image windows to learn descriptive visual features, then propose three different strategies to aggregate these feature maps to decode the feature representation for dense prediction. Our design is based on the recently proposed Swin Transformer models, which totally discards convolution operations. With the simple yet effective multi-scale feature learning and aggregation, our models achieve very promising performance on four public scene segmentation datasets, PASCAL VOC2012, COCO-Stuff 10K, ADE20K and Cityscapes.
翻訳日:2022-07-12 14:24:50 公開日:2022-07-10
# CoMER:変換器を用いた手書き数式認識のためのモデル被覆

CoMER: Modeling Coverage for Transformer-based Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2207.04410v1 )

ライセンス: Link先を確認
Wenqi Zhao, Liangcai Gao(参考訳) トランスフォーマーベースのエンコーダデコーダアーキテクチャは近年,手書きの数学的表現の認識において大きな進歩を遂げている。 しかし、トランスモデルは依然としてカバレッジの問題に悩まされており、表現認識率(ExpRate)はRNNよりも劣っている。 過去のステップのアライメント情報を記録したカバレッジ情報は,RNNモデルにおいて有効であることが証明されている。 本稿では,トランスデコーダのカバレッジ情報を採用するモデルであるCoMERを提案する。 具体的には,その並列性を損なうことなく,過去のアライメント情報で注意重みを洗練するための新しい注意改善モジュール(arm)を提案する。 さらに,現在および過去のレイヤからの過去のアライメント情報を利用する自己カバレッジとクロスカバレッジを提案することで,カバー情報を極端に捉えた。 実験の結果、CoMERは現在の最先端モデルと比較してExpRateを0.61%/2.09%/1.59%改善し、CROHME 2014/2016/2019テストセットで59.33%/59.81%/62.97%に達した。

The Transformer-based encoder-decoder architecture has recently made significant advances in recognizing handwritten mathematical expressions. However, the transformer model still suffers from the lack of coverage problem, making its expression recognition rate (ExpRate) inferior to its RNN counterpart. Coverage information, which records the alignment information of the past steps, has proven effective in the RNN models. In this paper, we propose CoMER, a model that adopts the coverage information in the transformer decoder. Specifically, we propose a novel Attention Refinement Module (ARM) to refine the attention weights with past alignment information without hurting its parallelism. Furthermore, we take coverage information to the extreme by proposing self-coverage and cross-coverage, which utilize the past alignment information from the current and previous layers. Experiments show that CoMER improves the ExpRate by 0.61%/2.09%/1.59% compared to the current state-of-the-art model, and reaches 59.33%/59.81%/62.97% on the CROHME 2014/2016/2019 test sets.
翻訳日:2022-07-12 14:24:30 公開日:2022-07-10
# sfnet: セマンティックフローによる高速、正確、ドメインに依存しないセマンティックセグメンテーション

SFNet: Faster, Accurate, and Domain Agnostic Semantic Segmentation via Semantic Flow ( http://arxiv.org/abs/2207.04415v1 )

ライセンス: Link先を確認
Xiangtai Li, Jiangning Zhang, Yibo Yang, Guangliang Cheng, Kuiyuan Yang, Yunhai Tong, Dacheng Tao(参考訳) 本稿では,高速,高精度,ドメインに依存しないセマンティックセマンティックセグメンテーションのための効果的な手法を提案する。 近接するビデオフレーム間の動きアライメントのための光フローに着想を得たフローアライメントモジュール (FAM) を提案し, 隣接レベルの特徴マップ間での \textit{Semantic Flow} の学習を行い, 高レベル特徴を高解像度特徴に効果的かつ効率的にブロードキャストする。 さらに、FAMを共通の特徴ピラミッド構造に統合すると、ResNet-18やDFNetのような軽量バックボーンネットワークでも、他のリアルタイム手法よりも優れた性能が得られる。 さらに,提案手法をさらに高速化するために,高分解能特徴マップと低分解能特徴マップを直接整列するゲート付きデュアルフローアライメントモジュールを提案し,バージョンネットワークの改良をsfnet-liteと呼ぶ。 sfnetとsfnet-liteの両方の有効性を示す、いくつかの挑戦的なデータセットで広範な実験が行われている。 特に、提案されたSFNet-Liteシリーズは、60 FPSでResNet-18のバックボーンを使い、78.8 mIoUで120 FPSでRTX-3090でSTDCのバックボーンを使い、80.1 mIoUを達成する。 さらに、4つの難しい駆動データセット(cityscapes、mapillary、idd、bdd)を1つの大きなデータセットに統合し、unified driving segmentation(uds)データセットと名付けた。 様々なドメインやスタイル情報を含んでいる。 UDSでいくつかの代表作をベンチマークする。 SFNetとSFNet-Liteは、新しい挑戦的な環境で強力なベースラインとして機能するUDSにおいて、依然として最高のスピードと精度のトレードオフを実現している。 すべてのコードとモデルはhttps://github.com/lxtGH/SFSegNetsで公開されている。

In this paper, we focus on exploring effective methods for faster, accurate, and domain agnostic semantic segmentation. Inspired by the Optical Flow for motion alignment between adjacent video frames, we propose a Flow Alignment Module (FAM) to learn \textit{Semantic Flow} between feature maps of adjacent levels, and broadcast high-level features to high resolution features effectively and efficiently. Furthermore, integrating our FAM to a common feature pyramid structure exhibits superior performance over other real-time methods even on light-weight backbone networks, such as ResNet-18 and DFNet. Then to further speed up the inference procedure, we also present a novel Gated Dual Flow Alignment Module to directly align high resolution feature maps and low resolution feature maps where we term improved version network as SFNet-Lite. Extensive experiments are conducted on several challenging datasets, where results show the effectiveness of both SFNet and SFNet-Lite. In particular, the proposed SFNet-Lite series achieve 80.1 mIoU while running at 60 FPS using ResNet-18 backbone and 78.8 mIoU while running at 120 FPS using STDC backbone on RTX-3090. Moreover, we unify four challenging driving datasets (i.e., Cityscapes, Mapillary, IDD and BDD) into one large dataset, which we named Unified Driving Segmentation (UDS) dataset. It contains diverse domain and style information. We benchmark several representative works on UDS. Both SFNet and SFNet-Lite still achieve the best speed and accuracy trade-off on UDS which serves as a strong baseline in such a new challenging setting. All the code and models are publicly available at https://github.com/lxtGH/SFSegNets.
翻訳日:2022-07-12 14:24:11 公開日:2022-07-10
# 雑音情報伝達のための二重補正適応ネットワーク

Dual-Correction Adaptation Network for Noisy Knowledge Transfer ( http://arxiv.org/abs/2207.04423v1 )

ライセンス: Link先を確認
Yunyun Wang and Weiwen Zheng and Songcan Chen(参考訳) 従来のunsupervised domain adaptation(uda)メソッドは、ラベル豊富なソースドメインからラベルなしのターゲットドメインへの単一方向の知識転送を通じてターゲット学習を促進することを目的としている。 実際、ある実教育実践において、教師は学生の学習を助けながら、ある程度の昇進を得、ドメイン間の双方向の知識伝達を探求することを促し、この論文において双正適応ネットワーク(dualcan)を提案する。 しかし、ドメイン間の非対称なラベル知識のため、ラベルのないターゲットからラベル付きソースへの転送は、共通のソースからターゲットへの変換よりも難しい課題となる。 まず、ソースによって予測されるターゲットの擬似ラベルは、一般的にモデルバイアスによるノイズを伴うため、逆適応では、ソースのパフォーマンスを損なう可能性がある。 第二に、ソースドメインは通常固有のノイズを含み、それは必然的にターゲットのノイズを増大させ、ドメイン間のノイズ増幅につながる。 この目的のために、両領域のノイズを補正・リサイクルするためのノイズ識別・補正(NIC)モジュールを更に導入する。 我々の知る限り、これはノイズのないUDAに自然に適用できる、ノイズの多いUDAに対する二方向適応の最初のナイーブな試みである。 理論の正当化は、我々の直感の合理性を示すために与えられる。 実験結果から,DualCANは最先端技術よりも顕著な性能向上を示し,特に極度ノイズの多いタスク(Pw->PrとPr->Rw of Office-Home)に有効であることが確認された。

Previous unsupervised domain adaptation (UDA) methods aim to promote target learning via a single-directional knowledge transfer from label-rich source domain to unlabeled target domain, while its reverse adaption from target to source has not jointly been considered yet so far. In fact, in some real teaching practice, a teacher helps students learn while also gets promotion from students to some extent, which inspires us to explore a dual-directional knowledge transfer between domains, and thus propose a Dual-Correction Adaptation Network (DualCAN) in this paper. However, due to the asymmetrical label knowledge across domains, transfer from unlabeled target to labeled source poses a more difficult challenge than the common source-to-target counterpart. First, the target pseudo-labels predicted by source commonly involve noises due to model bias, hence in the reverse adaptation, they may hurt the source performance and bring a negative target-to-source transfer. Secondly, source domain usually contains innate noises, which will inevitably aggravate the target noises, leading to noise amplification across domains. To this end, we further introduce a Noise Identification and Correction (NIC) module to correct and recycle noises in both domains. To our best knowledge, this is the first naive attempt of dual-directional adaptation for noisy UDA, and naturally applicable to noise-free UDA. A theory justification is given to state the rationality of our intuition. Empirical results confirm the effectiveness of DualCAN with remarkable performance gains over state-of-the-arts, particularly for extreme noisy tasks (e.g., ~+ 15% on Pw->Pr and Pr->Rw of Office-Home).
翻訳日:2022-07-12 14:23:33 公開日:2022-07-10
# tcr:癌薬剤反応予測のためのトランスフォーマーベースのディープネットワーク

TCR: A Transformer Based Deep Network for Predicting Cancer Drugs Response ( http://arxiv.org/abs/2207.04457v1 )

ライセンス: Link先を確認
Jie Gao, Jing Hu, Wanqing Sun, Yili Shen, Xiaonan Zhang, Xiaomin Fang, Fan Wang, and Guodong Zhao(参考訳) 腫瘍の不均一性によるがん治療において, パーソナライズされた抗がん剤の臨床効果の予測は困難である。 従来の計算は、分子プロファイルで示される個々のサンプルに対する薬物反応の効果をモデル化するが、オミクスデータの高次元のため過度に適合し、臨床応用を妨げている。 近年の研究では、深層学習が薬物とサンプルのアライメントパターンを学習することで、薬物反応モデルを構築するための有望なアプローチであることが示されている。 しかし、既存の研究は単純な特徴融合戦略を採用しており、薬物と遺伝子を整合させる上で重要な役割を担う部分構造情報を無視しながら、薬物の特徴全体を表現としてのみ考慮していた。 本稿では,抗がん剤反応を予測するためのTCR(Transformer based network for Cancer Drug Response)を提案する。 注目機構を利用することで、TCRは薬物原子/サブ構造と分子シグネチャの相互作用を効率的に学習することができる。 さらに,tcrの予測性能を向上させるために,二重損失関数とクロスサンプリング戦略が考案された。 また,TCRは,すべての評価行列において,様々なデータ分割戦略の下で,他の手法よりも優れた性能を示した。 広範囲な実験により、TCRは、独立したin-vitro実験とin-vivoの実際の患者データに対する一般化能力を大幅に改善したことが示された。 本研究は,TCRの予測能力と癌薬物の再利用と腫瘍学の精度向上に有用であることを示す。

Predicting clinical outcomes to anti-cancer drugs on a personalized basis is challenging in cancer treatment due to the heterogeneity of tumors. Traditional computational efforts have been made to model the effect of drug response on individual samples depicted by their molecular profile, yet overfitting occurs because of the high dimension for omics data, hindering models from clinical application. Recent research shows that deep learning is a promising approach to build drug response models by learning alignment patterns between drugs and samples. However, existing studies employed the simple feature fusion strategy and only considered the drug features as a whole representation while ignoring the substructure information that may play a vital role when aligning drugs and genes. Hereby in this paper, we propose TCR (Transformer based network for Cancer drug Response) to predict anti-cancer drug response. By utilizing an attention mechanism, TCR is able to learn the interactions between drug atom/sub-structure and molecular signatures efficiently in our study. Furthermore, a dual loss function and cross sampling strategy were designed to improve the prediction power of TCR. We show that TCR outperformed all other methods under various data splitting strategies on all evaluation matrices (some with significant improvement). Extensive experiments demonstrate that TCR shows significantly improved generalization ability on independent in-vitro experiments and in-vivo real patient data. Our study highlights the prediction power of TCR and its potential value for cancer drug repurpose and precision oncology treatment.
翻訳日:2022-07-12 13:59:23 公開日:2022-07-10
# 対向的重みマスキングによるワンショット神経バックドア消去

One-shot Neural Backdoor Erasing via Adversarial Weight Masking ( http://arxiv.org/abs/2207.04497v1 )

ライセンス: Link先を確認
Shuwen Chai and Jinghui Chen(参考訳) 最近の研究では、多くの現実世界のアプリケーションで高い精度を達成しているにもかかわらず、ディープニューラルネットワーク(DNN)はバックドア化可能である。トレーニングデータセットにトリガデータサンプルを注入することで、敵はトレーニングされたモデルを誤解して、トリガーパターンが提示される限り、ターゲットクラスにテストデータを分類することができる。 このようなバックドアの脅威を無効化するために、様々な方法が提案されている。 特に、研究のラインは、潜在的に妥協されたモデルを浄化することを目的としている。 しかし、この一連の作業の1つの大きな制限は、十分な元のトレーニングデータにアクセスすることの必要性である。 本研究では,1ショット設定でも神経バックドアを消去できる新しい手法であるAdversarial Weight Masking (AWM)を提案する。 まず、逆向きにトリガーパターンを復元し、その後(ソフト)、回収されたパターンに敏感なネットワーク重みをマスクする。 いくつかのベンチマークデータセットの総合的な評価は、AWMが様々な利用可能なトレーニングデータセットサイズに対する他の最先端メソッドに対する浄化効果を大幅に改善できることを示唆している。

Recent studies show that despite achieving high accuracy on a number of real-world applications, deep neural networks (DNNs) can be backdoored: by injecting triggered data samples into the training dataset, the adversary can mislead the trained model into classifying any test data to the target class as long as the trigger pattern is presented. To nullify such backdoor threats, various methods have been proposed. Particularly, a line of research aims to purify the potentially compromised model. However, one major limitation of this line of work is the requirement to access sufficient original training data: the purifying performance is a lot worse when the available training data is limited. In this work, we propose Adversarial Weight Masking (AWM), a novel method capable of erasing the neural backdoors even in the one-shot setting. The key idea behind our method is to formulate this into a min-max optimization problem: first, adversarially recover the trigger patterns and then (soft) mask the network weights that are sensitive to the recovered patterns. Comprehensive evaluations of several benchmark datasets suggest that AWM can largely improve the purifying effects over other state-of-the-art methods on various available training dataset sizes.
翻訳日:2022-07-12 13:58:56 公開日:2022-07-10
# 非線形確率微分方程式のオンライン最適化のための前方伝播アルゴリズム

A Forward Propagation Algorithm for Online Optimization of Nonlinear Stochastic Differential Equations ( http://arxiv.org/abs/2207.04496v1 )

ライセンス: Link先を確認
Ziheng Wang and Justin Sirignano(参考訳) 確率微分方程式(SDE)の定常分布の最適化は計算的に困難である。 SDEのオンライン最適化のための新しい前方伝播アルゴリズムが最近提案されている。 アルゴリズムは前方微分を用いて導出したSDEを解き、勾配の確率的推定を与える。 アルゴリズムはSDEモデルのパラメータと勾配推定を同時に更新する。 本稿では非線形散逸sdesに対する前方伝播アルゴリズムの収束について検討する。 我々は、このタイプの非線形SDEのエルゴード性を利用して、遷移半群とその微分の収束率を特徴づける。 そして、最も急降下方向の確率的ゆらぎの期待時間積分に対するポアソン偏微分方程式(PDE)の解上の有界性を証明した。 次に、PDE解を用いてアルゴリズムを再記述し、最も急降下する方向のパラメータの進化を特徴付ける。 我々の主な成果は非線形散逸SDEに対する前方伝播アルゴリズムの収束定理である。

Optimizing over the stationary distribution of stochastic differential equations (SDEs) is computationally challenging. A new forward propagation algorithm has been recently proposed for the online optimization of SDEs. The algorithm solves an SDE, derived using forward differentiation, which provides a stochastic estimate for the gradient. The algorithm continuously updates the SDE model's parameters and the gradient estimate simultaneously. This paper studies the convergence of the forward propagation algorithm for nonlinear dissipative SDEs. We leverage the ergodicity of this class of nonlinear SDEs to characterize the convergence rate of the transition semi-group and its derivatives. Then, we prove bounds on the solution of a Poisson partial differential equation (PDE) for the expected time integral of the algorithm's stochastic fluctuations around the direction of steepest descent. We then re-write the algorithm using the PDE solution, which allows us to characterize the parameter evolution around the direction of steepest descent. Our main result is a convergence theorem for the forward propagation algorithm for nonlinear dissipative SDEs.
翻訳日:2022-07-12 13:56:23 公開日:2022-07-10
# fairdistillation:言語モデルにおけるステレオタイプ緩和

FairDistillation: Mitigating Stereotyping in Language Models ( http://arxiv.org/abs/2207.04546v1 )

ライセンス: Link先を確認
Pieter Delobelle and Bettina Berendt(参考訳) 大規模な事前訓練された言語モデルは、多くの言語で様々なタスクでうまく使われています。 この使用が絶え間なく増加すると、例えばステレオタイプを再現し強化することによって有害な副作用のリスクも上昇する。 しかし、これらの害の検出と軽減は一般的には困難であり、複数の言語に取り組む場合や異なるバイアスを考える場合、計算コストが高くなる。 そこで本研究では,知識蒸留に基づく言語横断手法であるFairDistillationについて,特定のバイアスを制御しながら,より小さな言語モデルを構築する。 その結果, 蒸留法がほとんどの作業における下流性能に悪影響を与えず, ステレオタイプ化や表現障害の軽減に成功していることがわかった。 FairDistillationは、代替手法よりもかなり低コストで、より公平な言語モデルを作成することができることを示す。

Large pre-trained language models are successfully being used in a variety of tasks, across many languages. With this ever-increasing usage, the risk of harmful side effects also rises, for example by reproducing and reinforcing stereotypes. However, detecting and mitigating these harms is difficult to do in general and becomes computationally expensive when tackling multiple languages or when considering different biases. To address this, we present FairDistillation: a cross-lingual method based on knowledge distillation to construct smaller language models while controlling for specific biases. We found that our distillation method does not negatively affect the downstream performance on most tasks and successfully mitigates stereotyping and representational harms. We demonstrate that FairDistillation can create fairer language models at a considerably lower cost than alternative approaches.
翻訳日:2022-07-12 13:40:11 公開日:2022-07-10
# 雑音ヒューリスティックスNAS:ヒューリスティックスを用いたネットワーク形態に基づくニューラルネットワーク探索

Noisy Heuristics NAS: A Network Morphism based Neural Architecture Search using Heuristics ( http://arxiv.org/abs/2207.04467v1 )

ライセンス: Link先を確認
Suman Sapkota and Binod Bhattarai(参考訳) ネットワークモルフィズムに基づくニューラルアーキテクチャサーチ(NAS)は最も効率的な手法の1つであるが、新しいニューロンをどこでいつ追加するか、あるいは機能不全を除去するかを知ることは、一般的にブラックボックス強化学習モデルに委ねられる。 本稿では,ニューラルネットワークモデルを手作業で開発し,生物学的神経力学にインスパイアされたヒューリスティックスを用いて,ニューラルネット・モルフィズムに基づくNAS(Noisy Heuristics NAS)を提案する。 まず、新しいニューロンをランダムに追加し、最適なニューロンだけを選択するためにいくつかのニューロンを除外します。 第2に、隠れたユニットと入出力コネクションの数の関係を利用して、ネットワーク内のレイヤ数を制御する。 本手法は,数個のメタパラメータで指定したオンラインモデルの容量や非線形性を増大あるいは減少させることができる。 本手法はおもちゃのデータセットとMNIST, CIFAR-10, CIFAR-100といった実世界のデータセットの両方を一般化する。 性能は、同様のパラメータを持つ手動設計のResNet-18に匹敵する。

Network Morphism based Neural Architecture Search (NAS) is one of the most efficient methods, however, knowing where and when to add new neurons or remove dis-functional ones is generally left to black-box Reinforcement Learning models. In this paper, we present a new Network Morphism based NAS called Noisy Heuristics NAS which uses heuristics learned from manually developing neural network models and inspired by biological neuronal dynamics. Firstly, we add new neurons randomly and prune away some to select only the best fitting neurons. Secondly, we control the number of layers in the network using the relationship of hidden units to the number of input-output connections. Our method can increase or decrease the capacity or non-linearity of models online which is specified with a few meta-parameters by the user. Our method generalizes both on toy datasets and on real-world data sets such as MNIST, CIFAR-10, and CIFAR-100. The performance is comparable to the hand-engineered architecture ResNet-18 with the similar parameters.
翻訳日:2022-07-12 13:08:55 公開日:2022-07-10
# 部分STRIPSモデルによるMLベースのブラックボックスプランニングのスケールアップ

Scaling up ML-based Black-box Planning with Partial STRIPS Models ( http://arxiv.org/abs/2207.04479v1 )

ライセンス: Link先を確認
Matias Greco, \'Alvaro Torralba, Jorge A. Baier, Hector Palacios(参考訳) シーケンシャルな意思決定のための一般的なアプローチは、ポリシー学習のような機械学習(ML)メソッドで指導されたシミュレータベースの検索を実行することである。 一方、モデル関係ヒューリスティックスは、完全な宣言モデルが利用可能であれば、検索を効果的に導くことができる。 本研究では,完全なシンボルモデルが利用できない設定において,MLベースのブラックボックス計画を改善する方法について検討する。 問題の一部のみを記述する不完全なSTRIPSモデルを指定することで、緩和ヒューリスティックスの利用が可能であることを示す。 いくつかの計画領域における我々の調査結果は、より多くのデータ収集やmlアーキテクチャのチューニングを超えて、mlベースのブラックボックス計画を改善する効果的な方法であることを示唆している。

A popular approach for sequential decision-making is to perform simulator-based search guided with Machine Learning (ML) methods like policy learning. On the other hand, model-relaxation heuristics can guide the search effectively if a full declarative model is available. In this work, we consider how a practitioner can improve ML-based black-box planning on settings where a complete symbolic model is not available. We show that specifying an incomplete STRIPS model that describes only part of the problem enables the use of relaxation heuristics. Our findings on several planning domains suggest that this is an effective way to improve ML-based black-box planning beyond collecting more data or tuning ML architectures.
翻訳日:2022-07-12 13:07:14 公開日:2022-07-10
# 教師なしドメイン適応のためのドメイン混乱型コントラスト学習

Domain Confused Contrastive Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2207.04564v1 )

ライセンス: Link先を確認
Quanyu Long, Tianze Luo, Wenya Wang and Sinno Jialin Pan(参考訳) 本研究では,Unsupervised Domain Adaptation (UDA) を自己教師型アプローチで研究する。 課題の1つは、ターゲットラベルがない場合にタスクの識別を学習する方法である。 クロスドメイン分布を直接調整したり、逆勾配を利用する従来の文献とは異なり、我々は、ソースとターゲットドメインをドメインパズルで橋渡しし、適応後の判別表現を保持するために、dccl(domain confused contrastive learning)を提案する。 技術的には、dcclは最もドメインを混乱させる方向を探索し、ドメインを正のペアとして混乱させ、それと対照的にモデルに他のドメインへの表現を引き出すことを奨励し、より安定で効果的なドメイン不変性を学ぶ。 また、他のデータ拡張を行う際に、コントラスト学習が UDA に役立つかどうかについても検討する。 大規模な実験により、DCCLはベースラインを著しく上回ることが示された。

In this work, we study Unsupervised Domain Adaptation (UDA) in a challenging self-supervised approach. One of the difficulties is how to learn task discrimination in the absence of target labels. Unlike previous literature which directly aligns cross-domain distributions or leverages reverse gradient, we propose Domain Confused Contrastive Learning (DCCL) to bridge the source and the target domains via domain puzzles, and retain discriminative representations after adaptation. Technically, DCCL searches for a most domain-challenging direction and exquisitely crafts domain confused augmentations as positive pairs, then it contrastively encourages the model to pull representations towards the other domain, thus learning more stable and effective domain invariances. We also investigate whether contrastive learning necessarily helps with UDA when performing other data augmentations. Extensive experiments demonstrate that DCCL significantly outperforms baselines.
翻訳日:2022-07-12 12:58:48 公開日:2022-07-10