このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221016となっている論文です。

PDF登録状況(公開日: 20221016)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープラーニングを用いたcovid-19の自動検出と予測

Automated Detection and Forecasting of COVID-19 using Deep Learning Techniques: A Review ( http://arxiv.org/abs/2007.10785v5 )

ライセンス: Link先を確認
Afshin Shoeibi, Marjane Khodatars, Roohallah Alizadehsani, Navid Ghassemi, Mahboobeh Jafari, Parisa Moridian, Ali Khadem, Delaram Sadeghi, Sadiq Hussain, Assef Zare, Zahra Alizadeh Sani, Javad Bazeli, Fahime Khozeimeh, Abbas Khosravi, Saeid Nahavandi, U. Rajendra Acharya, Juan M. Gorriz(参考訳) コロナウイルス(Coronavirus、COVID-19)は、世界中の多くの人々の健康を危険にさらす病気である。 COVID-19は1本鎖RNAを持つ中型でコーティングされたウイルスであり、RNAゲノムとしては最大で約120nmである。 x線およびct画像モードは、迅速かつ正確な医療診断を得るために広く用いられている。 これらの医療画像からcovid-19を識別することは、時間がかかり、ヒューマンエラーを起こしやすいため、非常に難しい。 したがって、人工知能(AI)手法は、一貫した高性能が得られる。 AI手法の中で、ディープラーニング(DL)ネットワークは、従来の機械学習(ML)と比較して最近人気を博している。 MLとは異なり、特徴抽出、特徴選択、分類のすべての段階はDLモデルで自動的に達成される。 本稿では,x線およびct画像を用いた研究を中心に,肺の診断と分画に対するdl技術の適用に関する徹底的な調査を行った。 また、世界各国における新型コロナウイルスの流行予測に関する論文をdlでレビューした。 最後に、dl技術を用いたcovid-19検出における課題と今後の研究に向けた方向性について述べる。

Coronavirus, or COVID-19, is a hazardous disease that has endangered the health of many people around the world by directly affecting the lungs. COVID-19 is a medium-sized, coated virus with a single-stranded RNA, and also has one of the largest RNA genomes and is approximately 120 nm. The X-Ray and computed tomography (CT) imaging modalities are widely used to obtain a fast and accurate medical diagnosis. Identifying COVID-19 from these medical images is extremely challenging as it is time-consuming and prone to human errors. Hence, artificial intelligence (AI) methodologies can be used to obtain consistent high performance. Among the AI methods, deep learning (DL) networks have gained popularity recently compared to conventional machine learning (ML). Unlike ML, all stages of feature extraction, feature selection, and classification are accomplished automatically in DL models. In this paper, a complete survey of studies on the application of DL techniques for COVID-19 diagnostic and segmentation of lungs is discussed, concentrating on works that used X-Ray and CT images. Additionally, a review of papers on the forecasting of coronavirus prevalence in different parts of the world with DL is presented. Lastly, the challenges faced in the detection of COVID-19 using DL techniques and directions for future research are discussed.
翻訳日:2022-11-10 00:09:00 公開日:2022-10-16
# 低次元ブラックボックス最適化問題におけるフラクタル分解に基づくメタヒューリスティックの研究

Study of the Fractal decomposition based metaheuristic on low-dimensional Black-Box optimization problems ( http://arxiv.org/abs/2210.15489v1 )

ライセンス: Link先を確認
Arcadi Llanza and Nadiya Shvai and Amir Nakib(参考訳) 本稿では,低次元連続最適化問題に適用したフラクタル分解アルゴリズム(FDA)のメタヒューリスティック性能について解析する。 このアルゴリズムはもともと,次元数に線形に比例した分岐係数を持つフラクタルベース探索木を構築することにより,高次元連続最適化問題に効率よく対処するために開発された。 ここでは、FDAが低次元問題に等しく有効であるかどうかという質問に答える。 そこで本研究では,black box optimization benchmark (bbob) におけるfdaの性能を,次元 2, 3, 5, 10, 20, 40 に対して評価する。 実験の結果,fdaの現在の形態全体は十分に機能しないことがわかった。 さまざまな機能グループの中で、FDAはMiscで最高のパフォーマンスを示している。 中等度および弱度構造関数。

This paper analyzes the performance of the Fractal Decomposition Algorithm (FDA) metaheuristic applied to low-dimensional continuous optimization problems. This algorithm was originally developed specifically to deal efficiently with high-dimensional continuous optimization problems by building a fractal-based search tree with a branching factor linearly proportional to the number of dimensions. Here, we aim to answer the question of whether FDA could be equally effective for low-dimensional problems. For this purpose, we evaluate the performance of FDA on the Black Box Optimization Benchmark (BBOB) for dimensions 2, 3, 5, 10, 20, and 40. The experimental results show that overall the FDA in its current form does not perform well enough. Among different function groups, FDA shows its best performance on Misc. moderate and Weak structure functions.
翻訳日:2022-10-30 12:01:31 公開日:2022-10-16
# 自然最適化アリ架橋解(NOABS)を用いた線形アンテナアレイのサイドローブレベルの最適化

Optimization of side lobe level of linear antenna array using nature optimized ants bridging solutions(NOABS) ( http://arxiv.org/abs/2210.12045v1 )

ライセンス: Link先を確認
Sunit Shantanu Digamber Fulari, Dr.Harbinder Singh(参考訳) 自然にインスパイアされたアルゴリズムは、複雑な問題の最適化と解が非常に複雑で非線形である最適化における複雑な問題の解をもたらした。 最適化すべきパラメータの観点からは、コスト関数や適合関数の適切な設計を使う必要があり、このような問題を解くのに使用できる。 本稿では, アンテナアレイの最適設計において, 放射特性を改良した自然刺激型アルゴリズムが重要な役割を担っている。 本稿では, アンテナアレイシステムにおける自然に刺激された最適化の例として, 20要素の線形空間配列を用いる。 このブリッジインスパイアされた陸軍アリアルゴリズム(NOABS)は、サイドローブを低減し、他の放射特性を改善し、NOABS自然誘導アルゴリズムの実装による設計特性に対する最適化の効果を示す。 シミュレーションは20素子のリニアアンテナアレイ上で行われる。

Nature inspired algorithms has brought solutions to complex problems in optimization where the optimization and solution of complex problems is highly complex and nonlinear. There is a need to use proper design of the cost function or the fitness function in terms of the parameters to be optimized, this can be used in solving any type of such problems. In this paper the nature inspired algorithms has played important role in the optimal design of antenna array with improved radiation characteristics. In this paper, 20 elements linearly spaced array is used as an example of nature inspired optimization in antenna array system. This bridge inspired army ant algorithm(NOABS) is used to reduce the side lobes and to improve the other radiation characteristics to show the effect of the optimization on design characteristics by implementation of NOABS nature inspired algorithm. The entire simulation is carried out on 20 elements linear antenna array.
翻訳日:2022-10-30 12:00:45 公開日:2022-10-16
# 低ランク因子からテンソルの最小または最大の要素を見つける

Finding the smallest or largest element of a tensor from its low-rank factors ( http://arxiv.org/abs/2210.11413v1 )

ライセンス: Link先を確認
Nicholas D. Sidiropoulos, Paris Karakasis, and Aritra Konar(参考訳) 我々は、ランク分解によって指定された位数$n$のテンソルの最小または最大のエントリを見つける問題を考える。 異なる方法で述べると、$R$-次元ベクトルの$N$集合が与えられ、選択されたベクトルのアダマール積の和が最小化または最大化されるように、各集合から1つのベクトルを選択したい。 これは、類似性探索、レコメンダシステム、グラフマイニング、多変量確率、統計学などの多くの応用における基本的なテンソル問題である。 この離散最適化問題は1以上のテンソル階数に対してNPハードであることが示されるが、非凸最適化の規律に適合する等価な連続問題修正も提供する。 本稿では,予備実験における性能が期待できる勾配に基づく近似アルゴリズムの組を提案する。

We consider the problem of finding the smallest or largest entry of a tensor of order $N$ that is specified via its rank decomposition. Stated in a different way, we are given $N$ sets of $R$-dimensional vectors and we wish to select one vector from each set such that the sum of the Hadamard product of the selected vectors is minimized or maximized. This is a fundamental tensor problem with numerous applications in embedding similarity search, recommender systems, graph mining, multivariate probability, and statistics. We show that this discrete optimization problem is NP-hard for any tensor rank higher than one, but also provide an equivalent continuous problem reformulation which is amenable to disciplined non-convex optimization. We propose a suite of gradient-based approximation algorithms whose performance in preliminary experiments appears to be promising.
翻訳日:2022-10-21 16:15:36 公開日:2022-10-16
# api呼び出しに基づくランサムウェアファミリーの検出と分類のための解釈可能な機械学習

Interpretable Machine Learning for Detection and Classification of Ransomware Families Based on API Calls ( http://arxiv.org/abs/2210.11235v1 )

ライセンス: Link先を確認
Rawshan Ara Mowri, Madhuri Siddula, Kaushik Roy(参考訳) Ransomware has appeared as one of the major global threats in recent days The alarming increasing rate of ransomware attacks and new ransomware variants intrigue the researchers to constantly examine the distinguishing traits of ransomware and refine their detection strategies Application Programming Interface API is a way for one program to collaborate with another API calls are the medium by which they communicate Ransomware uses this strategy to interact with the OS and makes a significantly higher number of calls in different sequences to ask for taking action This research work utilizes the frequencies of different API calls to detect and classify ransomware families First a WebCrawler is developed to automate collecting the Windows Portable Executable PE files of 15 different ransomware families By extracting different frequencies of 68 API calls we develop our dataset in the first phase of the two phase feature engineering process After selecting the most significant features in the second phase of the feature engineering process we deploy six Supervised Machine Learning models Naive Bayes Logistic Regression Random Forest Stochastic Gradient Descent K Nearest Neighbor and Support Vector Machine Then the performances of all the classifiers are compared to select the best model The results reveal that Logistic Regression can efficiently classify ransomware into their corresponding families securing 9915 accuracy Finally instead of relying on the Black box characteristic of the Machine Learning models we present the interpretability of our best performing model using SHAP values to ascertain the transparency and trustworthiness of the models prediction

Ransomware has appeared as one of the major global threats in recent days The alarming increasing rate of ransomware attacks and new ransomware variants intrigue the researchers to constantly examine the distinguishing traits of ransomware and refine their detection strategies Application Programming Interface API is a way for one program to collaborate with another API calls are the medium by which they communicate Ransomware uses this strategy to interact with the OS and makes a significantly higher number of calls in different sequences to ask for taking action This research work utilizes the frequencies of different API calls to detect and classify ransomware families First a WebCrawler is developed to automate collecting the Windows Portable Executable PE files of 15 different ransomware families By extracting different frequencies of 68 API calls we develop our dataset in the first phase of the two phase feature engineering process After selecting the most significant features in the second phase of the feature engineering process we deploy six Supervised Machine Learning models Naive Bayes Logistic Regression Random Forest Stochastic Gradient Descent K Nearest Neighbor and Support Vector Machine Then the performances of all the classifiers are compared to select the best model The results reveal that Logistic Regression can efficiently classify ransomware into their corresponding families securing 9915 accuracy Finally instead of relying on the Black box characteristic of the Machine Learning models we present the interpretability of our best performing model using SHAP values to ascertain the transparency and trustworthiness of the models prediction
翻訳日:2022-10-21 16:00:29 公開日:2022-10-16
# HyperMiner: ハイパボリック埋め込みによるトピック分類マイニング

HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding ( http://arxiv.org/abs/2210.10625v1 )

ライセンス: Link先を確認
Yishi Xu, Dongsheng Wang, Bo Chen, Ruiying Lu, Zhibin Duan, Mingyuan Zhou(参考訳) 組み込みトピックモデルは、大きくて重い語彙でも解釈可能なトピックを学習することができる。 しかし、それらは一般にユークリッド埋め込み空間の仮定を持ち、階層関係を捉えるための基本的な制限をもたらす。 この目的のために,単語や話題を表現するために双曲組込みを導入する新しい枠組みを提案する。 双曲空間のツリーのような性質により、単語やトピックの下位のセマンティック階層は、より解釈可能なトピックをマイニングするためによりうまく活用できる。 さらに、階層データ表現における双曲幾何学の優位性により、木構造知識を自然に注入してトピック階層の学習を導くこともできる。 そこで本研究では,事前構造知識を効率的に注入するコントラスト学習の概念に基づく正規化用語をさらに発展させる。 トピック分類発見と文書表現の両方の実験は、提案フレームワークが既存の組込みトピックモデルに対する性能改善を実現していることを示している。

Embedded topic models are able to learn interpretable topics even with large and heavy-tailed vocabularies. However, they generally hold the Euclidean embedding space assumption, leading to a basic limitation in capturing hierarchical relations. To this end, we present a novel framework that introduces hyperbolic embeddings to represent words and topics. With the tree-likeness property of hyperbolic space, the underlying semantic hierarchy among words and topics can be better exploited to mine more interpretable topics. Furthermore, due to the superiority of hyperbolic geometry in representing hierarchical data, tree-structure knowledge can also be naturally injected to guide the learning of a topic hierarchy. Therefore, we further develop a regularization term based on the idea of contrastive learning to inject prior structural knowledge efficiently. Experiments on both topic taxonomy discovery and document representation demonstrate that the proposed framework achieves improved performance against existing embedded topic models.
翻訳日:2022-10-20 15:39:08 公開日:2022-10-16
# 高等教育における学生支援レコメンデーションシステムのための大学データ収集戦略の枠組み

A Framework for Undergraduate Data Collection Strategies for Student Support Recommendation Systems in Higher Education ( http://arxiv.org/abs/2210.10657v1 )

ライセンス: Link先を確認
Herkulaas MvE Combrink, Vukosi Marivate, Benjamin Rosman(参考訳) 学生支援戦略の理解が学生の退学を緩和し、学生の定着性を向上させることは、現代の高等教育研究の重要な部分である。 高等教育機関が直面する最大の課題の1つは、学生サポートのスケーラビリティである。 この要因の一部は、学生のニーズに対処するスタッフの不足と、時間的な学生支援戦略を提供するための紹介経路の欠如によるものである。 これは、特に学生が行政、学術、社会、社会経済的課題の組み合わせに直面しているため、これらの参照の難しさによってさらに複雑になる。 この問題に対する可能な解決策は、生徒の成果予測と、高等教育の文脈におけるアルゴリズムレコメンデータシステムの適用の組合せである。 この文脈でアルゴリズム的意思決定を説明することの拡張に多くの努力と細部が注がれているが、それでもデータ収集戦略を開発する必要があるため、本論文の目的は、収集バイアスを減らし、学生の特徴を理解し、学生旅行に最適な影響を推測するための理想的な方法を見つけるために、この文脈におけるレコメンダシステムに特化したデータ収集フレームワークを概説することである。 確証バイアス、データ空間の課題、学生から収集する情報のタイプに対処できない場合、高等教育におけるこれらのシステムの効果を評価し評価しようとする試みに有害な影響を与える。

Understanding which student support strategies mitigate dropout and improve student retention is an important part of modern higher educational research. One of the largest challenges institutions of higher learning currently face is the scalability of student support. Part of this is due to the shortage of staff addressing the needs of students, and the subsequent referral pathways associated to provide timeous student support strategies. This is further complicated by the difficulty of these referrals, especially as students are often faced with a combination of administrative, academic, social, and socio-economic challenges. A possible solution to this problem can be a combination of student outcome predictions and applying algorithmic recommender systems within the context of higher education. While much effort and detail has gone into the expansion of explaining algorithmic decision making in this context, there is still a need to develop data collection strategies Therefore, the purpose of this paper is to outline a data collection framework specific to recommender systems within this context in order to reduce collection biases, understand student characteristics, and find an ideal way to infer optimal influences on the student journey. If confirmation biases, challenges in data sparsity and the type of information to collect from students are not addressed, it will have detrimental effects on attempts to assess and evaluate the effects of these systems within higher education.
翻訳日:2022-10-20 13:43:49 公開日:2022-10-16
# 映像解析のためのモーションベース弱視と大腸内視鏡への応用

Motion-Based Weak Supervision for Video Parsing with Application to Colonoscopy ( http://arxiv.org/abs/2210.10594v1 )

ライセンス: Link先を確認
Ori Kelner, Or Weinstein, Ehud Rivlin, Roman Goldenberg(参考訳) ビデオの位相解析のための2段階の教師なし手法を提案する。 動画を粗いセグメントに分割するためにモーションキューを使用します。 ノイズセグメントラベルは、外見に基づく分類器の弱い監督に使用される。 大腸内視鏡検査における位相検出法の有効性を示す。

We propose a two-stage unsupervised approach for parsing videos into phases. We use motion cues to divide the video into coarse segments. Noisy segment labels are then used to weakly supervise an appearance-based classifier. We show the effectiveness of the method for phase detection in colonoscopy videos.
翻訳日:2022-10-20 13:34:40 公開日:2022-10-16
# 離散ランダム性を持つプログラムの自動微分

Automatic Differentiation of Programs with Discrete Randomness ( http://arxiv.org/abs/2210.08572v1 )

ライセンス: Link先を確認
Gaurav Arya, Moritz Schauer, Frank Sch\"afer, Chris Rackauckas(参考訳) 従来のプログラムの微分を演算する新しいプログラムを構築する技術である自動微分 (AD) は、勾配に基づく最適化によって得られる性能の向上により、科学計算やディープラーニングを通じて広く普及している。 しかし、ADシステムはパラメータに連続的な依存を持つプログラムのサブセットに制限されている。 分布パラメータによって支配される離散確率的振る舞いを持つプログラムは、結果(頭と尾)とパラメータ(p$)の接続が根本的に離散的であるため、コインを頭である確率で反転させるような問題を引き起こす。 本稿では,本プログラムの期待値の導出となるプログラムを生成するための,新しい再パラメータ化に基づく手法を提案する。 本稿では,この手法が従来のAD機構と同じくらい自動化された非バイアス・低分散推定器を実現する方法を紹介する。 離散時間マルコフ連鎖の偏りのない前方モードad,conwayのgame of lifeのようなエージェントベースのモデル,粒子フィルタの偏りのない逆モードadを示す。 私たちのコードはhttps://github.com/gaurav-arya/stochasticad.jlで入手できる。

Automatic differentiation (AD), a technique for constructing new programs which compute the derivative of an original program, has become ubiquitous throughout scientific computing and deep learning due to the improved performance afforded by gradient-based optimization. However, AD systems have been restricted to the subset of programs that have a continuous dependence on parameters. Programs that have discrete stochastic behaviors governed by distribution parameters, such as flipping a coin with probability of being heads, pose a challenge to these systems because the connection between the result (heads vs tails) and the parameters ($p$) is fundamentally discrete. In this paper we develop a new reparameterization-based methodology that allows for generating programs whose expectation is the derivative of the expectation of the original program. We showcase how this method gives an unbiased and low-variance estimator which is as automated as traditional AD mechanisms. We demonstrate unbiased forward-mode AD of discrete-time Markov chains, agent-based models such as Conway's Game of Life, and unbiased reverse-mode AD of a particle filter. Our code is available at https://github.com/gaurav-arya/StochasticAD.jl.
翻訳日:2022-10-18 22:14:39 公開日:2022-10-16
# 楕円形インタフェース問題に対するカスプキャプチャPINN

A cusp-capturing PINN for elliptic interface problems ( http://arxiv.org/abs/2210.08424v1 )

ライセンス: Link先を確認
Yu-Hau Tseng, Te-Sheng Lin, Wei-Fan Hu, Ming-Chih Lai(参考訳) 本稿では,連続的な解を持つがインターフェース上に不連続な第1微分を持つ可変係数楕円型インタフェース問題を解決するために,カスプ捕捉型物理インフォームドニューラルネットワーク(PINN)を提案する。 ニューラルネットワーク表現を用いたそのような解を見出すために,本手法では,cusp-enforced level set関数をネットワークへの追加機能入力として導入し,固有の解特性を保持し,解尖点(導関数の不連続)を鋭く捕捉する。 さらに、提案するニューラルネットワークはメッシュフリーの利点があるため、不規則なドメインでの問題を容易に処理できる。 我々は、損失関数が微分方程式の残差と特定の界面および境界条件を含む物理に変形した枠組みを用いてネットワークを訓練する。 本研究では,カスプキャプチャ手法の有効性とネットワークモデルの精度を実証するために,一連の数値実験を行った。 数値的な結果から, 適度なニューロン数(40~60ドル)と十分なトレーニングデータポイントを有する一層層(浅層)ネットワークであっても, 既存のニューラルネットワークモデルや従来のグリッドベース手法よりも高い予測精度(相対的な$L^2$10^{-5}-10^{-6}$)を達成できることがわかった。

In this paper, we propose a cusp-capturing physics-informed neural network (PINN) to solve variable-coefficient elliptic interface problems whose solution is continuous but has discontinuous first derivatives on the interface. To find such a solution using neural network representation, we introduce a cusp-enforced level set function as an additional feature input to the network to retain the inherent solution properties, capturing the solution cusps (where the derivatives are discontinuous) sharply. In addition, the proposed neural network has the advantage of being mesh-free, so it can easily handle problems in irregular domains. We train the network using the physics-informed framework in which the loss function comprises the residual of the differential equation together with a certain interface and boundary conditions. We conduct a series of numerical experiments to demonstrate the effectiveness of the cusp-capturing technique and the accuracy of the present network model. Numerical results show that even a one-hidden-layer (shallow) network with a moderate number of neurons ($40-60$) and sufficient training data points, the present network model can achieve high prediction accuracy (relative $L^2$ errors in the order of $10^{-5}-10^{-6}$), which outperforms several existing neural network models and traditional grid-based methods in the literature.
翻訳日:2022-10-18 22:10:06 公開日:2022-10-16
# 音像位置を学習した室内スマートフォンSLAM

Indoor Smartphone SLAM with Learned Echoic Location Features ( http://arxiv.org/abs/2210.08493v1 )

ライセンス: Link先を確認
Wenjie Luo, Qun Song, Zhenyu Yan, Rui Tan, Guosheng Lin(参考訳) 屋内の自在化はスマートフォンにとって非常に要求されるシステム機能である。 慣性、電波周波数、地磁気センシングに基づく現在の解は、その制限要因が作用すると性能が低下する可能性がある。 本稿では,スマートフォン内蔵オーディオハードウェアと慣性測定ユニット(IMU)を利用した屋内同時位置決めマッピングシステムを提案する。 我々のシステムは、スマートフォンのスピーカーを使って、ほぼ可聴のチャープを出力し、マイクを使って室内環境から音響エコーを記録する。 プロファイリング測定の結果,エコーは位置情報をサブメートルの粒度で保持していることがわかった。 SLAMを実現するために、コントラスト学習を適用して、対応するELFトレースからスマートフォンの軌道上のループクロージャを正確に検出できるように、エコー位置特徴抽出器(ELF)を構築する。 検出結果はIMUに基づく軌道再構成を効果的に制御する。 ELFベースのSLAMは, リビングルーム, オフィス, ショッピングモールの再構成軌道上で, 0.1\,\text{m}$, $0.53\,\text{m}$, $0.4\,\text{m}$の中央値局所化誤差を達成し, Wi-Fiおよび地磁気SLAMシステムより優れていることを示す。

Indoor self-localization is a highly demanded system function for smartphones. The current solutions based on inertial, radio frequency, and geomagnetic sensing may have degraded performance when their limiting factors take effect. In this paper, we present a new indoor simultaneous localization and mapping (SLAM) system that utilizes the smartphone's built-in audio hardware and inertial measurement unit (IMU). Our system uses a smartphone's loudspeaker to emit near-inaudible chirps and then the microphone to record the acoustic echoes from the indoor environment. Our profiling measurements show that the echoes carry location information with sub-meter granularity. To enable SLAM, we apply contrastive learning to construct an echoic location feature (ELF) extractor, such that the loop closures on the smartphone's trajectory can be accurately detected from the associated ELF trace. The detection results effectively regulate the IMU-based trajectory reconstruction. Extensive experiments show that our ELF-based SLAM achieves median localization errors of $0.1\,\text{m}$, $0.53\,\text{m}$, and $0.4\,\text{m}$ on the reconstructed trajectories in a living room, an office, and a shopping mall, and outperforms the Wi-Fi and geomagnetic SLAM systems.
翻訳日:2022-10-18 22:09:41 公開日:2022-10-16
# ブランドの新K-FAC:オンライン分解アップデートでK-FACを高速化

Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates ( http://arxiv.org/abs/2210.08494v1 )

ライセンス: Link先を確認
Constantin Octavian Puiu(参考訳) K-FAC (arXiv:1503.05671, arXiv:1602.01407) は、"Kronecker-Factors"(K因子)の逆数を計算することのボトルネックとなる、ディープラーニング(DL)のための自然勾配(NG)の実装である。 RS-KFAC (arXiv:2206.15397) はK-FACの改良であり、K-因子の逆数推定の安価な方法を提供する。 本稿では,k-ファクターの指数平均構成パラダイムを活用し,オンライン数値線形代数手法を用いて,完全連結層に対するk-ファクター逆推定法を提案する。 RS-KFACの逆誤差を最小限のCPUオーバヘッドで低減できることを示す。 提案手法,修正法,rs-kfacに基づき,汎用深層ニューラルネットワークの最適化のための3つの実用的なアルゴリズムを提案する。 数値実験の結果, rs-kfacはcifar10分類において, vgg16_bnの微修正版で, 目標試験精度に優れることがわかった。 提案アルゴリズムは,SENG よりも 91$\%$テスト精度 (DL の実証NG 実装の現状; arXiv:2006.05924) が速いが,高いテスト精度で性能が劣る。

K-FAC (arXiv:1503.05671, arXiv:1602.01407) is a tractable implementation of Natural Gradient (NG) for Deep Learning (DL), whose bottleneck is computing the inverses of the so-called ``Kronecker-Factors'' (K-factors). RS-KFAC (arXiv:2206.15397) is a K-FAC improvement which provides a cheap way of estimating the K-factors inverses. In this paper, we exploit the exponential-average construction paradigm of the K-factors, and use online numerical linear algebra techniques to propose an even cheaper (but less accurate) way of estimating the K-factors inverses for Fully Connected layers. Numerical results show RS-KFAC's inversion error can be reduced with minimal CPU overhead by adding our proposed update to it. Based on the proposed procedure, a correction to it, and RS-KFAC, we propose three practical algorithms for optimizing generic Deep Neural Nets. Numerical results show that two of these outperform RS-KFAC for any target test accuracy on CIFAR10 classification with a slightly modified version of VGG16_bn. Our proposed algorithms achieve 91$\%$ test accuracy faster than SENG (the state of art implementation of empirical NG for DL; arXiv:2006.05924) but underperform it for higher test-accuracy.
翻訳日:2022-10-18 22:09:16 公開日:2022-10-16
# 仮想フィットオンのためのリアルでアニマタブルな人間再構成

Realistic, Animatable Human Reconstructions for Virtual Fit-On ( http://arxiv.org/abs/2210.08535v1 )

ライセンス: Link先を確認
Gayal Kuruppu, Bumuthu Dilshan, Shehan Samarasinghe, Nipuna Madhushan, Ranga Rodrigo(参考訳) 我々は,1枚のRGB画像を用いて再構築した3次元人体モデルに,異なる衣服を適合させることができるエンドツーエンド仮想試着パイプラインを提案する。 私たちの主なアイデアは、3d仮想環境において、アニメーション可能な3d人間モデルを構築し、異なる服を試着することです。 3次元モデルのフレーム体積再構成による既存のフレームは、資源需要が高く、衣服の切替えを許さない。 さらに、既存の仮想フィットオンシステムは、主に2次元であるか、再構成にユーザの機能を使わないために、リアリズムを欠いている。 これらの欠点は、人体または衣服モデルが2dであるか、服装モデルにユーザーの顔の特徴がないためである。 3次元人体モデルのパラメトリック表現を操作し、実際の画像から再構成した頭部モデルを縫い合わせることにより、これらの問題を解決する。 パラメータ化された人体モデルに3次元衣料モデルを適合させることも入力画像の身体形状に調整可能である。 再建の成果は,近年の成果と比べ,より視覚的に改善されている。

We present an end-to-end virtual try-on pipeline, that can fit different clothes on a personalized 3-D human model, reconstructed using a single RGB image. Our main idea is to construct an animatable 3-D human model and try-on different clothes in a 3-D virtual environment. The existing frame by frame volumetric reconstruction of 3-D human models are highly resource-demanding and do not allow clothes switching. Moreover, existing virtual fit-on systems also lack realism due to predominantly being 2-D or not using user's features in the reconstruction. These shortcomings are due to either the human body or clothing model being 2-D or not having the user's facial features in the dressed model. We solve these problems by manipulating a parametric representation of the 3-D human body model and stitching a head model reconstructed from the actual image. Fitting the 3-D clothing models on the parameterized human model is also adjustable to the body shape of the input image. Our reconstruction results, in comparison with recent existing work, are more visually-pleasing.
翻訳日:2022-10-18 22:01:15 公開日:2022-10-16
# 大規模出力空間におけるインデックスと探索のためのエンドツーエンド学習

End-to-End Learning to Index and Search in Large Output Spaces ( http://arxiv.org/abs/2210.08410v1 )

ライセンス: Link先を確認
Nilesh Gupta, Patrick H. Chen, Hsiang-Fu Yu, Cho-Jui Hsieh, Inderjit S Dhillon(参考訳) Extreme Multi-label Classification (XMC) は、非常に多くの潜在的な出力選択から正確な予測を必要とする現実世界の多くの問題を解決するための一般的なフレームワークである。 大きなラベル空間を扱う一般的なアプローチは、ラベルを浅い木ベースのインデックスに配置し、mlモデルを学び、ビームサーチによって効率的にこのインデックスを検索する。 既存のメソッドは、事前に定義された機能に基づいてラベル空間をいくつかの排他的クラスタにクラスタ化してツリーインデックスを初期化し、トレーニング手順を通してそれを固定する。 この手法によりラベル空間上の準最適インデックス構造が得られ、インデックスの初期化時に行われた選択の質に探索性能が制限される。 本稿では,木に基づくインデックスを,最終課題の目的とともにエンドツーエンドに学習する専門的な重み付きグラフベースインデックスに緩和する新しい手法であるERIASを提案する。 より具体的には、ERIASは既存のツリーベースインデックスの離散クラスタ間割り当てを、MLモデルの他の部分と共同で学習されるソフトラージ可能なパラメータとしてモデル化する。 ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。 特に、ERIASは精度@1で最大2.5%、リコール@100で最大4%改善できる。 ELIASのPyTorch実装と他のリソースはhttps://github.com/nilesh2797/ELIASで入手できる。

Extreme multi-label classification (XMC) is a popular framework for solving many real-world problems that require accurate prediction from a very large number of potential output choices. A popular approach for dealing with the large label space is to arrange the labels into a shallow tree-based index and then learn an ML model to efficiently search this index via beam search. Existing methods initialize the tree index by clustering the label space into a few mutually exclusive clusters based on pre-defined features and keep it fixed throughout the training procedure. This approach results in a sub-optimal indexing structure over the label space and limits the search performance to the quality of choices made during the initialization of the index. In this paper, we propose a novel method ELIAS which relaxes the tree-based index to a specialized weighted graph-based index which is learned end-to-end with the final task objective. More specifically, ELIAS models the discrete cluster-to-label assignments in the existing tree-based index as soft learnable parameters that are learned jointly with the rest of the ML model. ELIAS achieves state-of-the-art performance on several large-scale extreme classification benchmarks with millions of labels. In particular, ELIAS can be up to 2.5% better at precision@1 and up to 4% better at recall@100 than existing XMC methods. A PyTorch implementation of ELIAS along with other resources is available at https://github.com/nilesh2797/ELIAS.
翻訳日:2022-10-18 21:42:46 公開日:2022-10-16
# 意味ゴールを用いた解釈可能な階層型エージェントフレームワークを目指して

Towards an Interpretable Hierarchical Agent Framework using Semantic Goals ( http://arxiv.org/abs/2210.08412v1 )

ライセンス: Link先を確認
Bharat Prakash, Nicholas Waytowich, Tim Oates, Tinoosh Mohsenin(参考訳) 長い地平線を時間的に拡張したタスクを強化学習で解決する学習は、ここ数年にわたり課題となっている。 我々は、複雑なタスクの階層構造と、そのようなタスクを可能な限り専門家の監督に活用することが重要であると信じている。 本研究は,計画と意味目標指向強化学習を組み合わせた解釈可能な階層型エージェントフレームワークを提案する。 空間的および触覚的な述語へのアクセスを前提とし、単純で強力な意味的目標空間を構築する。 これらの意味的目標表現はより解釈可能であり、専門家の監督と介入を容易にする。 また、複雑な、密集した報酬関数を書く必要もなくなり、人的エンジニアリングの労力が削減される。 我々は,ロボットブロック操作の枠組みを評価し,疎度と高密度の報酬関数を含む他の手法よりも優れた性能を示す。 また、次のステップを提案し、このフレームワークがいかに人間との対話やコラボレーションを容易にしてくれるかを議論する。

Learning to solve long horizon temporally extended tasks with reinforcement learning has been a challenge for several years now. We believe that it is important to leverage both the hierarchical structure of complex tasks and to use expert supervision whenever possible to solve such tasks. This work introduces an interpretable hierarchical agent framework by combining planning and semantic goal directed reinforcement learning. We assume access to certain spatial and haptic predicates and construct a simple and powerful semantic goal space. These semantic goal representations are more interpretable, making expert supervision and intervention easier. They also eliminate the need to write complex, dense reward functions thereby reducing human engineering effort. We evaluate our framework on a robotic block manipulation task and show that it performs better than other methods, including both sparse and dense reward functions. We also suggest some next steps and discuss how this framework makes interaction and collaboration with humans easier.
翻訳日:2022-10-18 21:42:23 公開日:2022-10-16
# 一様二重化条件下におけるDNNの訓練精度の安定性

Stability of Accuracy for the Training of DNNs Via the Uniform Doubling Condition ( http://arxiv.org/abs/2210.08415v1 )

ライセンス: Link先を確認
Yitzchak Shmalo(参考訳) 深層ニューラルネットワークのトレーニングにおける精度の安定性について検討する。 ここで、DNNのトレーニングは、クロスエントロピー損失関数の最小化によってプリフォームされ、性能指標は精度(正しく分類されたオブジェクトの割合)である。 トレーニングは損失の減少につながるが、トレーニング中に必ずしも正確さが増すとは限らない。 berlyand、jabin、safstenによる最近の結果は、絶対値アクティベーション関数を持つdnnのトレーニング中の精度の安定性を保証するトレーニングデータに2倍の条件を導入する。 トレーニングデータは$\r^n$で、この2倍条件は$\r^n$のスラブを用いて定式化され、スラブの選択に依存する。 この論文の目標は二つある。 まず,2倍条件を均等にすることで,トレーニングデータのみの安定性の十分条件となるスラブの選択に依存しない。 第2に、絶対値活性化関数の元の安定性を、リーキー ReLU のような有限個の臨界点を持つより広い一方向線型活性化関数のクラスに拡張する。

We study the stability of accuracy for the training of deep neural networks. Here the training of a DNN is preformed via the minimization of a cross-entropy loss function and the performance metric is the accuracy (the proportion of objects classified correctly). While training amounts to the decrease of loss, the accuracy does not necessarily increase during the training. A recent result by Berlyand, Jabin and Safsten introduces a doubling condition on the training data which ensures the stability of accuracy during training for DNNs with the absolute value activation function. For training data in $\R^n$, this doubling condition is formulated using slabs in $\R^n$ and it depends on the choice of the slabs. The goal of this paper is twofold. First to make the doubling condition uniform, that is independent on the choice of slabs leading to sufficient conditions for stability in terms of training data only. Second to extend the original stability results for the absolute value activation function to a broader class of piecewise linear activation function with finitely many critical points such as the popular Leaky ReLU.
翻訳日:2022-10-18 21:42:10 公開日:2022-10-16
# 励起状態促進読み出しのための機械学習による識別

Machine Learning based Discrimination for Excited State Promoted Readout ( http://arxiv.org/abs/2210.08574v1 )

ライセンス: Link先を確認
Utkarsh Azad and Helena Zhang(参考訳) 超伝導量子ビットの読み出し忠実性の制限因子は、共振器が最終目標状態に到達するのに必要な時間前に量子ビットを基底状態まで緩和することである。 この効果を低減し、超伝導ハードウェアにおける読み出しコントラストを改善するため、励起状態促進(ESP)読み出し技術が提案された。 本研究では,5量子ビットのibmqデバイスからの読み出しデータを用いて,フィードフォワードニューラルネットワークなどのディープニューラルネットワークと,k-ネアレスト近傍,決定木,ガウス的ナイーブベイなどの分類アルゴリズムを用いて,シングルキュービットとマルチキュービットの識別を行う。 これらの手法は, クビット状態割当精度, クロストークの堅牢性, トレーニング時間に基づいて, 標準的な線形・二次判別分析アルゴリズムと比較した。

A limiting factor for readout fidelity for superconducting qubits is the relaxation of the qubit to the ground state before the time needed for the resonator to reach its final target state. A technique known as excited state promoted (ESP) readout was proposed to reduce this effect and further improve the readout contrast on superconducting hardware. In this work, we use readout data from five-qubit IBMQ devices to measure the effectiveness of using deep neural networks, like feedforward neural networks, and various classification algorithms, like k-nearest neighbors, decision trees, and Gaussian naive Bayes, for single-qubit and multi-qubit discrimination. These methods were compared to standardly used linear and quadratic discriminant analysis algorithms based on their qubit-state-assignment fidelity performance, robustness to readout crosstalk, and training time.
翻訳日:2022-10-18 21:41:52 公開日:2022-10-16
# ライトウェイトな無防備な検知器「Nowhere to Hide」

Nowhere to Hide: A Lightweight Unsupervised Detector against Adversarial Examples ( http://arxiv.org/abs/2210.08579v1 )

ライセンス: Link先を確認
Hui Liu, Bo Zhao, Kehuan Zhang, Peng Liu(参考訳) 深層ニューラルネットワーク(dnn)は多くの知覚的タスクで印象的なパフォーマンスを示しているが、良性画像に微妙だが悪意ある摂動を加えることで生じる敵対的な例に弱い。 敵検出は、相手のDNNに入る前に相手のサンプルを識別する重要な手法である。 敵の例を検出する以前の研究は、特定の攻撃を標的にするか、高価な計算を必要としていた。 軽量な非監視検出器の設計はいまだに難しい問題だ。 本稿では,DNNモデルを教師なしで低い計算量で検出することで,DNNモデルを保護できるオートエンコーダベースの逆例検出器(AEAE)を提案する。 AEAEは浅いオートエンコーダのみを含むが、2つの役割を担っている。 まず、よく訓練されたオートエンコーダは良性の例の多様体を学んだ。 このオートエンコーダは、大きな摂動を伴う対向画像に対して大きな再構成誤差を発生させることができるので、再構成誤差に基づいて、かなり摂動対向例を検出することができる。 第二に、オートエンコーダは小さなノイズを除去し、小さな摂動を伴う敵例に対するDNNの予測を変更することができる。 これは予測距離に基づいてわずかに摂動した敵の例を検出するのに役立つ。 これら2つの事例をカバーするために,良性画像からの再構成誤差と予測距離を用いて,2重特徴集合を構築し,分離フォレストアルゴリズムを用いて逆検出器を訓練する。 AEAEは、最先端の攻撃に対して教師なしで安価であることを実証的に示す。 この2つのケースにおける検出を通じて、逆の例を隠す場所はない。

Although deep neural networks (DNNs) have shown impressive performance on many perceptual tasks, they are vulnerable to adversarial examples that are generated by adding slight but maliciously crafted perturbations to benign images. Adversarial detection is an important technique for identifying adversarial examples before they are entered into target DNNs. Previous studies to detect adversarial examples either targeted specific attacks or required expensive computation. How design a lightweight unsupervised detector is still a challenging problem. In this paper, we propose an AutoEncoder-based Adversarial Examples (AEAE) detector, that can guard DNN models by detecting adversarial examples with low computation in an unsupervised manner. The AEAE includes only a shallow autoencoder but plays two roles. First, a well-trained autoencoder has learned the manifold of benign examples. This autoencoder can produce a large reconstruction error for adversarial images with large perturbations, so we can detect significantly perturbed adversarial examples based on the reconstruction error. Second, the autoencoder can filter out the small noise and change the DNN's prediction on adversarial examples with small perturbations. It helps to detect slightly perturbed adversarial examples based on the prediction distance. To cover these two cases, we utilize the reconstruction error and prediction distance from benign images to construct a two-tuple feature set and train an adversarial detector using the isolation forest algorithm. We show empirically that the AEAE is unsupervised and inexpensive against the most state-of-the-art attacks. Through the detection in these two cases, there is nowhere to hide adversarial examples.
翻訳日:2022-10-18 21:41:34 公開日:2022-10-16
# ハードウェア実装型ニューラルネットワークの動的フォールトトレランスに向けて:ディープラーニングアプローチ

Towards Dynamic Fault Tolerance for Hardware-Implemented Artificial Neural Networks: A Deep Learning Approach ( http://arxiv.org/abs/2210.08601v1 )

ライセンス: Link先を確認
Daniel Gregorek, Nils H\"ulsmeier, Steffen Paul(参考訳) 電子回路の機能は、動的ハードウェア障害の発生によって深刻な障害を負う可能性がある。 特に、デジタル超低消費電力システムでは、安全マージンの低下は動的故障の確率を増大させる。 本研究では,ニューラルネットワークの動的障害影響を軽減するための深層学習手法について検討する。 理論的なユースケースとして、ディープオートエンコーダによる画像圧縮を考える。 評価は, 試験中の故障発生率に対する試験損失の線形依存性を示す。 トレーニング期間が十分に大きい場合は、追加のハードウェアを必要とせず、ベースラインネットワークと比較してテスト損失が2%以上減少することを示す。 テスト中に障害がない場合、このアプローチは参照ネットワークと比較してテスト損失を減少させる。

The functionality of electronic circuits can be seriously impaired by the occurrence of dynamic hardware faults. Particularly, for digital ultra low-power systems, a reduced safety margin can increase the probability of dynamic failures. This work investigates a deep learning approach to mitigate dynamic fault impact for artificial neural networks. As a theoretic use case, image compression by means of a deep autoencoder is considered. The evaluation shows a linear dependency of the test loss to the fault injection rate during testing. If the number of training epochs is sufficiently large, our approach shows more than 2% reduction of the test loss compared to a baseline network without the need of additional hardware. At the absence of faults during testing, our approach also decreases the test loss compared to reference networks.
翻訳日:2022-10-18 21:41:10 公開日:2022-10-16
# 微分プライベート機械学習の監査のための汎用フレームワーク

A General Framework for Auditing Differentially Private Machine Learning ( http://arxiv.org/abs/2210.08643v1 )

ライセンス: Link先を確認
Fred Lu, Joseph Munoz, Maya Fuchs, Tyler LeBlond, Elliott Zaresky-Williams, Edward Raff, Francis Ferraro, Brian Testa(参考訳) 本稿では,個別の機械学習者が実際に与えるプライバシー保証を統計的に監査する枠組みを提案する。 これまでの研究は、毒殺攻撃や会員推定によってプライバシーの損失を評価するための段階を採っているが、それらは特定のモデルに合わせたり、統計力の低さを示したりしてきた。 本研究は,プライバシ検索と検証手法の改善と,影響に基づく中毒攻撃のツールキットを組み合わせた,異なるプライベート機械学習実装のプライバシを実証的に評価する手法を開発した。 我々は,ロジスティック回帰,ナイーブベイ,ランダムフォレストなど,さまざまなモデルにおいて,従来のアプローチよりも監査能力が大幅に向上したことを示す。 本手法は,実装エラーや誤用によるプライバシ侵害の検出に使用できる。 違反がない場合には、与えられたデータセット、アルゴリズム、プライバシ仕様から漏洩する可能性のある情報の量を理解するのに役立つ。

We present a framework to statistically audit the privacy guarantee conferred by a differentially private machine learner in practice. While previous works have taken steps toward evaluating privacy loss through poisoning attacks or membership inference, they have been tailored to specific models or have demonstrated low statistical power. Our work develops a general methodology to empirically evaluate the privacy of differentially private machine learning implementations, combining improved privacy search and verification methods with a toolkit of influence-based poisoning attacks. We demonstrate significantly improved auditing power over previous approaches on a variety of models including logistic regression, Naive Bayes, and random forest. Our method can be used to detect privacy violations due to implementation errors or misuse. When violations are not present, it can aid in understanding the amount of information that can be leaked from a given dataset, algorithm, and privacy specification.
翻訳日:2022-10-18 21:41:02 公開日:2022-10-16
# クラウドオブジェクトストア上のニアデータ計算によるトランスファー学習の高速化

Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores ( http://arxiv.org/abs/2210.08650v1 )

ライセンス: Link先を確認
Arsany Guirguis, Diana Petrescu, Florin Dinu, Do Le Quoc, Javier Picorel, Rachid Guerraoui(参考訳) ストレージのデアグリゲーションは、コストとスケーラビリティのメリットにより、今日のクラウドに不可欠である。 残念ながら、この設計はストレージと計算層の間のネットワークボトルネックに対処する必要がある。 広くデプロイされている緩和戦略は、ストレージの横に計算リソースを提供し、アプリケーションの一部をプッシュダウンし、計算層に転送されるデータ量を減らすことである。 全体として、分散ストレージのユーザは2つの主な制約を考慮する必要がある:ネットワークはボトルネックのままであり、ストレージ側の計算リソースは限られている。 本稿では,移動学習(TL)が分散クラウドの自然な適合性を示す。 MLの商業的成功の次のドライバーとして有名なTLは、広く人気があり、幅広い用途がある。 tlの微調整フェーズ(機能抽出とトレーニングの組み合わせ)のユニークな構造を活用して、上記の制約を柔軟に対処し、ユーザとオペレータ中心のメトリクスの両方を改善する方法を示す。 ユーザ認識のパフォーマンス向上の鍵は、TLディープニューラルネットワーク(DNN)を慎重に分割することで、ストレージの横で部分的にあるいは完全に実行されるようにすることで、ネットワークボトルネックを軽減することである。 このような分割は、トレーニングバッチサイズから特徴抽出のバッチサイズを分離し、効率的なストレージ側バッチサイズ適応を容易にし、メモリ外エラーを回避しながらストレージ層の並行性を向上させる。 これらの知見に導かれたHAPIは、ユーザに対して透過的でありながら、計算層とストレージ層にまたがるTLの処理システムである。 ResNet、VGG、TransformerなどのDNNによる評価では、アプリケーションランタイムの最大11倍の改善と、計算層での計算よりもストレージから計算層へ転送されるデータの最大8.3倍の削減が見られた。

Storage disaggregation is fundamental to today's cloud due to cost and scalability benefits. Unfortunately, this design must cope with an inherent network bottleneck between the storage and the compute tiers. The widely deployed mitigation strategy is to provide computational resources next to storage to push down a part of an application and thus reduce the amount of data transferred to the compute tier. Overall, users of disaggregated storage need to consider two main constraints: the network may remain a bottleneck, and the storage-side computational resources are limited. This paper identifies transfer learning (TL) as a natural fit for the disaggregated cloud. TL, famously described as the next driver of ML commercial success, is widely popular and has broad-range applications. We show how to leverage the unique structure of TL's fine-tuning phase (i.e., a combination of feature extraction and training) to flexibly address the aforementioned constraints and improve both user and operator-centric metrics. The key to improving user-perceived performance is to mitigate the network bottleneck by carefully splitting the TL deep neural network (DNN) such that feature extraction is, partially or entirely, executed next to storage. Crucially, such splitting enables decoupling the batch size of feature extraction from the training batch size, facilitating efficient storage-side batch size adaptation to increase concurrency in the storage tier while avoiding out-of-memory errors. Guided by these insights, we present HAPI, a processing system for TL that spans the compute and storage tiers while remaining transparent to the user. Our evaluation with several DNNs, such as ResNet, VGG, and Transformer, shows up to 11x improvement in application runtime and up to 8.3x reduction in the data transferred from the storage to the compute tier compared to running the computation in the compute tier.
翻訳日:2022-10-18 21:40:46 公開日:2022-10-16
# 次元自由リッジ回帰

Dimension free ridge regression ( http://arxiv.org/abs/2210.08571v1 )

ライセンス: Link先を確認
Chen Cheng, Andrea Montanari(参考訳) ランダム行列理論は高次元統計学や理論的機械学習において広く有用な道具となっている。 しかし、ランダム行列理論は、列の数がデータ行列の行数に比例して増加する比例漸近に主に焦点を当てている。 これは、列がサンプルの共変量や行に対応する統計において、必ずしも最も自然な設定ではない。 x_i$ は特徴ベクトルであり、$y_i = \beta^\top x_i +\epsilon_i \in\mathbb{r}$ は応答である。 特徴ベクトルを高次元、あるいは無限次元とし、その場合、それは分離可能なヒルベルト空間に属し、$z_i := \Sigma^{-1/2}x_i$ のいずれかを i.d. のエントリを持つか、あるいはある凸濃度特性を満たすように仮定する。 この設定では、「等価」なシーケンスモデル(対角行列を持つ回帰モデル)のバイアスと分散の観点から、リッジ回帰のバイアスと分散を近似する非漸近境界を確立する。 近似は、いくつかの明示的な小さな$\Delta$に対して、$(1\pm \Delta)$で有界な乗法的因子である。 以前は、このような近似結果は比例法でのみ知られ、加法誤差のみしか知られていなかった:特に、0$ に収束したとき、過剰なリスクの挙動を特徴付けることは許されなかった。 我々の一般的な理論は、(より良い誤差率で)比例規則で以前の結果を回復する。 新しい応用として、周期的に変化するスペクトルを持つヒルベルト共変量に対するリッジ回帰の完全明示的かつ鋭い特徴付けを得る。 最後に、過パラメータ近似補間設定を分析し、鋭い'良性オーバーフィッティング'保証を得る。

Random matrix theory has become a widely useful tool in high-dimensional statistics and theoretical machine learning. However, random matrix theory is largely focused on the proportional asymptotics in which the number of columns grows proportionally to the number of rows of the data matrix. This is not always the most natural setting in statistics where columns correspond to covariates and rows to samples. With the objective to move beyond the proportional asymptotics, we revisit ridge regression ($\ell_2$-penalized least squares) on i.i.d. data $(x_i, y_i)$, $i\le n$, where $x_i$ is a feature vector and $y_i = \beta^\top x_i +\epsilon_i \in\mathbb{R}$ is a response. We allow the feature vector to be high-dimensional, or even infinite-dimensional, in which case it belongs to a separable Hilbert space, and assume either $z_i := \Sigma^{-1/2}x_i$ to have i.i.d. entries, or to satisfy a certain convex concentration property. Within this setting, we establish non-asymptotic bounds that approximate the bias and variance of ridge regression in terms of the bias and variance of an `equivalent' sequence model (a regression model with diagonal design matrix). The approximation is up to multiplicative factors bounded by $(1\pm \Delta)$ for some explicitly small $\Delta$. Previously, such an approximation result was known only in the proportional regime and only up to additive errors: in particular, it did not allow to characterize the behavior of the excess risk when this converges to $0$. Our general theory recovers earlier results in the proportional regime (with better error rates). As a new application, we obtain a completely explicit and sharp characterization of ridge regression for Hilbert covariates with regularly varying spectrum. Finally, we analyze the overparametrized near-interpolation setting and obtain sharp `benign overfitting' guarantees.
翻訳日:2022-10-18 21:24:33 公開日:2022-10-16
# ログコンケーブサンプリングのためのランジュバン法と定常分布の混合時間の解法

Resolving the Mixing Time of the Langevin Algorithm to its Stationary Distribution for Log-Concave Sampling ( http://arxiv.org/abs/2210.08448v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Kunal Talwar(参考訳) 高次元分布からのサンプリングは統計学、工学、科学の基本的な課題である。 特に標準的なアプローチはランゲヴィンアルゴリズム、すなわち離散化ランゲヴィン拡散のマルコフ連鎖である。 これはGradient Descentのサンプリングアナログです。 複数のコミュニティで何十年も研究されてきたにもかかわらず、このアルゴリズムの密混合境界は、有界領域上の対数凹分布の一見単純な設定においても未解決のままである。 本稿では,Langevinアルゴリズムの混合時間と,この設定(および他の設定)の定常分布を完全に特徴付ける。 この混合結果は、連続ランジュバン拡散の定常分布からサンプリングするために、離散バイアス上の任意の境界と結合することができる。 このようにして、Langevinアルゴリズムの混合と偏りの研究を混乱させる。 我々の重要な洞察は、差分プライバシー文学からサンプリング文献へのテクニックの導入である。 この手法はPrivacy Amplification by Iterationと呼ばれ、最適輸送平滑化によって幾何学的に認識されるR'enyiの発散の可能性を秘めている。 これは、最適混合境界の短く簡単な証明を与え、さらにいくつかの魅力的な性質を持つ。 まず,本手法は他のサンプリング分析で要求される不要な仮定をすべて取り除く。 第二に、ランジュバンアルゴリズムが射影、確率的ミニバッチ勾配、または強い凸ポテンシャル(混合時間が指数関数的に改善する)を使用する場合、それは変化しない。 第三に、我々のアプローチは、勾配降下の教科書の証明で凸性がどのように使われているかを思い出して、勾配ステップの契約性を通してのみ凸性を利用する。 このようにして、最適化とサンプリングアルゴリズムの分析をさらに統一する新しいアプローチを提案する。

Sampling from a high-dimensional distribution is a fundamental task in statistics, engineering, and the sciences. A particularly canonical approach is the Langevin Algorithm, i.e., the Markov chain for the discretized Langevin Diffusion. This is the sampling analog of Gradient Descent. Despite being studied for several decades in multiple communities, tight mixing bounds for this algorithm remain unresolved even in the seemingly simple setting of log-concave distributions over a bounded domain. This paper completely characterizes the mixing time of the Langevin Algorithm to its stationary distribution in this setting (and others). This mixing result can be combined with any bound on the discretization bias in order to sample from the stationary distribution of the continuous Langevin Diffusion. In this way, we disentangle the study of the mixing and bias of the Langevin Algorithm. Our key insight is to introduce a technique from the differential privacy literature to the sampling literature. This technique, called Privacy Amplification by Iteration, uses as a potential a variant of R\'enyi divergence that is made geometrically aware via Optimal Transport smoothing. This gives a short, simple proof of optimal mixing bounds and has several additional appealing properties. First, our approach removes all unnecessary assumptions required by other sampling analyses. Second, our approach unifies many settings: it extends unchanged if the Langevin Algorithm uses projections, stochastic mini-batch gradients, or strongly convex potentials (whereby our mixing time improves exponentially). Third, our approach exploits convexity only through the contractivity of a gradient step -- reminiscent of how convexity is used in textbook proofs of Gradient Descent. In this way, we offer a new approach towards further unifying the analyses of optimization and sampling algorithms.
翻訳日:2022-10-18 21:23:56 公開日:2022-10-16
# バーチャルリアリティーを用いたロボット緊急避難シナリオのシミュレーション

Using Virtual Reality to Simulate Human-Robot Emergency Evacuation Scenarios ( http://arxiv.org/abs/2210.08414v1 )

ライセンス: Link先を確認
Alan R. Wagner, Colin Holbrook, Daniel Holman, Brett Sheeran, Vidullan Surendran, Jared Armagost, Savanna Spazak, Yinxuan Yin(参考訳) 本稿では,ロボットが人を出口まで案内する緊急避難シナリオのシミュレーションに仮想現実を利用した最近の取り組みについて述べる。 我々の以前の研究は、緊急避難中にロボットが故障している場合でも、ロボットの指示に従うことを実証した。 しかし,実際の緊急避難実験は実施が困難で費用がかかるため,様々な要因を評価したいと考え,実際の被験者反応を促すためにシミュレーション環境に人々を没入させるシステムを開発する動機がある。 我々は、我々のアプローチの有効性を検証する実験の完了に取り組んでいる。

This paper describes our recent effort to use virtual reality to simulate threatening emergency evacuation scenarios in which a robot guides a person to an exit. Our prior work has demonstrated that people will follow a robot's guidance, even when the robot is faulty, during an emergency evacuation. Yet, because physical in-person emergency evacuation experiments are difficult and costly to conduct and because we would like to evaluate many different factors, we are motivated to develop a system that immerses people in the simulation environment to encourage genuine subject reactions. We are working to complete experiments verifying the validity of our approach.
翻訳日:2022-10-18 21:15:26 公開日:2022-10-16
# バイアスド・リミテッド:金融市場におけるサブリズム的人的投資家のモデリング

Biased or Limited: Modeling Sub-Rational Human Investors in Financial Markets ( http://arxiv.org/abs/2210.08569v1 )

ライセンス: Link先を確認
Penghang Liu, Kshama Dwarakanath, Svitlana S Vyetrenko(参考訳) マルチエージェント市場シミュレーションは、金融市場における様々な取引戦略の影響を調べる効果的なツールである。 模擬市場でのトレーディングエージェントの設計の1つの方法は、エージェントが累積報酬(利益の最大化、リスクの最小化、均衡性の向上など)を最適化するために訓練される強化学習である。 エージェントは報酬機能を最適化する合理的なポリシーを学習するが、実際には人間の投資家は最適としばしば異なる決定を下す。 本研究では、心理学的バイアスと計算的制限という2つの原因から生じる人間のサブリレータリティをモデル化する。 まず、投資家の利益とサブ合理性の程度との関係を検証し、そのサブ合理性に基づく人間の振る舞いを直感的に説明するための手作り市場シナリオを作成する。 実験により,我々のモデルは行動財務文献で見られるように,人間の非合理性を捉えることに成功した。 また,取引量,拡散,ボラティリティといった市場観測性に対する人間投資家の影響についても検討した。 私たちの仕事は行動ファイナンスの研究に効果があり、人間の取引行動の理解を深めると信じています。

Multi-agent market simulation is an effective tool to investigate the impact of various trading strategies in financial markets. One way of designing a trading agent in simulated markets is through reinforcement learning where the agent is trained to optimize its cumulative rewards (e.g., maximizing profits, minimizing risk, improving equitability). While the agent learns a rational policy that optimizes the reward function, in reality, human investors are sub-rational with their decisions often differing from the optimal. In this work, we model human sub-rationality as resulting from two possible causes: psychological bias and computational limitation. We first examine the relationship between investor profits and their degree of sub-rationality, and create hand-crafted market scenarios to intuitively explain the sub-rational human behaviors. Through experiments, we show that our models successfully capture human sub-rationality as observed in the behavioral finance literature. We also examine the impact of sub-rational human investors on market observables such as traded volumes, spread and volatility. We believe our work will benefit research in behavioral finance and provide a better understanding of human trading behavior.
翻訳日:2022-10-18 21:15:16 公開日:2022-10-16
# ロバスト・一般・低複雑性音響シーン分類システムと音響シーンコンテキスト提示のための効果的な可視化

Robust, General, and Low Complexity Acoustic Scene Classification Systems and An Effective Visualization for Presenting a Sound Scene Context ( http://arxiv.org/abs/2210.08610v1 )

ライセンス: Link先を確認
Lam Pham, Dusan Salovic, Anahid Jalali, Alexander Schindler, Khoa Tran, Canh Vu, Phu X. Nguyen(参考訳) 本稿では,音響シグネチャから音声録音のシーンを特定することを目的とした,音響シーン分類(ASC)の包括的解析を行う。 特に,まず最初に,ASCベースラインと呼ばれる,創発ベースおよび低フットプリントのASCモデルを提案する。 提案するascベースラインは、mobilenetv1, mobilenetv2, vgg16, vgg19, resnet50v2, resnet152v2, densenet121, densenet201, xceptionのベンチマークおよび高複雑さネットワークアーキテクチャと比較される。 次に、残差インセプションアーキテクチャと複数のカーネルを利用する新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。 新たな残差インセプション(nri)モデルを考えると,モデルの複雑さとモデルの精度性能とのトレードオフを更に評価する。 最後に,音響シーン記録における音響イベントがasc精度の向上に寄与するかどうかを評価し,音響シーン情報と音響イベント情報を組み合わせた音響シーンコンテキストの提示方法を示す。 クラウド・シーン、IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events (DCASE) 2018 Task 1A and 1B, 2019 Task 1A and 1B, 2020 Task 1A, 2021 Task 1A, 2022 Task 1など、さまざまなASCデータセットに関する広範な実験を行った。 実験結果は,様々なエッジデバイスやモバイル上での現実的な応用に適した,堅牢で汎用的で低複雑性なASCシステムを提案すること,音環境コンテキストを包括的に提示する効果的な可視化手法を提案すること,の2つの成果を浮き彫りにした。

In this paper, we present a comprehensive analysis of Acoustic Scene Classification (ASC), the task of identifying the scene of an audio recording from its acoustic signature. In particular, we firstly propose an inception-based and low footprint ASC model, referred to as the ASC baseline. The proposed ASC baseline is then compared with benchmark and high-complexity network architectures of MobileNetV1, MobileNetV2, VGG16, VGG19, ResNet50V2, ResNet152V2, DenseNet121, DenseNet201, and Xception. Next, we improve the ASC baseline by proposing a novel deep neural network architecture which leverages residual-inception architectures and multiple kernels. Given the novel residual-inception (NRI) model, we further evaluate the trade off between the model complexity and the model accuracy performance. Finally, we evaluate whether sound events occurring in a sound scene recording can help to improve ASC accuracy, then indicate how a sound scene context is well presented by combining both sound scene and sound event information. We conduct extensive experiments on various ASC datasets, including Crowded Scenes, IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events (DCASE) 2018 Task 1A and 1B, 2019 Task 1A and 1B, 2020 Task 1A, 2021 Task 1A, 2022 Task 1. The experimental results on several different ASC challenges highlight two main achievements; the first is to propose robust, general, and low complexity ASC systems which are suitable for real-life applications on a wide range of edge devices and mobiles; the second is to propose an effective visualization method for comprehensively presenting a sound scene context.
翻訳日:2022-10-18 21:14:55 公開日:2022-10-16
# 共有利用自律移動サービスのための予測フリート配置:最適化と学習に基づくアプローチ

Anticipatory Fleet Repositioning for Shared-use Autonomous Mobility Services: An Optimization and Learning-Based Approach ( http://arxiv.org/abs/2210.08659v1 )

ライセンス: Link先を確認
Monika Filipovska, Michael Hyland, Haimanti Bala(参考訳) モビリティ・オン・デマンド・サービスの開発、リッチ・トランスポート・データの供給源の増加、自動運転車(AV)の出現などにより、アクセシブルで需要に反応する個人モビリティを提供するために、共有用途のAVモビリティ・サービス(SAMS)が大きなチャンスとなる。 本稿では, 将来の需要に対応するために, アイドル車両をSAMS艦隊に配置する際の課題に着目する。 この再バランス問題はマルコフ決定プロセスとして定式化され、将来の需要を予測し、最適化に基づく割当て戦略に協力する再バランス政策を学ぶために、アドバンテージアクタ評論家(A2C)法を用いた強化学習アプローチが提案される。 提案された定式化と解法は、車両全体の集中的な再配置決定を可能にするが、問題のサイズが車両全体のサイズによって変化しないことを保証する。 エージェントベースのシミュレーションツールとニューヨーク市のタクシーデータを用いて、SAMSシステムにおける乗車需要をシミュレートし、A2C-AVR(A)の過去需要を観察し、将来の需要を予測するA2C-AVR(B)と、需要予測を受信するA2C-AVR(B)の2つのバージョンをテストした。 数値実験により、a2c-avrアプローチは乗客の平均待ち時間を、代替最適化に基づくリバランスアプローチと比較して大幅に削減することが示された。 実験では,A2C-AVR(A)と(B)の同等の性能を示し,過去の需要観測に基づいて将来の需要を予測できることを示した。 様々な要求と時間のシナリオ、および代替の割り当て戦略でテストすると、実験はトレーニング段階で認識できないケースへのモデル転送可能性を示す。

With the development of mobility-on-demand services, increasing sources of rich transportation data, and the advent of autonomous vehicles (AVs), there are significant opportunities for shared-use AV mobility services (SAMSs) to provide accessible and demand-responsive personal mobility. This paper focuses on the problem of anticipatory repositioning of idle vehicles in a SAMS fleet to enable better assignment decisions in serving future demand. The rebalancing problem is formulated as a Markov Decision Process and a reinforcement learning approach using an advantage actor critic (A2C) method is proposed to learn a rebalancing policy that anticipates future demand and cooperates with an optimization-based assignment strategy. The proposed formulation and solution approach allow for centralized repositioning decisions for the entire vehicle fleet but ensure that the problem size does not change with the size of the vehicle fleet. Using an agent-based simulation tool and New York City taxi data to simulate demand for rides in a SAMS system, two versions of the A2C AV repositioning approach are tested: A2C-AVR(A) observing past demand for rides and learning to anticipate future demand, and A2C-AVR(B) that receives demand forecasts. Numerical experiments demonstrate that the A2C-AVR approaches significantly reduce mean passenger wait times relative to an alternative optimization-based rebalancing approach, at the expense of slightly increased percentage of empty fleet miles travelled. The experiments show comparable performance between the A2C-AVR(A) and (B), indicating that the approach can anticipate future demand based on past demand observations. Testing with various demand and time-of-day scenarios, and an alternative assignment strategy, experiments demonstrate the models transferability to cases unseen at the training stage.
翻訳日:2022-10-18 21:14:20 公開日:2022-10-16
# TransVisDrone: 空中ビデオにおける視覚に基づくドローン間検出のための時空間変換器

TransVisDrone: Spatio-Temporal Transformer for Vision-based Drone-to-Drone Detection in Aerial Videos ( http://arxiv.org/abs/2210.08423v1 )

ライセンス: Link先を確認
Tushar Sangam, Ishan Rajendrakumar Dave, Waqas Sultani, Mubarak Shah(参考訳) 視覚フィードを使ったドローン対ドローン検出は、他のドローンや航空機との衝突を避ける、ドローン攻撃に取り組む、または他のドローンと飛行を調整するといった重要な用途がある。 しかし、既存の手法は計算コストがかかり、非エンドツーエンドの最適化に従い、複雑なマルチステージパイプラインを持つため、リアルタイムドローン飛行のためのエッジデバイスへのデプロイに適さない。 本研究では,計算効率を向上するエンドツーエンドソリューションを提供する,シンプルなyet効率のフレームワークであるTransVisDroneを提案する。 我々は, cspdarknet-53ネットワークを用いて物体関連空間特徴とビデオウィンモデルを学び, ドローン動作の時空間依存性を学習し, 課題シナリオにおけるドローン検出を改善する。 本手法は,3つの挑戦的実世界データセット(平均精度@0.5iou: nps 0.95, fldrones 0.75, aot 0.80。 優れたパフォーマンスとは別に、以前の作業よりも高いスループットを達成する。 また、エッジコンピューティングデバイスへのデプロイメント機能や、ドローン衝突(エンカウンタ)検出などのアプリケーションでの有用性も示す。 コード: \url{https://github.com/tusharsangam/TransVisDrone}

Drone-to-drone detection using visual feed has crucial applications like avoiding collision with other drones/airborne objects, tackling a drone attack or coordinating flight with other drones. However, the existing methods are computationally costly, follow a non-end-to-end optimization and have complex multi-stage pipeline, which make them less suitable to deploy on edge devices for real-time drone flight. In this work, we propose a simple-yet-effective framework TransVisDrone, which provides end-to-end solution with higher computational efficiency. We utilize CSPDarkNet-53 network to learn object-related spatial features and VideoSwin model to learn the spatio-temporal dependencies of drone motion which improves drone detection in challenging scenarios. Our method obtains state-of-the-art performance on three challenging real-world datasets (Average Precision@0.5IOU): NPS 0.95, FLDrones 0.75 and AOT 0.80. Apart from its superior performance, it achieves higher throughput than the prior work. We also demonstrate its deployment capability on edge-computing devices and usefulness in applications like drone-collision (encounter) detection. Code: \url{https://github.com/tusharsangam/TransVisDrone}.
翻訳日:2022-10-18 20:57:46 公開日:2022-10-16
# resattunet:注意活性化型残留unetを用いた海洋ゴミの検出

ResAttUNet: Detecting Marine Debris using an Attention activated Residual UNet ( http://arxiv.org/abs/2210.08506v1 )

ライセンス: Link先を確認
Azhan Mohammed(参考訳) 現在,深層学習技術を用いたリモートセンシングの分野では,かなりの研究が行われている。 海洋破片検出のためのベンチマーク結果を備えたオープンソースのデータセットであるMarine Debris Archive (MARIDA)の導入により、深層学習技術を用いて破片の検出とセグメンテーションを行う新たな経路が開かれた。 本稿では,真理田が導入した最新技術に匹敵する注意に基づくセグメンテーション手法を提案する。 そこで本稿では,空間認識エンコーダとデコーダを新たに構築し,画像に存在する不明瞭な基底的真理パッチの文脈情報と構造を維持する。 得られた結果は、リモートセンシング画像を用いた深層学習に関するさらなる研究の道を開くことが期待されている。 コードはhttps://github.com/sheikhazhanmohammed/sadma.gitで入手できる。

Currently, a significant amount of research has been done in field of Remote Sensing with the use of deep learning techniques. The introduction of Marine Debris Archive (MARIDA), an open-source dataset with benchmark results, for marine debris detection opened new pathways to use deep learning techniques for the task of debris detection and segmentation. This paper introduces a novel attention based segmentation technique that outperforms the existing state-of-the-art results introduced with MARIDA. The paper presents a novel spatial aware encoder and decoder architecture to maintain the contextual information and structure of sparse ground truth patches present in the images. The attained results are expected to pave the path for further research involving deep learning using remote sensing images. The code is available at https://github.com/sheikhazhanmohammed/SADMA.git
翻訳日:2022-10-18 20:57:27 公開日:2022-10-16
# マッチングフィルタによる画像用CNNの復調

Demystifying CNNs for Images by Matched Filters ( http://arxiv.org/abs/2210.08521v1 )

ライセンス: Link先を確認
Shengxi Li, Xinyi Zhao, Ljubisa Stankovic, Danilo Mandic(参考訳) 畳み込みニューラルネットワーク(CNN)の成功は、ビッグデータ時代のインテリジェントマシンのアプローチと使用方法に革命をもたらしています。 成功にもかかわらず、cnnは、理論的な支援や操作の物理的意味の欠如とともに、構築の方法である \textit{black-box} という性質から、一貫して精査されている。 これは、CNNの量的および質的な理解と、その健康のためのAIのようなより敏感な分野への応用の両方に禁じられている。 そこで我々は,これらの問題に対処し,マッチングフィルタリングの観点を用いてCNNの動作をデミスティフィケートした。 まず、CNNのコアである畳み込み操作は、入力データ中の特徴の存在を特定することを目的としたマッチングフィルタであることを示す。 これは、CNNにおける畳み込み活性化プールチェーンを、信号処理における一般的な操作であるマッチングフィルタリングの理論的傘の下で解釈する手段として機能する。 さらに,この関係を説明するための広範な例や実験を行い,cnnにおける学習がマッチングフィルタリングを行うことを示し,学習パラメータやレイヤーの物理的意味に光を当てる。 この資料は、cnnの理解、構築、分析に関する新たな洞察を提供し、cnnの新しい手法やアーキテクチャを開発するための道を開くことを期待しています。

The success of convolution neural networks (CNN) has been revolutionising the way we approach and use intelligent machines in the Big Data era. Despite success, CNNs have been consistently put under scrutiny owing to their \textit{black-box} nature, an \textit{ad hoc} manner of their construction, together with the lack of theoretical support and physical meanings of their operation. This has been prohibitive to both the quantitative and qualitative understanding of CNNs, and their application in more sensitive areas such as AI for health. We set out to address these issues, and in this way demystify the operation of CNNs, by employing the perspective of matched filtering. We first illuminate that the convolution operation, the very core of CNNs, represents a matched filter which aims to identify the presence of features in input data. This then serves as a vehicle to interpret the convolution-activation-pooling chain in CNNs under the theoretical umbrella of matched filtering, a common operation in signal processing. We further provide extensive examples and experiments to illustrate this connection, whereby the learning in CNNs is shown to also perform matched filtering, which further sheds light onto physical meaning of learnt parameters and layers. It is our hope that this material will provide new insights into the understanding, constructing and analysing of CNNs, as well as paving the way for developing new methods and architectures of CNNs.
翻訳日:2022-10-18 20:57:11 公開日:2022-10-16
# エネルギー効率の高いビデオインテリジェンスのためのデータモデルハードウエアトライデザイン

Data-Model-Hardware Tri-Design for Energy-Efficient Video Intelligence ( http://arxiv.org/abs/2210.08578v1 )

ライセンス: Link先を確認
Yimeng Zhang, Akshay Karkal Kamath, Qiucheng Wu, Zhiwen Fan, Wuyang Chen, Zhangyang Wang, Shiyu Chang, Sijia Liu, Cong Hao(参考訳) 本稿では,HDビデオストリーム上での高スループット,低コスト,高精度なマルチオブジェクト追跡(MOT)のためのデータモデル・ハードウエアトリデザインフレームワークを提案する。 まず,超軽量な映像インテリジェンスを実現するために,大規模な映像データの複雑さを軽減するために,時間的フレームフィルタリングと空間的サリエンシ強調手法を提案する。 第2に,ハードウェアフレンドリーなモデル圧縮手法を設計するために,構造認識重みのスパーシティを利用する。 第3に,データとモデルの複雑性低減を支援することで,高エネルギー効率でリアルタイム性能を実現することを目的とした,スパーシティ認識,スケーラブル,低消費電力アクセラレーション設計を提案する。 既存の作業とは違って、現実のmotモデル実装のためのソフトウェア/ハードウェアの協調最適化に向けてしっかりとした一歩を踏み出します。 現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。

In this paper, we propose a data-model-hardware tri-design framework for high-throughput, low-cost, and high-accuracy multi-object tracking (MOT) on High-Definition (HD) video stream. First, to enable ultra-light video intelligence, we propose temporal frame-filtering and spatial saliency-focusing approaches to reduce the complexity of massive video data. Second, we exploit structure-aware weight sparsity to design a hardware-friendly model compression method. Third, assisted with data and model complexity reduction, we propose a sparsity-aware, scalable, and low-power accelerator design, aiming to deliver real-time performance with high energy efficiency. Different from existing works, we make a solid step towards the synergized software/hardware co-optimization for realistic MOT model implementation. Compared to the state-of-the-art MOT baseline, our tri-design approach can achieve 12.5x latency reduction, 20.9x effective frame rate improvement, 5.83x lower power, and 9.78x better energy efficiency, without much accuracy drop.
翻訳日:2022-10-18 20:56:47 公開日:2022-10-16
# D2SLAM:動的環境に対する深さの影響に基づく意味的視覚SLAM

D2SLAM: Semantic visual SLAM based on the influence of Depth for Dynamic environments ( http://arxiv.org/abs/2210.08647v1 )

ライセンス: Link先を確認
Ayman Beghdadi and Malik Mallem and Lotfi Beji(参考訳) シーンのダイナミクスを考慮に入れれば、実際の自律ロボットアプリケーションのフレームワーク内で未知の環境を正確に認識するための最も効果的なソリューションである。 多くの研究は、深層学習の進歩を生かして、非厳密な場面の仮定に対処しようと試みてきた。 多くの新しい手法は幾何学的手法と意味論的手法を組み合わせて、一般化とシーン認識を欠いた動的要素を決定する。 本稿では,これらの手法の限界を克服する新しい手法として,幾何学的および意味的モジュールから推定の精度を向上させるシーン奥行き情報を用いた手法を提案する。 さらに、奥行き情報は、非マッチングキーポイントとセグメント化された領域キーポイントの両方の状態を推定するObjects Interactionモジュールを通して、動的オブジェクトの影響領域を決定するために使用されます。 その結果,動的環境における正確な位置推定とマッピングを実現するための提案手法の有効性が示された。

Taking into account the dynamics of the scene is the most effective solution to obtain an accurate perception of unknown environments within the framework of a real autonomous robotic application. Many works have attempted to address the non-rigid scene assumption by taking advantage of deep learning advancements. Most new methods combine geometric and semantic approaches to determine dynamic elements that lack generalization and scene awareness. We propose a novel approach that overcomes the limitations of these methods by using scene depth information that refines the accuracy of estimates from geometric and semantic modules. In addition, the depth information is used to determine an area of influence of dynamic objects through our Objects Interaction module that estimates the state of both non-matched keypoints and out of segmented region keypoints. The obtained results demonstrate the efficacy of the proposed method in providing accurate localization and mapping in dynamic environments.
翻訳日:2022-10-18 20:56:17 公開日:2022-10-16
# SLT 2022:自己監督型音声表現学習の一般化と効率化への挑戦

SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2210.08634v1 )

ライセンス: Link先を確認
Tzu-hsun Feng and Annie Dong and Ching-Feng Yeh and Shu-wen Yang and Tzu-Quan Lin and Jiatong Shi and Kai-Wei Chang and Zili Huang and Haibin Wu and Xuankai Chang and Shinji Watanabe and Abdelrahman Mohamed and Shang-Wen Li and Hung-yi Lee(参考訳) SLT 2022において、より優れたパフォーマンス、一般化、効率を実現するために、自己教師付き音声表現を学習することを目的としたSUPERBチャレンジを提示する。 この課題はsuperbベンチマークに基づいており、自己教師付き学習(ssl)表現の計算要件を計測し、その一般化可能性と様々なsuperbタスクにおけるパフォーマンスを評価するためのメトリクスを実装している。 SUPERBベンチマークは、音声認識や話者認識から音声生成や意味理解まで、一般的な音声処理タスクの包括的カバレッジを提供する。 SSLは音声コミュニティへの関心を高め、有望な成果を示したので、タスクパフォーマンスを超えて、より実用的な技術設計を動機付けることによって、SSLテクニックの影響をレベルアップするという課題を思い描いている。 本論文では,提案した14のモデルの結果を要約する。 また、これらの提出による主な発見とSSL研究の今後の方向性についても論じる。

We present the SUPERB challenge at SLT 2022, which aims at learning self-supervised speech representation for better performance, generalization, and efficiency. The challenge builds upon the SUPERB benchmark and implements metrics to measure the computation requirements of self-supervised learning (SSL) representation and to evaluate its generalizability and performance across the diverse SUPERB tasks. The SUPERB benchmark provides comprehensive coverage of popular speech processing tasks, from speech and speaker recognition to audio generation and semantic understanding. As SSL has gained interest in the speech community and showed promising outcomes, we envision the challenge to uplevel the impact of SSL techniques by motivating more practical designs of techniques beyond task performance. We summarize the results of 14 submitted models in this paper. We also discuss the main findings from those submissions and the future directions of SSL research.
翻訳日:2022-10-18 20:48:30 公開日:2022-10-16
# GNNとテンポラルエンコーディングを用いた動的環境における学習型モーションプランニング

Learning-based Motion Planning in Dynamic Environments Using GNNs and Temporal Encoding ( http://arxiv.org/abs/2210.08408v1 )

ライセンス: Link先を確認
Ruipeng Zhang, Chenning Yu, Jingkai Chen, Chuchu Fan, Sicun Gao(参考訳) 学習に基づく手法は、主に静的環境の設定において、運動計画の促進に有望な性能を示している。 マルチアーム組立タスクや人間とロボットの相互作用のような動的環境における計画のより困難な問題のために、モーションプランナーは、非常に大きな状態空間における動的障害の軌跡と時間空間相互作用の理由を考慮すべきである。 組込みとエッジ優先化ポリシの両方を学習するために,データアグリゲーションを用いた時間符号化と模倣学習を用いたGNNベースのアプローチを提案する。 実験により,提案手法は最先端の動的計画アルゴリズムよりもオンライン計画を大幅に高速化できることを示した。 学習されたモデルは、しばしばコストのかかる衝突チェック操作を1000倍以上削減し、ハードインスタンスでも高い成功率を達成しながら、計画の95%を加速することができる。

Learning-based methods have shown promising performance for accelerating motion planning, but mostly in the setting of static environments. For the more challenging problem of planning in dynamic environments, such as multi-arm assembly tasks and human-robot interaction, motion planners need to consider the trajectories of the dynamic obstacles and reason about temporal-spatial interactions in very large state spaces. We propose a GNN-based approach that uses temporal encoding and imitation learning with data aggregation for learning both the embeddings and the edge prioritization policies. Experiments show that the proposed methods can significantly accelerate online planning over state-of-the-art complete dynamic planning algorithms. The learned models can often reduce costly collision checking operations by more than 1000x, and thus accelerating planning by up to 95%, while achieving high success rates on hard instances as well.
翻訳日:2022-10-18 20:38:52 公開日:2022-10-16
# 海洋環境における自動車の深層学習に関する調査

Survey of Deep Learning for Autonomous Surface Vehicles in the Marine Environment ( http://arxiv.org/abs/2210.08487v1 )

ライセンス: Link先を確認
Yuanyuan Qiao, Jiaxin Yin, Wei Wang, F\'abio Duarte, Jie Yang, Carlo Ratti(参考訳) 今後数年のうちに、労働コストの削減、安全性の向上、省エネ、厳しい環境での難しい無人作業の実現、ヒューマンエラーの排除など、幅広い利用が可能な高度な自動運転技術が提供される予定だ。 他の自動運転車のソフトウェア開発と比較すると、海事ソフトウェア開発、特に老朽化と機能的なフリートは、非常に早期かつ新興の段階にあると説明されている。 これは、研究者やエンジニアが海上自律システムを開発するための非常に大きな課題と機会をもたらす。 センサと通信技術の最近の進歩は、海岸線監視、海洋観測、複数車両の協力、捜索・救助任務などの用途に、自動表面車両(ASV)を導入している。 高度な人工知能技術、特に自己学習表現による非線形マッピングを行うディープラーニング(DL)手法は、完全な自律性の概念を現実に一歩近づいた。 本稿では,ASV関連分野におけるDL手法の実装に関する既存の研究について述べる。 まず,本研究の範囲について,ASV開発と技術に関する調査を概観し,DLと海運事業の間の研究ギャップに注意を向けた。 次に,DLに基づくナビゲーション,誘導,制御(NGC)システム,協調作業について述べる。 最後に、この調査は現在の課題と今後の研究方向性を強調して完了する。

Within the next several years, there will be a high level of autonomous technology that will be available for widespread use, which will reduce labor costs, increase safety, save energy, enable difficult unmanned tasks in harsh environments, and eliminate human error. Compared to software development for other autonomous vehicles, maritime software development, especially on aging but still functional fleets, is described as being in a very early and emerging phase. This introduces very large challenges and opportunities for researchers and engineers to develop maritime autonomous systems. Recent progress in sensor and communication technology has introduced the use of autonomous surface vehicles (ASVs) in applications such as coastline surveillance, oceanographic observation, multi-vehicle cooperation, and search and rescue missions. Advanced artificial intelligence technology, especially deep learning (DL) methods that conduct nonlinear mapping with self-learning representations, has brought the concept of full autonomy one step closer to reality. This paper surveys the existing work regarding the implementation of DL methods in ASV-related fields. First, the scope of this work is described after reviewing surveys on ASV developments and technologies, which draws attention to the research gap between DL and maritime operations. Then, DL-based navigation, guidance, control (NGC) systems and cooperative operations, are presented. Finally, this survey is completed by highlighting the current challenges and future research directions.
翻訳日:2022-10-18 20:38:35 公開日:2022-10-16
# 運動計画のための案内空間の評価

Evaluating Guiding Spaces for Motion Planning ( http://arxiv.org/abs/2210.08640v1 )

ライセンス: Link先を確認
Amnon Attali, Stav Ashur, Isaac Burton Love, Courtney McBeth, James Motes, Diane Uwacu, Marco Morales, Nancy M. Amato(参考訳) ランダム化サンプリングに基づくアルゴリズムは、ロボットの動作計画において難易度のために広く使われており、幅広い問題事例において実験的に有効である。 ほとんどの変種はランダムにサンプルを採取せず、どのサンプルがより多くの情報を提供するか、あるいは最終的なソリューションに参加する可能性が高いかを決定するために様々なヒューリスティックを用いてサンプリングをバイアスする。 本研究では,同一の枠組みの下で,一見異なる先行作業の多くをカプセル化する,<emph{motion planning guiding space}>を定義した。 また,得られたバイアスドサンプリングの品質に焦点をあてたガイドドプランニングを評価するための情報理論的な手法を提案する。 最後に,複数の動作計画アルゴリズムを分析し,その定義の適用性とその評価について検証する。

Randomized sampling based algorithms are widely used in robot motion planning due to the problem's intractability, and are experimentally effective on a wide range of problem instances. Most variants do not sample uniformly at random, and instead bias their sampling using various heuristics for determining which samples will provide more information, or are more likely to participate in the final solution. In this work, we define the \emph{motion planning guiding space}, which encapsulates many seemingly distinct prior works under the same framework. In addition, we suggest an information theoretic method to evaluate guided planning which places the focus on the quality of the resulting biased sampling. Finally, we analyze several motion planning algorithms in order to demonstrate the applicability of our definition and its evaluation.
翻訳日:2022-10-18 20:38:15 公開日:2022-10-16
# CLEAR: グラフに関する生成的対実的説明

CLEAR: Generative Counterfactual Explanations on Graphs ( http://arxiv.org/abs/2210.08443v1 )

ライセンス: Link先を確認
Jing Ma, Ruocheng Guo, Saumitra Mishra, Aidong Zhang, Jundong Li(参考訳) カウンターファクトな説明は、機械学習モデルにおける説明可能性を促進するために、「入力インスタンスはどのように摂動して望ましいラベルを得るべきか?」という疑問に答える。 摂動前後におけるこの例の比較は、人間の解釈を高めることができる。 反事実的説明に関する既存の研究のほとんどは、表データや画像データに制限されている。 本研究では,グラフ上での対実的説明生成の問題について検討する。 グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。 1) グラフの離散的かつ無秩序な空間における最適化 2)未発見グラフの一般化,及び 3) 因果モデルに関する事前の知識がなく, 発生した反事実の因果性を維持すること。 これらの課題に対処するために,グラフレベルの予測モデルに対するグラフの反実的説明を生成する新しいフレームワーク CLEAR を提案する。 具体的には、clearはグラフ変分オートエンコーダベースのメカニズムを利用して最適化と一般化を促進し、補助変数を活用して因果モデルをよりよく識別することで因果性を促進する。 合成グラフと実世界のグラフの広範な実験は、異なる側面における最先端の手法よりもCLEARの優位性を検証する。

Counterfactual explanations promote explainability in machine learning models by answering the question "how should an input instance be perturbed to obtain a desired predicted label?". The comparison of this instance before and after perturbation can enhance human interpretation. Most existing studies on counterfactual explanations are limited in tabular data or image data. In this work, we study the problem of counterfactual explanation generation on graphs. A few studies have explored counterfactual explanations on graphs, but many challenges of this problem are still not well-addressed: 1) optimizing in the discrete and disorganized space of graphs; 2) generalizing on unseen graphs; and 3) maintaining the causality in the generated counterfactuals without prior knowledge of the causal model. To tackle these challenges, we propose a novel framework CLEAR which aims to generate counterfactual explanations on graphs for graph-level prediction models. Specifically, CLEAR leverages a graph variational autoencoder based mechanism to facilitate its optimization and generalization, and promotes causality by leveraging an auxiliary variable to better identify the underlying causal model. Extensive experiments on both synthetic and real-world graphs validate the superiority of CLEAR over the state-of-the-art methods in different aspects.
翻訳日:2022-10-18 20:21:49 公開日:2022-10-16
# 概念ドリフト検出のためのクラス分布モニタリング

Class Distribution Monitoring for Concept Drift Detection ( http://arxiv.org/abs/2210.08470v1 )

ライセンス: Link先を確認
Diego Stucchi, Luca Frittoli, Giacomo Boracchi(参考訳) 本稿では,データストリームのクラス条件分布をモニタする,効果的な概念ドリフト検出方式であるクラス分散モニタリング(CDM)を紹介する。 特に,quanttreeに基づくオンラインおよび非パラメトリックな変更検出アルゴリズムの複数のインスタンスを活用する。 cdmは、任意のクラスの分布変化を検知した後に、概念ドリフトを報告し、概念ドリフトによって影響を受けるクラスを特定する。 これは診断と適応のための貴重な情報である。 合成および実世界のデータストリーム実験により、ドリフトの概念がいくつかのクラスに影響を与える場合、CDMは、ドリフトが全てのクラスに影響を与える場合に同様の検出遅延を達成しつつ、全体のデータ分布を監視するアルゴリズムより優れることを示した。 さらにcdmは、特に変更があまり明らかでない場合には、分類エラーを監視するアプローチに匹敵する。 最後に,CDMが基礎となる変化検出器の特性を継承し,誤報前の期待時間,すなわち平均走行長(ARL$_0$)を効果的に制御できることを実証する。

We introduce Class Distribution Monitoring (CDM), an effective concept-drift detection scheme that monitors the class-conditional distributions of a datastream. In particular, our solution leverages multiple instances of an online and nonparametric change-detection algorithm based on QuantTree. CDM reports a concept drift after detecting a distribution change in any class, thus identifying which classes are affected by the concept drift. This can be precious information for diagnostics and adaptation. Our experiments on synthetic and real-world datastreams show that when the concept drift affects a few classes, CDM outperforms algorithms monitoring the overall data distribution, while achieving similar detection delays when the drift affects all the classes. Moreover, CDM outperforms comparable approaches that monitor the classification error, particularly when the change is not very apparent. Finally, we demonstrate that CDM inherits the properties of the underlying change detector, yielding an effective control over the expected time before a false alarm, or Average Run Length (ARL$_0$).
翻訳日:2022-10-18 20:21:31 公開日:2022-10-16
# cascading networkを用いたエントロピー正規化強化学習

Entropy Regularized Reinforcement Learning with Cascading Networks ( http://arxiv.org/abs/2210.08503v1 )

ライセンス: Link先を確認
Riccardo Della Vecchia, Alena Shilova, Philippe Preux, Riad Akrour(参考訳) 深層強化学習(deep rl)は高次元問題において驚くべき成果を上げているが、最も単純なタスクでもその学習プロセスは不安定である。 Deep RLは関数近似器としてニューラルネットワークを使用する。 これらのニューラルモデルは、主に(教師なしの)機械学習コミュニティの発展にインスパイアされている。 これらの学習フレームワークと比較して、RLの大きな問題の1つは、i.i.d.データの欠如である。 この困難に対処する1つの方法は、イテレーションごとにポリシーの変更率を制御することである。 本研究では、各ポリシー更新時にサイズが大きくなるニューラルモデルを持つことにより、固定されたニューラルアーキテクチャを使用するという(教師なしの)学習コミュニティの一般的な実践に挑戦する。 これにより、閉形式エントロピー規則化されたポリシー更新が可能となり、各イテレーションにおけるポリシーの変更率をよりよく制御し、RLの非I.d.な性質に対応するのに役立つ。 古典的RLベンチマークの初期実験は、他の深いRLベースラインと比較して、いくつかのRLタスクに顕著な収束を伴う有望な結果を示した。

Deep Reinforcement Learning (Deep RL) has had incredible achievements on high dimensional problems, yet its learning process remains unstable even on the simplest tasks. Deep RL uses neural networks as function approximators. These neural models are largely inspired by developments in the (un)supervised machine learning community. Compared to these learning frameworks, one of the major difficulties of RL is the absence of i.i.d. data. One way to cope with this difficulty is to control the rate of change of the policy at every iteration. In this work, we challenge the common practices of the (un)supervised learning community of using a fixed neural architecture, by having a neural model that grows in size at each policy update. This allows a closed form entropy regularized policy update, which leads to a better control of the rate of change of the policy at each iteration and help cope with the non i.i.d. nature of RL. Initial experiments on classical RL benchmarks show promising results with remarkable convergence on some RL tasks when compared to other deep RL baselines, while exhibiting limitations on others.
翻訳日:2022-10-18 20:21:14 公開日:2022-10-16
# 学習場面における確率モデルとディープラーニングモデルとの合成表データ生成の比較

Comparing Synthetic Tabular Data Generation Between a Probabilistic Model and a Deep Learning Model for Education Use Cases ( http://arxiv.org/abs/2210.08528v1 )

ライセンス: Link先を確認
Herkulaas MvE Combrink, Vukosi Marivate, Benjamin Rosman(参考訳) 合成データを生成する能力は、さまざまなドメインでさまざまなユースケースを持つ。 教育研究では、特定の概念やアイデアをテストするために合成データにアクセスする必要性が高まっている。 近年では、いくつかのディープラーニングアーキテクチャが合成データの生成に役立てられているが、結果は様々である。 教育の文脈では、大規模なデータセットを必要とする異なるモデルを実装することの高度化が非常に重要である。 本研究では,ベイジアンネットワークの確率モデルとディープラーニングモデル,特に分類タスクを用いた生成逆ネットワークの合成表データ生成の適用性を比較することを目的とする。 その結果,合成表データ生成は,確率的相互依存のため,ディープラーニングアーキテクチャ(全精度38%)よりも確率的モデル(全精度75%以上)を用いた教育文脈に適していることがわかった。 最後に、他のデータタイプについて、教育用ユースケースの合成データ生成への応用について検討し、評価することを推奨する。

The ability to generate synthetic data has a variety of use cases across different domains. In education research, there is a growing need to have access to synthetic data to test certain concepts and ideas. In recent years, several deep learning architectures were used to aid in the generation of synthetic data but with varying results. In the education context, the sophistication of implementing different models requiring large datasets is becoming very important. This study aims to compare the application of synthetic tabular data generation between a probabilistic model specifically a Bayesian Network, and a deep learning model, specifically a Generative Adversarial Network using a classification task. The results of this study indicate that synthetic tabular data generation is better suited for the education context using probabilistic models (overall accuracy of 75%) than deep learning architecture (overall accuracy of 38%) because of probabilistic interdependence. Lastly, we recommend that other data types, should be explored and evaluated for their application in generating synthetic data for education use cases.
翻訳日:2022-10-18 20:20:55 公開日:2022-10-16
# アウトカム不明瞭性のレンズによる損失最小化

Loss Minimization through the Lens of Outcome Indistinguishability ( http://arxiv.org/abs/2210.08649v1 )

ライセンス: Link先を確認
Parikshit Gopalan, Lunjia Hu, Michael P. Kim, Omer Reingold, Udi Wieder(参考訳) 本稿では,損失最小化と近年のOmnipredictionの概念を,アウトカム・インディペンシビリティ(Outcome Indistingusiability)のレンズを通して紹介する。 損失と仮説クラスの集合に対して、全予測は、クラス内の最良の(損失固有の)仮説と比較して、コレクションの損失毎に損失最小化の保証を同時に提供することを要求する。 我々は,損失結果の不一致と呼ぶ保証を満たす予測子を学習するための汎用テンプレートを提案する。 損失と仮説の階級の集合に基づく統計テストのセットでは、予測子は、結果に対する自然の真の確率から(テストによると)区別できないならばロス OI である。 設計上、損失 oi は直観的かつ直感的な方法で全述法を意味する。 損失 oi をさらに単純化し、損失クラスと仮説クラスから派生した関数のクラスに対して、キャリブレーション条件と多重精度に分解する。 このクラスを慎重に解析することにより、非凸損失を含む興味深い損失関数のクラスに対する全予測器の効率的な構成を与える。 この分解は、多重精度と多重校正の間にある校正多重精度と呼ばれる新しい多群フェアネスの概念の有用性を強調している。 一般化線形モデルから生じる重要な凸損失の集合に対して、校正多重精度は、完全多重校正を必要とせず、損失 OI を示唆することを示す。 そのような損失に対して、ロス OI の計算的概念と、関連するブレグマン発散におけるピタゴラスの定理として定式化された幾何学的概念との等価性を示す。 本研究では,多精度に匹敵する計算複雑性を持つ多精度校正アルゴリズムを提案する。 全体として、キャリブレーションされた多重精度は、全方位の風景における効率性と一般性の間の興味深いトレードオフ点を提供する。

We present a new perspective on loss minimization and the recent notion of Omniprediction through the lens of Outcome Indistingusihability. For a collection of losses and hypothesis class, omniprediction requires that a predictor provide a loss-minimization guarantee simultaneously for every loss in the collection compared to the best (loss-specific) hypothesis in the class. We present a generic template to learn predictors satisfying a guarantee we call Loss Outcome Indistinguishability. For a set of statistical tests--based on a collection of losses and hypothesis class--a predictor is Loss OI if it is indistinguishable (according to the tests) from Nature's true probabilities over outcomes. By design, Loss OI implies omniprediction in a direct and intuitive manner. We simplify Loss OI further, decomposing it into a calibration condition plus multiaccuracy for a class of functions derived from the loss and hypothesis classes. By careful analysis of this class, we give efficient constructions of omnipredictors for interesting classes of loss functions, including non-convex losses. This decomposition highlights the utility of a new multi-group fairness notion that we call calibrated multiaccuracy, which lies in between multiaccuracy and multicalibration. We show that calibrated multiaccuracy implies Loss OI for the important set of convex losses arising from Generalized Linear Models, without requiring full multicalibration. For such losses, we show an equivalence between our computational notion of Loss OI and a geometric notion of indistinguishability, formulated as Pythagorean theorems in the associated Bregman divergence. We give an efficient algorithm for calibrated multiaccuracy with computational complexity comparable to that of multiaccuracy. In all, calibrated multiaccuracy offers an interesting tradeoff point between efficiency and generality in the omniprediction landscape.
翻訳日:2022-10-18 20:20:37 公開日:2022-10-16
# 協調トピックモデリング

Coordinated Topic Modeling ( http://arxiv.org/abs/2210.08559v1 )

ライセンス: Link先を確認
Pritom Saha Akash and Jie Huang and Kevin Chen-Chuan Chang(参考訳) テキストコーパスを記述しながら人間の行動を模倣するコーディネートドトピックモデリングと呼ばれる新しい問題を提案する。 参照表現を持つ意味空間の軸のような、明確に定義されたトピックの集合を考える。 次に、xを使ってコーパスをモデル化し、容易に理解可能な表現を行う。 この新しいタスクは、既存の知識を再利用してコーパスをより解釈的に表現するのに役立つ。 我々は,各トピックのグローバルなセマンティクスを維持しつつ,対象コーパス固有の側面を効果的に捉え,参照表現を利用する埋め込み型協調トピックモデルECTMを設計する。 ECTMでは,課題を解決するための自己学習機構を備えたトピックレベルの監視と文書レベルの監視を導入する。 最後に、複数のドメインに対する広範な実験は、モデルが他のベースラインよりも優れていることを示す。

We propose a new problem called coordinated topic modeling that imitates human behavior while describing a text corpus. It considers a set of well-defined topics like the axes of a semantic space with a reference representation. It then uses the axes to model a corpus for easily understandable representation. This new task helps represent a corpus more interpretably by reusing existing knowledge and benefits the corpora comparison task. We design ECTM, an embedding-based coordinated topic model that effectively uses the reference representation to capture the target corpus-specific aspects while maintaining each topic's global semantics. In ECTM, we introduce the topic- and document-level supervision with a self-training mechanism to solve the problem. Finally, extensive experiments on multiple domains show the superiority of our model over other baselines.
翻訳日:2022-10-18 19:53:28 公開日:2022-10-16
# 知覚スコア:視覚認識モデルの生物学的可視性を評価する心理学的尺度

Perceptual-Score: A Psychophysical Measure for Assessing the Biological Plausibility of Visual Recognition Models ( http://arxiv.org/abs/2210.08632v1 )

ライセンス: Link先を確認
Brandon RichardWebster, Anthony DiFalco, Elisabetta Caldesi, Walter J. Scheirer(参考訳) 過去10年間、畳み込みニューラルネットワーク(CNN)は、物体認識を含む人工知能のほぼすべてのビジョンタスクにおいて、前任者を大きく置き換えてきた。 しかし、豊富な進歩にもかかわらず、彼らは生物学的なビジョンと比べて青ざめたままである。 このシャームは、人間の視覚システムを主に神経レベルで模倣しようとする生物学的にインスパイアされたモデルの開発を促し、標準のデータセットベンチマークを用いて評価されている。 しかし、これらのモデルが実際に視覚世界をどのように知覚するかを理解するためには、さらなる作業が必要である。 本稿では,視覚心理学に基礎を置き,様々なモデルにわたる知覚応答を確実に推定し,複雑さと生物学的インスピレーションの幅広い範囲を表現できる,新しい尺度Perceptual-Scoreを生成する最先端の手順を提案する。 生物学的なインスピレーションと複雑さの程度が異なる12のモデルで手続きを行い、約270万の知覚応答を提供した2,390人のamazon mechanical turk workersの集計結果と比較した。 各モデルの知覚スコアは、最先端の神経活動ベースのメトリクスであるBrain-Scoreと比較される。 本研究は、人間の知覚行動と高い相関を持つモデルが、対応する神経活動と高い相関を持つことを示している。

For the last decade, convolutional neural networks (CNNs) have vastly superseded their predecessors in nearly all vision tasks in artificial intelligence, including object recognition. However, in spite of abundant advancements, they continue to pale in comparison to biological vision. This chasm has prompted the development of biologically-inspired models that have attempted to mimic the human visual system, primarily at a neural-level, which are evaluated using standard dataset benchmarks. However, more work is needed to understand how these models actually perceive the visual world. This article proposes a state-of-the-art procedure that generates a new metric, Perceptual-Score, which is grounded in visual psychophysics, and is capable of reliably estimating perceptual responses across numerous models -- representing a large range in complexity and biological inspiration. We perform the procedure on twelve models that vary in degree of biological inspiration and complexity, and compare the results against the aggregated results of 2,390 Amazon Mechanical Turk workers who together provided ~2.7 million perceptual responses. Each model's Perceptual-Score is compared against the state-of-the-art neural activity-based metric, Brain-Score. Our study indicates that models with high correlation to human perceptual behavior also have high correlation with the corresponding neural activity.
翻訳日:2022-10-18 19:30:08 公開日:2022-10-16
# AttTrack: マルチオブジェクトトラッキングのためのオンラインの深い注意伝達

AttTrack: Online Deep Attention Transfer for Multi-object Tracking ( http://arxiv.org/abs/2210.08648v1 )

ライセンス: Link先を確認
Keivan Nalaie, Rong Zheng(参考訳) マルチオブジェクトトラッキング(MOT)は、監視や自動運転といったインテリジェントなビデオ分析アプリケーションにおいて重要なコンポーネントである。 ビジュアルオブジェクト追跡のためにディープラーニングモデルを実行するのに必要な時間とストレージの複雑さは、計算能力に制限のある組み込みデバイスへの採用を妨げる。 本稿では,複雑なネットワーク(教師)の高レベルな特徴から,学習時間と推論時間の両方で軽量なネットワーク(学生)に知識を伝達することにより,MOTの高速化を目指す。 提案されている AttTrack フレームワークには3つの重要なコンポーネントがある。 1)教師モデルと学生モデルから中間表現を整合させるクロスモデル特徴学習。 2)2つのモデルの実行を推論時にインターリーブすること,及び 3)教師モデルから更新された予測を事前知識として取り入れて学生モデルを支援する。 YOLOv5とDLA34の2つの異なる物体検出バックボーンを用いたMOT17とMOT15データセットを用いて、歩行者追跡タスクの実験を行い、AttTrackは追跡速度のわずかな劣化を犠牲にしつつ、学生モデル追跡性能を著しく向上させることができることを示した。

Multi-object tracking (MOT) is a vital component of intelligent video analytics applications such as surveillance and autonomous driving. The time and storage complexity required to execute deep learning models for visual object tracking hinder their adoption on embedded devices with limited computing power. In this paper, we aim to accelerate MOT by transferring the knowledge from high-level features of a complex network (teacher) to a lightweight network (student) at both training and inference times. The proposed AttTrack framework has three key components: 1) cross-model feature learning to align intermediate representations from the teacher and student models, 2) interleaving the execution of the two models at inference time, and 3) incorporating the updated predictions from the teacher model as prior knowledge to assist the student model. Experiments on pedestrian tracking tasks are conducted on the MOT17 and MOT15 datasets using two different object detection backbones YOLOv5 and DLA34 show that AttTrack can significantly improve student model tracking performance while sacrificing only minor degradation of tracking speed.
翻訳日:2022-10-18 19:29:44 公開日:2022-10-16
# メタ最適化フレームを用いた効率的なクロスモーダルビデオ検索

Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames ( http://arxiv.org/abs/2210.08452v1 )

ライセンス: Link先を確認
Ning Han, Xun Yang, Ee-Peng Lim, Hao Chen, Qianru Sun(参考訳) クロスモーダルビデオ検索は,テキストを問合せとして与えられた意味的関連動画を検索することを目的としており,マルチメディアにおける基本的な課題の1つである。 トップパフォーマンスの手法のほとんどは、主にVisual Transformer (ViT) を利用してビデオの特徴[1, 2, 3]を抽出する。 一般的な単純な解決策は、ビデオから(ビデオ全体を使用する代わりに)少量のフレーム(例えば4または8)をViTへの入力として一様にサンプリングすることである。 フレームの数はViTの性能に大きく影響し、例えば8フレームの使用は4フレームを使用するよりも性能が良く、計算資源がより多く必要であり、トレードオフをもたらす。 このトレードオフから解放するために、モデルレベル(ベースレベル)とフレームレベル(メタレベル)の両方の最適化からなるバイレベル最適化プログラム(BOP)に基づく自動ビデオ圧縮手法を提案する。 モデルレベルは、フレームレベルの最適化によって学習される「圧縮フレーム」を入力とするクロスモーダルビデオ検索モデルを学ぶ。 フレームレベルの最適化は、ビデオ全体上で計算されたビデオ検索モデルのメタロスを用いた勾配降下によるものである。 我々はこのBOP手法と「圧縮フレーム」をメタ最適化フレーム(MOF)と呼ぶ。 MOFを取り入れることで、ビデオ検索モデルは、実際の実装において少数の入力フレームのみを取り込みながら、(トレーニングのために)ビデオ全体の情報を利用することができる。 MOFの収束はメタ勾配降下アルゴリズムによって保証される。 評価のために,MSR-VTT,MSVD,DiDeMoの3つの大規模ベンチマークでクロスモーダルビデオ検索実験を行った。 この結果から,MOFは複数のベースライン法を高速化する汎用的かつ効率的な手法であり,新しい最先端性能を実現することができることがわかった。

Cross-modal video retrieval aims to retrieve the semantically relevant videos given a text as a query, and is one of the fundamental tasks in Multimedia. Most of top-performing methods primarily leverage Visual Transformer (ViT) to extract video features [1, 2, 3], suffering from high computational complexity of ViT especially for encoding long videos. A common and simple solution is to uniformly sample a small number (say, 4 or 8) of frames from the video (instead of using the whole video) as input to ViT. The number of frames has a strong influence on the performance of ViT, e.g., using 8 frames performs better than using 4 frames yet needs more computational resources, resulting in a trade-off. To get free from this trade-off, this paper introduces an automatic video compression method based on a bilevel optimization program (BOP) consisting of both model-level (i.e., base-level) and frame-level (i.e., meta-level) optimizations. The model-level learns a cross-modal video retrieval model whose input is the "compressed frames" learned by frame-level optimization. In turn, the frame-level optimization is through gradient descent using the meta loss of video retrieval model computed on the whole video. We call this BOP method as well as the "compressed frames" as Meta-Optimized Frames (MOF). By incorporating MOF, the video retrieval model is able to utilize the information of whole videos (for training) while taking only a small number of input frames in actual implementation. The convergence of MOF is guaranteed by meta gradient descent algorithms. For evaluation, we conduct extensive experiments of cross-modal video retrieval on three large-scale benchmarks: MSR-VTT, MSVD, and DiDeMo. Our results show that MOF is a generic and efficient method to boost multiple baseline methods, and can achieve a new state-of-the-art performance.
翻訳日:2022-10-18 19:21:44 公開日:2022-10-16
# 自己教師付き視覚トランスフォーマーのための自己正規化逆観の学習

Learning Self-Regularized Adversarial Views for Self-Supervised Vision Transformers ( http://arxiv.org/abs/2210.08458v1 )

ライセンス: Link先を確認
Tao Tang, Changlin Li, Guangrun Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan Liang(参考訳) 視覚変換器の教師付きデータ効率トレーニングプロトコルには,自動データ拡張(AutoAugmentation)戦略が不可欠であり,教師付き学習における最先端の成果につながっている。 その成功にもかかわらず、自己監督型視覚トランスフォーマーの開発と応用は、高い探索コスト、監督の欠如、不適切な探索空間などいくつかの障壁によって妨げられている。 本研究では,自己調整型対向型自動拡張方式であるAutoViewを提案し,上記の障壁に対処して自己監督型視覚変換器の視界を学習する。 まず、1つの前向きステップで同時にビューとネットワークパラメータを学習することでAutoViewの検索コストをほぼゼロにし、異なる拡張ビュー間の相互情報の最小化と最大化を行う。 そこで,ラベル管理の欠如による情報崩壊を回避するため,情報伝達を保証する自己正規化損失項を提案する。 さらに,教師付き学習のための汎用的な検索空間を変更することにより,自己教師付き学習のための拡張ポリシー検索空間を提案する。 ImageNetでは、我々のAutoViewはRandAugベースライン(+10.2% k-NN精度)よりも大幅に改善され、常にソータが調整したビューポリシーをクリアマージン(最大+1.3% k-NN精度)で上回っている。 大規模な実験により、AutoViewプレトレーニングは下流タスク(ADE20Kセマンティックセグメンテーションでは+1.2% mAcc、オックスフォード画像検索ベンチマークでは+2.8% mAP)にも効果があり、モデル堅牢性(ImageNet-Aでは+2.3% Top-1 Acc、ImageNet-Oでは+1.0% AUPR)が向上している。 コードとモデルはhttps://github.com/trent-tangtao/autoviewで入手できる。

Automatic data augmentation (AutoAugment) strategies are indispensable in supervised data-efficient training protocols of vision transformers, and have led to state-of-the-art results in supervised learning. Despite the success, its development and application on self-supervised vision transformers have been hindered by several barriers, including the high search cost, the lack of supervision, and the unsuitable search space. In this work, we propose AutoView, a self-regularized adversarial AutoAugment method, to learn views for self-supervised vision transformers, by addressing the above barriers. First, we reduce the search cost of AutoView to nearly zero by learning views and network parameters simultaneously in a single forward-backward step, minimizing and maximizing the mutual information among different augmented views, respectively. Then, to avoid information collapse caused by the lack of label supervision, we propose a self-regularized loss term to guarantee the information propagation. Additionally, we present a curated augmentation policy search space for self-supervised learning, by modifying the generally used search space designed for supervised learning. On ImageNet, our AutoView achieves remarkable improvement over RandAug baseline (+10.2% k-NN accuracy), and consistently outperforms sota manually tuned view policy by a clear margin (up to +1.3% k-NN accuracy). Extensive experiments show that AutoView pretraining also benefits downstream tasks (+1.2% mAcc on ADE20K Semantic Segmentation and +2.8% mAP on revisited Oxford Image Retrieval benchmark) and improves model robustness (+2.3% Top-1 Acc on ImageNet-A and +1.0% AUPR on ImageNet-O). Code and models will be available at https://github.com/Trent-tangtao/AutoView.
翻訳日:2022-10-18 19:20:54 公開日:2022-10-16
# 対象意図しない敵攻撃

Object-Attentional Untargeted Adversarial Attack ( http://arxiv.org/abs/2210.08472v1 )

ライセンス: Link先を確認
Chao Zhou, Yuan-Gen Wang, Guopu Zhu(参考訳) ディープニューラルネットワークは、敵の攻撃による深刻な脅威に直面している。 既存のブラックボックスのほとんどは、グローバル摂動またはローカルパッチを発生させることで、愚かなターゲットモデルを攻撃する。 しかし、グローバル摂動とローカルパッチの両方が、逆向きの例では不快なビジュアルアーティファクトを引き起こす。 画像のいくつかの滑らかな領域と比較すると、オブジェクト領域は一般的によりエッジとより複雑なテクスチャを持つ。 したがって、それに対する小さな摂動はより受け入れがたい。 一方、対象領域は間違いなく、分類タスクに対する画像の決定的な部分である。 この2つの事実に動機づけられ,非標的攻撃に対する対向攻撃法を提案する。 具体的には、まず、オブジェクト検出領域をYOLOv4からHVPNetからサルエントオブジェクト検出(SOD)領域と交差させてオブジェクト領域を生成する。 さらに,不完全なSODによる反応を回避するために,活性化戦略を設計する。 次に,SimBA(Simple Black-box Adversarial Attack)を利用して,検出対象領域に対してのみ敵攻撃を行う。 提案手法を検証するため,本論文では,画像Net-1KからCOCOが定義したオブジェクトを含む画像をすべて抽出し,独自のデータセットを作成する。 ImageNet-1K と COCO-Reduced-ImageNet の実験結果から,SimBA などの最先端手法と比較して,クエリ予算を最大 24.16 % 削減しながら, 高い知覚的品質の対人例が得られることがわかった。

Deep neural networks are facing severe threats from adversarial attacks. Most existing black-box attacks fool target model by generating either global perturbations or local patches. However, both global perturbations and local patches easily cause annoying visual artifacts in adversarial example. Compared with some smooth regions of an image, the object region generally has more edges and a more complex texture. Thus small perturbations on it will be more imperceptible. On the other hand, the object region is undoubtfully the decisive part of an image to classification tasks. Motivated by these two facts, we propose an object-attentional adversarial attack method for untargeted attack. Specifically, we first generate an object region by intersecting the object detection region from YOLOv4 with the salient object detection (SOD) region from HVPNet. Furthermore, we design an activation strategy to avoid the reaction caused by the incomplete SOD. Then, we perform an adversarial attack only on the detected object region by leveraging Simple Black-box Adversarial Attack (SimBA). To verify the proposed method, we create a unique dataset by extracting all the images containing the object defined by COCO from ImageNet-1K, named COCO-Reduced-ImageNet in this paper. Experimental results on ImageNet-1K and COCO-Reduced-ImageNet show that under various system settings, our method yields the adversarial example with better perceptual quality meanwhile saving the query budget up to 24.16\% compared to the state-of-the-art approaches including SimBA.
翻訳日:2022-10-18 19:20:18 公開日:2022-10-16
# google universal images埋め込みにおける第1位ソリューション

1st Place Solution in Google Universal Images Embedding ( http://arxiv.org/abs/2210.08473v1 )

ライセンス: Link先を確認
Shihao Shao and Qinghua Cui(参考訳) 本稿では,Google Universal Images Embedding Competition on Kaggleの1位となるソリューションを提案する。 私たちのソリューションのハイライトは 1) 訓練及び微調整を行うための新規な方法 2) 埋め込みを行うモデルのプールにおけるより良いアンサンブルのアイデア 3) 高分解能の微調整と重複パッチとの潜在的なトレードオフ 4) ダイナミックマージンのために働く可能性のある因子。 当社のソリューションはプライベートリーダボードで0.728に達し、Google Universal Images Embedding Competitionで1位を獲得しました。

This paper presents the 1st place solution for the Google Universal Images Embedding Competition on Kaggle. The highlighted part of our solution is based on 1) A novel way to conduct training and fine-tuning; 2) The idea of a better ensemble in the pool of models that make embedding; 3) The potential trade-off between fine-tuning on high-resolution and overlapping patches; 4) The potential factors to work for the dynamic margin. Our solution reaches 0.728 in the private leader board, which achieve 1st place in Google Universal Images Embedding Competition.
翻訳日:2022-10-18 19:19:52 公開日:2022-10-16
# STAR:ストロークおよびラジカルレベル分解によるゼロショット漢字認識

STAR: Zero-Shot Chinese Character Recognition with Stroke- and Radical-Level Decompositions ( http://arxiv.org/abs/2210.08490v1 )

ライセンス: Link先を確認
Jinshan Zeng, Ruiying Xu, Yu Wu, Hongwei Li, Jiaxing Lu(参考訳) 近年,ゼロショット漢字認識が注目されている。 この問題に対する既存の方法は、主に低レベルのストロークに基づく分解または中レベルのラジカルベースの分解に基づいている。 脳卒中と急進レベルの分解が異なるレベルの情報を提供できることを考慮し、それらを組み合わせて効果的なゼロショット漢字認識法を提案する。 提案手法は,訓練段階と推論段階から構成される。 訓練段階では、ストロークとラジカルのエンコーディングを推定するために、2つの類似のエンコーダ・デコーダモデルを採用し、真のエンコーディングと共に関連するストロークとトレーニングの急進的損失を形式化する。 類似性損失を導入し、ストロークとラジカルエンコーダを正則化し、同じ文字の特徴を高い相関で得る。 推論段階では、それぞれ決定論的および紛らわしいケースに取り組むために、ストロークスクリーニングモジュール(SSM)と特徴マッチングモジュール(FMM)の2つのキーモジュールを導入する。 特に、FMMにおいて、最終推論のための文字の候補集合を拡大する効果的なストローク補正方式を導入する。 提案手法の有効性を実証するために,手書き,印刷,ストリートビューのシナリオをカバーする3つのベンチマークデータセットに関する多数の実験を行った。 解析の結果,提案手法は文字設定と急進的なゼロショット設定の両方において最先端の手法より優れており,従来の文字設定では競合性能が維持されていることがわかった。

Zero-shot Chinese character recognition has attracted rising attention in recent years. Existing methods for this problem are mainly based on either certain low-level stroke-based decomposition or medium-level radical-based decomposition. Considering that the stroke- and radical-level decompositions can provide different levels of information, we propose an effective zero-shot Chinese character recognition method by combining them. The proposed method consists of a training stage and an inference stage. In the training stage, we adopt two similar encoder-decoder models to yield the estimates of stroke and radical encodings, which together with the true encodings are then used to formalize the associated stroke and radical losses for training. A similarity loss is introduced to regularize stroke and radical encoders to yield features of the same characters with high correlation. In the inference stage, two key modules, i.e., the stroke screening module (SSM) and feature matching module (FMM) are introduced to tackle the deterministic and confusing cases respectively. In particular, we introduce an effective stroke rectification scheme in FMM to enlarge the candidate set of characters for final inference. Numerous experiments over three benchmark datasets covering the handwritten, printed artistic and street view scenarios are conducted to demonstrate the effectiveness of the proposed method. Numerical results show that the proposed method outperforms the state-of-the-art methods in both character and radical zero-shot settings, and maintains competitive performance in the traditional seen character setting.
翻訳日:2022-10-18 19:19:45 公開日:2022-10-16
# OST:ポイントクラウドにおける3次元単一物体追跡のための効率的なワンストリームネットワーク

OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2210.08518v1 )

ライセンス: Link先を確認
Xiantong Zhao, Yinan Han, Shengjing Tian, Jian Liu, Xiuping Liu(参考訳) 近年のシームズネットワークベースのトラッカーは、LiDAR点群における単一物体追跡の知覚的精度を著しく向上しているが、関係モデリングにおける重相関操作を推進し、複数の物体追跡と比較して、任意性の本質的な利点を見落としている。 本研究では,従来のシャムネットワークで発生した相関処理を回避し,計算量を大幅に削減するトランスフォーマエンコーディングの強みを持つ,急進的な1ストリームネットワークを提案する。 特に,提案手法は主にテンプレート対応トランスフォーマーモジュール (TTM) と,空間情報と意味情報を融合可能なマルチスケール特徴集約モジュール (MFA) から構成される。 TTMは、指定されたテンプレートと検索領域を縫合し、アテンション機構を利用して情報フローを確立し、独立な \textit{extraction-and-correlation} の以前のパターンを破る。 結果として、このモジュールは、ターゲットの任意かつ連続的に変化する性質に適したテンプレートアウェア機能を直接生成することができ、モデルが見えないカテゴリを扱うことができる。 さらに,MFAは,浅層から深層までの情報を集約する逆方向の特徴伝搬を特徴とする空間的・意味的情報を相互に補完する手法を提案する。 kittiとnusceneに関する広範囲な実験により,本手法はクラス特異的なトラッキングだけでなく,計算量が少なく,効率も向上した。

Although recent Siamese network-based trackers have achieved impressive perceptual accuracy for single object tracking in LiDAR point clouds, they advance with some heavy correlation operations on relation modeling and overlook the inherent merit of arbitrariness compared to multiple object tracking. In this work, we propose a radically novel one-stream network with the strength of the Transformer encoding, which avoids the correlation operations occurring in previous Siamese network, thus considerably reducing the computational effort. In particular, the proposed method mainly consists of a Template-aware Transformer Module (TTM) and a Multi-scale Feature Aggregation (MFA) module capable of fusing spatial and semantic information. The TTM stitches the specified template and the search region together and leverages an attention mechanism to establish the information flow, breaking the previous pattern of independent \textit{extraction-and-correlation}. As a result, this module makes it possible to directly generate template-aware features that are suitable for the arbitrary and continuously changing nature of the target, enabling the model to deal with unseen categories. In addition, the MFA is proposed to make spatial and semantic information complementary to each other, which is characterized by reverse directional feature propagation that aggregates information from shallow to deep layers. Extensive experiments on KITTI and nuScenes demonstrate that our method has achieved considerable performance not only for class-specific tracking but also for class-agnostic tracking with less computation and higher efficiency.
翻訳日:2022-10-18 19:19:14 公開日:2022-10-16
# PCR : 半監督セグメンテーションのための悲観的一貫性規則化

PCR: Pessimistic Consistency Regularization for Semi-Supervised Segmentation ( http://arxiv.org/abs/2210.08519v1 )

ライセンス: Link先を確認
Pengchong Qiao, Zhidan Wei, Yu Wang, Chang Liu, Zhennan Wang, Guoli Song, Jie Chen(参考訳) 現在、最先端の半教師付き学習(ssl)のセグメンテーション手法は、予測された擬似ラベルが正しいと仮定した楽観的なトレーニング手法である、モデルのトレーニングに擬似ラベルを用いる。 しかし、上記の仮定が成り立たない場合、それらのモデルは誤って最適化される。 本稿では,擬似ラベルが必ずしも正しいとは限らない悲観的ケースを考察した,悲観的一貫性規則化(PCR)を提案する。 PCRにより,各画素にK提案を含む候補ラベルセットを適応的に提供することにより,悲観論において基底真理(GT)を学習することができる。 具体的には、複数の候補ラベルから可能なGTを学習するようにモデルを訓練する悲観的整合性損失を提案する。 さらに,各画素に対してどの擬似ラベルが提供されるかを適応的に決定する候補ラベル提案手法を開発した。 私たちのメソッドは実装が容易で、フレームワークを変更することなく既存のベースラインに適用できます。 様々なベンチマークに関する理論的解析と実験は、最先端の代替案に対する我々のアプローチの優位性を示している。

Currently, state-of-the-art semi-supervised learning (SSL) segmentation methods employ pseudo labels to train their models, which is an optimistic training manner that supposes the predicted pseudo labels are correct. However, their models will be optimized incorrectly when the above assumption does not hold. In this paper, we propose a Pessimistic Consistency Regularization (PCR) which considers a pessimistic case that pseudo labels are not always correct. PCR makes it possible for our model to learn the ground truth (GT) in pessimism by adaptively providing a candidate label set containing K proposals for each unlabeled pixel. Specifically, we propose a pessimistic consistency loss which trains our model to learn the possible GT from multiple candidate labels. In addition, we develop a candidate label proposal method to adaptively decide which pseudo labels are provided for each pixel. Our method is easy to implement and could be applied to existing baselines without changing their frameworks. Theoretical analysis and experiments on various benchmarks demonstrate the superiority of our approach to state-of-the-art alternatives.
翻訳日:2022-10-18 19:18:48 公開日:2022-10-16
# コントラスト学習による効果的な画像操作検出に向けて

Towards Effective Image Manipulation Detection with Proposal Contrastive Learning ( http://arxiv.org/abs/2210.08529v1 )

ライセンス: Link先を確認
Yuyuan Zeng, Bowen Zhao, Shanzhao Qiu, Tao Dai, Shu-Tao Xia(参考訳) ディープモデルは、改ざん画像の分類と改ざん領域のローカライズを目的として、画像操作検出に広く使われ、成功している。 既存の手法のほとんどは改ざん画像から \textit{global features} を抽出することに集中しているが、改ざん画像内の改ざんされた領域と真正な領域の間の \textit{relationships of local features} は無視している。 そこで,このような空間的関係を生かすために,画像操作検出のためのコントラスト学習(pcl)を提案する。 我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。 さらに識別力を向上させるために,提案に基づく正・負のサンプルペアを惹きつけることによって,プロキシ提案の対比学習タスクを通じて局所特徴の関係を活用した。 さらに,PCLを非ラベルデータに適用することで,手作業によるラベリングコストを低減し,より一般化可能な機能を促進することができることを示す。 いくつかの標準データセットの大規模な実験は、PCLが一貫した改善を得るための一般的なモジュールであることを示す。

Deep models have been widely and successfully used in image manipulation detection, which aims to classify tampered images and localize tampered regions. Most existing methods mainly focus on extracting \textit{global features} from tampered images, while neglecting the \textit{relationships of local features} between tampered and authentic regions within a single tampered image. To exploit such spatial relationships, we propose Proposal Contrastive Learning (PCL) for effective image manipulation detection. Our PCL consists of a two-stream architecture by extracting two types of global features from RGB and noise views respectively. To further improve the discriminative power, we exploit the relationships of local features through a proxy proposal contrastive learning task by attracting/repelling proposal-based positive/negative sample pairs. Moreover, we show that our PCL can be easily adapted to unlabeled data in practice, which can reduce manual labeling costs and promote more generalizable features. Extensive experiments among several standard datasets demonstrate that our PCL can be a general module to obtain consistent improvement.
翻訳日:2022-10-18 19:18:31 公開日:2022-10-16
# 3次元運動再構成のための新しい時空間損失関数と運動評価のための拡張時間指標

A New Spatio-Temporal Loss Function for 3D Motion Reconstruction and Extended Temporal Metrics for Motion Evaluation ( http://arxiv.org/abs/2210.08562v1 )

ライセンス: Link先を確認
Mansour Tchenegnon and Sylvie Gibet and Thibaut Le Naour(参考訳) グラフとして運動の時空間ラプラシアン表現に基づいて、ラプラシアン損失と呼ばれる新しい損失関数を提案する。 この損失関数は、ビデオからの3次元ポーズ推定による動作再構成のトレーニングモデルに使用されることを意図している。 これは、基底真理のグラフ表現から得られるジョイントの微分座標と、推定されたジョイントの座標を比較している。 推定の時間的一貫性を向上すべく,完全畳み込み型時間ネットワークを設計・構築する。 この汎用モデルを用いて,提案する損失関数がヒューマン3.6mのベンチマークに与える影響について検討した。 また,速度や加速度といった様々な動き記述子を用いて,時間的一貫性を徹底的に評価し,その結果を最先端のソリューションと比較した。

We propose a new loss function that we call Laplacian loss, based on spatio-temporal Laplacian representation of the motion as a graph. This loss function is intended to be used in training models for motion reconstruction through 3D human pose estimation from videos. It compares the differential coordinates of the joints obtained from the graph representation of the ground truth against the one of the estimation. We design a fully convolutional temporal network for motion reconstruction to achieve better temporal consistency of estimation. We use this generic model to study the impact of our proposed loss function on the benchmarks provided by Human3.6M. We also make use of various motion descriptors such as velocity, acceleration to make a thorough evaluation of the temporal consistency while comparing the results to some of the state-of-the-art solutions.
翻訳日:2022-10-18 19:18:08 公開日:2022-10-16
# DiffGAR:画像と画像の拡散モデルを用いた生成物からのモデルに依存しない復元

DiffGAR: Model-Agnostic Restoration from Generative Artifacts Using Image-to-Image Diffusion Models ( http://arxiv.org/abs/2210.08573v1 )

ライセンス: Link先を確認
Yueqin Yin, Lianghua Huang, Yu Liu, Kaiqi Huang(参考訳) 最近の生成モデルは、フォトリアリスティック画像生成における印象的な結果を示している。 しかし、成果物は必然的に生成結果に現れ、ユーザエクスペリエンスが低下し、ダウンストリームタスクのパフォーマンスが低下する。 この研究は、多様な生成物から画像を忠実に復元できる多様な生成モデルのためのプラグインポストプロセッシングモジュールの開発を目的としている。 1) 従来の劣化パターンとは異なり、生成的アーティファクトは非線形であり、変換関数は非常に複雑である。 2) アーティファクトとイメージのペアは簡単には利用できない。 (3) モデル固有のアンチアーティファクトメソッドとは異なり、モデルに依存しないフレームワークはジェネレータをブラックボックスマシンとみなし、アーキテクチャの詳細にアクセスできない。 本研究は,実画像を用いて,一般的な生成器(gan,自己回帰モデル,拡散モデル)の生成的アーティファクトをシミュレートする機構群をまず設計する。 第2に,画像から画像への拡散モデルとして,モデル非依存なアンチアーティファクトフレームワークを実装した。 最後に,ブラインドと非ブリンド画像の復元を可能にする拡散モデルのコンディショニングスキームを設計する。 復元精度と画質のトレードオフを可能にするため、ガイダンスパラメータも導入された。 広範な実験により,提案するデータセットや実世界のアーティファクト画像に対する従来のアプローチを有意に上回っていることが示された。

Recent generative models show impressive results in photo-realistic image generation. However, artifacts often inevitably appear in the generated results, leading to downgraded user experience and reduced performance in downstream tasks. This work aims to develop a plugin post-processing module for diverse generative models, which can faithfully restore images from diverse generative artifacts. This is challenging because: (1) Unlike traditional degradation patterns, generative artifacts are non-linear and the transformation function is highly complex. (2) There are no readily available artifact-image pairs. (3) Different from model-specific anti-artifact methods, a model-agnostic framework views the generator as a black-box machine and has no access to the architecture details. In this work, we first design a group of mechanisms to simulate generative artifacts of popular generators (i.e., GANs, autoregressive models, and diffusion models), given real images. Second, we implement the model-agnostic anti-artifact framework as an image-to-image diffusion model, due to its advantage in generation quality and capacity. Finally, we design a conditioning scheme for the diffusion model to enable both blind and non-blind image restoration. A guidance parameter is also introduced to allow for a trade-off between restoration accuracy and image quality. Extensive experiments show that our method significantly outperforms previous approaches on the proposed datasets and real-world artifact images.
翻訳日:2022-10-18 19:17:56 公開日:2022-10-16
# マルチエージェント知覚のための領域ギャップのブリッジ

Bridging the Domain Gap for Multi-Agent Perception ( http://arxiv.org/abs/2210.08451v1 )

ライセンス: Link先を確認
Runsheng Xu, Jinlong Li, Xiaoyu Dong, Hongkai Yu, Jiaqi Ma(参考訳) 既存のマルチエージェント知覚アルゴリズムでは、エージェント間の生センシングデータから抽出した深層神経特徴の共有が一般的であり、精度と通信帯域幅の制限とのトレードオフを実現している。 しかし、これらの手法は、全てのエージェントが同一のニューラルネットワークを持っていると仮定する。 伝達される特徴は、モデルが異なる場合に大きな領域ギャップを生じさせ、マルチエージェント知覚の劇的なパフォーマンス低下を引き起こす。 本稿では,既存のシステムの多くに対して,機密性を維持しながらプラグインモジュールとして使用可能なマルチエージェント知覚のための,このようなドメインギャップを橋渡しする軽量フレームワークを提案する。 我々のフレームワークは、複数の次元の機能を整列する学習可能な機能リサイザと、ドメイン適応のための疎いクロスドメイントランスフォーマーから構成されている。 公開マルチエージェント知覚データセット v2xset に関する広範な実験により,本手法は異なるドメインの機能のギャップを効果的に橋渡しし,ポイントクラウドベースの3dオブジェクト検出において,他のベースラインメソッドを8%以上上回ることができることを示した。

Existing multi-agent perception algorithms usually select to share deep neural features extracted from raw sensing data between agents, achieving a trade-off between accuracy and communication bandwidth limit. However, these methods assume all agents have identical neural networks, which might not be practical in the real world. The transmitted features can have a large domain gap when the models differ, leading to a dramatic performance drop in multi-agent perception. In this paper, we propose the first lightweight framework to bridge such domain gaps for multi-agent perception, which can be a plug-in module for most existing systems while maintaining confidentiality. Our framework consists of a learnable feature resizer to align features in multiple dimensions and a sparse cross-domain transformer for domain adaption. Extensive experiments on the public multi-agent perception dataset V2XSet have demonstrated that our method can effectively bridge the gap for features from different domains and outperform other baseline methods significantly by at least 8% for point-cloud-based 3D object detection.
翻訳日:2022-10-18 19:09:01 公開日:2022-10-16
# ソフトとハードの制約を考慮した後正則ベイズニューラルネットワーク

Posterior Regularized Bayesian Neural Network Incorporating Soft and Hard Knowledge Constraints ( http://arxiv.org/abs/2210.08608v1 )

ライセンス: Link先を確認
Jiayu Huang, Yutian Pang, Yongming Liu, Hao Yan(参考訳) ニューラルネットワーク(nns)は、画像やテキストなどの高次元データでしばしば提示される複雑な非線形パターンをモデル化する能力から、教師付き学習で広く使用されている。 しかし、従来のnnは不確実性定量化の能力に欠けることが多い。 ベイズNN(BNNS)は、NNモデルパラメータの分布を考慮して不確実性を測定するのに役立つ。 さらに、ドメイン知識は一般的に利用可能であり、適切に組み込むことができれば、BNNのパフォーマンスを向上させることができる。 本研究では,ソフト制約やハード制約といった異なる種類の知識制約を後進正規化項として組み込むことにより,後進正規化ベイズニューラルネットワーク(pr-bnn)モデルを提案する。 さらに,拡張ラグランジアン法と既存のBNNソルバを組み合わせた効率的な推論手法を提案する。 シミュレーション実験と航空機の着陸予測と太陽エネルギー出力予測に関する2つのケーススタディは、制約のない従来のbnnに対する知識制約と性能改善を示した。

Neural Networks (NNs) have been widely {used in supervised learning} due to their ability to model complex nonlinear patterns, often presented in high-dimensional data such as images and text. However, traditional NNs often lack the ability for uncertainty quantification. Bayesian NNs (BNNS) could help measure the uncertainty by considering the distributions of the NN model parameters. Besides, domain knowledge is commonly available and could improve the performance of BNNs if it can be appropriately incorporated. In this work, we propose a novel Posterior-Regularized Bayesian Neural Network (PR-BNN) model by incorporating different types of knowledge constraints, such as the soft and hard constraints, as a posterior regularization term. Furthermore, we propose to combine the augmented Lagrangian method and the existing BNN solvers for efficient inference. The experiments in simulation and two case studies about aviation landing prediction and solar energy output prediction have shown the knowledge constraints and the performance improvement of the proposed model over traditional BNNs without the constraints.
翻訳日:2022-10-18 18:54:11 公開日:2022-10-16
# リアルタイム区間制御のための接続ベーススケジューリング

Connection-Based Scheduling for Real-Time Intersection Control ( http://arxiv.org/abs/2210.08445v1 )

ライセンス: Link先を確認
Hsu-Chieh Hu, Joseph Zhou, Gregory J. Barlow, Stephen F. Smith(参考訳) 本稿では,リアルタイム適応交通信号制御のためのヒューリスティックスケジューリングアルゴリズムを提案する。 このアルゴリズムは、異なる車線を通る交差点に接近する全ての車両の到着時刻を推定する車線に基づくモデルを採用し、接近する車両の累積遅延を最小限にするスケジュール(信号タイミング計画)を計算する。 状態空間、刈り取りチェック、a*探索の許容ヒューリスティックを記述し、リアルタイムに交差点スケジュールを生成することができる(すなわち、秒毎に)。 ヒューリスティックスの有効性のため、提案手法は、シミュレーションされたテスト環境と実際のフィールドテストの両方において、より表現力の低い動的プログラミングアプローチと、従来のA*ベースのアプローチよりも優れている。

We introduce a heuristic scheduling algorithm for real-time adaptive traffic signal control to reduce traffic congestion. This algorithm adopts a lane-based model that estimates the arrival time of all vehicles approaching an intersection through different lanes, and then computes a schedule (i.e., a signal timing plan) that minimizes the cumulative delay incurred by all approaching vehicles. State space, pruning checks and an admissible heuristic for A* search are described and shown to be capable of generating an intersection schedule in real-time (i.e., every second). Due to the effectiveness of the heuristics, the proposed approach outperforms a less expressive Dynamic Programming approach and previous A*-based approaches in run-time performance, both in simulated test environments and actual field tests.
翻訳日:2022-10-18 18:42:01 公開日:2022-10-16
# この患者は患者のように見える:臨床テキストから解釈可能な診断予測のための原型的ネットワーク

This Patient Looks Like That Patient: Prototypical Networks for Interpretable Diagnosis Prediction from Clinical Text ( http://arxiv.org/abs/2210.08500v1 )

ライセンス: Link先を確認
Betty van Aken, Jens-Michalis Papaioannou, Marcel G. Naik, Georgios Eleftheriadis, Wolfgang Nejdl, Felix A. Gers, Alexander L\"oser(参考訳) 臨床テキストからの診断予測のための深層神経モデルの使用は有望な結果を示している。 しかし、臨床実践では、そのようなモデルは正確であるだけでなく、医師に解釈可能で有用な結果を与える必要がある。 そこで本研究では,先駆的ネットワークに基づく新しい方法であるprotopatient について紹介する。 ProtoPatientは、原型患者に似たテキストの一部に基づいて、医師が理解する正当化を提供する。 我々はこのモデルを2つの公開利用可能な臨床データセットで評価し,既存のベースラインを上回っていることを示す。 医師による定量的・質的評価は、このモデルが臨床決定支援に有用な説明を提供することを示している。

The use of deep neural models for diagnosis prediction from clinical text has shown promising results. However, in clinical practice such models must not only be accurate, but provide doctors with interpretable and helpful results. We introduce ProtoPatient, a novel method based on prototypical networks and label-wise attention with both of these abilities. ProtoPatient makes predictions based on parts of the text that are similar to prototypical patients - providing justifications that doctors understand. We evaluate the model on two publicly available clinical datasets and show that it outperforms existing baselines. Quantitative and qualitative evaluations with medical doctors further demonstrate that the model provides valuable explanations for clinical decision support.
翻訳日:2022-10-18 18:26:54 公開日:2022-10-16
# cdconv:中国の会話における矛盾検出のためのベンチマーク

CDConv: A Benchmark for Contradiction Detection in Chinese Conversations ( http://arxiv.org/abs/2210.08511v1 )

ライセンス: Link先を確認
Chujie Zheng, Jinfeng Zhou, Yinhe Zheng, Libiao Peng, Zhen Guo, Wenquan Wu, Zhengyu Niu, Hua Wu, Minlie Huang(参考訳) 対話の矛盾はオープンドメイン対話システムにおいて重要な問題である。 会話の文脈化の性質は、対話の矛盾検出をかなり困難にする。 本研究では,中国会話におけるコントラディション検出のベンチマーク,すなわちCDConvを提案する。 12Kのマルチターン会話に3つの典型的な矛盾カテゴリ(文内コントラクション、ロールコンフュージョン、ヒストリーコントラクション)をアノテートする。 CDConvの会話を効率的に構築するために,チャットボットに矛盾を起こさせる共通のユーザ動作をシミュレートする,自動会話生成の一連の手法を考案した。 我々は,構築した会話の手作業による品質チェックを行い,最新の中国のチャットボットに矛盾が生じやすいことを示す。 CDConvの実験では、文脈情報を適切にモデル化することは対話の矛盾検出に重要であるが、今後の研究を必要とする未解決の課題がある。

Dialogue contradiction is a critical issue in open-domain dialogue systems. The contextualization nature of conversations makes dialogue contradiction detection rather challenging. In this work, we propose a benchmark for Contradiction Detection in Chinese Conversations, namely CDConv. It contains 12K multi-turn conversations annotated with three typical contradiction categories: Intra-sentence Contradiction, Role Confusion, and History Contradiction. To efficiently construct the CDConv conversations, we devise a series of methods for automatic conversation generation, which simulate common user behaviors that trigger chatbots to make contradictions. We conduct careful manual quality screening of the constructed conversations and show that state-of-the-art Chinese chatbots can be easily goaded into making contradictions. Experiments on CDConv show that properly modeling contextual information is critical for dialogue contradiction detection, but there are still unresolved challenges that require future research.
翻訳日:2022-10-18 18:26:44 公開日:2022-10-16
# 一部の言語は他の言語よりも等しく、nlp世界の言語格差をより深く調査する

Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World ( http://arxiv.org/abs/2210.08523v1 )

ライセンス: Link先を確認
Surangika Ranathunga and Nisansa de Silva(参考訳) NLP世界の言語格差は近年広く認識されている問題である。 しかし、この問題の異なる側面、あるいはこの格差の背景にある理由は、NLPコミュニティ内ではほとんど議論されない。 本稿では,世界の言語に存在する不一致の包括的分析を行う。 データアベイラビリティを考慮した言語分類が必ずしも正しいとは限らない。 話者人口と活力に基づく既存の言語分類を用いて、言語データ資源の分布、NLP/CL研究の量、多言語Webベースプラットフォームへの含意、事前学習された多言語モデルへの含意を分析する。 多くの言語がこれらのリソースやプラットフォームでカバーされていないことを示し、同じ言語グループに属する言語であっても、大きな違いがある。 我々は、家族、地理的な位置、GDP、言語話者の人口の影響を分析し、同じことを克服するいくつかの提案とともに、この格差の可能性を秘めている。

Linguistic disparity in the NLP world is a problem that has been widely acknowledged recently. However, different facets of this problem, or the reasons behind this disparity are seldom discussed within the NLP community. This paper provides a comprehensive analysis of the disparity that exists within the languages of the world. We show that simply categorising languages considering data availability may not be always correct. Using an existing language categorisation based on speaker population and vitality, we analyse the distribution of language data resources, amount of NLP/CL research, inclusion in multilingual web-based platforms and the inclusion in pre-trained multilingual models. We show that many languages do not get covered in these resources or platforms, and even within the languages belonging to the same language group, there is wide disparity. We analyse the impact of family, geographical location, GDP and the speaker population of languages and provide possible reasons for this disparity, along with some suggestions to overcome the same.
翻訳日:2022-10-18 18:26:31 公開日:2022-10-16
# 自然言語理解のための事前学習言語モデルにおける知識プロンプト

Knowledge Prompting in Pre-trained Language Model for Natural Language Understanding ( http://arxiv.org/abs/2210.08536v1 )

ライセンス: Link先を確認
Jianing Wang, Wenkang Huang, Qiuhui Shi, Hongbin Wang, Minghui Qiu, Xiang Li, Ming Gao(参考訳) 知識強化事前学習言語モデル(plm)が最近注目を集め、事実知識をplmに組み込むことを目指している。 しかし、既存のほとんどの手法は複雑なモジュールを積み重ねることで固定型のPLMの内部構造を変更し、知識ベース(KB)から冗長で無関係な事実知識を導入する。 本稿では,これらの問題に対処するため,知識促進パラダイムを導入し,知識プロンプトに基づくPLMフレームワークKP-PLMを提案する。 このフレームワークは、既存の主流PLMと柔軟に組み合わせることができる。 具体的には、まず、コンテキスト毎にKBから知識サブグラフを構築する。 次に、複数の連続プロンプトルールを設計し、知識サブグラフを自然言語プロンプトに変換する。 これらのプロンプトから事実知識を更に活用するために,即時関連検査とマスク付きプロンプトモデリングを含む2つの新しい知識認識型自己指導タスクを提案する。 複数の自然言語理解(nlu)タスクに関する広範囲な実験は、フルリソースと低リソースの両方において、他の最先端メソッドよりもkp-plmが優れていることを示している。

Knowledge-enhanced Pre-trained Language Model (PLM) has recently received significant attention, which aims to incorporate factual knowledge into PLMs. However, most existing methods modify the internal structures of fixed types of PLMs by stacking complicated modules, and introduce redundant and irrelevant factual knowledge from knowledge bases (KBs). In this paper, to address these problems, we introduce a seminal knowledge prompting paradigm and further propose a knowledge-prompting-based PLM framework KP-PLM. This framework can be flexibly combined with existing mainstream PLMs. Specifically, we first construct a knowledge sub-graph from KBs for each context. Then we design multiple continuous prompts rules and transform the knowledge sub-graph into natural language prompts. To further leverage the factual knowledge from these prompts, we propose two novel knowledge-aware self-supervised tasks including prompt relevance inspection and masked prompt modeling. Extensive experiments on multiple natural language understanding (NLU) tasks show the superiority of KP-PLM over other state-of-the-art methods in both full-resource and low-resource settings.
翻訳日:2022-10-18 18:26:15 公開日:2022-10-16
# 複数選択視点による自然言語理解のためのゼロショット学習者

Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective ( http://arxiv.org/abs/2210.08590v1 )

ライセンス: Link先を確認
Ping Yang, Junjie Wang, Ruyi Gan, Xinyu Zhu, Lin Zhang, Ziwei Wu, Xinyu Gao, Jiaxing Zhang, Tetsuya Sakai(参考訳) 本稿では,ゼロショット学習者のための新しいパラダイムを提案する。形式非依存であり,テキスト分類,共通意味推論,コリファレンス解決,感情分析など,言語タスクの一覧に適用可能な形式である。 ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。 提案手法では,ゼロショット学習をマルチチョイスタスクに変換し,flanなどの大規模生成モデルにおける問題を回避する。 モデルに一般化能力を加えるだけでなく、パラメータの数を大幅に削減する。 私たちの方法は、効率的なトレーニングとデプロイメントのメリットを共有します。 提案手法は,いくつかのベンチマークで最先端のパフォーマンスを示し,自然言語推論やテキスト分類などのタスクで十分な結果が得られる。 我々のモデルは、数十億のパラメータを持つ最先端モデルよりも大幅に小さい235万のパラメータでこの成功を達成する。 コードと事前訓練されたモデルはhttps://github.com/IDEA-CCNL/Fengshenbang-LM で公開されている。

We propose a new paradigm for zero-shot learners that is format agnostic, i.e., it is compatible with any format and applicable to a list of language tasks, such as text classification, commonsense reasoning, coreference resolution, and sentiment analysis. Zero-shot learning aims to train a model on a given task such that it can address new learning tasks without any additional training. Our approach converts zero-shot learning into multiple-choice tasks, avoiding problems in commonly used large-scale generative models such as FLAN. It not only adds generalization ability to models but also significantly reduces the number of parameters. Our method shares the merits of efficient training and deployment. Our approach shows state-of-the-art performance on several benchmarks and produces satisfactory results on tasks such as natural language inference and text classification. Our model achieves this success with only 235M parameters, which is substantially smaller than state-of-the-art models with billions of parameters. The code and pre-trained models are available at https://github.com/IDEA-CCNL/Fengshenbang-LM .
翻訳日:2022-10-18 18:25:56 公開日:2022-10-16
# EventGraph: セマンティックグラフ解析としてのイベント抽出

EventGraph: Event Extraction as Semantic Graph Parsing ( http://arxiv.org/abs/2210.08646v1 )

ライセンス: Link先を確認
Huiling You, David Samuel, Samia Touileb, and Lilja {\O}vrelid(参考訳) イベント抽出には、イベントトリガと対応するイベント引数の両方の検出と抽出が含まれる。 既存のシステムでは、イベント抽出を複数のサブタスクに分解することが多い。 本稿では,イベントをグラフとしてエンコードするイベント抽出のための統合フレームワークであるEventGraphを提案する。 イベントトリガーと引数を意味グラフのノードとして表現します。 したがって、イベント抽出はグラフ解析の問題となり、以下の利点を提供する。 1) 事象検出及び議論抽出を共同で行うこと 2 テキストから複数の事象を検出して抽出すること。 3) イベント引数とトリガの複雑なインタラクションをキャプチャする。 ACE2005の実験結果から,我々のモデルは最先端システムと競合し,議論抽出の結果を大幅に改善した。 さらに、ace2005から2つの新しいデータセットを作成し、ヘッドワードだけでなく、イベント引数のテキストスパン全体を保持します。 私たちのコードとモデルはオープンソースとしてリリースされています。

Event extraction involves the detection and extraction of both the event triggers and corresponding event arguments. Existing systems often decompose event extraction into multiple subtasks, without considering their possible interactions. In this paper, we propose EventGraph, a joint framework for event extraction, which encodes events as graphs. We represent event triggers and arguments as nodes in a semantic graph. Event extraction therefore becomes a graph parsing problem, which provides the following advantages: 1) performing event detection and argument extraction jointly; 2) detecting and extracting multiple events from a piece of text; and 3) capturing the complicated interaction between event arguments and triggers. Experimental results on ACE2005 show that our model is competitive to state-of-the-art systems and has substantially improved the results on argument extraction. Additionally, we create two new datasets from ACE2005 where we keep the entire text spans for event arguments, instead of just the head word(s). Our code and models are released as open-source.
翻訳日:2022-10-18 18:25:39 公開日:2022-10-16
# スケーラブルな文書レベル変換のための線形注意によるモデリングコンテキスト

Modeling Context With Linear Attention for Scalable Document-Level Translation ( http://arxiv.org/abs/2210.08431v1 )

ライセンス: Link先を確認
Zhaofeng Wu, Hao Peng, Nikolaos Pappas, Noah A. Smith(参考訳) 文書レベルの機械翻訳は、文間依存関係を利用してより一貫性のある一貫した翻訳を生成する。 しかしながら、これらのモデルは、主にトランスフォーマーに基づいており、注意層が配列長の二次的複雑さを持つため、長い文書にスケールすることは困難である。 近年の効率的注意の努力はスケーラビリティを向上させるが、文書翻訳への影響は未定である。 本研究では,peng et al. (2021) による最近のリニア・アテンション・モデルによる文書翻訳の有効性について検討し,それをセンテンシャルゲートで補強することで,帰納的バイアスを助長する。 iwslt 2015とopensubtitles 2018でトランスフォーマーに対して評価を行い、類似またはより優れたbleuスコアの長いシーケンスでデコード速度が大幅に向上したことを示した。 感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。

Document-level machine translation leverages inter-sentence dependencies to produce more coherent and consistent translations. However, these models, predominantly based on transformers, are difficult to scale to long documents as their attention layers have quadratic complexity in the sequence length. Recent efforts on efficient attention improve scalability, but their effect on document translation remains unexplored. In this work, we investigate the efficacy of a recent linear attention model by Peng et al. (2021) on document translation and augment it with a sentential gate to promote a recency inductive bias. We evaluate the model on IWSLT 2015 and OpenSubtitles 2018 against the transformer, demonstrating substantially increased decoding speed on long sequences with similar or better BLEU scores. We show that sentential gating further improves translation quality on IWSLT.
翻訳日:2022-10-18 18:16:13 公開日:2022-10-16
# StoryER: ランク付け、レーティング、推論による自動ストーリ評価

StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning ( http://arxiv.org/abs/2210.08459v1 )

ライセンス: Link先を確認
Hong Chen, Duc Minh Vo, Hiroya Takamura, Yusuke Miyao, Hideki Nakayama(参考訳) 既存の自動ストーリー評価手法は、人間の好みから外れた、ストーリーの語彙レベルの一貫性にプレミアムを置く。 この制限を超えて、ストーリーを判断する際に人間の好みを模倣する新しい \textbf{story} \textbf{e}valuationメソッド、すなわち \textbf{storyer}という3つのサブタスクからなる \textbf{r}anking, \textbf{r}ating, \textbf{r}easoning を考える。 StoryERは機械が生成したストーリーか人間によるストーリーのいずれかを前提に、機械に出力を要求する 1)人間の嗜好に対応する選好スコア 2 特定格付け及びその信頼度及び信頼度 3) 様々な側面(例えば、オープニング、文字形成)に対するコメント。 これらのタスクをサポートするために、よく注釈付けされたデータセットを導入する。 (i)100kのストーリーペア、及び (ii)物語のさまざまな面について46kの評価とコメントの組。 収集したデータセットにLongformer-Encoder-Decoder(LED)を微調整し、好みのスコアとアスペクト予測を行うエンコーダとコメント生成のためのデコーダを付与する。 総合実験の結果,各タスクに対する競争ベンチマークが得られ,人間の嗜好と高い相関が示された。 さらに、好みスコア、アスペクトレーティング、そしてコメントが1つのタスクごとに利益をもたらすという共同学習を目の当たりにした。 私たちのデータセットとベンチマークは、ストーリー評価タスクの研究を進めるために公開されています。 footnote{dataset and pre-trained model demoは匿名ウェブサイト \url{http://storytelling-lab.com/eval} と \url{https://github.com/sairin1202/storyer}} で入手できる。

Existing automatic story evaluation methods place a premium on story lexical level coherence, deviating from human preference. We go beyond this limitation by considering a novel \textbf{Story} \textbf{E}valuation method that mimics human preference when judging a story, namely \textbf{StoryER}, which consists of three sub-tasks: \textbf{R}anking, \textbf{R}ating and \textbf{R}easoning. Given either a machine-generated or a human-written story, StoryER requires the machine to output 1) a preference score that corresponds to human preference, 2) specific ratings and their corresponding confidences and 3) comments for various aspects (e.g., opening, character-shaping). To support these tasks, we introduce a well-annotated dataset comprising (i) 100k ranked story pairs; and (ii) a set of 46k ratings and comments on various aspects of the story. We finetune Longformer-Encoder-Decoder (LED) on the collected dataset, with the encoder responsible for preference score and aspect prediction and the decoder for comment generation. Our comprehensive experiments result in a competitive benchmark for each task, showing the high correlation to human preference. In addition, we have witnessed the joint learning of the preference scores, the aspect ratings, and the comments brings gain in each single task. Our dataset and benchmarks are publicly available to advance the research of story evaluation tasks.\footnote{Dataset and pre-trained model demo are available at anonymous website \url{http://storytelling-lab.com/eval} and \url{https://github.com/sairin1202/StoryER}}
翻訳日:2022-10-18 18:15:59 公開日:2022-10-16
# 対照目的ではなく生成目的を用いた文表現学習

Sentence Representation Learning with Generative Objective rather than Contrastive Objective ( http://arxiv.org/abs/2210.08474v1 )

ライセンス: Link先を確認
Bohong Wu, Hai Zhao(参考訳) 素晴らしい文脈化トークンレベルの表現を提供するが、現在の事前訓練された言語モデルは、自己教師付き事前訓練中の文レベルの表現を正確に取得することにはあまり注意を払わない。 しかし、現在の文表現学習を支配する対照的な目的は、言語解釈性がほとんどなく、下流意味的タスクにおける性能保証がない。 そこで我々は,句再構成に基づく新たな自己教師型学習目標を提案する。 従来の生成手法の欠点を克服するために,1つの文を重要なフレーズに分割することで文内構造を慎重にモデル化する。 実証実験により,我々の生成学習は,STSベンチマークだけでなく,下流のセマンティック検索やタスクの再評価においても,十分な性能向上を実現し,最先端のコントラスト手法よりも優れていることが示された。 私たちのコードはhttps://github.com/chengzhipanpan/paserで入手できる。

Though offering amazing contextualized token-level representations, current pre-trained language models take less attention on accurately acquiring sentence-level representation during their self-supervised pre-training. However, contrastive objectives which dominate the current sentence representation learning bring little linguistic interpretability and no performance guarantee on downstream semantic tasks. We instead propose a novel generative self-supervised learning objective based on phrase reconstruction. To overcome the drawbacks of previous generative methods, we carefully model intra-sentence structure by breaking down one sentence into pieces of important phrases. Empirical studies show that our generative learning achieves powerful enough performance improvement and outperforms the current state-of-the-art contrastive methods not only on the STS benchmarks, but also on downstream semantic retrieval and reranking tasks. Our code is available at https://github.com/chengzhipanpan/PaSeR.
翻訳日:2022-10-18 18:15:27 公開日:2022-10-16
# 深層強化学習におけるタスク不特定性の影響

The Impact of Task Underspecification in Evaluating Deep Reinforcement Learning ( http://arxiv.org/abs/2210.08607v1 )

ライセンス: Link先を確認
Vindula Jayawardana, Catherine Tang, Sirui Li, Dajiang Suo, Cathy Wu(参考訳) 深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。 汎用インテリジェンスのためのDRLメソッドの設計以外にも、タスク固有のメソッドの設計は現実のアプリケーションでますます顕著になりつつある。 これらの設定では、標準的な評価プラクティスでは、タスクを表現するためにMarkov Decision Processs(MDP)のインスタンスを使用する。 しかし、多くのタスクは、特に現実世界の状況において、基礎となる環境の変動により、大量のMDPを誘導する。 例えば、交通信号制御では、変化は交差点のジオメトリーと交通流レベルから生じることがある。 したがって、選択されたMDPインスタンスは必然的にオーバーフィッティングを引き起こし、家族間でメソッドの真のパフォーマンスに関する結論を引き出す統計的パワーが欠如している。 本稿では,MDPのパラメータ化ファミリーを検討するためにDRL評価を増強する。 DRL法を選択 MDP インスタンスで評価した場合と比較すると,MDP ファミリーの評価ではメソッドの相対的ランクがかなり異なり,どのメソッドを最先端と見なすべきか疑問が呈されることが多い。 この現象を標準制御ベンチマークと実世界の交通信号制御に適用して検証する。 同時に,mdpファミリー上での精度評価が非自明であることを示す。 全体として、この研究は強化学習における経験的厳密性に対する新たな課題を明らかにし、特にDRLの結果が下流の意思決定に結びついている。

Evaluations of Deep Reinforcement Learning (DRL) methods are an integral part of scientific progress of the field. Beyond designing DRL methods for general intelligence, designing task-specific methods is becoming increasingly prominent for real-world applications. In these settings, the standard evaluation practice involves using a few instances of Markov Decision Processes (MDPs) to represent the task. However, many tasks induce a large family of MDPs owing to variations in the underlying environment, particularly in real-world contexts. For example, in traffic signal control, variations may stem from intersection geometries and traffic flow levels. The select MDP instances may thus inadvertently cause overfitting, lacking the statistical power to draw conclusions about the method's true performance across the family. In this article, we augment DRL evaluations to consider parameterized families of MDPs. We show that in comparison to evaluating DRL methods on select MDP instances, evaluating the MDP family often yields a substantially different relative ranking of methods, casting doubt on what methods should be considered state-of-the-art. We validate this phenomenon in standard control benchmarks and the real-world application of traffic signal control. At the same time, we show that accurately evaluating on an MDP family is nontrivial. Overall, this work identifies new challenges for empirical rigor in reinforcement learning, especially as the outcomes of DRL trickle into downstream decision-making.
翻訳日:2022-10-18 18:07:51 公開日:2022-10-16
# 3D-GMIC:大きな3D画像で小さな物体を見つけるための効率的なディープニューラルネットワーク

3D-GMIC: an efficient deep neural network to find small objects in large 3D images ( http://arxiv.org/abs/2210.08645v1 )

ライセンス: Link先を確認
Jungkyu Park, Jakub Ch{\l}\k{e}dowski, Stanis{\l}aw Jastrz\k{e}bski, Jan Witowski, Yanqi Xu, Linda Du, Sushma Gaddam, Eric Kim, Alana Lewin, Ujas Parikh, Anastasia Plaunova, Sardius Chen, Alexandra Millet, James Park, Kristine Pysarenko, Shalin Patel, Julia Goldberg, Melanie Wegener, Linda Moy, Laura Heacock, Beatriu Reig, Krzysztof J. Geras(参考訳) 3dイメージングは、臓器解剖に関する空間情報を提供することで、より正確な診断を可能にする。 しかし、AIモデルを訓練するために3D画像を使用することは、その2D画像の数十倍から数百倍のピクセルで構成されているため、計算的に困難である。 高解像度の3D画像をトレーニングするために、畳み込みニューラルネットワークは通常、それらをダウンサンプリングするか、2次元に投影する。 そこで本研究では,3次元医用画像のフル解像度での計算効率の高い分類を可能にするニューラルネットワークアーキテクチャを提案する。 既製の畳み込みニューラルネットワークと比較して、3D-GMICは77.98%-90.05%のGPUメモリと91.23%-96.02%の計算量を使用する。 ネットワークは画像レベルのラベルのみでトレーニングされているが、セグメンテーションラベルは不要だが、ピクセルレベルのサリエンシーマップを提供することで分類の予測を説明している。 広視野2Dマンモグラフィー (FFDM) , 合成2Dマンモグラフィー (DBT) および3Dマンモグラフィー (DBT) の85,526例を含むNYU Langone Health で収集されたデータセットでは, 本モデルでは3D Globally-Aware Multiple Instance Identificationifier (3D-GMIC) を用いて乳房温存AUC(95% CI: 0.769-0.887) を行い,DBT画像を用いた悪性所見の分類を行う。 DBT と 2D のマンモグラフィーは異なる情報を取得するため、2D と 3D のマンモグラフィーにおける平均的な予測は、 0.841 (95% CI: 0.768-0.895) の乳房回りのAUCを改良した様々なアンサンブルをもたらす。 本モデルはデューク大学病院の外部データセットによく当てはまり, 悪性所見を伴うDBT画像の分類において 0.848 (95% CI: 0.798-0.896) の画像ワイド AUC を実現する。

3D imaging enables a more accurate diagnosis by providing spatial information about organ anatomy. However, using 3D images to train AI models is computationally challenging because they consist of tens or hundreds of times more pixels than their 2D counterparts. To train with high-resolution 3D images, convolutional neural networks typically resort to downsampling them or projecting them to two dimensions. In this work, we propose an effective alternative, a novel neural network architecture that enables computationally efficient classification of 3D medical images in their full resolution. Compared to off-the-shelf convolutional neural networks, 3D-GMIC uses 77.98%-90.05% less GPU memory and 91.23%-96.02% less computation. While our network is trained only with image-level labels, without segmentation labels, it explains its classification predictions by providing pixel-level saliency maps. On a dataset collected at NYU Langone Health, including 85,526 patients with full-field 2D mammography (FFDM), synthetic 2D mammography, and 3D mammography (DBT), our model, the 3D Globally-Aware Multiple Instance Classifier (3D-GMIC), achieves a breast-wise AUC of 0.831 (95% CI: 0.769-0.887) in classifying breasts with malignant findings using DBT images. As DBT and 2D mammography capture different information, averaging predictions on 2D and 3D mammography together leads to a diverse ensemble with an improved breast-wise AUC of 0.841 (95% CI: 0.768-0.895). Our model generalizes well to an external dataset from Duke University Hospital, achieving an image-wise AUC of 0.848 (95% CI: 0.798-0.896) in classifying DBT images with malignant findings.
翻訳日:2022-10-18 17:58:22 公開日:2022-10-16
# 等価量子ニューラルネットワークの理論

Theory for Equivariant Quantum Neural Networks ( http://arxiv.org/abs/2210.08566v1 )

ライセンス: Link先を確認
Quynh T. Nguyen, Louis Schatzki, Paolo Braccia, Michael Ragone, Patrick J. Coles, Frederic Sauvage, Martin Larocca, M. Cerezo(参考訳) 現在使われているほとんどの量子ニューラルネットワークアーキテクチャは、ほとんどインダクティブバイアスがなく、トレーニング容易性と一般化の問題に繋がる。 同様の問題に触発された最近の古典的機械学習のブレークスルーは、学習タスクの対称性を符号化するモデルを作成することで、この危機に対処している。 これは、作用が対称性と通勤する同変ニューラルネットワークの使用によって実現される。 本研究では、等価量子ニューラルネットワークを理解し、分類し、設計し、実装するための一般的な理論的枠組みを提示することにより、これらのアイデアを量子領域にインポートする。 特殊実装として、標準量子畳み込みニューラルネットワーク(QCNN)が、関連する対称性群の下で、畳み込み層とプーリング層の両方が同変であるグループ同変QCNNにどのように一般化できるかを示す。 私たちのフレームワークは、量子機械学習のほぼすべての領域に容易に適用でき、不毛高原、貧弱なローカルミニマ、サンプル複雑性といった中心的な課題を軽減できることを期待しています。

Most currently used quantum neural network architectures have little-to-no inductive biases, leading to trainability and generalization issues. Inspired by a similar problem, recent breakthroughs in classical machine learning address this crux by creating models encoding the symmetries of the learning task. This is materialized through the usage of equivariant neural networks whose action commutes with that of the symmetry. In this work, we import these ideas to the quantum realm by presenting a general theoretical framework to understand, classify, design and implement equivariant quantum neural networks. As a special implementation, we show how standard quantum convolutional neural networks (QCNN) can be generalized to group-equivariant QCNNs where both the convolutional and pooling layers are equivariant under the relevant symmetry group. Our framework can be readily applied to virtually all areas of quantum machine learning, and provides hope to alleviate central challenges such as barren plateaus, poor local minima, and sample complexity.
翻訳日:2022-10-18 17:49:38 公開日:2022-10-16
# 確率集合をもつマルチラベルランキングにおける懐疑的推論

Skeptical inferences in multi-label ranking with sets of probabilities ( http://arxiv.org/abs/2210.08576v1 )

ライセンス: Link先を確認
Yonatan Carlos Carranza Alarc\'on, Vu-Linh Nguyen(参考訳) 本稿では,多ラベルランキング問題に対する懐疑的推論問題について考察する。 不確実性はラベルの集合上で定義される確率の凸集合(すなわちクレダル集合)によって記述されると仮定する。 シングルトン予測(またはラベル上の完備ランキング)を学ぶ代わりに、我々は完成したランキングからなる集合値予測の観点から懐疑的な推測を求める。

In this paper, we consider the problem of making skeptical inferences for the multi-label ranking problem. We assume that our uncertainty is described by a convex set of probabilities (i.e. a credal set), defined over the set of labels. Instead of learning a singleton prediction (or, a completed ranking over the labels), we thus seek for skeptical inferences in terms of set-valued predictions consisting of completed rankings.
翻訳日:2022-10-18 17:49:20 公開日:2022-10-16
# 有限人口データによる因果関係の学習確率

Learning Probabilities of Causation from Finite Population Data ( http://arxiv.org/abs/2210.08453v1 )

ライセンス: Link先を確認
Ang Li, Song Jiang, Yizhou Sun, Judea Pearl(参考訳) 本稿では,有限人口データに基づく集団の因果関係の確率を学習する問題を扱う。 因果関係の3つの基本的な確率、必然性と充足の確率(pns)、充足の確率(ps)、必然性の確率(pn)のタイトな境界は、天と真珠によって導かれた。 しかしながら、各サブポピュレーションのバウンダリを得るには、実験的および観察的な各サブポピュレーションの分布が必要である。 本研究では,有限個体群データに対する因果関係の確率の限界を学習するための機械学習モデルを提案する。 さらに, 機械学習モデルにより, 人口32768人を対象に, 有限個体群データから約500人程度しか知ることなく, PNSの境界を学習できることを示す。

This paper deals with the problem of learning the probabilities of causation of subpopulations given finite population data. The tight bounds of three basic probabilities of causation, the probability of necessity and sufficiency (PNS), the probability of sufficiency (PS), and the probability of necessity (PN), were derived by Tian and Pearl. However, obtaining the bounds for each subpopulation requires experimental and observational distributions of each subpopulation, which is usually impractical to estimate given finite population data. We propose a machine learning model that helps to learn the bounds of the probabilities of causation for subpopulations given finite population data. We further show by a simulated study that the machine learning model is able to learn the bounds of PNS for 32768 subpopulations with only knowing roughly 500 of them from the finite population data.
翻訳日:2022-10-18 17:40:26 公開日:2022-10-16
# プライバシ保護型アンサンブル注意蒸留によるフェデレーション学習

Federated Learning with Privacy-Preserving Ensemble Attention Distillation ( http://arxiv.org/abs/2210.08464v1 )

ライセンス: Link先を確認
Xuan Gong, Liangchen Song, Rishi Vedula, Abhishek Sharma, Meng Zheng, Benjamin Planche, Arun Innanje, Terrence Chen, Junsong Yuan, David Doermann, Ziyan Wu(参考訳) Federated Learning(FL)は、多くのローカルノードがトレーニングデータを分散化しながら、中央モデルを協調的にトレーニングする機械学習パラダイムである。 これは、患者データが通常医療施設から転送されることが許されず、FLの必要性が生じるため、臨床応用に特に関係している。 既存のfl法は通常、モデルパラメータを共有するか、不均衡なデータ分散の問題に対処するために共蒸留を用いる。 しかし同時に、多くの同期通信を必要とし、さらに重要なのは、プライバシー漏洩のリスクに悩まされていることだ。 本稿では,非ラベルの公開データを活用したプライバシ保存型flフレームワークを提案する。 中心的なモデルは、アンサンブル注意蒸留を通じて地元の知識から学習される。 この手法では,既存のflアプローチのように分散および異種ローカルデータを使用するが,さらに重要な点として,プライバシリークのリスクを大幅に低減する。 本研究では,画像分類,セグメンテーション,再構成タスクの広範な実験に基づいて,より堅牢なプライバシ保護により極めて競争力のある性能を実現することを示す。

Federated Learning (FL) is a machine learning paradigm where many local nodes collaboratively train a central model while keeping the training data decentralized. This is particularly relevant for clinical applications since patient data are usually not allowed to be transferred out of medical facilities, leading to the need for FL. Existing FL methods typically share model parameters or employ co-distillation to address the issue of unbalanced data distribution. However, they also require numerous rounds of synchronized communication and, more importantly, suffer from a privacy leakage risk. We propose a privacy-preserving FL framework leveraging unlabeled public data for one-way offline knowledge distillation in this work. The central model is learned from local knowledge via ensemble attention distillation. Our technique uses decentralized and heterogeneous local data like existing FL approaches, but more importantly, it significantly reduces the risk of privacy leakage. We demonstrate that our method achieves very competitive performance with more robust privacy preservation based on extensive experiments on image classification, segmentation, and reconstruction tasks.
翻訳日:2022-10-18 17:40:08 公開日:2022-10-16
# askyourdb:自然言語によるリレーショナルデータベースのクエリと視覚化のためのエンドツーエンドシステム

AskYourDB: An end-to-end system for querying and visualizing relational databases using natural language ( http://arxiv.org/abs/2210.08532v1 )

ライセンス: Link先を確認
Manu Joseph, Harsh Raj, Anubhav Yadav, Aaryamann Sharma(参考訳) 適切な情報のためにデータベースをクエリするのは時間を要する作業であり、しばしば経験豊富な専門家を必要とします。 さらに、ユーザはデータベースに関する事前の知識を持つ必要がある。 ビジネスユーザがデータベースを直接クエリするのに役立つインテリジェンスの開発には、さまざまな取り組みがあった。 しかしながら、いくつかの成功例があるが、実際のユーザのためのテストとデプロイに関してはほとんどない。 本稿では,複雑な自然言語をsqlに変換するという課題に対処し,製品を構築するための意味論的構文解析手法を提案する。 この目的のために,本番環境にモデルがデプロイされた際に重要な役割を果たす様々な前処理ステップと後処理ステップによって,最先端のモデルを修正した。 製品をビジネスに提供できるようにするため、クエリ結果に自動視覚化フレームワークを追加しました。

Querying databases for the right information is a time consuming and error-prone task and often requires experienced professionals for the job. Furthermore, the user needs to have some prior knowledge about the database. There have been various efforts to develop an intelligence which can help business users to query databases directly. However, there has been some successes, but very little in terms of testing and deploying those for real world users. In this paper, we propose a semantic parsing approach to address the challenge of converting complex natural language into SQL and institute a product out of it. For this purpose, we modified state-of-the-art models, by various pre and post processing steps which make the significant part when a model is deployed in production. To make the product serviceable to businesses we added an automatic visualization framework over the queried results.
翻訳日:2022-10-18 17:31:00 公開日:2022-10-16
# グローバル擬似タスクシミュレーションによる連続学習のためのメモリ構成

Navigating Memory Construction by Global Pseudo-Task Simulation for Continual Learning ( http://arxiv.org/abs/2210.08442v1 )

ライセンス: Link先を確認
Yejia Liu, Wang Zhu, Shaolei Ren(参考訳) 継続的な学習は破滅的な忘れ物の重要な課題に直面します。 この課題に対処するため、以前のタスクからのサンプルの小さなサブセットを維持するエクスペリエンス・リプレイ(ER)が一般的に使用されている。 既存のERは通常、静的なメモリ構築ポリシーで各タスクの学習目標を洗練することに集中します。 本稿では,ERにおける動的メモリ構成を組合せ最適化問題として定式化し,すべての経験的タスクにおけるグローバル損失を最小化することを目的とした。 まず,オフライン環境での問題解決を出発点として,3つの手法を適用した。 オンライン連続学習環境におけるこの問題に対する近似的な解決策として,多変量による現在のタスクの破滅的な忘れを再現するグローバル擬似タスクシミュレーション(GPS)を提案する。 実験結果と分析結果から、GPSは4つの一般的な視覚ベンチマークで常に精度を向上させることが示唆された。 また,我々のGPSは,既存のER作品に様々なメモリ構築ポリシーを統合する統合フレームワークとして機能することを示した。

Continual learning faces a crucial challenge of catastrophic forgetting. To address this challenge, experience replay (ER) that maintains a tiny subset of samples from previous tasks has been commonly used. Existing ER works usually focus on refining the learning objective for each task with a static memory construction policy. In this paper, we formulate the dynamic memory construction in ER as a combinatorial optimization problem, which aims at directly minimizing the global loss across all experienced tasks. We first apply three tactics to solve the problem in the offline setting as a starting point. To provide an approximate solution to this problem in the online continual learning setting, we further propose the Global Pseudo-task Simulation (GPS), which mimics future catastrophic forgetting of the current task by permutation. Our empirical results and analyses suggest that the GPS consistently improves accuracy across four commonly used vision benchmarks. We have also shown that our GPS can serve as the unified framework for integrating various memory construction policies in existing ER works.
翻訳日:2022-10-18 17:24:56 公開日:2022-10-16
# 多相臓器セグメンテーションのための動的相関を用いた適応型コントラスト学習

Adaptive Contrastive Learning with Dynamic Correlation for Multi-Phase Organ Segmentation ( http://arxiv.org/abs/2210.08652v1 )

ライセンス: Link先を確認
Ho Hin Lee, Yucheng Tang, Han Liu, Yubo Fan, Leon Y. Cai, Qi Yang, Xin Yu, Shunxing Bao, Yuankai Huo, Bennett A. Landman(参考訳) Recent studies have demonstrated the superior performance of introducing ``scan-wise" contrast labels into contrastive learning for multi-organ segmentation on multi-phase computed tomography (CT). However, such scan-wise labels are limited: (1) a coarse classification, which could not capture the fine-grained ``organ-wise" contrast variations across all organs; (2) the label (i.e., contrast phase) is typically manually provided, which is error-prone and may introduce manual biases of defining phases. 本稿では,各ミニバッチにおける類似/異種コントラスト関係をオルガンレベルで適応する,データ駆動型コントラスト損失関数を提案する。 具体的には、臓器間のコントラストの変動レベルが存在するため、臓器レベルのコントラスト差は潜在空間における表現を定義するための追加の文脈をもたらすと仮定する。 臓器のコントラスト相関行列を1ホットアテンションマップの下で平均臓器強度で計算する。 臓器駆動相関行列を適用する目的は、異なる位相における特徴分離性の変動レベルをモデル化することである。 非造影CT(NCCT)データセットとMICCAI 2015 BTCV Challenge 造影CT(CECT)データセットを併用した多臓器セグメンテーションの検討を行った。 最新のアプローチと比較して,提案するコントラスト損失は,ncctおよびcectコホートに対する平均ダイススコアにおいて,1.41%(0.923から0.936、p-value$<$0.01)および2.02%(0.891から0.910、p-value$<$0.01)の大幅な改善をもたらす。 さらに,miccai 2021フレアチャレンジcectデータセットを用いたトレーニングモデルの性能評価を行い,平均サイススコアを0.927から0.934(p値$<0.01)に大幅に改善した。 コードは、https://github.com/MASILab/DCC_CLで入手できる。

Recent studies have demonstrated the superior performance of introducing ``scan-wise" contrast labels into contrastive learning for multi-organ segmentation on multi-phase computed tomography (CT). However, such scan-wise labels are limited: (1) a coarse classification, which could not capture the fine-grained ``organ-wise" contrast variations across all organs; (2) the label (i.e., contrast phase) is typically manually provided, which is error-prone and may introduce manual biases of defining phases. In this paper, we propose a novel data-driven contrastive loss function that adapts the similar/dissimilar contrast relationship between samples in each minibatch at organ-level. Specifically, as variable levels of contrast exist between organs, we hypothesis that the contrast differences in the organ-level can bring additional context for defining representations in the latent space. An organ-wise contrast correlation matrix is computed with mean organ intensities under one-hot attention maps. The goal of adapting the organ-driven correlation matrix is to model variable levels of feature separability at different phases. We evaluate our proposed approach on multi-organ segmentation with both non-contrast CT (NCCT) datasets and the MICCAI 2015 BTCV Challenge contrast-enhance CT (CECT) datasets. Compared to the state-of-the-art approaches, our proposed contrastive loss yields a substantial and significant improvement of 1.41% (from 0.923 to 0.936, p-value$<$0.01) and 2.02% (from 0.891 to 0.910, p-value$<$0.01) on mean Dice scores across all organs with respect to NCCT and CECT cohorts. We further assess the trained model performance with the MICCAI 2021 FLARE Challenge CECT datasets and achieve a substantial improvement of mean Dice score from 0.927 to 0.934 (p-value$<$0.01). The code is available at: https://github.com/MASILab/DCC_CL
翻訳日:2022-10-18 17:24:39 公開日:2022-10-16
# tldw:ニュースビデオの極端なマルチモーダル要約

TLDW: Extreme Multimodal Summarisation of News Videos ( http://arxiv.org/abs/2210.08481v1 )

ライセンス: Link先を確認
Peggy Tang, Kun Hu, Lei Zhang, Jiebo Luo, Zhiyong Wang(参考訳) マルチメディアデータの急速な成長により,マルチモーダル出力によるマルチモーダル要約が注目されている。 視覚的テキストの内容を要約するいくつかの手法が提案されているが、そのマルチモーダル出力は情報過負荷問題に対処するには極端に簡潔ではない。 tl;dw - too long; didn't watch, alike to tl;dr というシナリオのために,マルチモーダルアウトプット (xmsmo) を用いた極端にマルチモーダルなサムマリゼーション (extreme multimodal summarization) というタスクを導入する。 xmsmoの目的は、ビデオドキュメントペアを非常に短い長さの要約にまとめることであり、ビジュアル要約として1つのカバーフレーム、テキスト要約として1つの文からなる。 本稿では,階層型マルチモーダルエンコーダ,階層型マルチモーダル融合デコーダ,最適トランスポートソルバの3成分からなる,教師なし階層型最適トランスポートネットワーク(hot-net)を提案する。 本手法は, 最適輸送計画における意味分布間の距離の観点から, 視覚的・テキスト的カバレッジを最適化することで, 参照要約を用いずに学習する。 そこで本研究では,4,891対のビデオ文書を抽出し,大規模データセットXMSMO-Newsを収集する。 実験結果から,ROUGEとIoUの指標を用いて,提案手法が有望な性能を達成できることが示唆された。

Multimodal summarisation with multimodal output is drawing increasing attention due to the rapid growth of multimedia data. While several methods have been proposed to summarise visual-text contents, their multimodal outputs are not succinct enough at an extreme level to address the information overload issue. To the end of extreme multimodal summarisation, we introduce a new task, eXtreme Multimodal Summarisation with Multimodal Output (XMSMO) for the scenario of TL;DW - Too Long; Didn't Watch, akin to TL;DR. XMSMO aims to summarise a video-document pair into a summary with an extremely short length, which consists of one cover frame as the visual summary and one sentence as the textual summary. We propose a novel unsupervised Hierarchical Optimal Transport Network (HOT-Net) consisting of three components: hierarchical multimodal encoders, hierarchical multimodal fusion decoders, and optimal transport solvers. Our method is trained, without using reference summaries, by optimising the visual and textual coverage from the perspectives of the distance between the semantic distributions under optimal transport plans. To facilitate the study on this task, we collect a large-scale dataset XMSMO-News by harvesting 4,891 video-document pairs. The experimental results show that our method achieves promising performance in terms of ROUGE and IoU metrics.
翻訳日:2022-10-18 17:15:01 公開日:2022-10-16
# 再帰的グリーディリスク最小化によるランダム林を用いた正ラベル学習

Positive-Unlabeled Learning using Random Forests via Recursive Greedy Risk Minimization ( http://arxiv.org/abs/2210.08461v1 )

ライセンス: Link先を確認
Jonathan Wilton, Abigail M. Y. Koay, Ryan K. L. Ko, Miao Xu, Nan Ye(参考訳) ポジティブでラベルのないデータ、すなわちpu学習から学ぶ必要性は、多くのアプリケーションで生まれ、関心を集めています。 ランダムフォレストは、ポジティブなデータとネガティブなデータを持つ多くのタスクでうまく機能することが知られているが、最近のpuアルゴリズムは一般的にディープニューラルネットワークに基づいている。 本稿では,PU学習のための新しいランダムフォレストアルゴリズムを提案する。 我々のアプローチの鍵は、正および負のデータに対する決定木アルゴリズムを \emph{recursive greedy risk minimization algorithms} として解釈することです。 我々はこの視点をPU設定に拡張し、PUデータに基づく推定器を直接最小化する新しい決定木学習アルゴリズムを開発する。 これにより、効率的なPUランダムフォレストアルゴリズム、PU付加木を開発することができる。 提案手法は, 損失関数が同一決定木に導かれるという意味では, 損失関数の選択に堅牢であること, ニューラルネットワークに基づくPU学習と比較して, ハイパーパラメータチューニングをほとんど必要としないこと, リスク最小化への機能の寄与を直接測定する特徴的重要性をサポートすること, の3つの望ましい特徴を特徴とする。 提案アルゴリズムは,複数のデータセットに対して高い性能を示す。 私たちのコードは \url{https://github.com/puetpaper/PUExtraTrees} で利用可能です。

The need to learn from positive and unlabeled data, or PU learning, arises in many applications and has attracted increasing interest. While random forests are known to perform well on many tasks with positive and negative data, recent PU algorithms are generally based on deep neural networks, and the potential of tree-based PU learning is under-explored. In this paper, we propose new random forest algorithms for PU-learning. Key to our approach is a new interpretation of decision tree algorithms for positive and negative data as \emph{recursive greedy risk minimization algorithms}. We extend this perspective to the PU setting to develop new decision tree learning algorithms that directly minimizes PU-data based estimators for the expected risk. This allows us to develop an efficient PU random forest algorithm, PU extra trees. Our approach features three desirable properties: it is robust to the choice of the loss function in the sense that various loss functions lead to the same decision trees; it requires little hyperparameter tuning as compared to neural network based PU learning; it supports a feature importance that directly measures a feature's contribution to risk minimization. Our algorithms demonstrate strong performance on several datasets. Our code is available at \url{https://github.com/puetpaper/PUExtraTrees}.
翻訳日:2022-10-18 17:06:58 公開日:2022-10-16
# FAQS:通信効率のよいフェデレートDNNアーキテクチャと、パーソナライズされたハードウェア・アウェア・プライオリティのための量子化コサーチ

FAQS: Communication-efficient Federate DNN Architecture and Quantization Co-Search for personalized Hardware-aware Preferences ( http://arxiv.org/abs/2210.08450v1 )

ライセンス: Link先を確認
Hongjiang Chen, Yang Wang, Leibo Liu, Shaojun Wei, Shouyi Yin(参考訳) ユーザのプライバシと規制の制限により、分散データクライアント上でディープニューラルネットワーク(DNN)をトレーニングするための分散学習フレームワークとして、フェデレートラーニング(FL)が提案されている。 FLの最近の進歩は、ニューラルネットワークサーチ(NAS)を用いて、様々なデータ分散の全てのタスクに最適ではない事前定義された1サイズ全DNNモデルを、検索可能なDNNアーキテクチャで置き換えている。 しかし,従来の手法では,サーバとクライアント間で頻繁に大きなモデルパラメータが伝達されるため,通信コストが高価であった。 このような難しさは、一般に禁止計算と巨大なモデル記憶を必要とするNASアルゴリズムを組み合わせることでさらに増幅される。 そこで本研究では,重み共有スーパーカーネル,ビット共有量子化,マスク伝送という3つの特徴により通信コストを削減するための,効率的なパーソナライズ FL-NAS-Quantization フレームワーク FAQS を提案する。 FAQSは安価な検索時間を持ち、各ラウンドで送信メッセージのサイズに非常に制限がある。 パーソナライズされたpareto関数の損失をローカルクライアントに設定することで、faqは様々なユーザ好みの異種ハードウェアアウェアモデルを生成することができる。 実験結果から,FAQSはFL+NASフラムワークに比べて1ラウンドあたり平均1.58倍,4.51倍の通信帯域を達成できた。

Due to user privacy and regulatory restrictions, federate learning (FL) is proposed as a distributed learning framework for training deep neural networks (DNN) on decentralized data clients. Recent advancements in FL have applied Neural Architecture Search (NAS) to replace the predefined one-size-fit-all DNN model, which is not optimal for all tasks of various data distributions, with searchable DNN architectures. However, previous methods suffer from expensive communication cost rasied by frequent large model parameters transmission between the server and clients. Such difficulty is further amplified when combining NAS algorithms, which commonly require prohibitive computation and enormous model storage. Towards this end, we propose FAQS, an efficient personalized FL-NAS-Quantization framework to reduce the communication cost with three features: weight-sharing super kernels, bit-sharing quantization and masked transmission. FAQS has an affordable search time and demands very limited size of transmitted messages at each round. By setting different personlized pareto function loss on local clients, FAQS can yield heterogeneous hardware-aware models for various user preferences. Experimental results show that FAQS achieves average reduction of 1.58x in communication bandwith per round compared with normal FL framework and 4.51x compared with FL+NAS framwork.
翻訳日:2022-10-18 16:47:35 公開日:2022-10-16
# HQNAS:共同量子化とアーキテクチャ検索のための自動CNNデプロイメントフレームワーク

HQNAS: Auto CNN deployment framework for joint quantization and architecture search ( http://arxiv.org/abs/2210.08485v1 )

ライセンス: Link先を確認
Hongjiang Chen, Yang Wang, Leibo Liu, Shaojun Wei, Shouyi Yin(参考訳) ディープラーニングアプリケーションは、組み込みコンピューティングシステムの迅速な開発により、クラウドからエッジへ移行している。 限られた資源予算でより高いエネルギー効率を達成するためには、ニューラルネットワーク(NN)をアーキテクチャ設計と量子化ポリシーの選択の2つのステップで慎重に設計する必要がある。 ニューラルネットワーク検索(NAS)と量子化は、組み込みデバイスにNNをデプロイする際に別々に提案されている。 しかし、個別に2つのステップを取るのは時間がかかり、最適化された最終配置につながる。 そこで本研究では,NASと量子化を組み合わせたハードウェア対応量子化ニューラルネットワーク探索(HQNAS)フレームワークを,重み付けとビット共有による極めて効率的な方法で提案する。 CIFAR10の優れたNNポリシーを見つけるのにわずか4時間しかかからない。 また、imagenet上で同等のモデルを生成するのに10gpu時間しかかからず、従来のnas法に比べてレイテンシが1.8倍減少し、精度が0.7%低下している。 さらに,ローカルデータ,環境,ユーザの嗜好の変化により,ニューラルネットワークが時折進化する必要のある,寿命の長い状況に適応することができる。

Deep learning applications are being transferred from the cloud to edge with the rapid development of embedded computing systems. In order to achieve higher energy efficiency with the limited resource budget, neural networks(NNs) must be carefully designed in two steps, the architecture design and the quantization policy choice. Neural Architecture Search(NAS) and Quantization have been proposed separately when deploying NNs onto embedded devices. However, taking the two steps individually is time-consuming and leads to a sub-optimal final deployment. To this end, we propose a novel neural network design framework called Hardware-aware Quantized Neural Architecture Search(HQNAS) framework which combines the NAS and Quantization together in a very efficient manner using weight-sharing and bit-sharing. It takes only 4 GPU hours to discover an outstanding NN policy on CIFAR10. It also takes only %10 GPU time to generate a comparable model on Imagenet compared to the traditional NAS method with 1.8x decrease of latency and a negligible accuracy loss of only 0.7%. Besides, our method can be adapted in a lifelong situation where the neural network needs to evolve occasionally due to changes of local data, environment and user preference.
翻訳日:2022-10-18 16:47:06 公開日:2022-10-16
# fit: モデルの感度の指標

FIT: A Metric for Model Sensitivity ( http://arxiv.org/abs/2210.08502v1 )

ライセンス: Link先を確認
Ben Zandonati, Adrian Alan Pol, Maurizio Pierini, Olya Sirkin, Tal Kopetz(参考訳) モデル圧縮は、エッジデバイスへのディープラーニングの展開に不可欠である。 重みとアクティベーションの量子化によって達成される低精度表現は、推論時間とメモリ要求を減らすことができる。 しかしながら、この手順に関連する変更に対するモデルの応答の定量化と予測は依然として困難である。 この応答は非線形であり、ネットワーク全体で異種である。 パラメータとアクティベーションのどのグループが量子化に敏感であるかを理解することは、効率を最大化する重要な段階である。 そこで我々はFITを提案する。 情報幾何学的視点によって動機づけられたFITは、フィッシャー情報と量子化のモデルを組み合わせる。 FITは再トレーニングなしにネットワークの最終的な性能を推定できる。 FITはパラメータとアクティベーション量子化の両方からの貢献を効果的に1つの計量に融合する。 さらに、FITは既存の手法と比較して高速に計算でき、良好な収束特性を示す。 これらの性質は数百の量子化構成で実験的に検証され、層間混合精度量子化に焦点が当てられている。

Model compression is vital to the deployment of deep learning on edge devices. Low precision representations, achieved via quantization of weights and activations, can reduce inference time and memory requirements. However, quantifying and predicting the response of a model to the changes associated with this procedure remains challenging. This response is non-linear and heterogeneous throughout the network. Understanding which groups of parameters and activations are more sensitive to quantization than others is a critical stage in maximizing efficiency. For this purpose, we propose FIT. Motivated by an information geometric perspective, FIT combines the Fisher information with a model of quantization. We find that FIT can estimate the final performance of a network without retraining. FIT effectively fuses contributions from both parameter and activation quantization into a single metric. Additionally, FIT is fast to compute when compared to existing methods, demonstrating favourable convergence properties. These properties are validated experimentally across hundreds of quantization configurations, with a focus on layer-wise mixed-precision quantization.
翻訳日:2022-10-18 16:46:45 公開日:2022-10-16
# 合成電子健康記録の評価

Evaluation of the Synthetic Electronic Health Records ( http://arxiv.org/abs/2210.08655v1 )

ライセンス: Link先を確認
Emily Muller, Xu Zheng, Jer Hayes(参考訳) 生成モデルは、複雑な基盤となるデータ分布をキャプチャできるため、データ合成に有効であることが判明している。 これらのモデルから生成されたデータの品質は、画像データセットの視覚検査や、グラフデータセットの下流分析タスクによって評価される。 これらの評価方法は暗黙のデータ分布を測定したり、データプライバシの問題を考慮していない。 医療データはセンシティブなデータであるため、合成データセットのデータユーティリティを維持しながら、患者のプライバシー上の懸念を引き出すことが非常に重要である。 実用性評価の他に、合成データセットのサンプルワイド評価のための類似性と特異性という2つの指標を概説する。 嚢胞性線維症(cf)患者の電子健康記録(ehrs)を合成するための最先端生成モデルを用いて提案手法を実証し,提案手法が合成データ評価と生成モデルの比較に適していることを示す。

Generative models have been found effective for data synthesis due to their ability to capture complex underlying data distributions. The quality of generated data from these models is commonly evaluated by visual inspection for image datasets or downstream analytical tasks for tabular datasets. These evaluation methods neither measure the implicit data distribution nor consider the data privacy issues, and it remains an open question of how to compare and rank different generative models. Medical data can be sensitive, so it is of great importance to draw privacy concerns of patients while maintaining the data utility of the synthetic dataset. Beyond the utility evaluation, this work outlines two metrics called Similarity and Uniqueness for sample-wise assessment of synthetic datasets. We demonstrate the proposed notions with several state-of-the-art generative models to synthesise Cystic Fibrosis (CF) patients' electronic health records (EHRs), observing that the proposed metrics are suitable for synthetic data evaluation and generative model comparison.
翻訳日:2022-10-18 16:46:30 公開日:2022-10-16
# ソーシャルメディアデータによるメンタルヘルスの説明可能な因果分析

Explainable Causal Analysis of Mental Health on Social Media Data ( http://arxiv.org/abs/2210.08430v1 )

ライセンス: Link先を確認
Chandni Saxena, Muskan Garg, Gunjan Saxena(参考訳) 近年の社会コンピューティング、自然言語処理、臨床心理学の発展に伴い、社会NLP研究コミュニティは、ソーシャルメディア上での精神疾患の自動化の課題に対処している。 近年のメンタルヘルス問題の多クラス分類問題への拡張は、ユーザの意図の背景にある原因を特定することである。 しかし,ソーシャルメディア上でのメンタルヘルス問題に対する多クラス因果分類は,因果説明の重複問題による誤予測の課題となっている。 この問題を解決するには2つの方法があります (i)データセットにおける因果説明/不適切な人間注釈推論の矛盾 (ii)談話分析を用いた自己報告テキストにおける議論と態度の深い分析 本研究は,異なるクラスのF1スコア間に矛盾が存在する場合,対応する因果的説明間にも矛盾があることを仮定する。 本課題では, LIME法と統合勾配法(IG)法を用いて, 分類器を微調整し, ソーシャルメディア上での精神疾患のマルチクラス因果分類に関する説明を求める。 提案手法をCAMSデータセットで検証し,注釈付き解釈で検証する。 この研究の重要な貢献は、多クラス因果分類の精度の矛盾の原因を見つけることである。 提案手法の有効性は,コサイン類似度と単語移動者の距離を用いて,カテゴリー平均スコアが81.29 \%$と0.906$で得られた結果から明らかである。

With recent developments in Social Computing, Natural Language Processing and Clinical Psychology, the social NLP research community addresses the challenge of automation in mental illness on social media. A recent extension to the problem of multi-class classification of mental health issues is to identify the cause behind the user's intention. However, multi-class causal categorization for mental health issues on social media has a major challenge of wrong prediction due to the overlapping problem of causal explanations. There are two possible mitigation techniques to solve this problem: (i) Inconsistency among causal explanations/ inappropriate human-annotated inferences in the dataset, (ii) in-depth analysis of arguments and stances in self-reported text using discourse analysis. In this research work, we hypothesise that if there exists the inconsistency among F1 scores of different classes, there must be inconsistency among corresponding causal explanations as well. In this task, we fine tune the classifiers and find explanations for multi-class causal categorization of mental illness on social media with LIME and Integrated Gradient (IG) methods. We test our methods with CAMS dataset and validate with annotated interpretations. A key contribution of this research work is to find the reason behind inconsistency in accuracy of multi-class causal categorization. The effectiveness of our methods is evident with the results obtained having category-wise average scores of $81.29 \%$ and $0.906$ using cosine similarity and word mover's distance, respectively.
翻訳日:2022-10-18 16:40:45 公開日:2022-10-16
# 半教師付き表現学習によるセマンティックセグメンテーション

Semantic Segmentation with Active Semi-Supervised Representation Learning ( http://arxiv.org/abs/2210.08403v1 )

ライセンス: Link先を確認
Aneesh Rangnekar, Christopher Kanan, Matthew Hoffman(参考訳) セマンティックセグメンテーションのために人間のピクセル単位のラベルを取得するのは非常に手間がかかり、しばしばラベル付きデータセットの構築は禁止的に高価になる。 本稿では,半教師付き学習とアクティブ学習を組み合わせた新しいアルゴリズムを用いてこの問題を克服し,より少ないラベル付きデータを用いて効果的な意味セグメンテーションアルゴリズムを訓練する手法を提案する。 そこで我々は,従来のS4ALアルゴリズムを,半教師付き学習における平均教師アプローチを,ノイズラベルによる学習を改善する自己学習アプローチに置き換えることで拡張する。 コントラスト学習ヘッドを追加することで、ニューラルネットワークが有用なデータをクエリする能力をさらに強化することで、シーン内のオブジェクトの理解が向上し、アクティブな学習のためのクエリが向上します。 セマンティックセグメンテーションのためのアクティブラーニングのためのデファクト標準であるCamVidおよびCityScapesデータセットについて,本手法の評価を行った。 camvidとcityscapesのデータではネットワークのパフォーマンスの95%以上を達成し、ラベル付きデータの12.1%と15.1%しか利用していない。 また,CityScapesデータセット上の既存のスタンドアローン半教師付き学習手法をベンチマークし,ベルや笛を使わずに優れた性能を実現する。

Obtaining human per-pixel labels for semantic segmentation is incredibly laborious, often making labeled dataset construction prohibitively expensive. Here, we endeavor to overcome this problem with a novel algorithm that combines semi-supervised and active learning, resulting in the ability to train an effective semantic segmentation algorithm with significantly lesser labeled data. To do this, we extend the prior state-of-the-art S4AL algorithm by replacing its mean teacher approach for semi-supervised learning with a self-training approach that improves learning with noisy labels. We further boost the neural network's ability to query useful data by adding a contrastive learning head, which leads to better understanding of the objects in the scene, and hence, better queries for active learning. We evaluate our method on CamVid and CityScapes datasets, the de-facto standards for active learning for semantic segmentation. We achieve more than 95% of the network's performance on CamVid and CityScapes datasets, utilizing only 12.1% and 15.1% of the labeled data, respectively. We also benchmark our method across existing stand-alone semi-supervised learning methods on the CityScapes dataset and achieve superior performance without any bells or whistles.
翻訳日:2022-10-18 16:29:52 公開日:2022-10-16
# 視覚計画とトークンアライメントによるキャラクター中心ストーリーの可視化

Character-Centric Story Visualization via Visual Planning and Token Alignment ( http://arxiv.org/abs/2210.08465v1 )

ライセンス: Link先を確認
Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama and Nanyun Peng(参考訳) ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることで、従来のテキスト・画像生成を前進させる。 このタスクには機械が必要です 1)長文入力を理解して 2) ストーリーの内容を説明するグローバルに一貫性のあるイメージシークエンスを作成する。 一貫したストーリー視覚化の重要な課題は、ストーリーに不可欠なキャラクターを保存することです。 そこで本稿では,Vector-Quantized Variational Autoencoders (VQ-VAE) をテキスト・tovisual-token (transformer) アーキテクチャで拡張する手法を提案する。 具体的には、2段階のフレームワークでtext-to-visual-tokenモジュールを変更します。 1) 文字のみの視覚的トークンを予測する文字トークン計画モデル 2)残余の視覚トークンシーケンスを生成する視覚トークン補完モデルをVQ-VAEに送信し,画像生成を確定する。 キャラクタが画像に現れるように促すため,キャラクタトケアライメント目標を用いて,さらに2段階の枠組みを訓練する。 広範な実験と評価により,提案手法は文字の保存に優れ,強いベースラインに比べて高品質な画像シーケンスを生成できることが証明された。 コードはhttps://github.com/sairin1202/VP-CSVにある。

Story visualization advances the traditional text-to-image generation by enabling multiple image generation based on a complete story. This task requires machines to 1) understand long text inputs and 2) produce a globally consistent image sequence that illustrates the contents of the story. A key challenge of consistent story visualization is to preserve characters that are essential in stories. To tackle the challenge, we propose to adapt a recent work that augments Vector-Quantized Variational Autoencoders (VQ-VAE) with a text-tovisual-token (transformer) architecture. Specifically, we modify the text-to-visual-token module with a two-stage framework: 1) character token planning model that predicts the visual tokens for characters only; 2) visual token completion model that generates the remaining visual token sequence, which is sent to VQ-VAE for finalizing image generations. To encourage characters to appear in the images, we further train the two-stage framework with a character-token alignment objective. Extensive experiments and evaluations demonstrate that the proposed method excels at preserving characters and can produce higher quality image sequences compared with the strong baselines. Codes can be found in https://github.com/sairin1202/VP-CSV
翻訳日:2022-10-18 16:20:52 公開日:2022-10-16
# 情報理論からみたマルチモーダルニューラルマシン翻訳における視覚認知の増大

Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective ( http://arxiv.org/abs/2210.08478v1 )

ライセンス: Link先を確認
Baijun Ji, Tong Zhang, Yicheng Zou, Bojie Hu and Si Shen(参考訳) マルチモーダル機械翻訳(MMT)は、原文を対応する画像に合わせることで翻訳品質を向上させることを目的としている。 有望な性能にもかかわらず、MTモデルは依然として入力劣化の問題に悩まされている。 本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。 本稿では,情報的視覚信号をソース固有情報とターゲット固有情報という2つの部分に分割する。 相互情報を用いてそれらの定量化を行い,客観的最適化のための2つの手法を提案する。 2つのデータセットの実験により,MMTモデルの視覚的認識を効果的に向上し,強力なベースラインに対して優れた結果が得られることが示された。

Multimodal machine translation (MMT) aims to improve translation quality by equipping the source sentence with its corresponding image. Despite the promising performance, MMT models still suffer the problem of input degradation: models focus more on textual information while visual information is generally overlooked. In this paper, we endeavor to improve MMT performance by increasing visual awareness from an information theoretic perspective. In detail, we decompose the informative visual signals into two parts: source-specific information and target-specific information. We use mutual information to quantify them and propose two methods for objective optimization to better leverage visual signals. Experiments on two datasets demonstrate that our approach can effectively enhance the visual awareness of MMT model and achieve superior results against strong baselines.
翻訳日:2022-10-18 16:20:30 公開日:2022-10-16
# COFAR:画像検索におけるコモンセンスとFactual Reasoning

COFAR: Commonsense and Factual Reasoning in Image Search ( http://arxiv.org/abs/2210.08554v1 )

ライセンス: Link先を確認
Prajwal Gatti, Abhirama Subramanyam Penamakuri, Revant Teotia, Anand Mishra, Shubhashis Sengupta, Roshni Ramnani(参考訳) 現代の人工知能モデルよりも人間を優越させる特徴の1つは、視覚的に明らかな以上の画像を解釈する能力である。 以下の2つの自然言語検索クエリを考える。 (i)「アイスクリームの購入を辛抱強く待っている客の行列」及び (ii)「インドで有名なムガル建築を見に行く観光客の列」 これらのクエリを解釈するには 一 消費者を顧客又は観光客と解釈し、購入を待ち、又は見に行く行為をすること。 (ii)画像中の店舗がアイスクリームを販売しているか、画像のランドマークがインドにあるムガル建築であるかなど、名前付き視覚実体に関連する事実又は世界知識。 このような推論は単なる視覚的認識に留まらない。 画像検索におけるコモンセンスと事実推論の両方を可能にするため,画像内の名前付きビジュアルエンティティを百科事典的知識のゲートウェイとして扱い,自然言語クエリと併用して関連する知識を基盤とした統合フレームワークKRAMT(Knowledge Retrieval-Augmented Multimodal Transformer)を提案する。 さらに、KRAMTは視覚コンテンツと接地知識をシームレスに統合し、画像と検索クエリ間のアライメントを学習する。 この統合されたフレームワークは、コモンセンスと事実推論を必要とする画像検索に使用される。 KRAMTの検索性能を評価し,新しいデータセット,すなわちCOFARの関連手法と比較した。 コードとデータセットはhttps://vl2g.github.io/projects/cofarで利用可能です。

One characteristic that makes humans superior to modern artificially intelligent models is the ability to interpret images beyond what is visually apparent. Consider the following two natural language search queries - (i) "a queue of customers patiently waiting to buy ice cream" and (ii) "a queue of tourists going to see a famous Mughal architecture in India." Interpreting these queries requires one to reason with (i) Commonsense such as interpreting people as customers or tourists, actions as waiting to buy or going to see; and (ii) Fact or world knowledge associated with named visual entities, for example, whether the store in the image sells ice cream or whether the landmark in the image is a Mughal architecture located in India. Such reasoning goes beyond just visual recognition. To enable both commonsense and factual reasoning in the image search, we present a unified framework, namely Knowledge Retrieval-Augmented Multimodal Transformer (KRAMT), that treats the named visual entities in an image as a gateway to encyclopedic knowledge and leverages them along with natural language query to ground relevant knowledge. Further, KRAMT seamlessly integrates visual content and grounded knowledge to learn alignment between images and search queries. This unified framework is then used to perform image search requiring commonsense and factual reasoning. The retrieval performance of KRAMT is evaluated and compared with related approaches on a new dataset we introduce - namely COFAR. We make our code and dataset available at https://vl2g.github.io/projects/cofar
翻訳日:2022-10-18 16:20:16 公開日:2022-10-16
# 適応融合による係り受け強化事前学習モデルによる意味マッチングの改善

Improving Semantic Matching through Dependency-Enhanced Pre-trained Model with Adaptive Fusion ( http://arxiv.org/abs/2210.08471v1 )

ライセンス: Link先を確認
Jian Song, Di Liang, Rumei Li, Yuntao Li, Sirui Wang, Minlong Peng, Wei Wu, Yongxin Yu(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルはセマンティックセンテンスマッチングに大きな進歩を遂げた。 一方、依存関係事前知識は複数のNLPタスクにおいて一般的な利点を示している。 しかし、複雑なセマンティックマッチング関係をより良くモデル化するために、依存関係事前構造を事前訓練されたモデルに効率的に統合する方法はまだ未定である。 本稿では,事前学習したモデルに依存性構造を明示的に導入し,セマンティック情報と適応的に融合する<textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA})を提案する。 具体的には、 DAFA はまず、注意重みを調整するための依存性行列を構築するために、構造に敏感なパラダイムを提案する。 得られた依存情報と元の意味信号を統合するために、適応的な融合モジュールを採用する。 さらにdafaは注意計算フローを再構築し、より良い解釈性を提供する。 bertに適用することで、10の公開データセットで最先端あるいは競争力のあるパフォーマンスを実現し、セマンティックマッチングタスクで依存性構造を適応的に活用するメリットを実証する。

Transformer-based pre-trained models like BERT have achieved great progress on Semantic Sentence Matching. Meanwhile, dependency prior knowledge has also shown general benefits in multiple NLP tasks. However, how to efficiently integrate dependency prior structure into pre-trained models to better model complex semantic matching relations is still unsettled. In this paper, we propose the \textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA}), which explicitly introduces dependency structure into pre-trained models and adaptively fuses it with semantic information. Specifically, \textbf{\emph{(i)}} DAFA first proposes a structure-sensitive paradigm to construct a dependency matrix for calibrating attention weights. It adopts an adaptive fusion module to integrate the obtained dependency information and the original semantic signals. Moreover, DAFA reconstructs the attention calculation flow and provides better interpretability. By applying it on BERT, our method achieves state-of-the-art or competitive performance on 10 public datasets, demonstrating the benefits of adaptively fusing dependency structure in semantic matching task.
翻訳日:2022-10-18 16:13:18 公開日:2022-10-16
# RedApt:wav2vec 2エンコードのためのアダプタ

RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech Translation without Quality Compromise ( http://arxiv.org/abs/2210.08475v1 )

ライセンス: Link先を確認
Jinming Zhao, Hao Yang, Gholamreza Haffari, Ehsan Shareghi(参考訳) 音声翻訳(ST)における事前訓練された音声変換器は、最先端(SotA)の結果を促進するが、そのようなエンコーダの使用には計算コストがかかる。 これを改善するために,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。 事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。 ポジティブな驚きとして、reaptのstモデルは8つの言語ペアで平均 0.68 bleuスコアでsomaアーキテクチャを上回っています。

Pre-trained speech Transformers in speech translation (ST) have facilitated state-of-the-art (SotA) results; yet, using such encoders is computationally expensive. To improve this, we present a novel Reducer Adaptor block, RedApt, that could be seamlessly integrated within any Transformer-based speech encoding architecture. Integrating the pretrained wav2vec 2 speech encoder with RedAptbrings 41% speedup, 33% memory reduction with 24% fewer FLOPs at inference. To our positive surprise, our ST model with RedApt outperforms the SotA architecture by an average of 0.68 BLEU score on 8 language pairs from Must-C.
翻訳日:2022-10-18 16:12:55 公開日:2022-10-16
# TransAlign:知識グラフのための完全自動かつ効果的なエンティティアライメント

TransAlign: Fully Automatic and Effective Entity Alignment for Knowledge Graphs ( http://arxiv.org/abs/2210.08540v1 )

ライセンス: Link先を確認
Rui Zhang, Xiaoyan Zhao, Bayu Distiawan Trisedya, Min Yang, Hong Cheng, and Jianzhong Qi(参考訳) 知識グラフ(KG)間のエンティティアライメントのタスクは、同じエンティティを表す2つの異なるKGからすべてのエンティティを識別することを目的としている。 多くの機械学習に基づく手法が提案されている。 しかし、私たちの知る限りでは、既存の手法はすべて手作りのシードアライメントを必要とします。 本稿では,手作業によるシードアライメントを必要としないTransAlignという,最初の完全自動アライメント手法を提案する。 具体的には、述語埋め込みに対して、transalignは述語-述語関係グラフを構築し、エンティティタイプに注目して述語間の類似度を自動的に2kgにわたって捉える。 エンティティ埋め込みについては、TransAlignはまずTransEを用いて各KGのエンティティ埋め込みを独立に計算し、次に2つのKGのエンティティ埋め込みをそれらの属性に基づいたエンティティ間の類似性を計算することにより、同じベクトル空間にシフトする。 これにより、手動でシードアライメントを作成することなく、述語アライメントとエンティティアライメントの両方を行うことができる。 トランスアランシングは完全に自動化されるだけでなく、非常に効果的である。 実世界のkgsを用いた実験により、transalignは最先端の手法に比べてエンティティアライメントの精度が大幅に向上することが示された。

The task of entity alignment between knowledge graphs (KGs) aims to identify every pair of entities from two different KGs that represent the same entity. Many machine learning-based methods have been proposed for this task. However, to our best knowledge, existing methods all require manually crafted seed alignments, which are expensive to obtain. In this paper, we propose the first fully automatic alignment method named TransAlign, which does not require any manually crafted seed alignments. Specifically, for predicate embeddings, TransAlign constructs a predicate-proximity-graph to automatically capture the similarity between predicates across two KGs by learning the attention of entity types. For entity embeddings, TransAlign first computes the entity embeddings of each KG independently using TransE, and then shifts the two KGs' entity embeddings into the same vector space by computing the similarity between entities based on their attributes. Thus, both predicate alignment and entity alignment can be done without manually crafted seed alignments. TransAlign is not only fully automatic, but also highly effective. Experiments using real-world KGs show that TransAlign improves the accuracy of entity alignment significantly compared to state-of-the-art methods.
翻訳日:2022-10-18 16:12:37 公開日:2022-10-16
# 対物サンプルを用いた論理形式からの自然言語生成のロバスト性の検討

Investigating the Robustness of Natural Language Generation from Logical Forms via Counterfactual Samples ( http://arxiv.org/abs/2210.08548v1 )

ライセンス: Link先を確認
Chengyuan Liu, Leilei Gan, Kun Kuang, Fei Wu(参考訳) Logic2Textの目的は、テーブルと論理形式を深く理解するだけでなく、テーブル上の象徴的な推論を保証し、テーブルと論理形式に条件付けされた制御可能で忠実なテキストを生成することである。 事前訓練されたモデルに基づく最先端の手法は、標準テストデータセットで顕著なパフォーマンスを達成した。 しかし、これらの手法が、テーブルのヘッダーと論理形式の演算子の間の急激な相関にのみ依存するのではなく、論理的推論を行う方法を本当に学んでいるのか疑問である。 この仮説を検証するために, 元の論理形式を変更し, 滅多に共起しないテーブルヘッダーと論理演算子を持つ反事実論理形式を生成する反事実標本群を手作業で構築する。 SOTA法は,これらのサンプルに対して,我々の仮説を検証した元の試験データセットよりもはるかに悪い結果を与える。 この問題に対処するために,まず,このバイアスを因果的視点から分析し,モデルの近道依存度を低減するための2つのアプローチを提案する。 第一に、論理形式の階層構造をモデルに組み込む。 第2のものは、自動生成された反事実データをトレーニングに活用する。 原テストデータセットと偽データセットにおける自動および手動実験の結果から,本手法はスプリアス相関の緩和に有効であることが示された。 本研究は,従来の手法の弱点を指摘し,論理的推論能力を持つLogic2Textモデルの開発に向けてさらなる一歩を踏み出したものである。

The aim of Logic2Text is to generate controllable and faithful texts conditioned on tables and logical forms, which not only requires a deep understanding of the tables and logical forms, but also warrants symbolic reasoning over the tables. State-of-the-art methods based on pre-trained models have achieved remarkable performance on the standard test dataset. However, we question whether these methods really learn how to perform logical reasoning, rather than just relying on the spurious correlations between the headers of the tables and operators of the logical form. To verify this hypothesis, we manually construct a set of counterfactual samples, which modify the original logical forms to generate counterfactual logical forms with rarely co-occurred table headers and logical operators. SOTA methods give much worse results on these counterfactual samples compared with the results on the original test dataset, which verifies our hypothesis. To deal with this problem, we firstly analyze this bias from a causal perspective, based on which we propose two approaches to reduce the model's reliance on the shortcut. The first one incorporates the hierarchical structure of the logical forms into the model. The second one exploits automatically generated counterfactual data for training. Automatic and manual experimental results on the original test dataset and the counterfactual dataset show that our method is effective to alleviate the spurious correlation. Our work points out the weakness of previous methods and takes a further step toward developing Logic2Text models with real logical reasoning ability.
翻訳日:2022-10-18 16:12:16 公開日:2022-10-16
# normsage: オンザフライ会話からの多言語多文化標準発見

NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations On-the-Fly ( http://arxiv.org/abs/2210.08604v1 )

ライセンス: Link先を確認
Yi R. Fung, Tuhin Chakraborty, Hao Guo, Owen Rambow, Smaranda Muresan, Heng Ji(参考訳) 規範発見は、人間のコミュニケーションや相互作用において許容される行動や潜在的な侵害を理解し、推論するために重要である。 言語モデルと自己検証に基づく対話型多言語・多文化規範発見の新たな課題に対処するフレームワークであるNormSageを紹介した。 NormSAGEは、事前訓練されたGPT-3言語モデルのバックボーンの表現力と暗黙の知識を活用し、ノルム発見タスクと会話コンテキストを表す有向質問を通してノルムに関する知識を引き出す。 さらに、言語モデルの幻覚のリスクにも対処し、発見された規範が正し、ソースの会話に実質的に基づいていることを保証する自己検証機構を備える。 評価の結果,本手法はベースライン (>10+%) と比較して, 会話の質が有意に高く, 洞察力に富んでいることがわかった。 中国語の会話から発見された基準は、洞察力と正しさの点で英語の会話から発見された基準に匹敵する(3%差)。 さらに、文化固有の規範は品質に有望であり、文化のペアの人間の識別において80%の精度が得られる。 最後に、我々の標準発見自己検証の基盤化プロセスは、説明可能性と透明性を持って、与えられた会話の標準の遵守と違反をインスタンス化するために拡張することができる。 normsageのaucは95.4%で、自然言語による説明は人間が書いた品質に合致する。

Norm discovery is important for understanding and reasoning about the acceptable behaviors and potential violations in human communication and interactions. We introduce NormSage, a framework for addressing the novel task of conversation-grounded multi-lingual, multi-cultural norm discovery, based on language model prompting and self-verification. NormSAGE leverages the expressiveness and implicit knowledge of the pretrained GPT-3 language model backbone, to elicit knowledge about norms through directed questions representing the norm discovery task and conversation context. It further addresses the risk of language model hallucination with a self-verification mechanism ensuring that the norms discovered are correct and are substantially grounded to their source conversations. Evaluation results show that our approach discovers significantly more relevant and insightful norms for conversations on-the-fly compared to baselines (>10+% in Likert scale rating). The norms discovered from Chinese conversation are also comparable to the norms discovered from English conversation in terms of insightfulness and correctness (<3% difference). In addition, the culture-specific norms are promising quality, allowing for 80% accuracy in culture pair human identification. Finally, our grounding process in norm discovery self-verification can be extended for instantiating the adherence and violation of any norm for a given conversation on-the-fly, with explainability and transparency. NormSAGE achieves an AUC of 95.4% in grounding, with natural language explanation matching human-written quality.
翻訳日:2022-10-18 16:11:52 公開日:2022-10-16
# スラングにおける意味変化の追跡

Tracing Semantic Variation in Slang ( http://arxiv.org/abs/2210.08635v1 )

ライセンス: Link先を確認
Zhewei Sun and Yang Xu(参考訳) スラング用語の意味は地域によって異なる。 しかし、スラングの自然言語処理では、スラングの意味変化はよく理解されておらず、未解明である。 既存の見解では、スラングの意味のばらつきは文化に依存したコミュニケーションのニーズによって引き起こされる。 別の見解はスラングの社会的機能に焦点を当て、意味的区別を育むという欲求が、コミュニティ固有のスラング感覚の歴史的出現に繋がった可能性を示唆している。 これらの理論を計算モデルを用いて検討し,過去2世紀にわたって米国と英国で証明されたスラング利用の地理的変化の規則性を特徴付けることにより,歴史的なスラング辞書の項目に対して検証する。 我々のモデルは,歴史的スラング記録から出現するスラング語の意味の地域的同一性を予測することができることを示す。 コミュニケーションの必要性と意味的区別の両方がスラングの意味の変化に影響を及ぼすが、その相対的な重要性は歴史の過程で変動する。 我々の研究は、歴史的文化的要素をスラングの自然言語処理に組み込む機会を提供する。

The meaning of a slang term can vary in different communities. However, slang semantic variation is not well understood and under-explored in the natural language processing of slang. One existing view argues that slang semantic variation is driven by culture-dependent communicative needs. An alternative view focuses on slang's social functions suggesting that the desire to foster semantic distinction may have led to the historical emergence of community-specific slang senses. We explore these theories using computational models and test them against historical slang dictionary entries, with a focus on characterizing regularity in the geographical variation of slang usages attested in the US and the UK over the past two centuries. We show that our models are able to predict the regional identity of emerging slang word meanings from historical slang records. We offer empirical evidence that both communicative need and semantic distinction play a role in the variation of slang meaning yet their relative importance fluctuates over the course of history. Our work offers an opportunity for incorporating historical cultural elements into the natural language processing of slang.
翻訳日:2022-10-18 16:11:28 公開日:2022-10-16
# LAION-5B:次世代画像テキストモデルをトレーニングするための大規模オープンデータセット

LAION-5B: An open large-scale dataset for training next generation image-text models ( http://arxiv.org/abs/2210.08402v1 )

ライセンス: Link先を確認
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, Patrick Schramowski, Srivatsa Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk and Jenia Jitsev(参考訳) CLIPやDALL-Eのような画期的な言語ビジョンアーキテクチャは、標準視覚のアンモダル教師あり学習で使われる高価な正確なラベルに頼ることなく、大量のノイズの多い画像テキストデータをトレーニングするの有用性を証明した。 得られたモデルは、強力なテキスト誘導画像生成と下流タスクへの転送能力を示し、注目すべきアウト・オブ・ディストリビューション・ロバスト性を備えたゼロショット分類において顕著なパフォーマンスを示した。 それ以来、ALIGN、BASIC、GLIDE、Flamingo、Imagenといった大規模言語ビジョンモデルはさらに改善された。 このようなモデルのトレーニングと能力を研究するには、数十億のイメージテキストペアを含むデータセットが必要である。 これまで、このサイズのデータセットは、より広い研究コミュニティで公開されていない。 この問題に対処し,大規模マルチモーダルモデルの研究を民主化するために,585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを提案する。 本稿では,データセットを用いたクリップ,グライド,安定拡散などの基礎モデルのレプリケーションと微調整に成功し,このスケールでオープンに利用可能なデータセットで実現可能なさらなる実験について考察する。 さらに,近辺の複数の指標,データセット探索とサブセット生成のための改良されたwebインターフェース,ウォーターマーク,nsfw,有害コンテンツ検出のための検出スコアを提供する。 発表ページ https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/

Groundbreaking language-vision architectures like CLIP and DALL-E proved the utility of training on large amounts of noisy image-text data, without relying on expensive accurate labels used in standard vision unimodal supervised learning. The resulting models showed capabilities of strong text-guided image generation and transfer to downstream tasks, while performing remarkably at zero-shot classification with noteworthy out-of-distribution robustness. Since then, large-scale language-vision models like ALIGN, BASIC, GLIDE, Flamingo and Imagen made further improvements. Studying the training and capabilities of such models requires datasets containing billions of image-text pairs. Until now, no datasets of this size have been made openly available for the broader research community. To address this problem and democratize research on large-scale multi-modal models, we present LAION-5B - a dataset consisting of 5.85 billion CLIP-filtered image-text pairs, of which 2.32B contain English language. We show successful replication and fine-tuning of foundational models like CLIP, GLIDE and Stable Diffusion using the dataset, and discuss further experiments enabled with an openly available dataset of this scale. Additionally we provide several nearest neighbor indices, an improved web-interface for dataset exploration and subset generation, and detection scores for watermark, NSFW, and toxic content detection. Announcement page https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/
翻訳日:2022-10-18 16:04:01 公開日:2022-10-16
# 一様注意で視覚トランスフォーマーの背中をひっかく

Scratching Visual Transformer's Back with Uniform Attention ( http://arxiv.org/abs/2210.08457v1 )

ライセンス: Link先を確認
Nam Hyeon-Woo, Kim Yu-Ji, Byeongho Heo, Doonyoon Han, Seong Joon Oh, Tae-Hyun Oh(参考訳) 視覚変換器(ViT)の好ましい性能は、しばしばマルチヘッド自己注意(MSA)によるものである。 MSAは、複数の層にわたるインタラクションの範囲を徐々に増加させる畳み込みニューラルネットワーク(CNN)とは対照的な機能である、ViTモデルの各層でのグローバルなインタラクションを可能にする。 我々は注意の密度の役割について研究する。 予備分析の結果,注意マップの空間的相互作用は疎密な相互作用に近いことが示唆された。 これは興味深い現象であり、密度の高い注意マップは、その周りのより急なソフトマックス勾配のために、モデルが学ぶのが難しくなる。 我々はこれを、密接な相互作用を含むViTモデルの強い好みと解釈する。 したがって,vitモデルの各層に一様注意を配置し,必要な密接な相互作用を提供する。 我々はこの手法を Context Broadcasting, CB と呼ぶ。 CBの包含は、本来の注目マップにおける密度の程度を減少させ、ViTモデルのキャパシティと一般化可能性の両方を増大させる。 CBは無視可能なコストを発生させます:モデルのコードに1行、追加のパラメータなし、最小の余分な操作。

The favorable performance of Vision Transformers (ViTs) is often attributed to the multi-head self-attention (MSA). The MSA enables global interactions at each layer of a ViT model, which is a contrasting feature against Convolutional Neural Networks (CNNs) that gradually increase the range of interaction across multiple layers. We study the role of the density of the attention. Our preliminary analyses suggest that the spatial interactions of attention maps are close to dense interactions rather than sparse ones. This is a curious phenomenon, as dense attention maps are harder for the model to learn due to steeper softmax gradients around them. We interpret this as a strong preference for ViT models to include dense interaction. We thus manually insert the uniform attention to each layer of ViT models to supply the much needed dense interactions. We call this method Context Broadcasting, CB. We observe that the inclusion of CB reduces the degree of density in the original attention maps and increases both the capacity and generalizability of the ViT models. CB incurs negligible costs: 1 line in your model code, no additional parameters, and minimal extra operations.
翻訳日:2022-10-18 16:03:34 公開日:2022-10-16
# サンプルと集約の学習: 時間的知識グラフを用いたFew-shot Reasoning

Learning to Sample and Aggregate: Few-shot Reasoning over Temporal Knowledge Graphs ( http://arxiv.org/abs/2210.08654v1 )

ライセンス: Link先を確認
Ruijie Wang, Zheng Li, Dachun Sun, Shengzhong Liu, Jinning Li, Bing Yin, Tarek Abdelzaher(参考訳) 本稿では,進化的グラフにおける極めて限定的な観測に基づいて,新たな実体の将来の事実を予測することを目的とした,数発の時間的知識グラフ推論と呼ばれる現実的で未探索な問題を考察する。 時間的知識グラフ(TKG)における新しいエンティティに関する即時的な新しい知識を最小限の監督で導き出す必要があるアプリケーションにおいて、実用的な価値を提供する。 課題は主に、新しいエンティティのマイナショットとタイムシフト特性から生じている。 まず、それらに関連する限られた観測は、モデルをゼロからトレーニングするには不十分である。 第二に、初期の観測可能な事実から将来の事実への潜在的動的分布は、新しいエンティティの進化的特性を明示的にモデル化する必要がある。 本稿では,新しいメタ時間知識グラフ推論(metatkgr)フレームワークを提案する。 低データエンティティ表現を強化するための厳密な近隣アグリゲーションスキームに依存する以前の作業とは異なり、MetaTKGRは、新しいエンティティの最近の事実から隣人をサンプリングし、集約する戦略を動的に調整する。 さらに、このようなメタ時間的推論手順は、大きなエンティティ分散で時間的適応を処理できない静的知識グラフの既存のメタ学習パラダイムを超えている。 さらに,理論解析を行い,時間とともに時間的推論を安定化する時間適応正則化器を提案する。 経験的に、3つの現実世界のTKGに関する広範な実験は、MetaTKGRが最先端のベースラインよりも大きなマージンで優れていることを示した。

In this paper, we investigate a realistic but underexplored problem, called few-shot temporal knowledge graph reasoning, that aims to predict future facts for newly emerging entities based on extremely limited observations in evolving graphs. It offers practical value in applications that need to derive instant new knowledge about new entities in temporal knowledge graphs (TKGs) with minimal supervision. The challenges mainly come from the few-shot and time shift properties of new entities. First, the limited observations associated with them are insufficient for training a model from scratch. Second, the potentially dynamic distributions from the initially observable facts to the future facts ask for explicitly modeling the evolving characteristics of new entities. We correspondingly propose a novel Meta Temporal Knowledge Graph Reasoning (MetaTKGR) framework. Unlike prior work that relies on rigid neighborhood aggregation schemes to enhance low-data entity representation, MetaTKGR dynamically adjusts the strategies of sampling and aggregating neighbors from recent facts for new entities, through temporally supervised signals on future facts as instant feedback. Besides, such a meta temporal reasoning procedure goes beyond existing meta-learning paradigms on static knowledge graphs that fail to handle temporal adaptation with large entity variance. We further provide a theoretical analysis and propose a temporal adaptation regularizer to stabilize the meta temporal reasoning over time. Empirically, extensive experiments on three real-world TKGs demonstrate the superiority of MetaTKGR over state-of-the-art baselines by a large margin.
翻訳日:2022-10-18 15:55:35 公開日:2022-10-16
# 長文生成のためのモデル批判

Model Criticism for Long-Form Text Generation ( http://arxiv.org/abs/2210.08444v1 )

ライセンス: Link先を確認
Yuntian Deng, Volodymyr Kuleshov, Alexander M. Rush(参考訳) 言語モデルは高度に流動的なテキストを生成する能力を示したが、その出力が一貫性のある高レベル構造(例えば物語の進行)を維持しているかどうかは不明である。 本稿では,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用することを提案する。 モデル批判は、仮定生成プロセスに従って得られた潜在空間における実データと生成データの分布を比較する。 異なる生成プロセスは、基盤モデルの特定の障害モードを特定する。 コヒーレンス(coherence)、コリファレンス(coreference)、およびトピック性( topicality)の3つの代表的な側面について実験を行い、トランスフォーマティブベースの言語モデルがトピック構造をキャプチャできるが、構造コヒーレンスやモデリングコリファレンスを維持するのが難しいことを発見した。

Language models have demonstrated the ability to generate highly fluent text; however, it remains unclear whether their output retains coherent high-level structure (e.g., story progression). Here, we propose to apply a statistical tool, model criticism in latent space, to evaluate the high-level structure of the generated text. Model criticism compares the distributions between real and generated data in a latent space obtained according to an assumptive generative process. Different generative processes identify specific failure modes of the underlying model. We perform experiments on three representative aspects of high-level discourse -- coherence, coreference, and topicality -- and find that transformer-based language models are able to capture topical structures but have a harder time maintaining structural coherence or modeling coreference.
翻訳日:2022-10-18 15:53:33 公開日:2022-10-16
# オンライン意思決定のパフォーマンス保証によるPAC-Bayes Gaussianプロセスの回帰ストリーミング

Streaming PAC-Bayes Gaussian process regression with a performance guarantee for online decision making ( http://arxiv.org/abs/2210.08486v1 )

ライセンス: Link先を確認
Tianyu Liu, Jie Lu, Zheng Yan, Guangquan Zhang(参考訳) 強力なベイズ非パラメータ化アルゴリズムとして、ガウス過程(gp)はベイズ最適化と信号処理において重要な役割を果たす。 GPは後部分布がクローズドなソリューションであるため、オンライン意思決定システムも進歩している。 しかしながら、トレーニングと推論のプロセスでは、すべての履歴データを格納し、GPモデルをスクラッチからトレーニングする必要がある。 このため、O-SGPRやO-SVGPといったオンラインGPアルゴリズムは、ストリーミング設定用に特別に設計されている。 本稿では,オンライン・アベイズ理論(pacベイズ理論)に基づくオンラインgpsの新しい理論的枠組みを提案する。 このフレームワークは、一般的なパフォーマンスと精度の保証を提供する。 本アルゴリズムは,限界確率を最小化する代わりに,パラメータの先行分布と後続分布のばらつきに比例して,経験的リスク関数と正規化項目の両方を最適化する。 その理論的な魅力に加えて、アルゴリズムはいくつかの回帰データセットで経験的にうまく機能する。 他のオンラインGPアルゴリズムと比較すると、一般化保証と非常に競争的な精度が得られる。

As a powerful Bayesian non-parameterized algorithm, the Gaussian process (GP) has performed a significant role in Bayesian optimization and signal processing. GPs have also advanced online decision-making systems because their posterior distribution has a closed-form solution. However, its training and inference process requires all historic data to be stored and the GP model to be trained from scratch. For those reasons, several online GP algorithms, such as O-SGPR and O-SVGP, have been specifically designed for streaming settings. In this paper, we present a new theoretical framework for online GPs based on the online probably approximately correct (PAC) Bayes theory. The framework offers both a guarantee of generalized performance and good accuracy. Instead of minimizing the marginal likelihood, our algorithm optimizes both the empirical risk function and a regularization item, which is in proportion to the divergence between the prior distribution and posterior distribution of parameters. In addition to its theoretical appeal, the algorithm performs well empirically on several regression datasets. Compared to other online GP algorithms, ours yields a generalization guarantee and very competitive accuracy.
翻訳日:2022-10-18 15:53:17 公開日:2022-10-16
# 制限データを用いたオフライン強化学習のためのデータ効率のよいパイプライン

Data-Efficient Pipeline for Offline Reinforcement Learning with Limited Data ( http://arxiv.org/abs/2210.08642v1 )

ライセンス: Link先を確認
Allen Nie, Yannis Flet-Berliac, Deon R. Jordan, William Steenbergen, Emma Brunskill(参考訳) オフライン強化学習(RL)は,過去のデータを活用することで,今後のパフォーマンス向上に有効である。 オフラインRLには多くの異なるアルゴリズムが存在するが、これらのアルゴリズムとそのハイパーパラメータ設定は、かなり異なる性能で決定ポリシーを導出できるとよく認識されている。 これにより、実践者が設定のためにアルゴリズム-ハイパーパラメータ選択を体系的に実行できるようにするパイプラインの必要性が高まる。 批判的に、ほとんどの現実世界の設定では、このパイプラインは履歴データの使用のみを伴わなければならない。 教師付き学習のための統計モデル選択法に着想を得て,提案するデータセットのサイズが制限された場合に,最適なポリシを自動訓練,比較,選択,展開するためのタスク・メソッドに依存しないパイプラインを導入する。 特に、より信頼性の高いアルゴリズム-ハイパーパラメータ選択を生成するために、複数のデータ分割を実行することの重要性を強調します。 これは教師あり学習において一般的なアプローチであるが、我々の知識では、オフラインのRL設定では詳細は議論されていない。 データセットが小さい場合には、大きな影響を与える可能性がある。 従来のアプローチと比較して,オフラインポリシ学習アルゴリズムや,医療,教育,ロボティクスといったさまざまなシミュレーションドメインから,高いパフォーマンスの展開ポリシを出力します。 本研究は,オフラインrlのためのアルゴリズムハイパーパラメータ自動選択のための汎用メタアルゴリズムの開発に寄与する。

Offline reinforcement learning (RL) can be used to improve future performance by leveraging historical data. There exist many different algorithms for offline RL, and it is well recognized that these algorithms, and their hyperparameter settings, can lead to decision policies with substantially differing performance. This prompts the need for pipelines that allow practitioners to systematically perform algorithm-hyperparameter selection for their setting. Critically, in most real-world settings, this pipeline must only involve the use of historical data. Inspired by statistical model selection methods for supervised learning, we introduce a task- and method-agnostic pipeline for automatically training, comparing, selecting, and deploying the best policy when the provided dataset is limited in size. In particular, our work highlights the importance of performing multiple data splits to produce more reliable algorithm-hyperparameter selection. While this is a common approach in supervised learning, to our knowledge, this has not been discussed in detail in the offline RL setting. We show it can have substantial impacts when the dataset is small. Compared to alternate approaches, our proposed pipeline outputs higher-performing deployed policies from a broad range of offline policy learning algorithms and across various simulation domains in healthcare, education, and robotics. This work contributes toward the development of a general-purpose meta-algorithm for automatic algorithm-hyperparameter selection for offline RL.
翻訳日:2022-10-18 15:53:01 公開日:2022-10-16
# 高価な多目的最適化のためのpareto set learning

Pareto Set Learning for Expensive Multi-Objective Optimization ( http://arxiv.org/abs/2210.08495v1 )

ライセンス: Link先を確認
Xi Lin, Zhiyuan Yang, Xiaoyuan Zhang, Qingfu Zhang(参考訳) 膨大な多目的最適化問題は、その目的関数評価が高価な計算や物理実験を含む多くの実世界のアプリケーションで見られる。 評価予算が限定された近似したパレートフロントを得るのが望ましい。 多目的ベイズ最適化(MOBO)はパレート最適解の有限集合を見つけるために広く用いられている。 しかしながら、パレート集合全体が連続多様体上にあり、無限解を含むことはよく知られている。 パレート集合の構造的性質は既存のMOBO法ではうまく利用されておらず、有限集合近似は意思決定者にとって最も望ましい解を含まないかもしれない。 本稿では, 有限集団からモデルへの分解型多目的最適化アルゴリズム(MOEA/D)を一般化したMOBOのパレート集合全体を近似する新しい学習法を提案する。 我々は,バッチ評価を自然にサポートする学習パレート集合に基づく,シンプルで強力な獲得探索法を設計する。 さらに,提案モデルでは,フレキシブルな意思決定のための近似パレート集合における任意のトレードオフ領域を,意思決定者が容易に探索できる。 この仕事は、高価な多目的最適化のためにパレート集合をモデル化する最初の試みである。 異なる合成および実世界の問題に対する実験結果から,提案手法の有効性が示された。

Expensive multi-objective optimization problems can be found in many real-world applications, where their objective function evaluations involve expensive computations or physical experiments. It is desirable to obtain an approximate Pareto front with a limited evaluation budget. Multi-objective Bayesian optimization (MOBO) has been widely used for finding a finite set of Pareto optimal solutions. However, it is well-known that the whole Pareto set is on a continuous manifold and can contain infinite solutions. The structural properties of the Pareto set are not well exploited in existing MOBO methods, and the finite-set approximation may not contain the most preferred solution(s) for decision-makers. This paper develops a novel learning-based method to approximate the whole Pareto set for MOBO, which generalizes the decomposition-based multi-objective optimization algorithm (MOEA/D) from finite populations to models. We design a simple and powerful acquisition search method based on the learned Pareto set, which naturally supports batch evaluation. In addition, with our proposed model, decision-makers can readily explore any trade-off area in the approximate Pareto set for flexible decision-making. This work represents the first attempt to model the Pareto set for expensive multi-objective optimization. Experimental results on different synthetic and real-world problems demonstrate the effectiveness of our proposed method.
翻訳日:2022-10-18 15:46:23 公開日:2022-10-16
# Bi-GRU(AED-ISS)搭載国際宇宙ステーションにおける緊急ダストフリー自動解法

Automatic Emergency Dust-Free solution on-board International Space Station with Bi-GRU (AED-ISS) ( http://arxiv.org/abs/2210.08549v1 )

ライセンス: Link先を確認
Po-Han Hou, Hong-Chun Hou, Wei-Chih Lin, Yu-Hao Huang, Jih-Hong Shue(参考訳) PM2.5やPM0.3の問題に注目が集まる中、粒子状物質は環境と人間の両方にとって潜在的脅威となるだけでなく、国際宇宙ステーション(ISS)の機器にも害を与えている。 我々のチームは、粒子状物質の様々な濃度を磁場、湿度、加速度、温度、圧力、CO2濃度に関連付けることを目指している。 我々の目標は、粒子状物質のレベルを予測し、宇宙飛行士がいくつかの実験で機器を保護するための十分な反応時間を提供する早期警報システム(ews)を確立することであり、さらに、火災に関連するアプリケーションのためのリモートセンシングスモークアラームのプロトタイプとして、構築されたモデルをさらに開発することである。 本稿では,90分以上データを収集し,次の1分間に2.5マイクロメートル/0.1リットル以上の粒子のレベルを予測するbi-gru(bidirectional gated recurrent unit)アルゴリズムを実装し,早期警告として分類する。

With a rising attention for the issue of PM2.5 or PM0.3, particulate matters have become not only a potential threat to both the environment and human, but also a harming existence to instruments onboard International Space Station (ISS). Our team is aiming to relate various concentration of particulate matters to magnetic fields, humidity, acceleration, temperature, pressure and CO2 concentration. Our goal is to establish an early warning system (EWS), which is able to forecast the levels of particulate matters and provides ample reaction time for astronauts to protect their instruments in some experiments or increase the accuracy of the measurements; In addition, the constructed model can be further developed into a prototype of a remote-sensing smoke alarm for applications related to fires. In this article, we will implement the Bi-GRU (Bidirectional Gated Recurrent Unit) algorithms that collect data for past 90 minutes and predict the levels of particulates which over 2.5 micrometer per 0.1 liter for the next 1 minute, which is classified as an early warning
翻訳日:2022-10-18 15:45:25 公開日:2022-10-16
# SVMのための新しい三角関数

A new trigonometric kernel function for SVM ( http://arxiv.org/abs/2210.08585v1 )

ライセンス: Link先を確認
Sajad Fathi Hafshejani, Zahra Moberfard(参考訳) 近年,いくつかの機械学習アルゴリズムが提案されている。 その中でも、カーネルアプローチは分類の強力なツールと考えられている。 適切なカーネル関数を使用すると、分類の精度が大幅に向上する。 本研究の目的は,機械学習アルゴリズムのパラメータを1つ含む新しい三角関数を導入することである。 簡単な数学的ツールを用いて、提案したカーネル関数のいくつかの有用な特性を示す。 また,カーネル-SVM法とカーネル-SVR法の実証評価を行い,他のカーネル関数と比較して高い性能を示す。

In recent years, several machine learning algorithms have been proposed. Among of them, kernel approaches have been considered as a powerful tool for classification. Using an appropriate kernel function can significantly improve the accuracy of the classification. The main goal of this paper is to introduce a new trigonometric kernel function containing one parameter for the machine learning algorithms. Using simple mathematical tools, several useful properties of the proposed kernel function are presented. We also conduct an empirical evaluation on the kernel-SVM and kernel-SVR methods and demonstrate its strong performance compared to other kernel functions.
翻訳日:2022-10-18 15:45:07 公開日:2022-10-16
# きめ細かな暗黙的談話関係認識のためのpromply-based connective prediction法

Prompt-based Connective Prediction Method for Fine-grained Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2210.07032v2 )

ライセンス: Link先を確認
Hao Zhou, Man Lan, Yuanbin Wu, Yuefeng Chen and Meirong Ma(参考訳) 接続性がないため、暗黙の談話関係認識(IDRR)は依然として、談話分析において困難な課題である。 現在の研究の多くは、明示的な談話関係認識(EDRR)を通じてIDRRを支援するためにマルチタスク学習を採用し、またモデル予測を制約するために、談話関係ラベル間の依存関係を利用した。 しかし、これらの手法はいまだに細粒度IDRRではうまく動作せず、ほとんどショットの談話関係のクラスでは完全に誤同定されている。 これらの問題に対処するために,IDRR のための新しい Prompt-based Connective Prediction (PCP) 手法を提案する。 提案手法は,大規模事前学習モデルに対して,会話関係に関する知識を利用することを指示し,接続関係と談話関係の強い相関を利用して,暗黙的な会話関係の認識を支援する。 実験の結果,本手法は現在の最先端モデルを上回っており,その細粒度小数発の談話関係において有意な改善が得られた。 さらに,本手法はEDRRに移行し,許容可能な結果が得られる。 私たちのコードは、https://github.com/zh-i9/PCP-for-IDRRでリリースされています。

Due to the absence of connectives, implicit discourse relation recognition (IDRR) is still a challenging and crucial task in discourse analysis. Most of the current work adopted multi-task learning to aid IDRR through explicit discourse relation recognition (EDRR) or utilized dependencies between discourse relation labels to constrain model predictions. But these methods still performed poorly on fine-grained IDRR and even utterly misidentified on most of the few-shot discourse relation classes. To address these problems, we propose a novel Prompt-based Connective Prediction (PCP) method for IDRR. Our method instructs large-scale pre-trained models to use knowledge relevant to discourse relation and utilizes the strong correlation between connectives and discourse relation to help the model recognize implicit discourse relations. Experimental results show that our method surpasses the current state-of-the-art model and achieves significant improvements on those fine-grained few-shot discourse relation. Moreover, our approach is able to be transferred to EDRR and obtain acceptable results. Our code is released in https://github.com/zh-i9/PCP-for-IDRR.
翻訳日:2022-10-18 13:27:22 公開日:2022-10-16