このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220731となっている論文です。

PDF登録状況(公開日: 20220731)

TitleAuthorsAbstract論文公表日・翻訳日
# meddg:エンティティ対応医療対話生成のためのエンティティ中心医療相談データセット

MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware Medical Dialogue Generation ( http://arxiv.org/abs/2010.07497v2 )

ライセンス: Link先を確認
Wenge Liu, Jianheng Tang, Yi Cheng, Wenjie Li, Yefeng Zheng, Xiaodan Liang(参考訳) 患者と対話し、主要な臨床アドバイスを提供するための会話エージェントの開発は、特にCOVID-19パンデミックの時代に、その大きな応用可能性のために注目を集めている。 しかし、エンドツーエンドの医療対話システムの訓練は、不十分な量の医療対話コーパスによって制限される。 本研究では,オンライン・ヘルス・コンサルテーション・コミュニティから1万7千以上の会話を収集し,meddgと呼ばれる12種類の共通消化器疾患に関連する大規模高品質医療対話データセットを構築し,公開する試みを行った。 疾患、症状、属性、検査、薬品を含む5つの異なるカテゴリーのエンティティは、追加ラベルとしてMedDGの会話毎に注釈付けされる。 専門家に敏感な医療対話システムの構築に向けた今後の研究を進めるために,MedDGデータセットに基づく2種類の医療対話タスクを提案する。 1つは次のエンティティ予測であり、もう1つは医師の反応生成である。 これら2つの医療対話タスクを明確に理解するために,最先端のベンチマークを複数実装するとともに,予測された実体を考慮に入れた2つの対話モデルの設計を行った。 実験の結果,プレトレイン言語モデルやベースラインは,データセットの性能が劣るタスクと,補助的なエンティティ情報を用いて応答品質を向上させることができることがわかった。 人的評価から, 簡易検索モデルは最先端生成モデルよりも優れており, 医学的に有意義な応答を生成するための改善の余地が依然として残っていることを示唆する。

Developing conversational agents to interact with patients and provide primary clinical advice has attracted increasing attention due to its huge application potential, especially in the time of COVID-19 Pandemic. However, the training of end-to-end neural-based medical dialogue system is restricted by an insufficient quantity of medical dialogue corpus. In this work, we make the first attempt to build and release a large-scale high-quality Medical Dialogue dataset related to 12 types of common Gastrointestinal diseases named MedDG, with more than 17K conversations collected from the online health consultation community. Five different categories of entities, including diseases, symptoms, attributes, tests, and medicines, are annotated in each conversation of MedDG as additional labels. To push forward the future research on building expert-sensitive medical dialogue system, we proposes two kinds of medical dialogue tasks based on MedDG dataset. One is the next entity prediction and the other is the doctor response generation. To acquire a clear comprehension on these two medical dialogue tasks, we implement several state-of-the-art benchmarks, as well as design two dialogue models with a further consideration on the predicted entities. Experimental results show that the pre-train language models and other baselines struggle on both tasks with poor performance in our dataset, and the response quality can be enhanced with the help of auxiliary entity information. From human evaluation, the simple retrieval model outperforms several state-of-the-art generative models, indicating that there still remains a large room for improvement on generating medically meaningful responses.
翻訳日:2022-10-07 02:50:03 公開日:2022-07-31
# 家庭内ロボットのためのオブジェクトベース状態推定器の学習

Learning Object-Based State Estimators for Household Robots ( http://arxiv.org/abs/2011.03183v4 )

ライセンス: Link先を確認
Yilun Du, Tomas Lozano-Perez, Leslie Kaelbling(参考訳) 家庭で運用されているロボットは、数日から数週間かけて動き回る複数の物体を観察します。 物体は住民によって移動されるが、完全にはランダムではない。 ロボットはその後、オブジェクトを検索するために呼び出され、それを見つけるために長期的なオブジェクトベースのメモリが必要になる。 semantic slamの既存の仕事は、オブジェクトの動きのダイナミクスを捉えようとはしない。 本稿では,従来のデータ連想フィルタリング技術と現代の注目型ニューラルネットワークを組み合わせることで,高次元観測と仮説に基づくオブジェクトベースのメモリシステムを構築する。 ラベル付き観測軌道上でエンドツーエンド学習を行い,遷移モデルと観測モデルの両方を学習する。 シミュレーション環境と実画像の両方において,動的に変化するオブジェクトのメモリ保持におけるシステムの有効性を実証し,従来の構造化アプローチや非構造化ニューラルアプローチに対する改善を示す。 プロジェクトのWebサイトにある追加情報は、https://yilundu.github.io/obm/.com/だ。

A robot operating in a household makes observations of multiple objects as it moves around over the course of days or weeks. The objects may be moved by inhabitants, but not completely at random. The robot may be called upon later to retrieve objects and will need a long-term object-based memory in order to know how to find them. Existing work in semantic slam does not attempt to capture the dynamics of object movement. In this paper, we combine some aspects of classic techniques for data-association filtering with modern attention-based neural networks to construct object-based memory systems that operate on high-dimensional observations and hypotheses. We perform end-to-end learning on labeled observation trajectories to learn both the transition and observation models. We demonstrate the system's effectiveness in maintaining memory of dynamically changing objects in both simulated environment and real images, and demonstrate improvements over classical structured approaches as well as unstructured neural approaches. Additional information available at project website: https://yilundu.github.io/obm/.
翻訳日:2022-09-29 04:32:50 公開日:2022-07-31
# Twitterを用いたイベント検出に関する小さな調査

A Small Survey On Event Detection Using Twitter ( http://arxiv.org/abs/2011.05801v2 )

ライセンス: Link先を確認
Debanjan Datta(参考訳) Twitterを用いたイベント検出に関する小さな調査。 この研究はまず問題ステートメントを定義し、その問題を解決するためのさまざまな研究成果を要約し、まとめる。

A small survey on event detection using Twitter. This work first defines the problem statement, and then summarizes and collates the different research works towards solving the problem.
翻訳日:2022-09-28 02:29:03 公開日:2022-07-31
# メタバースにおける実世界デバイスとデジタルモデル同期のためのサンプリング・コミュニケーション・予測共同設計

Sampling, Communication, and Prediction Co-Design for Synchronizing the Real-World Device and Digital Model in Metaverse ( http://arxiv.org/abs/2208.04233v1 )

ライセンス: Link先を確認
Zhen Meng, Changyang She, Guodong Zhao, and Daniele De Martini(参考訳) メタバースは、Mixed Reality(MR)技術によって高度にインタラクティブなサービスをサポートすることによって、インターネットの次世代に革命をもたらす可能性がある。 本研究は、実世界のデバイスとそのデジタルモデル間の平均二乗誤差(mse)追跡の制約を受ける通信負荷を最小限に抑えるためのサンプリング・通信・予測共設計フレームワークを提案する。 サンプリング速度と予測の地平線を最適化するために、専門知識を活用し、kc-td3ポリシー勾配アルゴリズムと呼ばれる制約付き深層強化学習(drl)アルゴリズムを開発した。 実世界のロボットアームとそのデジタルモデルからなるプロトタイプ上で,我々のフレームワークを検証する。 1) トラッキングエラー制約が厳密な場合(MSE=0.002度)、このポリシーはサンプリング・コミュニケーション協調設計フレームワークにおいてポリシーに縮退する。 2) 追従誤差制約が穏やかな場合(MSE=0.007度)、予測・通信協調設計の枠組みでポリシーに縮退する。 3) 平均mseと平均通信負荷とのトレードオフは, サンプリングや予測を行わず, 通信システムと比較して良好である。 例えば、トラックエラーの制約が0.002度である場合、平均的な通信負荷は87%まで削減できる。 (4)本ポリシーは,追跡誤差のテール確率の観点から,徹底探索により最適化された静的サンプリング率と予測地平線でベンチマークを上回っている。 さらに,提案手法であるkc-td3は,専門家の知識を活かし,収束時間,安定性,最終的な政策性能の向上を実現している。

The metaverse has the potential to revolutionize the next generation of the Internet by supporting highly interactive services with the help of Mixed Reality (MR) technologies; still, to provide a satisfactory experience for users, the synchronization between the physical world and its digital models is crucial. This work proposes a sampling, communication and prediction co-design framework to minimize the communication load subject to a constraint on tracking the Mean Squared Error (MSE) between a real-world device and its digital model in the metaverse. To optimize the sampling rate and the prediction horizon, we exploit expert knowledge and develop a constrained Deep Reinforcement Learning (DRL) algorithm, named Knowledge-assisted Constrained Twin-Delayed Deep Deterministic (KC-TD3) policy gradient algorithm. We validate our framework on a prototype composed of a real-world robotic arm and its digital model. Compared with existing approaches: (1) When the tracking error constraint is stringent (MSE=0.002 degrees), our policy degenerates into the policy in the sampling-communication co-design framework. (2) When the tracking error constraint is mild (MSE=0.007 degrees), our policy degenerates into the policy in the prediction-communication co-design framework. (3) Our framework achieves a better trade-off between the average MSE and the average communication load compared with a communication system without sampling and prediction. For example, the average communication load can be reduced up to 87% when the track error constraint is 0.002 degrees. (4) Our policy outperforms the benchmark with the static sampling rate and prediction horizon optimized by exhaustive search, in terms of the tail probability of the tracking error. Furthermore, with the assistance of expert knowledge, the proposed algorithm KC-TD3 achieves better convergence time, stability, and final policy performance.
翻訳日:2022-08-14 18:12:00 公開日:2022-07-31
# 遠隔医療におけるAI:仮想診断ソリューション(VDS)に対するディープラーニングに基づくアプローチの評価

AI in Telemedicine: An Appraisal on Deep Learning-Based Approaches to Virtual Diagnostic Solutions (VDS) ( http://arxiv.org/abs/2208.04690v1 )

ライセンス: Link先を確認
Ozioma Collins Oguine, Kanyifeechukwu Jane Oguine(参考訳) 医療提供へのアプローチとしての遠隔医療の進歩は、近代医学の新しい夜明けを告げた。 現代社会における急速な発展は、人工知能と情報技術の進歩への信条である。 本稿では、VDS(Virtual Diagnostic Solutions)の強化における様々なテレメディカルイノベーションのユーザビリティについて、より包括的な視点で、医療提供におけるAIの実装を広く探求するための記述的研究を行う。 本研究は,仮想診断ソリューションのためのディープラーニングモデル最適化における顕著な発展について考察する。 仮想診断ソリューション(vds)と予測可能な課題に関するさらなる研究レビューも紹介された。 本研究は,Deep Learning-based approach to Virtual Diagnostic Solutionsを中心に,遠隔医療における人工知能の概要を概説する。

Advancements in Telemedicine as an approach to healthcare delivery have heralded a new dawn in modern Medicine. Its fast-paced development in our contemporary society is credence to the advances in Artificial Intelligence and Information Technology. This paper carries out a descriptive study to broadly explore AI's implementations in healthcare delivery with a more holistic view of the usability of various Telemedical Innovations in enhancing Virtual Diagnostic Solutions (VDS). This research further explores notable developments in Deep Learning model optimizations for Virtual Diagnostic Solutions. A further research review on the prospects of Virtual Diagnostic Solutions (VDS) and foreseeable challenges was also highlighted. Conclusively, this research gives a general overview of Artificial Intelligence in Telemedicine with a central focus on Deep Learning-based approaches to Virtual Diagnostic Solutions.
翻訳日:2022-08-14 18:11:09 公開日:2022-07-31
# 視覚言語概念システムのクロスモーダルアライメント学習

Cross-Modal Alignment Learning of Vision-Language Conceptual Systems ( http://arxiv.org/abs/2208.01744v1 )

ライセンス: Link先を確認
Taehyeong Kim, Hyeonseop Song, Byoung-Tak Zhang(参考訳) 人間の幼児はオブジェクトの名前を学び、明示的な監督なしに独自の概念システムを開発する。 本研究では,幼児の単語学習に触発された視覚言語概念体系を学習する手法を提案する。 提案モデルは,視覚オブジェクトと単語の関連をオンライン上で学習し,徐々に相互モーダル関係グラフネットワークを構築する。 さらに,クロスモーダル関係グラフネットワークに基づいて,視覚オブジェクトと単語の意味表現を自己教師あり方式で学習するアライメント型クロスモーダル表現学習手法を提案する。 概念的に同じ意味を持つ異なるモダリティを持つエンティティが、同様の意味表現ベクトルを持つことができる。 対象語間マッピングやゼロショット学習タスクを含む手法を定量的に定性的に評価し,提案手法がベースラインを著しく上回り,各概念系がトポロジ的に整合していることを示す。

Human infants learn the names of objects and develop their own conceptual systems without explicit supervision. In this study, we propose methods for learning aligned vision-language conceptual systems inspired by infants' word learning mechanisms. The proposed model learns the associations of visual objects and words online and gradually constructs cross-modal relational graph networks. Additionally, we also propose an aligned cross-modal representation learning method that learns semantic representations of visual objects and words in a self-supervised manner based on the cross-modal relational graph networks. It allows entities of different modalities with conceptually the same meaning to have similar semantic representation vectors. We quantitatively and qualitatively evaluate our method, including object-to-word mapping and zero-shot learning tasks, showing that the proposed model significantly outperforms the baselines and that each conceptual system is topologically aligned.
翻訳日:2022-08-04 13:02:47 公開日:2022-07-31
# ガラスの異常構造にディープニューラルネットワークは何が見えるか?

What Do Deep Neural Networks Find in Disordered Structures of Glasses? ( http://arxiv.org/abs/2208.00349v1 )

ライセンス: Link先を確認
Norihiro Oyama, Shihori Koyama, and Takeshi Kawasaki(参考訳) ガラス転移は、様々な種類の軟質物質系で広く観察されている。 しかし、これらの遷移の物理的メカニズムは、長年の野心的な研究にもかかわらず不明である。 特に、ガラス転移が特徴的静的構造の相関長のばらつきを伴うかどうかが重要な未解決問題である。 近年,ガラス形成液の典型モデルであるkob-andersen系では,静的情報から長時間のダイナミクスを高精度に予測する手法が提案されている。 本研究では,機械学習,特に畳み込みニューラルネットワークを用いて,眼鏡の特徴構造を抽出する手法を開発した。 特に,ネットワークによる決定の根拠を定量化し,特徴構造を抽出した。 2つの定性的に異なるガラス形成二元系を考察し,いくつかの確立した構造指標との比較により,システムの詳細に依存する特性構造を識別できることを実証した。 得られた構造は熱揺らぎの非平衡時効力学と強く相関していた。

Glass transitions are widely observed in a range of types of soft matter systems. However, the physical mechanism of these transitions remains unknown, despite years of ambitious research. In particular, an important unanswered question is whether the glass transition is accompanied by a divergence of the correlation lengths of the characteristic static structures. Recently, a method that can predict long-time dynamics from purely static information with high accuracy was proposed; however, even this method is not universal and does not work well for the Kob--Andersen system, which is a typical model of glass-forming liquids. In this study, we developed a method to extract the characteristic structures of glasses using machine learning or, specifically, a convolutional neural network. In particular, we extracted the characteristic structures by quantifying the grounds for the decisions made by the network. We considered two qualitatively different glass-forming binary systems and, through comparisons with several established structural indicators, we demonstrate that our system can identify characteristic structures that depend on the details of the systems. Surprisingly, the extracted structures were strongly correlated with the nonequilibrium aging dynamics on thermal fluctuation.
翻訳日:2022-08-02 15:02:23 公開日:2022-07-31
# ルーティングゲームにおける相関平衡学習に関する実験的研究

An Experimental Study on Learning Correlated Equilibrium in Routing Games ( http://arxiv.org/abs/2208.00391v1 )

ライセンス: Link先を確認
Yixian Zhu and Ketan Savla(参考訳) リンク遅延関数を不確定な状態が決定し,エージェントがプライベートなルートレコメンデーションを受ける繰り返しルーティングゲームにおいて,経路選択について検討する。 状態は、公知の分布から各ラウンドごとにi.i.d.方法でサンプリングされ、その推奨は、状態からのマッピングが公に知られているランダム化ポリシーによって生成される。 ワンショット設定では、エージェントは後部予想で最小の旅行時間を与える場合、推奨に従うとされる。 繰り返し設定へのもっともらしい拡張は、ラウンドにおける推奨に従う可能性は、以前のラウンドからの後悔に関係しているということだ。 後悔がデフォルトの選択に関して型を満足し、過去のラウンドと全てのエージェントで平均化されている場合、従順な推奨ポリシーの下での漸近的な結果は、一発の結果と一致する。 我々は,コンピュータ上で繰り返し経路選択を行う1人の参加者による実験から得られた知見を報告する。 各ラウンドにおいて、参加者は各ルートの走行時間分布、従順なポリシーによって生成されたルートレコメンデーション、および前回の参加者の平均体験を推奨する評価を示す。 経路選択に入ると、実際の走行時間が表示される。 参加者はレビューを提出して推薦の質を評価する。 これは過去のレビューと組み合わされ、次のラウンドのレーティングを更新する。 それぞれ100ラウンドの参加者33名のデータ分析から,表示率と平均後悔率との間には中程度の負の相関がみられ,評価値と後続の推奨率との間には強い正の相関がみられた。 概して、従順な推奨政策の下では、評価は実験の終了までに最大値にほぼ収束し、後続の勧告の頻度が非常に高い。

We study route choice in a repeated routing game where an uncertain state of nature determines link latency functions, and agents receive private route recommendation. The state is sampled in an i.i.d. manner in every round from a publicly known distribution, and the recommendations are generated by a randomization policy whose mapping from the state is known publicly. In a one-shot setting, the agents are said to obey recommendation if it gives the smallest travel time in a posteriori expectation. A plausible extension to repeated setting is that the likelihood of following recommendation in a round is related to regret from previous rounds. If the regret is of satisficing type with respect to a default choice and is averaged over past rounds and over all agents, then the asymptotic outcome under an obedient recommendation policy coincides with the one-shot outcome. We report findings from an experiment with one participant at a time engaged in repeated route choice decision on computer. In every round, the participant is shown travel time distribution for each route, a route recommendation generated by an obedient policy, and a rating suggestive of average experience of previous participants with the quality of recommendation. Upon entering route choice, the actual travel times are revealed. The participant evaluates the quality of recommendation by submitting a review. This is combined with historical reviews to update rating for the next round. Data analysis from 33 participants each with 100 rounds suggests moderate negative correlation between the display rating and the average regret, and a strong positive correlation between the rating and the likelihood of following recommendation. Overall, under obedient recommendation policy, the rating converges close to its maximum value by the end of the experiments in conjunction with very high frequency of following recommendations.
翻訳日:2022-08-02 15:01:36 公開日:2022-07-31
# 顔の親近性知覚の神経的相関

Neural Correlates of Face Familiarity Perception ( http://arxiv.org/abs/2208.00352v1 )

ライセンス: Link先を確認
Evan Ehrenberg, Kleovoulos Leo Tsourides, Hossein Nejati, Ngai-Man Cheung, Pawan Sinha(参考訳) 顔認識の分野では、一方のマカク性神経生理学の結果と他方の人間の電気生理学的結果との間には波及するタイミング差がある。 マカクの単一単位記録は、100ミリ秒以内の刺激の開始で、体外視覚野における顔の特定応答を示した。 しかし、ヒトとの脳波およびmeg実験では、馴染みのない顔に対応する神経活動と、慣れ親しんだ顔に対応する神経活動との一貫した区別が250ミリ秒前後に現れることが報告されており、このことから、人間の電気生理学的トレースにおいて、顔の親近性知覚が早期に発見される可能性が示唆されている。 本稿では,パターン分類手法を用いた高密度meg記録におけるそのような相関関係の探索を成功させた。 以上の結果から,刺激開始後85msまで顔の親しみの指標が明らかとなった。 輝度や色分布などの低レベルの特性は、この初期の出現した応答差を説明できない。 これらの結果は、人間とマカク人のデータを統合し、身近な顔知覚の基礎となる神経メカニズムに関する手がかりを提供するのに役立つ。

In the domain of face recognition, there exists a puzzling timing discrepancy between results from macaque neurophysiology on the one hand and human electrophysiology on the other. Single unit recordings in macaques have demonstrated face identity specific responses in extra-striate visual cortex within 100 milliseconds of stimulus onset. In EEG and MEG experiments with humans, however, a consistent distinction between neural activity corresponding to unfamiliar and familiar faces has been reported to emerge around 250 ms. This points to the possibility that there may be a hitherto undiscovered early correlate of face familiarity perception in human electrophysiological traces. We report here a successful search for such a correlate in dense MEG recordings using pattern classification techniques. Our analyses reveal markers of face familiarity as early as 85 ms after stimulus onset. Low-level attributes of the images, such as luminance and color distributions, are unable to account for this early emerging response difference. These results help reconcile human and macaque data, and provide clues regarding neural mechanisms underlying familiar face perception.
翻訳日:2022-08-02 14:58:45 公開日:2022-07-31
# レート制限下の画像分類のための適応エッジオフロード

Adaptive Edge Offloading for Image Classification Under Rate Limit ( http://arxiv.org/abs/2208.00485v1 )

ライセンス: Link先を確認
Jiaming Qiu, Ruiqi Wang, Ayan Chakrabarti, Roch Guerin, Chenyang Lu(参考訳) 本稿では,組込みデバイスを用いて画像の取得と分類を行う。 計算能力が限られているため、組み込みデバイスは不均一な精度で類似の分類モデルに依存している。 局所的な分類が不正確な場合、デバイスはより正確だがリソース集約的なモデルで画像をエッジサーバにオフロードすることを決定できる。 しかし、リソースの制約、例えばネットワーク帯域幅は、混雑や高いレイテンシを避けるためにそのような送信を規制する必要がある。 本稿では,トークンバケットを通したトランスミッション規制において,このオフロード問題について検討する。 目標は、トークンバケットの制約の下でアプリケーション固有のメトリック(例えば、分類精度)を最適化する、軽量でオンラインなオフロードポリシを考案することである。 本稿では,Deep Q-Network (DQN) に基づくポリシを開発し,その有効性と組込みデバイスへの展開の可能性を示す。 注目すべきは、このポリシーが画像の到着と分類精度の相関を含む複雑な入力パターンを処理できるという事実である。 この評価は、imagenetイメージ分類ベンチマークから生成された合成トレースを用いて、ローカルテストベッド上で画像分類を行う。 この実装はhttps://github.com/qiujiaming315/edgeml-dqnで利用可能である。

This paper considers a setting where embedded devices are used to acquire and classify images. Because of limited computing capacity, embedded devices rely on a parsimonious classification model with uneven accuracy. When local classification is deemed inaccurate, devices can decide to offload the image to an edge server with a more accurate but resource-intensive model. Resource constraints, e.g., network bandwidth, however, require regulating such transmissions to avoid congestion and high latency. The paper investigates this offloading problem when transmissions regulation is through a token bucket, a mechanism commonly used for such purposes. The goal is to devise a lightweight, online offloading policy that optimizes an application-specific metric (e.g., classification accuracy) under the constraints of the token bucket. The paper develops a policy based on a Deep Q-Network (DQN), and demonstrates both its efficacy and the feasibility of its deployment on embedded devices. Of note is the fact that the policy can handle complex input patterns, including correlation in image arrivals and classification accuracy. The evaluation is carried out by performing image classification over a local testbed using synthetic traces generated from the ImageNet image classification benchmark. Implementation of this work is available at https://github.com/qiujiaming315/edgeml-dqn.
翻訳日:2022-08-02 14:58:28 公開日:2022-07-31
# DNNShield: 動的ランダム化モデルスパーシフィケーション, 対逆機械学習に対する防御

DNNShield: Dynamic Randomized Model Sparsification, A Defense Against Adversarial Machine Learning ( http://arxiv.org/abs/2208.00498v1 )

ライセンス: Link先を確認
Mohammad Hossein Samavatian, Saikat Majumdar, Kristin Barber, Radu Teodorescu(参考訳) DNNは、入力を操作するいわゆる敵攻撃に弱いことで知られており、攻撃者にとって有益な不正な結果や、被害者に被害を与える可能性がある。 近年,機械学習攻撃に対する防御機構として近似計算が提案されている。 これらのアプローチは、様々な入力に対して成功したが、強い高信頼の敵攻撃に対処するには不十分であることを示す。 そこで本研究では,相手入力の信頼性に応答の強さを適応させるハードウェアアクセラレーション・ディフェンスであるDNNSHIELDを提案する。 提案手法は,DNNモデルの動的およびランダムなスペーサー化に頼り,近似誤差に対する近似近似と微粒化制御を効率的に行う。 DNNSHIELDは、高密度参照と比較してスパース化推論の出力分布特性を用いて、逆入力を検出する。 vgg16に適用すると86%、resnet50に適用すると88%の逆検出率を示し、より低いオーバーヘッドでアートアプローチの状態の検出率を超えた。 ソフトウェアのみのCPUおよびGPU実装と比較してDNNSHIELDの性能への影響を低減するソフトウェア/ハードウェアアクセラレーションFPGAプロトタイプを実演する。

DNNs are known to be vulnerable to so-called adversarial attacks that manipulate inputs to cause incorrect results that can be beneficial to an attacker or damaging to the victim. Recent works have proposed approximate computation as a defense mechanism against machine learning attacks. We show that these approaches, while successful for a range of inputs, are insufficient to address stronger, high-confidence adversarial attacks. To address this, we propose DNNSHIELD, a hardware-accelerated defense that adapts the strength of the response to the confidence of the adversarial input. Our approach relies on dynamic and random sparsification of the DNN model to achieve inference approximation efficiently and with fine-grain control over the approximation error. DNNSHIELD uses the output distribution characteristics of sparsified inference compared to a dense reference to detect adversarial inputs. We show an adversarial detection rate of 86% when applied to VGG16 and 88% when applied to ResNet50, which exceeds the detection rate of the state of the art approaches, with a much lower overhead. We demonstrate a software/hardware-accelerated FPGA prototype, which reduces the performance impact of DNNSHIELD relative to software-only CPU and GPU implementations.
翻訳日:2022-08-02 14:58:06 公開日:2022-07-31
# オンライン分散Frank-Wolfe:理論的境界からスマートビルディングへの応用へ

Online Decentralized Frank-Wolfe: From theoretical bound to applications in smart-building ( http://arxiv.org/abs/2208.00522v1 )

ライセンス: Link先を確認
Angan Mitra, Nguyen Kim Thang, Tuan-Anh Nguyen, Denis Trystram, Paul Youssef(参考訳) 分散学習アルゴリズムの設計は、限られたローカル計算資源とコミュニケーションを持つ参加者にデータを分散する急速に成長する世界で重要である。 本稿では,ネットワーク上に分散した個々のデータ/モデルから集約された非凸損失関数を最小化するオンラインアルゴリズムを提案する。 我々は,アルゴリズムの理論的性能保証を提供し,その実用性を実生活のスマートな建物で実証する。

The design of decentralized learning algorithms is important in the fast-growing world in which data are distributed over participants with limited local computation resources and communication. In this direction, we propose an online algorithm minimizing non-convex loss functions aggregated from individual data/models distributed over a network. We provide the theoretical performance guarantee of our algorithm and demonstrate its utility on a real life smart building.
翻訳日:2022-08-02 14:57:45 公開日:2022-07-31
# 信頼性のある放送アルゴリズムの学習

Learning to generate Reliable Broadcast Algorithms ( http://arxiv.org/abs/2208.00525v1 )

ライセンス: Link先を確認
Diogo Vaz, David R. Matos, Miguel L. Pardal, Miguel Correia(参考訳) 現代の分散システムは、信頼性の高いブロードキャストやコンセンサスといったフォールトトレラントなアルゴリズムによってサポートされており、システムのいくつかのノードが故障しても、システムの正しい動作を保証する。 しかし、分散アルゴリズムの開発は手動で複雑なプロセスであり、通常は1つのアルゴリズムまたは既存のアルゴリズムのバリエーションを示す科学的論文をもたらす。 このようなアルゴリズムの開発プロセスを自動化するために、強化学習を用いて、正確で効率的なフォールトトレラントな分散アルゴリズムを生成するインテリジェントエージェントを提案する。 また,本手法により,文献で利用できるものと同等の性能で,フォールトトレラントなReliable Broadcastアルゴリズムを12,000の学習エピソードで生成できることを示す。

Modern distributed systems are supported by fault-tolerant algorithms, like Reliable Broadcast and Consensus, that assure the correct operation of the system even when some of the nodes of the system fail. However, the development of distributed algorithms is a manual and complex process, resulting in scientific papers that usually present a single algorithm or variations of existing ones. To automate the process of developing such algorithms, this work presents an intelligent agent that uses Reinforcement Learning to generate correct and efficient fault-tolerant distributed algorithms. We show that our approach is able to generate correct fault-tolerant Reliable Broadcast algorithms with the same performance of others available in the literature, in only 12,000 learning episodes.
翻訳日:2022-08-02 14:57:39 公開日:2022-07-31
# CoNLoCNN:エネルギー効率の良い低精度深部畳み込みニューラルネットワークの爆発相関と非均一量子化

CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for Energy-Efficient Low-precision Deep Convolutional Neural Networks ( http://arxiv.org/abs/2208.00331v1 )

ライセンス: Link先を確認
Muhammad Abdullah Hanif, Giuseppe Maria Sarda, Alberto Marchisio, Guido Masera, Maurizio Martina, Muhammad Shafique(参考訳) 今日のスマートサイバー物理システムの時代、Deep Neural Networks(DNN)は、複雑な現実世界のアプリケーションにおける最先端のパフォーマンスのために、ユビキタスになった。 これらのネットワークの計算複雑性はエネルギー消費の増加に寄与し、資源制約されたシステムに大規模なDNNをデプロイする上で最も大きな障害となる。 トレーニング後の量子化によって達成される固定点(fp)実装は、これらのネットワークのエネルギー消費を減らすために一般的に用いられる。 しかし、FPの均一量子化間隔は、多くの数値を十分な解像度で表現し、高い量子化誤差を避ける必要があるため、データ構造のビット幅を大きな値に制限する。 本稿では、(ほとんどのシナリオにおいて)DNNの重みとアクティベーションがほとんど0付近に集中しており、そのごく一部が大きな大きさであるという重要な洞察を利用する。 1)複雑な乗算演算の単純化を可能にする重みの非一様量子化,(2)実行時のオーバーヘッドを伴わずに低コストで量子化誤差を部分的に補償できるアクティベーション値の相関関係を,エネルギー効率の低い深部畳み込みニューラルネットワーク推論に活用するフレームワークであるCoNLoCNNを提案する。 非一様量子化の利点を大いに生かすために,新しいデータ表現形式であるEncoded Low-Precision Binary Signed Digitを提案し,そのビット幅の重みを圧縮し,新しい乗算および累積単位設計を用いた処理に符号化重みを直接使用することを保証する。

In today's era of smart cyber-physical systems, Deep Neural Networks (DNNs) have become ubiquitous due to their state-of-the-art performance in complex real-world applications. The high computational complexity of these networks, which translates to increased energy consumption, is the foremost obstacle towards deploying large DNNs in resource-constrained systems. Fixed-Point (FP) implementations achieved through post-training quantization are commonly used to curtail the energy consumption of these networks. However, the uniform quantization intervals in FP restrict the bit-width of data structures to large values due to the need to represent most of the numbers with sufficient resolution and avoid high quantization errors. In this paper, we leverage the key insight that (in most of the scenarios) DNN weights and activations are mostly concentrated near zero and only a few of them have large magnitudes. We propose CoNLoCNN, a framework to enable energy-efficient low-precision deep convolutional neural network inference by exploiting: (1) non-uniform quantization of weights enabling simplification of complex multiplication operations; and (2) correlation between activation values enabling partial compensation of quantization errors at low cost without any run-time overheads. To significantly benefit from non-uniform quantization, we also propose a novel data representation format, Encoded Low-Precision Binary Signed Digit, to compress the bit-width of weights while ensuring direct use of the encoded weight for processing using a novel multiply-and-accumulate (MAC) unit design.
翻訳日:2022-08-02 14:53:30 公開日:2022-07-31
# 行列分解のためのユニタリ近似メッセージパッシング

Unitary Approximate Message Passing for Matrix Factorization ( http://arxiv.org/abs/2208.00422v1 )

ライセンス: Link先を確認
Zhengdao Yuan, Qinghua Guo, Yonina C. Eldar, Yonghui Li(参考訳) 行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。 変分推論(VI)とユニタリ近似メッセージパッシング(UAMP)を活用することで、効率の良いメッセージパッシング実装であるUAMPMFを用いて、ベイズ的なMFアプローチを開発する。 因子行列に適切な事前条件を課すことで、UAMPMFは非負行列分解、辞書学習、行列の不確実性を伴う圧縮センシング、頑健な主成分分析、スパース行列分解など、MFとして定式化できる多くの問題を解くことができる。 UAMPMFは、回復精度、堅牢性、計算複雑性の点で最先端のアルゴリズムを著しく上回っている。

We consider matrix factorization (MF) with certain constraints, which finds wide applications in various areas. Leveraging variational inference (VI) and unitary approximate message passing (UAMP), we develop a Bayesian approach to MF with an efficient message passing implementation, called UAMPMF. With proper priors imposed on the factor matrices, UAMPMF can be used to solve many problems that can be formulated as MF, such as non negative matrix factorization, dictionary learning, compressive sensing with matrix uncertainty, robust principal component analysis, and sparse matrix factorization. Extensive numerical examples are provided to show that UAMPMF significantly outperforms state-of-the-art algorithms in terms of recovery accuracy, robustness and computational complexity.
翻訳日:2022-08-02 14:53:00 公開日:2022-07-31
# ベクトルベースデータによる共変量分布シフト後の左目追跡分類器の性能向上

Vector-Based Data Improves Left-Right Eye-Tracking Classifier Performance After a Covariate Distributional Shift ( http://arxiv.org/abs/2208.00465v1 )

ライセンス: Link先を確認
Brian Xiang, Abdelrahman Abdelmonsef(参考訳) 脳波(EEG)信号を用いて視線追跡(ET)予測を行う主な課題は、ベンチマークデータと実世界のデータの分布パターンの違いと、意図しない複数の音源からの脳信号の干渉に起因するノイズである。 したがって、脳波データから視線追跡位置を予測する機械学習モデルの堅牢性を高めることは、研究と消費者の両方にとって不可欠である。 医療研究において、より単純なタスクをテストするためのより複雑なデータ収集手法の使用が、この問題に対処するために研究されている。 本研究では、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒データアプローチを提案する。 粗粒データと微粒データの両方を用いた機械学習モデルを訓練し,類似/異種分布パターンのデータを用いた場合の精度比較を行い,分布データの違いに対する脳波ベンチマークの感受性について検討した。 この感受性のテストには共変量分布シフトを適用する。 その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類データでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。

The main challenges of using electroencephalogram (EEG) signals to make eye-tracking (ET) predictions are the differences in distributional patterns between benchmark data and real-world data and the noise resulting from the unintended interference of brain signals from multiple sources. Increasing the robustness of machine learning models in predicting eye-tracking position from EEG data is therefore integral for both research and consumer use. In medical research, the usage of more complicated data collection methods to test for simpler tasks has been explored to address this very issue. In this study, we propose a fine-grain data approach for EEG-ET data collection in order to create more robust benchmarking. We train machine learning models utilizing both coarse-grain and fine-grain data and compare their accuracies when tested on data of similar/different distributional patterns in order to determine how susceptible EEG-ET benchmarks are to differences in distributional data. We apply a covariate distributional shift to test for this susceptibility. Results showed that models trained on fine-grain, vector-based data were less susceptible to distributional shifts than models trained on coarse-grain, binary-classified data.
翻訳日:2022-08-02 14:52:46 公開日:2022-07-31
# 有利重み付けと早期終了を用いた実演によるロボット政策学習

Robot Policy Learning from Demonstration Using Advantage Weighting and Early Termination ( http://arxiv.org/abs/2208.00478v1 )

ライセンス: Link先を確認
Abdalkarim Mohtasib, Gerhard Neumann, Heriberto Cuayahuitl(参考訳) 現実世界でのロボットタスクの学習は依然として非常に困難であり、効果的な実践的な解決方法はまだ見つからない。 この分野で使われる伝統的な方法は模倣学習と強化学習であるが、どちらも実際のロボットに適用すると制限がある。 強化学習とプレコンパイルされたデモを組み合わせることは、ロボットタスクを解決するための制御ポリシーを学ぶ上で、有望なアプローチだ。 本稿では,オフラインおよびオンライントレーニングを用いてオフライン専門家データを活用する新しい手法を用いて,より高速な収束と性能向上を実現するアルゴリズムを提案する。 提案アルゴリズム (awet) は, 専門家データを改善するために, 新たなエージェントアドバンテージ重みで批評家の損失を重み付けする。 さらに、awetは、専門家の軌跡と似ていないポリシーロールアウトを停止し破棄するために、自動早期終了技術を使用して、専門家データから遠く離れたドリフトを防止する。 アブレーション研究では、AWETは4つの標準的なロボット作業における最先端のベースラインと比較して改善され、有望な性能を示した。

Learning robotic tasks in the real world is still highly challenging and effective practical solutions remain to be found. Traditional methods used in this area are imitation learning and reinforcement learning, but they both have limitations when applied to real robots. Combining reinforcement learning with pre-collected demonstrations is a promising approach that can help in learning control policies to solve robotic tasks. In this paper, we propose an algorithm that uses novel techniques to leverage offline expert data using offline and online training to obtain faster convergence and improved performance. The proposed algorithm (AWET) weights the critic losses with a novel agent advantage weight to improve over the expert data. In addition, AWET makes use of an automatic early termination technique to stop and discard policy rollouts that are not similar to expert trajectories -- to prevent drifting far from the expert data. In an ablation study, AWET showed improved and promising performance when compared to state-of-the-art baselines on four standard robotic tasks.
翻訳日:2022-08-02 14:52:28 公開日:2022-07-31
# 未知環境における確率的最短経路問題に対する凸双対性

Convex duality for stochastic shortest path problems in known and unknown environments ( http://arxiv.org/abs/2208.00330v1 )

ライセンス: Link先を確認
Kelli Francis-Staite(参考訳) 本稿では,凸最適化の観点から,未知環境における確率的最短経路(SSP)問題について紹介する。 まず、既知のパラメータケースで結果を思い出し、異なる証明を通して理解を深める。 次に、拡張値反復(evi)演算子を研究する未知のパラメータケースに焦点を当てる。 これにはローゼンバーグ等で使われている既存の演算子も含まれる。 [26]およびTarbouriech et al。 [31] は l-1 ノルムと supremum ノルムに基づいており、KL-発散のような他のノルムや発散に対応する EVI 作用素を定義する。 本稿では、一般に、EVI演算子が凸プログラムとどのように関連しているか、および強い双対性を示す双対の形式を示す。 そこで本稿では,neu および pike-burke [21] の有限ホライズン研究における境界が,ssp 設定におけるこれらの拡張値反復演算子に適用できるかどうかについて考察する。 これらの作用素に対する [21] と似た境界が存在することが示されているが、一般に単調ではなくより複雑な収束特性を持つ作用素に繋がる。 特別な場合、振動する挙動を観察する。 本稿では,研究の進展に関するオープンな疑問と,さらなる検討を要するいくつかの事例を提示する。

This paper gives an introduction to Stochastic Shortest Path (SSP) problems in known and unknown environments from the perspective of convex optimisation. It first recalls results in the known parameter case, and develops understanding through different proofs. It then focuses on the unknown parameter case, where it studies extended value iteration (EVI) operators. This includes the existing operators used in Rosenberg et al. [26] and Tarbouriech et al. [31] based on the l-1 norm and supremum norm, as well as defining EVI operators corresponding to other norms and divergences, such as the KL-divergence. This paper shows in general how the EVI operators relate to convex programs, and the form of their dual, where strong duality is exhibited. This paper then focuses on whether the bounds from finite horizon research of Neu and Pike-Burke [21] can be applied to these extended value iteration operators in the SSP setting. It shows that similar bounds to [21] for these operators exist, however they lead to operators that are not in general monotone and have more complex convergence properties. In a special case we observe oscillating behaviour. This paper generates open questions on how research may progress, with several examples that require further examination.
翻訳日:2022-08-02 14:45:02 公開日:2022-07-31
# DA$^2$データセット:Dexterity-Aware Dual-Arm Graspingに向けて

DA$^2$ Dataset: Toward Dexterity-Aware Dual-Arm Grasping ( http://arxiv.org/abs/2208.00408v1 )

ライセンス: Link先を確認
Guangyao Zhai, Yu Zheng, Ziwei Xu, Xin Kong, Yong Liu, Benjamin Busam, Yi Ren, Nassir Navab, Zhengyou Zhang(参考訳) 本稿では,任意の大物体に対して最適な2次元グルーピングペアを生成するための,最初の大規模デュアルアームデキスタリティ対応データセットであるDA$^2$を紹介する。 データセットは、6000以上のオブジェクトから生成され、それぞれが様々な把持指標でラベル付けされた、約9m組のパラレルジャウ把持を含む。 さらに、このデータセットから描画シーンを訓練したエンドツーエンドの両腕グリップ評価モデルを提案する。 この評価モデルをベースラインとして,オンライン解析と実ロボット実験の両面で,この新奇で非自明なデータセットの価値を示す。 すべてのデータおよび関連コードはhttps://sites.google.com/view/da2datasetでオープンソース化される。

In this paper, we introduce DA$^2$, the first large-scale dual-arm dexterity-aware dataset for the generation of optimal bimanual grasping pairs for arbitrary large objects. The dataset contains about 9M pairs of parallel-jaw grasps, generated from more than 6000 objects and each labeled with various grasp dexterity measures. In addition, we propose an end-to-end dual-arm grasp evaluation model trained on the rendered scenes from this dataset. We utilize the evaluation model as our baseline to show the value of this novel and nontrivial dataset by both online analysis and real robot experiments. All data and related code will be open-sourced at https://sites.google.com/view/da2dataset.
翻訳日:2022-08-02 14:34:58 公開日:2022-07-31
# 対敵攻撃に対するロバストな実世界画像超解像

Robust Real-World Image Super-Resolution against Adversarial Attacks ( http://arxiv.org/abs/2208.00428v1 )

ライセンス: Link先を確認
Jiutao Yue and Haofeng Li and Pengxu Wei and Guanbin Li and Liang Lin(参考訳) 近年,深層ニューラルネットワーク (dnn) は実世界画像スーパーレゾリューション (sr) で大きな成功を収めている。 しかし、準知覚不可能な雑音を持つ逆画像サンプルは、深層学習SRモデルを脅かす可能性がある。 本稿では,入力画像や特徴の周波数領域における潜在的な対向雑音をランダムに消去する,実世界のSRのための堅牢なディープラーニングフレームワークを提案する。 理論的には、SRタスクのクリーンな画像や特徴は、周波数領域の攻撃されたものとは異なるパターンを持つ。 既存の敵対的攻撃が入力画像に高周波ノイズを与えるのを観察し、確率的に有害な摂動を含む可能性のある高周波成分をブロックする新しいランダム周波数マスクモジュールを導入する。 周波数マスキングは, 逆方向の摂動を損なうだけでなく, クリーン画像のシャープな細部にも影響を及ぼすので, さらに, 画像の周波数領域に基づく逆方向のサンプル分類器を開発し, 提案したマスクモジュールを適用したかどうかを判定する。 本稿では,提案する周波数マスクモジュールと提案する逆分類器と既存の超解像バックボーンネットワークを組み合わせた,新たな実世界イメージsrフレームワークを考案する。 実験の結果,提案手法は敵攻撃に敏感であり,既存のモデルや防御よりも安定なSR結果を示すことがわかった。

Recently deep neural networks (DNNs) have achieved significant success in real-world image super-resolution (SR). However, adversarial image samples with quasi-imperceptible noises could threaten deep learning SR models. In this paper, we propose a robust deep learning framework for real-world SR that randomly erases potential adversarial noises in the frequency domain of input images or features. The rationale is that on the SR task clean images or features have a different pattern from the attacked ones in the frequency domain. Observing that existing adversarial attacks usually add high-frequency noises to input images, we introduce a novel random frequency mask module that blocks out high-frequency components possibly containing the harmful perturbations in a stochastic manner. Since the frequency masking may not only destroys the adversarial perturbations but also affects the sharp details in a clean image, we further develop an adversarial sample classifier based on the frequency domain of images to determine if applying the proposed mask module. Based on the above ideas, we devise a novel real-world image SR framework that combines the proposed frequency mask modules and the proposed adversarial classifier with an existing super-resolution backbone network. Experiments show that our proposed method is more insensitive to adversarial attacks and presents more stable SR results than existing models and defenses.
翻訳日:2022-08-02 14:34:48 公開日:2022-07-31
# 磁気共鳴画像におけるフェザーライトフーリエ領域適応

Feather-Light Fourier Domain Adaptation in Magnetic Resonance Imaging ( http://arxiv.org/abs/2208.00474v1 )

ライセンス: Link先を確認
Ivan Zakazov, Vladimir Shaposhnikov, Iaroslav Bespalov and Dmitry V. Dylov(参考訳) ディープラーニングモデルの一般化性は、例えば異なるハードウェアでセットが生成される場合など、列車(ソースドメイン)とテスト(ターゲットドメイン)セットの分布の違いによって大きく影響を受ける可能性がある。 このドメインシフトの結果、あるモデルがあるクリニックのデータでうまく動作し、別のクリニックにデプロイされたときに失敗する可能性がある。 テスト時間領域適応を行うための非常に軽量で透明なアプローチを提案する。 このアイデアは、画像のスタイルを反映していると考えられるターゲットの低周波フーリエ空間コンポーネントを置き換えることである。 性能を最大化するために、最適スタイルドナーの選択手法を実装し、単一のターゲットスキャン外観を変更するために複数のソースデータポイントを使用する(Multi-Source Transferring)。 ドメインシフトの重大度が手法の性能に及ぼす影響について検討し,我々のトレーニングフリーアプローチが複雑なディープドメイン適応モデルの最先端レベルに達することを示す。 私たちの実験のコードはリリースされています。

Generalizability of deep learning models may be severely affected by the difference in the distributions of the train (source domain) and the test (target domain) sets, e.g., when the sets are produced by different hardware. As a consequence of this domain shift, a certain model might perform well on data from one clinic, and then fail when deployed in another. We propose a very light and transparent approach to perform test-time domain adaptation. The idea is to substitute the target low-frequency Fourier space components that are deemed to reflect the style of an image. To maximize the performance, we implement the "optimal style donor" selection technique, and use a number of source data points for altering a single target scan appearance (Multi-Source Transferring). We study the effect of severity of domain shift on the performance of the method, and show that our training-free approach reaches the state-of-the-art level of complicated deep domain adaptation models. The code for our experiments is released.
翻訳日:2022-08-02 14:34:26 公開日:2022-07-31
# 一度に1つの物体:ロボットの運動による正確でロバストな構造

One Object at a Time: Accurate and Robust Structure From Motion for Robots ( http://arxiv.org/abs/2208.00487v1 )

ライセンス: Link先を確認
Aravind Battaje, Oliver Brock(参考訳) 視線固定ロボットは、固定された物体と周辺物体の相対位置との距離を瞬時、正確に、かつロバストに知覚する。 動きながら1つの物体を見る行為である固定は、3次元空間の幾何学における規則性を利用して情報を得る方法を示す。 これらの規則性は回転変換結合を導入し、運動から構造に一般的には使われない。 検証にはRGBカメラを搭載したFranka Emika Robotを使用する。 私たち a) 距離推定における誤差が15cmの距離で5mm未満であることを確認し、 b) 難解なシナリオの下で障害を見つけるために相対的な位置がいかに用いられるかを示すこと。 我々は、正確な距離推定と障害物情報を、未知の大きさの物体を拾い上げながら、予期せぬ障害物によって妨げられる反応性ロボットの動作に組み合わせる。

A gaze-fixating robot perceives distance to the fixated object and relative positions of surrounding objects immediately, accurately, and robustly. We show how fixation, which is the act of looking at one object while moving, exploits regularities in the geometry of 3D space to obtain this information. These regularities introduce rotation-translation couplings that are not commonly used in structure from motion. To validate, we use a Franka Emika Robot with an RGB camera. We a) find that error in distance estimate is less than 5 mm at a distance of 15 cm, and b) show how relative position can be used to find obstacles under challenging scenarios. We combine accurate distance estimates and obstacle information into a reactive robot behavior that is able to pick up objects of unknown size, while impeded by unforeseen obstacles.
翻訳日:2022-08-02 14:34:09 公開日:2022-07-31
# カスタマイズメタバースサービスのためのアテンション対応ネットワークリソース配置の探索

Exploring Attention-Aware Network Resource Allocation for Customized Metaverse Services ( http://arxiv.org/abs/2208.00369v1 )

ライセンス: Link先を確認
Hongyang Du, Jiacheng Wang, Dusit Niyato, Jiawen Kang, Zehui Xiong, Xuemin (Sherman) Shen, and Dong In Kim(参考訳) コンピューティングと通信技術のサポートにより、metaverseはユーザーに前例のないサービス体験をもたらすことが期待されている。 しかし、Metaverseユーザの増加は、特にグラフィカルな拡張現実をベースとして多数の仮想オブジェクトをレンダリングする必要があるMetaverseサービスに対して、ネットワークリソースに対する大きな需要を生んでいる。 ネットワークリソースを効率的に利用し、qoe(quality-of-experience)を改善するために、カスタマイズされたメタバースサービスを実現するために注意喚起型ネットワークリソース割り当てスキームを設計する。 目的は、ユーザーがより興味を持つ仮想オブジェクトにより多くのネットワークリソースを割り当てることである。 まず、QoE分析、アイトラッキング、リモートレンダリングなど、Metaverseサービスに関連するいくつかの重要な技術について議論する。 次に、既存のデータセットをレビューし、ユーザ30から96のオブジェクトに対する1000のイメージの真偽を含むユーザオブジェクトアテンションレベル(UOAL)データセットを提案する。 UOALの使い方に関するチュートリアルが紹介されている。 uoalの助けを借りて,注意予測とqoe最大化という2つのステップを持つ注意対応ネットワークリソース割り当てアルゴリズムを提案する。 具体的には,2種類の注意予測手法,すなわち関心認識と時間認識予測の設計について概説する。 予測されたユーザオブジェクトアテンション値を使用することで、エッジデバイスのレンダリング能力などのネットワークリソースを最適に割り当ててqoeを最大化することができる。 最後に,メタバースサービスに関する有望な研究方向を提案する。

Emerging with the support of computing and communications technologies, Metaverse is expected to bring users unprecedented service experiences. However, the increase in the number of Metaverse users places a heavy demand on network resources, especially for Metaverse services that are based on graphical extended reality and require rendering a plethora of virtual objects. To make efficient use of network resources and improve the Quality-of-Experience (QoE), we design an attention-aware network resource allocation scheme to achieve customized Metaverse services. The aim is to allocate more network resources to virtual objects in which users are more interested. We first discuss several key techniques related to Metaverse services, including QoE analysis, eye-tracking, and remote rendering. We then review existing datasets and propose the user-object-attention level (UOAL) dataset that contains the ground truth attention of 30 users to 96 objects in 1,000 images. A tutorial on how to use UOAL is presented. With the help of UOAL, we propose an attention-aware network resource allocation algorithm that has two steps, i.e., attention prediction and QoE maximization. Specially, we provide an overview of the designs of two types of attention prediction methods, i.e., interest-aware and time-aware prediction. By using the predicted user-object-attention values, network resources such as the rendering capacity of edge devices can be allocated optimally to maximize the QoE. Finally, we propose promising research directions related to Metaverse services.
翻訳日:2022-08-02 14:23:08 公開日:2022-07-31
# DRL-M4MR:SDNにおけるDQN深層強化学習に基づくインテリジェントマルチキャストルーティング手法

DRL-M4MR: An Intelligent Multicast Routing Approach Based on DQN Deep Reinforcement Learning in SDN ( http://arxiv.org/abs/2208.00383v1 )

ライセンス: Link先を確認
Chenwei Zhao, Miao Ye, Xingsi Xue, Jianhui Lv, Qiuxiang Jiang, Yong Wang(参考訳) 従来のマルチキャストルーティング手法では、ネットワーク状態情報への限られたアクセス、ネットワークの動的かつ複雑な変更への適応性の低下、柔軟性のないデータ転送など、マルチキャストツリーの構築にいくつかの問題がある。 これらの欠陥に対処するために、ソフトウェア定義ネットワーク(SDN)における最適マルチキャストルーティング問題を多目的最適化問題として調整し、深部Qネットワーク(DQN)深部強化学習(DRL)に基づくインテリジェントマルチキャストルーティングアルゴリズムDRL-M4MRをSDNでマルチキャストツリーを構築するために設計する。 まず、sdnのグローバルビューと制御を組み合わせることにより、drlエージェントの状態空間として、マルチキャストツリー状態行列、リンク帯域幅行列、リンク遅延行列、リンクパケット損失率行列を設計する。 第2に、エージェントのアクション空間はネットワーク内のすべてのリンクであり、アクション選択戦略は4つのケースで現在のマルチキャストツリーへのリンクを追加するように設計されている。 第3に、単一ステップおよび最終報酬関数形式は、インテリジェンスを誘導して最適なマルチキャストツリーを構築するための決定を行うように設計されている。 実験の結果,DRL-M4MRによるマルチキャストツリー構築は,既存のアルゴリズムと比較すると,トレーニング後の帯域幅,遅延,パケット損失率のパフォーマンスが向上し,動的ネットワーク環境においてよりインテリジェントなマルチキャストルーティング決定を行うことができた。

Traditional multicast routing methods have some problems in constructing a multicast tree, such as limited access to network state information, poor adaptability to dynamic and complex changes in the network, and inflexible data forwarding. To address these defects, the optimal multicast routing problem in software-defined networking (SDN) is tailored as a multi-objective optimization problem, and an intelligent multicast routing algorithm DRL-M4MR based on the deep Q network (DQN) deep reinforcement learning (DRL) method is designed to construct a multicast tree in SDN. First, the multicast tree state matrix, link bandwidth matrix, link delay matrix, and link packet loss rate matrix are designed as the state space of the DRL agent by combining the global view and control of the SDN. Second, the action space of the agent is all the links in the network, and the action selection strategy is designed to add the links to the current multicast tree under four cases. Third, single-step and final reward function forms are designed to guide the intelligence to make decisions to construct the optimal multicast tree. The experimental results show that, compared with existing algorithms, the multicast tree construct by DRL-M4MR can obtain better bandwidth, delay, and packet loss rate performance after training, and it can make more intelligent multicast routing decisions in a dynamic network environment.
翻訳日:2022-08-02 14:22:41 公開日:2022-07-31
# パラメータ並列分散変分量子アルゴリズム

Parameter-Parallel Distributed Variational Quantum Algorithm ( http://arxiv.org/abs/2208.00450v1 )

ライセンス: Link先を確認
Yun-Fei Niu, Shuo Zhang, Chen Ding, Wan-Su Bao, He-Liang Huang(参考訳) 変分量子アルゴリズム(VQA)は、ノイズのある中間スケール量子(NISQ)デバイスにおける実用的な量子優位性を探るための有望な短期的手法として登場した。 しかしながら, バックプロパゲーションの不適合性や多数の測定コストによる非効率なパラメータトレーニングプロセスは, VQAの大規模開発に大きな課題をもたらしている。 本稿では,パラメータ並列分散変動量子アルゴリズム(PPD-VQA)を提案する。 現実的なノイズシナリオにおけるPDD-VQAの性能を維持するために、分散VQAの避けられない共通問題である複数の量子プロセッサ間のノイズ差による加速度減衰を軽減するための代替トレーニング戦略を提案する。 さらに、勾配圧縮は潜在的な通信ボトルネックを克服するためにも用いられる。 その結果,PSD-VQAは大規模実ワードアプリケーションを扱うために複数の量子プロセッサをコーディネートする実用的なソリューションを提供する可能性が示唆された。

Variational quantum algorithms (VQAs) have emerged as a promising near-term technique to explore practical quantum advantage on noisy intermediate-scale quantum (NISQ) devices. However, the inefficient parameter training process due to the incompatibility with backpropagation and the cost of a large number of measurements, posing a great challenge to the large-scale development of VQAs. Here, we propose a parameter-parallel distributed variational quantum algorithm (PPD-VQA), to accelerate the training process by parameter-parallel training with multiple quantum processors. To maintain the high performance of PPD-VQA in the realistic noise scenarios, a alternate training strategy is proposed to alleviate the acceleration attenuation caused by noise differences among multiple quantum processors, which is an unavoidable common problem of distributed VQA. Besides, the gradient compression is also employed to overcome the potential communication bottlenecks. The achieved results suggest that the PPD-VQA could provide a practical solution for coordinating multiple quantum processors to handle large-scale real-word applications.
翻訳日:2022-08-02 14:22:12 公開日:2022-07-31
# WeakeningとCompletingを使った$\mathcal{EL}$オントロジーの修復

Repairing $\mathcal{EL}$ Ontologies Using Weakening and Completing ( http://arxiv.org/abs/2208.00486v1 )

ライセンス: Link先を確認
Ying Li and Patrick Lambrix(参考訳) オントロジーの正確性と完全性の観点からの質は、高品質なオントロジーベースのアプリケーション開発に不可欠である。 従来のデバッグ技術は、不要な公理を除去することでオントロジーを修復するが、オントロジーの領域で正しい結果を取り除くことができる。 本稿では, axiom の弱化と完備化による $\mathcal{el}$ オントロジーに対して, これを緩和するための対話的アプローチを提案する。 我々は,除去,弱化,完了を考慮し,最初の修復方法を提案する。 異なる組み合わせ戦略を示し,最終オントロジーへの影響を議論し,実験結果を示す。 従来の研究は特別な事例しか考慮されておらず、ドメインエキスパートの検証作業量とオントロジーの品質との間には正当性と完全性というトレードオフがあることが示されている。

The quality of ontologies in terms of their correctness and completeness is crucial for developing high-quality ontology-based applications. Traditional debugging techniques repair ontologies by removing unwanted axioms, but may thereby remove consequences that are correct in the domain of the ontology. In this paper we propose an interactive approach to mitigate this for $\mathcal{EL}$ ontologies by axiom weakening and completing. We present algorithms for weakening and completing and present the first approach for repairing that takes into account removing, weakening and completing. We show different combination strategies, discuss the influence on the final ontologies and show experimental results. We show that previous work has only considered special cases and that there is a trade-off between the amount of validation work for a domain expert and the quality of the ontology in terms of correctness and completeness.
翻訳日:2022-08-02 14:21:56 公開日:2022-07-31
# DeScoD-ECG:ECGベースラインワンダの深部スコアベース拡散モデルとノイズ除去

DeScoD-ECG: Deep Score-Based Diffusion Model for ECG Baseline Wander and Noise Removal ( http://arxiv.org/abs/2208.00542v1 )

ライセンス: Link先を確認
Huayu Li, Gregory Ditzler, Janet Roveda and Ao Li(参考訳) 目的:心電図(ECG)信号は、ベースラインダウトなどのノイズ干渉を一般的に受ける。 心血管疾患の診断において心電図信号の高画質化と高忠実化が重要である。 そこで本稿では,新しいecgベースラインワンドとノイズ除去技術を提案する。 方法: 心電図ベースラインホーミングとノイズ除去のためのディープスコアベース拡散モデル(DeScoD-ECG)を用いて, 心電図信号に特有の条件付き拡散モデルを拡張した。 さらに、信号再構成を改善するマルチショット平均化戦略を展開。 提案手法の有効性を検証するため,QTデータベースとMIT-BIHノイズストレステストデータベース上で実験を行った。 従来のデジタルフィルタベースとディープラーニングベースの方法を含む、ベースライン手法が比較に採用されている。 結果: 提案手法は, 3.771 $\pm$ 5.713 au, 0.329 $\pm$ 0.258 au, 40.527 $\pm$ 26.258 \%, 0.926 $\pm$ 0.087の4つの距離ベース類似度(正方形距離, 最大絶対平方, 根距離, コサイン類似度)で優れた性能を示した。 この結果、最高のベースライン法と比較して少なくとも20対%の全体的な改善が得られた。 結論: 本論文は,ECGノイズ除去のためのDeScoD-ECGの最先端性能を示すものである。 意義: 本研究は、心電図ノイズ除去のための条件拡散に基づく生成モデルを拡張する最初の試みの一つであり、DeScoD-ECGは、生体医学的応用に広く用いられる可能性がある。

Objective: Electrocardiogram (ECG) signals commonly suffer noise interference, such as baseline wander. High-quality and high-fidelity reconstruction of the ECG signals is of great significance to diagnosing cardiovascular diseases. Therefore, this paper proposes a novel ECG baseline wander and noise removal technology. Methods: We extended the diffusion model in a conditional manner that was specific to the ECG signals, namely the Deep Score-Based Diffusion model for Electrocardiogram baseline wander and noise removal (DeScoD-ECG). Moreover, we deployed a multi-shots averaging strategy that improved signal reconstructions. We conducted the experiments on the QT Database and the MIT-BIH Noise Stress Test Database to verify the feasibility of the proposed method. Baseline methods are adopted for comparison, including traditional digital filter-based and deep learning-based methods. Results: The quantities evaluation results show that the proposed method obtained outstanding performance on four distance-based similarity metrics (the sum of squared distance, maximum absolute square, percentage of root distance, and cosine similarity) with 3.771 $\pm$ 5.713 au, 0.329 $\pm$ 0.258 au, 40.527 $\pm$ 26.258 \%, and 0.926 $\pm$ 0.087. This led to at least 20\% overall improvement compared with the best baseline method. Conclusion: This paper demonstrates the state-of-the-art performance of the DeScoD-ECG for ECG noise removal, which has better approximations of the true data distribution and higher stability under extreme noise corruptions. Significance: This study is one of the first to extend the conditional diffusion-based generative model for ECG noise removal, and the DeScoD-ECG has the potential to be widely used in biomedical applications.
翻訳日:2022-08-02 14:21:42 公開日:2022-07-31
# 複数制約と客観的最適化に基づくtbm動作パラメータのインテリジェント決定法

Intelligent decision-making method of TBM operating parameters based on multiple constraints and objective optimization ( http://arxiv.org/abs/2208.00404v1 )

ライセンス: Link先を確認
Bin Liu, Jiwen Wang, Ruirui Wang, Yaxu Wang, Guangzu Zhao(参考訳) TBMの運用パラメータの決定は、TBMの安全かつ効率的な構築にとって重要な指針であり、TBMトンネル分野における研究ホットスポットの1つである。 そこで本研究では,岩盤破砕ルールを機械学習に導入し,物理ルールとデータマイニングによる岩盤機械マッピングを高精度に確立する。 この双対駆動マッピングは、TBM操作パラメータの決定方法を構築するために、目的関数や制約として使用される。 制約を受ける対象関数の極端に対応する1分あたりの回転と浸透を探索することにより、最適な操作パラメータを得ることができる。 本手法は,中国広州省第2水源水路の現場で検証され,平均浸透率は11.3%増加し,総コストは10.0%減少し,意思決定モデルの実用性と有効性が証明された。

The decision-making of TBM operating parameters has an important guiding significance for TBM safe and efficient construction, and it has been one of the research hotpots in the field of TBM tunneling. For this purpose, this paper introduces rock-breaking rules into machine learning method, and a rock-machine mapping dual-driven by physical-rule and data-mining is established with high accuracy. This dual-driven mappings are subsequently used as objective function and constraints to build a decision-making method for TBM operating parameters. By searching the revolution per minute and penetration corresponding to the extremum of the objective function subject to the constraints, the optimal operating parameters can be obtained. This method is verified in the field of the Second Water Source Channel of Hangzhou, China, resulting in the average penetration rate increased by 11.3%, and the total cost decreased by 10.0%, which proves the practicability and effectiveness of the developed decision-making model.
翻訳日:2022-08-02 14:18:06 公開日:2022-07-31
# 深部ニューラルネットワークのロバスト校正のための適応温度スケーリング

Adaptive Temperature Scaling for Robust Calibration of Deep Neural Networks ( http://arxiv.org/abs/2208.00461v1 )

ライセンス: Link先を確認
Sergio A. Balanya, Juan Maro\~nas and Daniel Ramos(参考訳) 本稿では,近年注目されている,現代のニューラルネットワークのポストホック校正について検討する。 様々な複雑さのキャリブレーション手法が提案されているが、それらがどの程度表現的であるかについては合意が得られていない。 我々は、信頼性スケーリングの課題、特に温度スケーリングを一般化するポストホック手法に焦点を当て、これらを適応温度スケーリングファミリーと呼ぶ。 キャリブレーションを改善する表現関数を分析し,解釈可能な手法を提案する。 ニューラルネットワークのような複雑なデータモデルが多数存在する場合、パフォーマンスは向上するが、データ量が限られると失敗する傾向にあり、医療診断のようなポストホックなキャリブレーションアプリケーションでは一般的な状況である。 表現的手法が理想的条件下で学習する関数について検討し,より単純な手法を考案するが,これらよく機能する関数に対して強い帰納的バイアスを持つ。 具体的には,エントロピーに基づく温度スケーリングを提案する。 以上の結果から,本手法は他の手法と比較して最先端の性能が得られ,複雑なモデルとは異なり,データ不足に対して頑健であることがわかった。 さらに,本モデルによりキャリブレーションプロセスのより深い解釈が可能となる。

In this paper, we study the post-hoc calibration of modern neural networks, a problem that has drawn a lot of attention in recent years. Many calibration methods of varying complexity have been proposed for the task, but there is no consensus about how expressive these should be. We focus on the task of confidence scaling, specifically on post-hoc methods that generalize Temperature Scaling, we call these the Adaptive Temperature Scaling family. We analyse expressive functions that improve calibration and propose interpretable methods. We show that when there is plenty of data complex models like neural networks yield better performance, but are prone to fail when the amount of data is limited, a common situation in certain post-hoc calibration applications like medical diagnosis. We study the functions that expressive methods learn under ideal conditions and design simpler methods but with a strong inductive bias towards these well-performing functions. Concretely, we propose Entropy-based Temperature Scaling, a simple method that scales the confidence of a prediction according to its entropy. Results show that our method obtains state-of-the-art performance when compared to others and, unlike complex models, it is robust against data scarcity. Moreover, our proposed model enables a deeper interpretation of the calibration process.
翻訳日:2022-08-02 14:17:49 公開日:2022-07-31
# 選挙人選における政治的影響に対するtwitterの影響--ソーシャル・ネットワーク分析と意味分析--レビュー

The impact of Twitter on political influence on the choice of a running mate: Social Network Analysis and Semantic Analysis -- A Review ( http://arxiv.org/abs/2208.00479v1 )

ライセンス: Link先を確認
Immaculate Wanza, Irad Kamuti, David Gichohi, Kinyua Gikunda(参考訳) ソーシャルメディアの新時代、ソーシャルネットワークはインターネット上のユーザー生成コンテンツの重要な情報源になりつつある。 多くの人々の感情、意見、フィードバック、レビューを含むこの種の情報資源は、大企業、市場、政治、ジャーナリズム、その他多くの分野にとって非常に有用である。 政治は、現在ソーシャルメディア上で最も話題になっている話題の1つだ。 多くの政治家がTwitterのようなマイクロブログサービスを使っている。 政治家、政党、政治組織、財団は、ソーシャルメディアを使って前もって市民とコミュニケーションをとる。 今日、ソーシャルメディアは何十万もの政治グループや政治家によって利用されている。 これらのソーシャルメディア上では、あらゆる政治家や政党に何百万ものフォロワーがおり、政治家は個人に政治に参加するよう促す新しい革新的な方法を見つける。 さらに、ソーシャルメディアは、過去の経験に基づく政策や戦略の策定、特定の構成員に適した候補者の推薦と選定、政党内の特定の地位に適した人物の推薦、様々な問題や論争に関する市民の感情に基づく政治キャンペーンなど、様々な意思決定過程において政治家を支援している。 本研究は、Twitterプラットフォームにおけるソーシャル・ネットワーク・アナリティクス(SNA)とセマンティック・アナリティクス(SA)を用いて、政治指導者の支持者ネットワークを研究するためのものである。

In this new era of social media, social networks are becoming increasingly important sources of user-generated content on the internet. These kinds of information resources, which include a lot of people's feelings, opinions, feedback, and reviews, are very useful for big businesses, markets, politics, journalism, and many other fields. Politics is one of the most talked-about and popular topics on social media networks right now. Many politicians use micro-blogging services like Twitter because they have a large number of followers and supporters on those networks. Politicians, political parties, political organizations, and foundations use social media networks to communicate with citizens ahead of time. Today, social media is used by hundreds of thousands of political groups and politicians. On these social media networks, every politician and political party has millions of followers, and politicians find new and innovative ways to urge individuals to participate in politics. Furthermore, social media assists politicians in various decision-making processes by providing recommendations, such as developing policies and strategies based on previous experiences, recommending and selecting suitable candidates for a particular constituency, recommending a suitable person for a particular position in the party, and launching a political campaign based on citizen sentiments on various issues and controversies, among other things. This research is a review on the use of social network analysis (SNA) and semantic analysis (SA) on the Twitter platform to study the supporters networks of political leaders because it can help in decision-making when predicting their political futures.
翻訳日:2022-08-02 14:10:52 公開日:2022-07-31
# ニューラルネットワークの機能的規則抽出法

Functional Rule Extraction Method for Artificial Neural Networks ( http://arxiv.org/abs/2208.00335v1 )

ライセンス: Link先を確認
Caleb Princewill Nwokocha(参考訳) 本稿では,人工ニューラルネットワークの操作から指向性および非指向性ルールを抽出するための包括的関数に基づく手法を提案する。

The idea I propose in this paper is a method that is based on comprehensive functions for directed and undirected rule extraction from artificial neural network operations.
翻訳日:2022-08-02 14:09:10 公開日:2022-07-31
# WordArt:シーンテキスト認識のためのコーナーガイド変換器の理解に向けて

Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition ( http://arxiv.org/abs/2208.00438v1 )

ライセンス: Link先を確認
Xudong Xie, Ling Fu, Zhifei Zhang, Zhaowen Wang, Xiang Bai(参考訳) 芸術的テキスト認識は、幅広いアプリケーションにおいて非常に困難なタスクである。 しかし,現状のシーンテキスト認識手法は主に不規則なテキストに焦点を当てているが,特に芸術的テキストは研究されていない。 芸術的テキスト認識の課題は、特殊にデザインされたフォントや効果、文字間の複雑な接続や重なり、背景パターンからの深刻な干渉などである。 これらの問題を緩和するために,芸術的テキストを3つのレベルで認識することを提案する。 まず,文字内部の局所的特徴の抽出にコーナーポイントを適用し,コーナー構造が外観や形状に頑健であることを考慮する。 このようにして、コーナーポイントの離散性は文字間の接続を遮断し、それらの間隔は背景干渉の堅牢性を改善する。 第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。 第3に,画像レベルにおけるグローバル特徴の学習にtransformerを用い,コーナークエリ・クロス・アテンション機構の助けを借りて,コーナーポイントのグローバル関係をモデル化する。 さらに、パフォーマンスをベンチマークするアートテキストデータセットも提供します。 実験により,提案手法が芸術的テキスト認識において有意に優れていることを検証し,複数のボケや遠近法データセットにおいて最先端の性能を実現することができた。

Artistic text recognition is an extremely challenging task with a wide range of applications. However, current scene text recognition methods mainly focus on irregular text while have not explored artistic text specifically. The challenges of artistic text recognition include the various appearance with special-designed fonts and effects, the complex connections and overlaps between characters, and the severe interference from background patterns. To alleviate these problems, we propose to recognize the artistic text at three levels. Firstly, corner points are applied to guide the extraction of local features inside characters, considering the robustness of corner structures to appearance and shape. In this way, the discreteness of the corner points cuts off the connection between characters, and the sparsity of them improves the robustness for background interference. Secondly, we design a character contrastive loss to model the character-level feature, improving the feature representation for character classification. Thirdly, we utilize Transformer to learn the global feature on image-level and model the global relationship of the corner points, with the assistance of a corner-query cross-attention mechanism. Besides, we provide an artistic text dataset to benchmark the performance. Experimental results verify the significant superiority of our proposed method on artistic text recognition and also achieve state-of-the-art performance on several blurred and perspective datasets.
翻訳日:2022-08-02 13:54:58 公開日:2022-07-31
# 望むものをデザインする: 直交アプリケーションとテーマラベルからのアイコン生成

Design What You Desire: Icon Generation from Orthogonal Application and Theme Labels ( http://arxiv.org/abs/2208.00439v1 )

ライセンス: Link先を確認
Yinpeng Chen, Zhiyu Pan, Min Shi, Hao Lu, Zhiguo Cao, Weicai Zhong(参考訳) generative adversarial networks (gans) は、顔生成や画像転送といった素晴らしいアートワークを制作できるプロのアーティストとして訓練されている。 本稿では,モバイルアプリケーションやテーマスタイルに応じたカスタマイズ可能なアイコンの自動生成という,現実的なビジネスシナリオに焦点を当てる。 まず、テーマ・アプリケーション・アイコンデータセット、すなわちappiconを紹介し、それぞれのアイコンは2つの直交テーマとアプリラベルを持つ。 強いベースラインであるstylegan2を調べることで,直交ラベルの絡み合いによるモード崩壊を観察した。 この課題を解決するために,条件付き生成器と直交する二重判別器からなるイコンガンを提案し,この2つの判別器の特徴空間を正則化するコントラスト的特徴不等角化戦略も考案した。 他のアプローチと比較して、IconGANはAppIconベンチマークの優位性を示している。 さらなる分析は、疎結合アプリとテーマ表現の有効性を正当化する。 私たちのプロジェクトは、https://github.com/architect-road/iconganでリリースされる予定です。

Generative adversarial networks (GANs) have been trained to be professional artists able to create stunning artworks such as face generation and image style transfer. In this paper, we focus on a realistic business scenario: automated generation of customizable icons given desired mobile applications and theme styles. We first introduce a theme-application icon dataset, termed AppIcon, where each icon has two orthogonal theme and app labels. By investigating a strong baseline StyleGAN2, we observe mode collapse caused by the entanglement of the orthogonal labels. To solve this challenge, we propose IconGAN composed of a conditional generator and dual discriminators with orthogonal augmentations, and a contrastive feature disentanglement strategy is further designed to regularize the feature space of the two discriminators. Compared with other approaches, IconGAN indicates a superior advantage on the AppIcon benchmark. Further analysis also justifies the effectiveness of disentangling app and theme representations. Our project will be released at: https://github.com/architect-road/IconGAN.
翻訳日:2022-08-02 13:54:37 公開日:2022-07-31
# BYOLMed3D: 3D BYOLフレームワークを用いた医用ビデオの自己教師付き表現学習

BYOLMed3D: Self-Supervised Representation Learning of Medical Videos using Gradient Accumulation Assisted 3D BYOL Framework ( http://arxiv.org/abs/2208.00444v1 )

ライセンス: Link先を確認
Siladittya Manna, Souvik Chakraborty(参考訳) 医用画像解析の応用は、医療専門家が適切に注釈した大量のデータの急性欠如に苦しむ。 教師付き学習アルゴリズムは、堅牢な表現を学ぶために大量のバランスのとれたデータを必要とする。 教師あり学習アルゴリズムは、不均衡なデータを扱うために様々な技術を必要とする。 一方、自己教師付き学習アルゴリズムはデータの不均衡に頑健であり、堅牢な表現を学習することができる。 本研究では, 勾配蓄積法を用いて3次元 BYOL の自己教師型モデルを訓練し, 自己教師型アルゴリズムで一般的に必要とされるバッチ内の多数のサンプルを扱う。 私たちの知る限りでは、この研究はこの分野における最初の研究の1つです。 我々は, ACL Tear Injury 検出の下流課題における実験の結果と, 現代の自己指導型事前訓練法, および Kinetics-400 の事前訓練重量を初期化した ResNet3D-18 との比較を行った。 下流のタスク実験から,提案したフレームワークが既存のベースラインを上回っていることは明らかである。

Applications on Medical Image Analysis suffer from acute shortage of large volume of data properly annotated by medical experts. Supervised Learning algorithms require a large volumes of balanced data to learn robust representations. Often supervised learning algorithms require various techniques to deal with imbalanced data. Self-supervised learning algorithms on the other hand are robust to imbalance in the data and are capable of learning robust representations. In this work, we train a 3D BYOL self-supervised model using gradient accumulation technique to deal with the large number of samples in a batch generally required in a self-supervised algorithm. To the best of our knowledge, this work is one of the first of its kind in this domain. We compare the results obtained through our experiments in the downstream task of ACL Tear Injury detection with the contemporary self-supervised pre-training methods and also with ResNet3D-18 initialized with the Kinetics-400 pre-trained weights. From the downstream task experiments, it is evident that the proposed framework outperforms the existing baselines.
翻訳日:2022-08-02 13:54:21 公開日:2022-07-31
# SdAE:自溶性マスクオートエンコーダ

SdAE: Self-distillated Masked Autoencoder ( http://arxiv.org/abs/2208.00449v1 )

ライセンス: Link先を確認
Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai, Hongkai Xiong, Qi Tian(参考訳) BeiTやMAEのような生成型自己教師型学習(SSL)アプローチの開発により、入力画像のランダムパッチを隠蔽し、行方不明情報を再構築することで、優れた表現を学習する方法が懸念されている。 しかし、BeiTとPeCoは、マスクされたパッチを表す個別のコードブックを作成するために「事前事前訓練」段階を必要とする。 MAEはトレーニング済みのコードブックプロセスを必要としないが、再構成対象としてピクセルを設定することで、トレーニング前のタスクと下流タスクの最適化のギャップが生じる可能性がある。 本稿では, 上記の課題を考慮し, SdAEと呼ばれる簡易な自己蒸留マスク型オートエンコーダネットワークを提案する。 SdAEは、欠落した情報を再構築するためにエンコーダ・デコーダ構造を用いた学生ブランチと、マスク付きトークンの潜在表現を生成する教師ブランチで構成されている。 また,情報ボトルネックの観点から教師部門が潜在表現を生成するためのよい視点を構築する方法を分析する。 その後,マルチフォールドマスキング方式を提案し,複数のマスキングビューに対して,性能向上のためのバランスの取れた情報を提供することにより,計算複雑性の低減を図る。 提案手法は,300エポックの事前学習のみで,ImageNet-1k分類では84.1%の微調整精度,ADE20Kセグメントでは48.6mIOU,COCO検出では48.9mAP,その他の手法ではかなりの差がある。 コードはhttps://github.com/AbrahamYabo/SdAEで入手できる。

With the development of generative-based self-supervised learning (SSL) approaches like BeiT and MAE, how to learn good representations by masking random patches of the input image and reconstructing the missing information has grown in concern. However, BeiT and PeCo need a "pre-pretraining" stage to produce discrete codebooks for masked patches representing. MAE does not require a pre-training codebook process, but setting pixels as reconstruction targets may introduce an optimization gap between pre-training and downstream tasks that good reconstruction quality may not always lead to the high descriptive capability for the model. Considering the above issues, in this paper, we propose a simple Self-distillated masked AutoEncoder network, namely SdAE. SdAE consists of a student branch using an encoder-decoder structure to reconstruct the missing information, and a teacher branch producing latent representation of masked tokens. We also analyze how to build good views for the teacher branch to produce latent representation from the perspective of information bottleneck. After that, we propose a multi-fold masking strategy to provide multiple masked views with balanced information for boosting the performance, which can also reduce the computational complexity. Our approach generalizes well: with only 300 epochs pre-training, a vanilla ViT-Base model achieves an 84.1% fine-tuning accuracy on ImageNet-1k classification, 48.6 mIOU on ADE20K segmentation, and 48.9 mAP on COCO detection, which surpasses other methods by a considerable margin. Code is available at https://github.com/AbrahamYabo/SdAE.
翻訳日:2022-08-02 13:54:05 公開日:2022-07-31
# エッジガイド変換とノイズランドマーク再構成によるワンショット医療用ランドマーク位置決め

One-Shot Medical Landmark Localization by Edge-Guided Transform and Noisy Landmark Refinement ( http://arxiv.org/abs/2208.00453v1 )

ライセンス: Link先を確認
Zihao Yin, Ping Gong, Chunyu Wang, Yizhou Yu and Yizhou Wang(参考訳) 多くの医療アプリケーションにとって重要な上流タスクとして、教師付きランドマークのローカライゼーションは、望ましいパフォーマンスを達成するために、いまだに不要なアノテーションコストを必要とする。 さらに、面倒な収集手順のため、医学的ランドマークデータセットの限られたサイズは、大規模な自己監督型事前学習方法の有効性に影響を与える。 これらの課題に対処するために,まず,ラベル付きexemplarからラベルなしターゲットへの教師なし登録によりランドマークを推定し,さらにこれらのノイズの多い擬似ラベルを用いてロバスト検出器を訓練する,ワンショット医療ランドマークローカライズのための2段階フレームワークを提案する。 重要な構造変化に対処するために,エッジ情報を含む新しい損失関数の指導のもと,グローバルアライメントと局所変形のエンドツーエンドカスケードを学習する。 ステージIIでは,信頼性の高い擬似ラベルを選択するための自己整合性や,半教師付き学習のための相互整合性について検討する。 本手法は,様々なボディ部分の公開データセット上での最先端のパフォーマンスを実現し,その汎用性を示す。

As an important upstream task for many medical applications, supervised landmark localization still requires non-negligible annotation costs to achieve desirable performance. Besides, due to cumbersome collection procedures, the limited size of medical landmark datasets impacts the effectiveness of large-scale self-supervised pre-training methods. To address these challenges, we propose a two-stage framework for one-shot medical landmark localization, which first infers landmarks by unsupervised registration from the labeled exemplar to unlabeled targets, and then utilizes these noisy pseudo labels to train robust detectors. To handle the significant structure variations, we learn an end-to-end cascade of global alignment and local deformations, under the guidance of novel loss functions which incorporate edge information. In stage II, we explore self-consistency for selecting reliable pseudo labels and cross-consistency for semi-supervised learning. Our method achieves state-of-the-art performances on public datasets of different body parts, which demonstrates its general applicability.
翻訳日:2022-08-02 13:53:35 公開日:2022-07-31
# ビジュアルセマンティクスを用いたコードブック学習による視覚言語事前学習の強化

Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics ( http://arxiv.org/abs/2208.00475v1 )

ライセンス: Link先を確認
Xiaoyuan Guo, Jiali Duan, C.-C. Jay Kuo, Judy Wawira Gichoya and Imon Banerjee(参考訳) vision language pretraining framework内の言語モダリティは本質的に識別され、言語語彙内の各単語に意味的な意味を与えます。 対照的に、視覚モダリティは本質的に連続的で高次元であり、視覚と言語モダリティの融合と同様にアライメントを禁止する可能性がある。 そこで我々は,各視覚トークンに意味を与えるコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。 次に,これらの識別された視覚意味論を自己教師ありの基盤として活用し,マスキング画像モデリングの目的であるマスキング言語モデリングの対極として,言語モデルでの成功を証明した。 コードブックを最適化するために、理論的な保証を与えるVQ-VAEの定式化を拡張する。 実験は、共通ビジョンベンチマークによるアプローチの有効性を検証する。

Language modality within the vision language pretraining framework is innately discretized, endowing each word in the language vocabulary a semantic meaning. In contrast, visual modality is inherently continuous and high-dimensional, which potentially prohibits the alignment as well as fusion between vision and language modalities. We therefore propose to "discretize" the visual representation by joint learning a codebook that imbues each visual token a semantic. We then utilize these discretized visual semantics as self-supervised ground-truths for building our Masked Image Modeling objective, a counterpart of Masked Language Modeling which proves successful for language models. To optimize the codebook, we extend the formulation of VQ-VAE which gives a theoretic guarantee. Experiments validate the effectiveness of our approach across common vision-language benchmarks.
翻訳日:2022-08-02 13:53:16 公開日:2022-07-31
# 表情認識のための半監督手法の解析

Analysis of Semi-Supervised Methods for Facial Expression Recognition ( http://arxiv.org/abs/2208.00544v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 画像認識のためのディープニューラルネットワークのトレーニングには、しばしば大規模な人間の注釈データが必要である。 ラベル付きデータに対するディープ・ニューラル・ソリューションの信頼性を低下させるため,最先端の半教師付き手法が文献に提案されている。 それにもかかわらず、表情認識(FER)の分野では、このような半教師付き手法の使用は極めて稀である。 本稿では,最近提案されたferの文脈における最先端の半教師付き学習手法に関する包括的研究を行う。 我々は,3つのFERデータセット(FER13,RAF-DB,AffectNet)上で,Pi-Model,Pseudo-label,Mean-Teacher,VAT,MixMatch,ReMixMatch,UDA,FixMatchの8つの半教師付き学習手法の比較を行った。 また,本手法の性能を教師あり訓練と比較した。 既存の半教師付きメソッドをクラス毎に250個のラベル付きサンプルでトレーニングすると、完全なラベル付きデータセットでトレーニングされた完全教師付きメソッドと同等のパフォーマンスが得られる。 この領域でのさらなる研究を促進するため、コード公開はhttps://github.com/ShuvenduRoy/SSL_FERで行います。

Training deep neural networks for image recognition often requires large-scale human annotated data. To reduce the reliance of deep neural solutions on labeled data, state-of-the-art semi-supervised methods have been proposed in the literature. Nonetheless, the use of such semi-supervised methods has been quite rare in the field of facial expression recognition (FER). In this paper, we present a comprehensive study on recently proposed state-of-the-art semi-supervised learning methods in the context of FER. We conduct comparative study on eight semi-supervised learning methods, namely Pi-Model, Pseudo-label, Mean-Teacher, VAT, MixMatch, ReMixMatch, UDA, and FixMatch, on three FER datasets (FER13, RAF-DB, and AffectNet), when various amounts of labeled samples are used. We also compare the performance of these methods against fully-supervised training. Our study shows that when training existing semi-supervised methods on as little as 250 labeled samples per class can yield comparable performances to that of fully-supervised methods trained on the full labeled datasets. To facilitate further research in this area, we make our code publicly available at: https://github.com/ShuvenduRoy/SSL_FER
翻訳日:2022-08-02 13:53:02 公開日:2022-07-31
# ひとつ:動的推論による1段階参照表現の理解

One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning ( http://arxiv.org/abs/2208.00361v1 )

ライセンス: Link先を確認
Zhipeng Zhang, Zhimin Wei, Zhongzhen Huang, Rui Niu, Peng Wang(参考訳) Referring Expression Comprehension (REC)は、自然言語表現によって参照される対象物を検出するモデルを必要とする視覚推論において最も重要なタスクの1つである。 提案したパイプラインの中では,1段階参照式理解(OSREC)が地域提案と選択段階の融合によって主流となっている。 多くの最先端osrecモデルは、オブジェクトのシーケンスが、意味関係を分析するためにマルチホップ推論を必要とする単一の式で頻繁に言及されるため、マルチホップ推論戦略を採用している。 しかしながら、これらのモデルの未解決の問題は、推論の前に推論ステップの数を事前に定義し、固定する必要があることである。 本稿では,推論状態と表現複雑性に基づいて,推論ステップを動的に調整できる動的多段階推論ネットワークを提案する。 具体的には,推論状態を記憶し処理するためのトランスフォーマーモジュールと,推論ステップを動的に推論するための強化学習戦略を採用する。 この研究は、短い表現を持つRefCOCO(+, g)から、長く複雑な構成表現を持つデータセットであるRef-Reasoningまで、いくつかのRECデータセットの最先端のパフォーマンスや大幅な改善を実現している。

Referring Expression Comprehension (REC) is one of the most important tasks in visual reasoning that requires a model to detect the target object referred by a natural language expression. Among the proposed pipelines, the one-stage Referring Expression Comprehension (OSREC) has become the dominant trend since it merges the region proposal and selection stages. Many state-of-the-art OSREC models adopt a multi-hop reasoning strategy because a sequence of objects is frequently mentioned in a single expression which needs multi-hop reasoning to analyze the semantic relation. However, one unsolved issue of these models is that the number of reasoning steps needs to be pre-defined and fixed before inference, ignoring the varying complexity of expressions. In this paper, we propose a Dynamic Multi-step Reasoning Network, which allows the reasoning steps to be dynamically adjusted based on the reasoning state and expression complexity. Specifically, we adopt a Transformer module to memorize & process the reasoning state and a Reinforcement Learning strategy to dynamically infer the reasoning steps. The work achieves the state-of-the-art performance or significant improvements on several REC datasets, ranging from RefCOCO (+, g) with short expressions, to Ref-Reasoning, a dataset with long and complex compositional expressions.
翻訳日:2022-08-02 13:47:22 公開日:2022-07-31
# 3次元運動予測のためのスケルトン分割グラフ散乱ネットワーク

Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction ( http://arxiv.org/abs/2208.00368v1 )

ライセンス: Link先を確認
Maosen Li, Siheng Chen, Zijing Zhang, Lingxi Xie, Qi Tian, Ya Zhang(参考訳) 体-関節関係をモデル化するグラフ畳み込みネットワークに基づく手法は,最近3次元骨格に基づく人間の動作予測において大きな可能性を示唆している。 しかし、これらの手法には2つの重要な問題がある: 1つは、ディープグラフ畳み込み(deep graph convolutions filter feature in only limited graph spectrums, lost enough information in the full band)、2つ目は、シングルグラフを使って体全体をモデル化し、様々なボディ部分の様々なパターンを過小評価する。 まず,複数のトレーニング可能な帯域通過グラフフィルタを用いて,よりリッチなグラフスペクトル帯域にポーズを分解する適応グラフ散乱を提案する。 第2の課題に対処するために、ボディパートは別々にモデル化され、多様なダイナミクスを学習し、空間的次元に沿ってより細かい特徴抽出を可能にする。 以上の2つの設計を統合し,新しいスケルトン分割グラフ散乱ネットワーク(SPGSN)を提案する。 モデルのコアはカスケードマルチパートグラフ散乱ブロック(mpgsbs)であり、様々なボディパーツに適応的なグラフ散乱を構築し、推定されたスペクトルの重要性とボディパートの相互作用に基づいて分解された特徴を融合する。 大規模な実験により、SPGSNは、Human3.6M、CMU Mocap、および3DPWデータセット上の関節位置誤差(MPJPE)当たりの3D平均の13.8%、9.3%、および2.7%の差で最先端の手法より優れていることが示されている。

Graph convolutional network based methods that model the body-joints' relations, have recently shown great promise in 3D skeleton-based human motion prediction. However, these methods have two critical issues: first, deep graph convolutions filter features within only limited graph spectrums, losing sufficient information in the full band; second, using a single graph to model the whole body underestimates the diverse patterns on various body-parts. To address the first issue, we propose adaptive graph scattering, which leverages multiple trainable band-pass graph filters to decompose pose features into richer graph spectrum bands. To address the second issue, body-parts are modeled separately to learn diverse dynamics, which enables finer feature extraction along the spatial dimensions. Integrating the above two designs, we propose a novel skeleton-parted graph scattering network (SPGSN). The cores of the model are cascaded multi-part graph scattering blocks (MPGSBs), building adaptive graph scattering on diverse body-parts, as well as fusing the decomposed features based on the inferred spectrum importance and body-part interactions. Extensive experiments have shown that SPGSN outperforms state-of-the-art methods by remarkable margins of 13.8%, 9.3% and 2.7% in terms of 3D mean per joint position error (MPJPE) on Human3.6M, CMU Mocap and 3DPW datasets, respectively.
翻訳日:2022-08-02 13:47:00 公開日:2022-07-31
# less is more: masked frames modelingによるビデオ奥行き推定の一貫性

Less is More: Consistent Video Depth Estimation with Masked Frames Modeling ( http://arxiv.org/abs/2208.00380v1 )

ライセンス: Link先を確認
Yiran Wang, Zhiyu Pan, Xingyi Li, Zhiguo Cao, Ke Xian, Jianming Zhang(参考訳) 時間的一貫性はビデオ深度推定の重要な課題である。 これまでの作業は、時間を要する追加の光学フローやカメラのポーズに基づいている。 対照的に、少ない情報で一貫性を導きます。 ビデオは本質的に時間的冗長性が強いため、行方不明のフレームは隣のフレームから復元できる。 そこで,本稿では,フレームマスキングネットワーク (fmnet) を提案する。フレームマスキングネットワークは,隣接フレームに基づいてマスキングフレームの深さを予測する空間時空間トランスフォーマーネットワークである。 マスク付き時間的特徴を再構築することにより、FMNetは固有のフレーム間の相関を学習し、一貫性をもたらす。 先行技術と比較すると,提案手法は空間的精度と時間的整合性に優れ,付加的な情報がないことを示す。 我々の研究は、一貫したビデオ深度推定の新しい視点を提供する。

Temporal consistency is the key challenge of video depth estimation. Previous works are based on additional optical flow or camera poses, which is time-consuming. By contrast, we derive consistency with less information. Since videos inherently exist with heavy temporal redundancy, a missing frame could be recovered from neighboring ones. Inspired by this, we propose the frame masking network (FMNet), a spatial-temporal transformer network predicting the depth of masked frames based on their neighboring frames. By reconstructing masked temporal features, the FMNet can learn intrinsic inter-frame correlations, which leads to consistency. Compared with prior arts, experimental results demonstrate that our approach achieves comparable spatial accuracy and higher temporal consistency without any additional information. Our work provides a new perspective on consistent video depth estimation.
翻訳日:2022-08-02 13:46:31 公開日:2022-07-31
# PVBM:網膜血管セグメンテーションに基づくPythonのバイオマーカーツールボックス

PVBM: A Python Vasculature Biomarker Toolbox Based On Retinal Blood Vessel Segmentation ( http://arxiv.org/abs/2208.00392v1 )

ライセンス: Link先を確認
Jonathan Fhima, Jan Van Eijgen, Ingeborg Stalmans, Yevgeniy Men, Moti Freiman, Joachim A. Behar(参考訳) 序論: 血管はdfi(digital fundus image)から非侵襲的に可視化できる。 いくつかの研究で、DFIから得られた心血管のリスクと血管の特徴との関連が示されている。 コンピュータビジョンと画像セグメンテーションの最近の進歩は、DFI血管セグメンテーションの自動化を可能にする。 これらのセグメント化されたDFIからVBM(Digital vasculature Biomarker)を自動的に計算できるリソースが必要である。 方法:本稿では,PVBMと表記されるPython Vasculature BioMarkerツールボックスを紹介する。 合計11機のvbmが実装された。 特に,tortuosity と branching angle を推定するための新しいアルゴリズム手法を提案する。 pvbmとユーザビリティの証明として,緑内障患者と健康管理者の血管の幾何学的差異を分析した。 結果: DFIセグメンテーションに基づく完全自動血管バイオマーカーツールボックスを構築し,緑内障の血管変化を特徴付けるための有用性を示した。 緑内障患者では, 動脈および静脈に対するバイオマーカーの有意差は認められなかったが, 有意差は認められなかった。 結論: 網膜血管セグメンテーションから11個のVBMの計算を自動化した。 PVBMツールボックスはGNU GPL 3ライセンスでオープンソース化され、physiozoo.comで公開されている。

Introduction: Blood vessels can be non-invasively visualized from a digital fundus image (DFI). Several studies have shown an association between cardiovascular risk and vascular features obtained from DFI. Recent advances in computer vision and image segmentation enable automatising DFI blood vessel segmentation. There is a need for a resource that can automatically compute digital vasculature biomarkers (VBM) from these segmented DFI. Methods: In this paper, we introduce a Python Vasculature BioMarker toolbox, denoted PVBM. A total of 11 VBMs were implemented. In particular, we introduce new algorithmic methods to estimate tortuosity and branching angles. Using PVBM, and as a proof of usability, we analyze geometric vascular differences between glaucomatous patients and healthy controls. Results: We built a fully automated vasculature biomarker toolbox based on DFI segmentations and provided a proof of usability to characterize the vascular changes in glaucoma. For arterioles and venules, all biomarkers were significant and lower in glaucoma patients compared to healthy controls except for tortuosity, venular singularity length and venular branching angles. Conclusion: We have automated the computation of 11 VBMs from retinal blood vessel segmentation. The PVBM toolbox is made open source under a GNU GPL 3 license and is available on physiozoo.com (following publication).
翻訳日:2022-08-02 13:46:18 公開日:2022-07-31
# FixMatchSeg: 半スーパービジョンのセマンティックセグメンテーションのためのFixMatchの修正

FixMatchSeg: Fixing FixMatch for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.00400v1 )

ライセンス: Link先を確認
Pratima Upretee, Bishesh Khanal(参考訳) セマンティックな医用画像セグメンテーションのための教師付き深層学習手法は、ここ数年でますます人気が高まっているが、リソース制限された設定では、多くの注釈付き画像を取得することは、主に専門家が必要であり、費用がかかり、時間がかかるため、非常に難しい。 近年, 分類問題において, 教師付き手法と半教師付き手法のギャップは劇的に縮小されているが, セグメンテーション手法のギャップは依然として大きい。 本研究では,最先端の半教師付き分類法fixmatchを意味セグメンテーションタスクに適用し,fixmatchsegを導入する。 fixmatchsegは、心臓超音波、胸部x線、網膜底画像、皮膚画像の4つの異なる解剖学的、異なるモダリティのデータセットで評価されている。 ラベルがほとんどない場合、FixMatchSegが強力な教師付きベースラインと同等に動作することを示す。

Supervised deep learning methods for semantic medical image segmentation are getting increasingly popular in the past few years.However, in resource constrained settings, getting large number of annotated images is very difficult as it mostly requires experts, is expensive and time-consuming.Semi-supervised segmentation can be an attractive solution where a very few labeled images are used along with a large number of unlabeled ones. While the gap between supervised and semi-supervised methods have been dramatically reduced for classification problems in the past couple of years, there still remains a larger gap in segmentation methods. In this work, we adapt a state-of-the-art semi-supervised classification method FixMatch to semantic segmentation task, introducing FixMatchSeg. FixMatchSeg is evaluated in four different publicly available datasets of different anatomy and different modality: cardiac ultrasound, chest X-ray, retinal fundus image, and skin images. When there are few labels, we show that FixMatchSeg performs on par with strong supervised baselines.
翻訳日:2022-08-02 13:46:01 公開日:2022-07-31
# 低リソース言語における教師なし翻訳品質推定

Mismatching-Aware Unsupervised Translation Quality Estimation For Low-Resource Languages ( http://arxiv.org/abs/2208.00463v1 )

ライセンス: Link先を確認
Fatemeh Azadi, Heshaam Faili, Mohammad Javad Dousti(参考訳) 翻訳品質推定(QE)は、機械翻訳(MT)出力の品質を基準なしに予測するタスクである。 本稿ではまず,XLM-RoBERTa(XLMR)モデルを用いて計算したBERTScoreに基づく簡易な教師なしQE手法であるXLMRScoreを提案する。 次に,未翻訳の単語を未知のトークンに置き換える方法と,アライメントされた単語を互いに親しみ合うように事前学習したモデルの言語間アライメントを提案する。 提案手法は,WMT21QE共有タスクの4つの低リソース言語対と,本論文で紹介した新たな英語-Farsiテストデータセットについて評価する。 実験の結果,Pearsonの相関は0.01以下であり,低リソースの言語ペアでは平均8%以上で,教師なしの競合よりも優れていた。

Translation Quality Estimation (QE) is the task of predicting the quality of machine translation (MT) output without any reference. This task has gained increasing attention as an important component in practical applications of MT. In this paper, we first propose XLMRScore, a simple unsupervised QE method based on the BERTScore computed using the XLM-RoBERTa (XLMR) model while discussing the issues that occur using this method. Next, we suggest two approaches to mitigate the issues: replacing untranslated words with the unknown token and the cross-lingual alignment of pre-trained model to represent aligned words closer to each other. We evaluate the proposed method on four low-resource language pairs of WMT21 QE shared task, as well as a new English-Farsi test dataset introduced in this paper. Experiments show that our method could get comparable results with the supervised baseline for two zero-shot scenarios, i.e., with less than 0.01 difference in Pearson correlation, while outperforming the unsupervised rivals in all the low-resource language pairs for above 8% in average.
翻訳日:2022-08-02 13:37:43 公開日:2022-07-31
# PASTA: 物語の参加者状態モデリングのためのデータセット

PASTA: A Dataset for Modeling Participant States in Narratives ( http://arxiv.org/abs/2208.00329v1 )

ライセンス: Link先を確認
Sayontan Ghosh, Mahnaz Koupaee, Isabella Chen, Francis Ferraro, Nathanael Chambers, Niranjan Balasubramanian(参考訳) 物語の中の出来事は、その参加者の基盤となる状態を通じて、一貫性のある全体として理解することができる。 しばしば、これらの参加者国家は物語の中で明確に言及されず、常識や推論を通じて満たされる。 物語を理解するモデルは、これらの暗黙の参加者状態とこれらの状態の変化が物語に与える影響についての理由を推測することができるべきである。 この目標を達成するために,新たにクラウドソーシングされた Participants States データセットである PASTA を導入する。 このデータセットには、有効な、推論可能な参加者の状態、状態に対する反事実的摂動、反事実が真実であれば必要なストーリーの変更が含まれている。 我々は,ある状態がストーリーに関連づけられたときに推測する能力をテストするための3つの状態ベースの推論タスクを導入し,反事実状態のストーリーを改訂し,改訂されたストーリーが与えられた場合の最も可能性の高い状態変化を説明する。 我々のベンチマーク実験は、今日のLLMがある程度の状態を推論できる一方で、改善の余地が大きく、将来の研究の道のりを示唆していることを示している。

The events in a narrative can be understood as a coherent whole via the underlying states of its participants. Often, these participant states are not explicitly mentioned in the narrative, left to be filled in via common-sense or inference. A model that understands narratives should be able to infer these implicit participant states and reason about the impact of changes to these states on the narrative. To facilitate this goal, we introduce a new crowdsourced Participants States dataset, PASTA. This dataset contains valid, inferable participant states; a counterfactual perturbation to the state; and the changes to the story that would be necessary if the counterfactual was true. We introduce three state-based reasoning tasks that test for the ability to infer when a state is entailed by a story, revise a story for a counterfactual state, and to explain the most likely state change given a revised story. Our benchmarking experiments show that while today's LLMs are able to reason about states to some degree, there is a large room for improvement, suggesting potential avenues for future research.
翻訳日:2022-08-02 13:28:28 公開日:2022-07-31
# コードスイッチング:文字プロファイルに基づくエジプト・アラビア・英語のコードスイッチングレベル予測の事例研究

The Who in Code-Switching: A Case Study for Predicting Egyptian Arabic-English Code-Switching Levels based on Character Profiles ( http://arxiv.org/abs/2208.00433v1 )

ライセンス: Link先を確認
Injy Hamed, Alia El Bolock, Cornelia Herbert, Slim Abdennadher, Ngoc Thang Vu(参考訳) コードスイッチング(英: Code-switching, CS)は、多言語個人によって示される共通の言語現象であり、単一の会話の中で言語間で交替する傾向がある。 CSは言語的な課題を包含するだけでなく、話者間の動的振る舞いの観点からも多くの複雑さを含む複雑な現象である。 csを発生させる要因が国によって異なり、またある人によって異なることから、csは話者に依存した行動であり、外国語が埋め込まれる頻度は話者によって異なることが分かる。 数名の研究者が言語学的観点からcs行動の予測について検討しているが、社会学的、心理学的な観点からのcs行動の予測には研究が不足している。 本研究では,ユーザのCSレベルと性格特性の相関関係を実証的ユーザスタディとして検討する。 我々はバイリンガルとのインタビューを行い、その人口統計、性格特性、旅行体験などのプロファイルに関する情報を収集します。 次に、機械学習(ml)を使用して、そのプロファイルに基づいてユーザーのcsレベルを予測する。 我々は分類と回帰タスクの両方を実験する。 以上の結果から,cs行動は,話し手,旅行経験,神経症,転向性パーソナリティ特性の関係に影響されていることが示唆された。

Code-switching (CS) is a common linguistic phenomenon exhibited by multilingual individuals, where they tend to alternate between languages within one single conversation. CS is a complex phenomenon that not only encompasses linguistic challenges, but also contains a great deal of complexity in terms of its dynamic behaviour across speakers. Given that the factors giving rise to CS vary from one country to the other, as well as from one person to the other, CS is found to be a speaker-dependant behaviour, where the frequency by which the foreign language is embedded differs across speakers. While several researchers have looked into predicting CS behaviour from a linguistic point of view, research is still lacking in the task of predicting user CS behaviour from sociological and psychological perspectives. We provide an empirical user study, where we investigate the correlations between users' CS levels and character traits. We conduct interviews with bilinguals and gather information on their profiles, including their demographics, personality traits, and traveling experiences. We then use machine learning (ML) to predict users' CS levels based on their profiles, where we identify the main influential factors in the modeling process. We experiment with both classification as well as regression tasks. Our results show that the CS behaviour is affected by the relation between speakers, travel experiences as well as Neuroticism and Extraversion personality traits.
翻訳日:2022-08-02 13:28:10 公開日:2022-07-31
# 文化的影響の認識に向けて:6つの文化における視覚的影響の認識

Towards Intercultural Affect Recognition: Audio-Visual Affect Recognition in the Wild Across Six Cultures ( http://arxiv.org/abs/2208.00344v1 )

ライセンス: Link先を確認
Leena Mathur, Ralph Adolphs, Maja J Matari\'c(参考訳) 多文化の世界では、人間をサポートする感情認識aiシステムは、文化全体の感情表現パターンのバリエーションにまたがる影響を知覚する能力が必要です。 これらのモデルは、訓練されていない文化的文脈でうまく機能しなければならない。 情緒的コンピューティングにおける標準的な仮定は、同一文化(異文化)内で訓練され、使用されている認識モデルが、1つの文化で訓練されたモデルよりもうまく機能し、異なる文化(異文化)で使用されるというものである。 本研究では,この仮定を検証し,6つの文化の現実的なディヤド的相互作用のビデオを用いた文化間影響認識モデルの最初の体系的研究を示す。 本研究では、時間的因果発見に基づく注意に基づく特徴選択手法を開発し、文化間影響認識モデルに活用できる行動的手がかりを同定する。 6つの文化にまたがって,文化間影響認識モデルが文化内モデルと同程度に効果的であった。 本研究は,異文化間感情認識に有用な行動特徴を同定し,寄与する。視覚モダリティの表情特徴は,本研究の文脈における音声モダリティよりも有用であった。 本稿では,文化間インパクト認識システムの発展に向けた概念実証とモチベーションについて述べる。

In our multicultural world, affect-aware AI systems that support humans need the ability to perceive affect across variations in emotion expression patterns across cultures. These models must perform well in cultural contexts on which they have not been trained. A standard assumption in affective computing is that affect recognition models trained and used within the same culture (intracultural) will perform better than models trained on one culture and used on different cultures (intercultural). We test this assumption and present the first systematic study of intercultural affect recognition models using videos of real-world dyadic interactions from six cultures. We develop an attention-based feature selection approach under temporal causal discovery to identify behavioral cues that can be leveraged in intercultural affect recognition models. Across all six cultures, our findings demonstrate that intercultural affect recognition models were as effective or more effective than intracultural models. We identify and contribute useful behavioral features for intercultural affect recognition; facial features from the visual modality were more useful than the audio modality in this study's context. Our paper presents a proof-of-concept and motivation for the future development of intercultural affect recognition systems.
翻訳日:2022-08-02 13:24:11 公開日:2022-07-31
# Speckle2Speckle: クリーンデータのない超音波スペックルフィルタの教師なし学習

Speckle2Speckle: Unsupervised Learning of Ultrasound Speckle Filtering Without Clean Data ( http://arxiv.org/abs/2208.00402v1 )

ライセンス: Link先を確認
R\"udiger G\"obl, Christoph Hennersperger, Nassir Navab(参考訳) 超音波イメージングでは、組織の均質領域の出現はスペックルの対象となり、特定の用途のために組織不規則性の検出を困難にすることができる。 これに対処するために,スペックル低減フィルタを画像に適用することが一般的である。 従来のフィルタリング技術の多くは手作りであり、しばしば現在のハードウェア、撮像方式、アプリケーションに微調整する必要がある。 一方、学習ベースの技術は、(完全に監督された技術の場合)訓練のためのターゲットイメージを必要とするか、あるいは全てのケースで適用できないスペックルの外観の、狭く複雑な物理ベースのモデルを必要とする。 本研究では,これらの制約を伴わない深層学習に基づくスペックル除去手法を提案する。 これを実現するために,本手法では,同じ組織を表す複数の独立したスペックル実現を実現するための現実的な超音波シミュレーション技術を用いて,異なる劣化したデータのペアを扱う画像再構成技術の適用を可能にする。 他の2つの最先端手法(非局所的手法と最適化ベイズ非局所的フィルタ)と比較して、シミュレーションだけで訓練されているにもかかわらず、定性的比較と定量的評価が良好であり、桁違いに高速である。

In ultrasound imaging the appearance of homogeneous regions of tissue is subject to speckle, which for certain applications can make the detection of tissue irregularities difficult. To cope with this, it is common practice to apply speckle reduction filters to the images. Most conventional filtering techniques are fairly hand-crafted and often need to be finely tuned to the present hardware, imaging scheme and application. Learning based techniques on the other hand suffer from the need for a target image for training (in case of fully supervised techniques) or require narrow, complex physics-based models of the speckle appearance that might not apply in all cases. With this work we propose a deep-learning based method for speckle removal without these limitations. To enable this, we make use of realistic ultrasound simulation techniques that allow for instantiation of several independent speckle realizations that represent the exact same tissue, thus allowing for the application of image reconstruction techniques that work with pairs of differently corrupted data. Compared to two other state-of-the-art approaches (non-local means and the Optimized Bayesian non-local means filter) our method performs favorably in qualitative comparisons and quantitative evaluation, despite being trained on simulations alone, and is several orders of magnitude faster.
翻訳日:2022-08-02 13:23:52 公開日:2022-07-31
# eco2AI:持続可能なAIに向けた第一歩として機械学習モデルの二酸化炭素排出量追跡

eco2AI: carbon emissions tracking of machine learning models as the first step towards sustainable AI ( http://arxiv.org/abs/2208.00406v1 )

ライセンス: Link先を確認
Semen Budennyy, Vladimir Lazarev, Nikita Zakharenko, Alexey Korovin, Olga Plosskaya, Denis Dimitrov, Vladimir Arkhipkin, Ivan Oseledets, Ivan Barsola, Ilya Egorov, Aleksandra Kosterina, Leonid Zhukov(参考訳) ディープニューラルネットワークのサイズと複雑さは指数関数的に増加し続けており、これらのモデルによるトレーニングと推論のエネルギー消費は著しく増加した。 我々は、データサイエンティストや研究者が彼らのモデルのエネルギー消費と同等のCO2排出量を簡単に追跡するのに役立つオープンソースのパッケージeco2AIを紹介します。 eco2AIでは、エネルギー消費の追跡と地域CO2排出量の正当性に注目した。 我々は研究コミュニティに対して、計算コストの低い新しい最適人工知能(AI)アーキテクチャの探索を奨励する。 モチベーションは、サステナブルAIとグリーンAI経路の両方で、AIベースの温室効果ガスの隔離サイクルの概念からもたらされる。

The size and complexity of deep neural networks continue to grow exponentially, significantly increasing energy consumption for training and inference by these models. We introduce an open-source package eco2AI to help data scientist and researchers track energy consumption and equivalent CO2 emissions of their models in a straightforward way. In eco2AI we put emphasis on accuracy of energy consumption tracking and correct regional CO2 emissions accounting. We encourage research community to search for new optimal Artificial Intelligence (AI) architectures with a lower computational cost. The motivation also comes from the concept of AI-based green house gases sequestrating cycle with both Sustainable AI and Green AI pathways.
翻訳日:2022-08-02 13:17:57 公開日:2022-07-31
# テーブル構造認識の評価:新しい視点

Evaluating Table Structure Recognition: A New Perspective ( http://arxiv.org/abs/2208.00385v1 )

ライセンス: Link先を確認
Tarun Kumar and Himanshu Sharad Bhatt(参考訳) テーブル構造認識アルゴリズムの評価に用いられる既存のメトリクスには、テキストのキャプチャと空のセルアライメントに関する欠点がある。 本稿では,先行研究に基づき,上述の欠点に対して頑健であると同時に,テキストの代わりにバウンディングボックスを使用するテーブル構造認識のための,tedsベースのiou類似度(teds(iou))を提案する。 様々な例を通して,過去の測定値に対する測定値の有効性を示す。

Existing metrics used to evaluate table structure recognition algorithms have shortcomings with regard to capturing text and empty cells alignment. In this paper, we build on prior work and propose a new metric - TEDS based IOU similarity (TEDS (IOU)) for table structure recognition which uses bounding boxes instead of text while simultaneously being robust against the above disadvantages. We demonstrate the effectiveness of our metric against previous metrics through various examples.
翻訳日:2022-08-02 13:13:03 公開日:2022-07-31
# INSightR-Net: 類似性に基づく回帰の解釈可能なニューラルネットワークとプロトタイプとの比較

INSightR-Net: Interpretable Neural Network for Regression using Similarity-based Comparisons to Prototypical Examples ( http://arxiv.org/abs/2208.00457v1 )

ライセンス: Link先を確認
Linde S. Hesse and Ana I. L. Namburete(参考訳) 畳み込みニューラルネットワーク(CNN)は、様々な医療画像タスクにおいて、例外的な性能を示している。 しかし、従来のCNNは推論過程を説明できないため、臨床実践における導入を制限している。 そこで本研究では,類似度に基づく比較(insightr-net)を用いた回帰のための本質的解釈可能なcnnを提案する。 アーキテクチャに組み込まれたプロトタイプ層は、学習したプロトタイプと最もよく似た画像領域の可視化を可能にする。 最終的な予測は直観的にプロトタイプのラベルとしてモデル化され、類似性によって重み付けられる。 我々は,INSightR-NetとResNetベースラインとの競合予測性能を達成し,解釈可能性のために性能を損なう必要はないことを示した。 さらに,分散性と多様性を用いて説明の質を定量化し,良質な説明に重要な2つの概念を提示し,潜在空間埋め込みに対するパラメータの影響を実証した。

Convolutional neural networks (CNNs) have shown exceptional performance for a range of medical imaging tasks. However, conventional CNNs are not able to explain their reasoning process, therefore limiting their adoption in clinical practice. In this work, we propose an inherently interpretable CNN for regression using similarity-based comparisons (INSightR-Net) and demonstrate our methods on the task of diabetic retinopathy grading. A prototype layer incorporated into the architecture enables visualization of the areas in the image that are most similar to learned prototypes. The final prediction is then intuitively modeled as a mean of prototype labels, weighted by the similarities. We achieved competitive prediction performance with our INSightR-Net compared to a ResNet baseline, showing that it is not necessary to compromise performance for interpretability. Furthermore, we quantified the quality of our explanations using sparsity and diversity, two concepts considered important for a good explanation, and demonstrated the effect of several parameters on the latent space embeddings.
翻訳日:2022-08-02 13:12:56 公開日:2022-07-31
# COCOA:センサデータのためのクロスモーダルコントラスト学習

COCOA: Cross Modality Contrastive Learning for Sensor Data ( http://arxiv.org/abs/2208.00467v1 )

ライセンス: Link先を確認
Shohreh Deldari, Hao Xue, Aaqib Saeed, Daniel V. Smith, Flora D. Salim(参考訳) SSL(Self-Supervised Learning)はラベル付きデータなしで差別表現を学習するための新しいパラダイムであり、教師付きデータと比較して、同等あるいは最先端の結果に達した。 Contrastive Learning (CL)は、SSLにおいて一般的な情報表現を学習しようとする最もよく知られたアプローチの1つである。 CL法は主にコンピュータビジョンや自然言語処理の応用のために開発されており、単一のセンサモードしか使われていない。 しかし、普及型コンピューティングアプリケーションの大部分は、さまざまなセンサーモダリティのデータを活用している。 既存のCL手法は1つか2つのデータソースからの学習に限られるが、COCOA(Cross mOdality Contrastive leArning)は、異なるデータモダリティ間の相互相関を計算し、無関係なインスタンス間の類似性を最小化することにより、マルチセンサデータから品質表現を学習する、新しい客観的関数を利用する自己教師型モデルである。 我々は、最近導入された8つの最先端セルフ教師付きモデルと、5つの公開データセットにまたがる2つの教師付きベースラインに対するCOCOAの有効性を評価する。 我々はCOCOAが他のすべてのアプローチよりも優れた分類性能を発揮することを示す。 また、COCOAは、利用可能なラベル付きデータの10分の1しか使用しない完全教師付きモデルを含む、他のベースラインよりもはるかにラベル効率が高い。

Self-Supervised Learning (SSL) is a new paradigm for learning discriminative representations without labelled data and has reached comparable or even state-of-the-art results in comparison to supervised counterparts. Contrastive Learning (CL) is one of the most well-known approaches in SSL that attempts to learn general, informative representations of data. CL methods have been mostly developed for applications in computer vision and natural language processing where only a single sensor modality is used. A majority of pervasive computing applications, however, exploit data from a range of different sensor modalities. While existing CL methods are limited to learning from one or two data sources, we propose COCOA (Cross mOdality COntrastive leArning), a self-supervised model that employs a novel objective function to learn quality representations from multisensor data by computing the cross-correlation between different data modalities and minimizing the similarity between irrelevant instances. We evaluate the effectiveness of COCOA against eight recently introduced state-of-the-art self-supervised models, and two supervised baselines across five public datasets. We show that COCOA achieves superior classification performance to all other approaches. Also, COCOA is far more label-efficient than the other baselines including the fully supervised model using only one-tenth of available labelled data.
翻訳日:2022-08-02 13:12:39 公開日:2022-07-31
# 予算アノテーションを用いた深層アクティブラーニング

Deep Active Learning with Budget Annotation ( http://arxiv.org/abs/2208.00508v1 )

ライセンス: Link先を確認
Kinyua Gikunda(参考訳) 何十年にもわたって収集されたデジタルデータと、情報技術を使って現在作成されているデータは、説明のないラベルのないデータやデータである。 ラベルなしのデータは比較的簡単に取得できるが、ドメインの専門家を使ってもラベルを付けるのは費用がかかる。 最近の研究のほとんどは、この問題に対処するために不確実性メトリクス測度を用いたアクティブラーニングの利用に重点を置いている。 ほとんどの不確実性の選択戦略は非常に効果的であるが、ラベルのないインスタンスのインフォメーションを考慮に入れず、外れ値の問い合わせをしがちである。 これらの課題に対処するため、我々はインスタンスの不確実性と情報性の両方を計算し、計算されたインスタンスを予算アノテータを使って自動的にラベル付けするハイブリッドアプローチを提案する。 アノテーションのコストを削減するため,既存のモデルに含まれる情報に対する問い合わせを避けるために,最先端の事前訓練モデルを用いる。 様々なデータセットに関する広範な実験により,提案手法の有効性が示された。

Digital data collected over the decades and data currently being produced with use of information technology is vastly the unlabeled data or data without description. The unlabeled data is relatively easy to acquire but expensive to label even with use of domain experts. Most of the recent works focus on use of active learning with uncertainty metrics measure to address this problem. Although most uncertainty selection strategies are very effective, they fail to take informativeness of the unlabeled instances into account and are prone to querying outliers. In order to address these challenges we propose an hybrid approach of computing both the uncertainty and informativeness of an instance, then automaticaly label the computed instances using budget annotator. To reduce the annotation cost, we employ the state-of-the-art pre-trained models in order to avoid querying information already contained in those models. Our extensive experiments on different sets of datasets demonstrate the efficacy of the proposed approach.
翻訳日:2022-08-02 13:11:54 公開日:2022-07-31
# ロボットの生地形成

Robotic Dough Shaping ( http://arxiv.org/abs/2208.00386v1 )

ライセンス: Link先を確認
Jan Ondras, Di Ni, Xi Deng, Zeqi Gu, Henry Zheng(参考訳) ドーナツ状変形性材料を前方に提示した2次元ターゲット形状に成形する問題に対処する。 ローリングピンとrgb-dカメラと触覚センサから収集した情報を備えた6自由度wildx-250ロボットアームを使用する。 3種類の変形可能な材料および3種類のターゲット生地形状サイズにわたる広範囲な実験において,ドーナツ収縮作用を含む複数の制御方針を提示,比較し,結合(iou)上の交差(iou)を0.90とした。 結果はこう示しています 一 最高生地点から転がり生地が2D/3D生地からより効率的であること。 二 目標形状の輪郭とは対照的に、現在の生地境界におけるロールの移動を阻止した方がよい。 三 収縮作用は、流出作用に関して適切に調整された場合に限り有益である。 四 プレイドー材は、可塑性砂又は運動砂と比較して、目標形状に変形し易い。 私たちの作品のビデオデモはhttps://youtu.be/zzlmxuitdt4で閲覧できます。

We address the problem of shaping a piece of dough-like deformable material into a 2D target shape presented upfront. We use a 6 degree-of-freedom WidowX-250 Robot Arm equipped with a rolling pin and information collected from an RGB-D camera and a tactile sensor. We present and compare several control policies, including a dough shrinking action, in extensive experiments across three kinds of deformable materials and across three target dough shape sizes, achieving the intersection over union (IoU) of 0.90. Our results show that: i) rolling dough from the highest dough point is more efficient than from the 2D/3D dough centroid; ii) it might be better to stop the roll movement at the current dough boundary as opposed to the target shape outline; iii) the shrink action might be beneficial only if properly tuned with respect to the exapand action; and iv) the Play-Doh material is easier to shape to a target shape as compared to Plasticine or Kinetic sand. Video demonstrations of our work are available at https://youtu.be/ZzLMxuITdt4
翻訳日:2022-08-02 13:10:49 公開日:2022-07-31
# 精度損失推定器を用いた超低レイテンシ適応局所二元スパイクニューラルネットワーク

Ultra-low Latency Adaptive Local Binary Spiking Neural Network with Accuracy Loss Estimator ( http://arxiv.org/abs/2208.00398v1 )

ライセンス: Link先を確認
Changqing Xu, Yijian Pei, Zili Wu, Yi Liu, Yintang Yang(参考訳) spiking neural network (snn) は脳にインスパイアされたモデルで、時空間的情報処理能力と計算エネルギー効率が高い。 しかし,SNNの深度の増加に伴い,SNNの重みによる記憶問題が徐々に注目されるようになった。 ニューラルネットワーク(ANN)量子化技術に触発されて、メモリ問題を解決するために二項化SNN(BSNN)が導入された。 適切な学習アルゴリズムがないため、BSNNは通常ANN-to-SNN変換によって取得される。 本稿では,ネットワーク学習過程における二項化重みによる誤差を評価することにより,二項化するネットワーク層を動的に選択し,ネットワークの精度を確実にする,精度低下推定器を備えた超低レイテンシ適応型局所二項化ニューラルネットワーク(ALBSNN)を提案する。 実験の結果,ネットワークの精度を損なうことなく,ストレージスペースを20%以上削減できることがわかった。 同時に、ネットワークのトレーニング速度を高速化するために、グローバル平均プーリング(GAP)層を導入し、コンボリューションとプーリングの組み合わせによって完全に接続された層を置き換えることにより、SNNは少ない時間ステップで認識精度を向上させることができる。 1回のステップしか使用できない極端な場合、FashionMNIST、CIFAR-10、CIFAR-100の3つの異なるデータセットで92.92 %、91.63 %、および63.54 %のテスト精度を達成することができる。

Spiking neural network (SNN) is a brain-inspired model which has more spatio-temporal information processing capacity and computational energy efficiency. However, with the increasing depth of SNNs, the memory problem caused by the weights of SNNs has gradually attracted attention. Inspired by Artificial Neural Networks (ANNs) quantization technology, binarized SNN (BSNN) is introduced to solve the memory problem. Due to the lack of suitable learning algorithms, BSNN is usually obtained by ANN-to-SNN conversion, whose accuracy will be limited by the trained ANNs. In this paper, we propose an ultra-low latency adaptive local binary spiking neural network (ALBSNN) with accuracy loss estimators, which dynamically selects the network layers to be binarized to ensure the accuracy of the network by evaluating the error caused by the binarized weights during the network learning process. Experimental results show that this method can reduce storage space by more than 20 % without losing network accuracy. At the same time, in order to accelerate the training speed of the network, the global average pooling(GAP) layer is introduced to replace the fully connected layers by the combination of convolution and pooling, so that SNNs can use a small number of time steps to obtain better recognition accuracy. In the extreme case of using only one time step, we still can achieve 92.92 %, 91.63 % ,and 63.54 % testing accuracy on three different datasets, FashionMNIST, CIFAR-10, and CIFAR-100, respectively.
翻訳日:2022-08-02 13:10:31 公開日:2022-07-31
# ロバスト量子化のための対称性正規化と飽和非線形性

Symmetry Regularization and Saturating Nonlinearity for Robust Quantization ( http://arxiv.org/abs/2208.00338v1 )

ライセンス: Link先を確認
Sein Park, Yeongsang Jang and Eunhyeok Park(参考訳) ロバスト量子化は、様々な実装におけるネットワークの耐性を改善し、異なるビット幅での信頼性の高い出力や断片化された低精度演算を可能にする。 本研究では、量子化エラーの原因を特定するために広範囲な分析を行い、量子化に対してネットワークを堅牢化するための3つの洞察を示す: 誤り伝播の低減、エラー最小化のためのレンジクランプ、量子化に対する堅牢性。 これらの知見に基づき、対称性正則化(SymReg)と飽和非線形性(SatNL)という2つの新しい手法を提案する。 提案手法の適用により、既存のトレーニング後量子化(PTQ)および量子化対応トレーニング(QAT)アルゴリズムの量子化に対する任意のニューラルネットワークの堅牢性を高めることができ、様々な条件下での出力品質を維持するのに十分な単一の重みを得ることができる。 CIFARおよびImageNetデータセットについて広範な研究を行い、提案手法の有効性を検証する。

Robust quantization improves the tolerance of networks for various implementations, allowing reliable output in different bit-widths or fragmented low-precision arithmetic. In this work, we perform extensive analyses to identify the sources of quantization error and present three insights to robustify a network against quantization: reduction of error propagation, range clamping for error minimization, and inherited robustness against quantization. Based on these insights, we propose two novel methods called symmetry regularization (SymReg) and saturating nonlinearity (SatNL). Applying the proposed methods during training can enhance the robustness of arbitrary neural networks against quantization on existing post-training quantization (PTQ) and quantization-aware training (QAT) algorithms and enables us to obtain a single weight flexible enough to maintain the output quality under various conditions. We conduct extensive studies on CIFAR and ImageNet datasets and validate the effectiveness of the proposed methods.
翻訳日:2022-08-02 13:07:42 公開日:2022-07-31
# 不法取引を阻止するために出荷記録を精査

Scrutinizing Shipment Records To Thwart Illegal Timber Trade ( http://arxiv.org/abs/2208.00493v1 )

ライセンス: Link先を確認
Debanjan Datta, Sathappan Muthiah, John Simeone, Amelia Meadows, Naren Ramakrishnan(参考訳) 家具のような木材や森林製品は貴重な商品であり、多くの価値の高い天然資源の世界的な貿易と同様に、腐敗や詐欺、違法な収穫といった課題に直面している。 木材・森林製品部門におけるこれらの灰色・黒色の市場活動は、木材が収穫された国に限らず、世界的なサプライチェーン全体に広がり、貿易ベースのマネーロンダリング、文書詐欺、種誤記、その他の違法な活動など、不正な金融フローに結びついている。 このような取引データを用いた不正行為の発見作業は、根本事実がない場合には、教師なし異常検出問題としてモデル化することができる。 しかし、既存のアプローチは、大規模な貿易データの適用性にある種の欠点を負っている。 取引データは、表形式でカテゴリと数値の属性の両方を持つ異種である。 全体的な課題は、大量のエンティティと基礎となる真理ラベルの欠如によって、データの複雑さ、ボリューム、速度にある。 そこで本研究では, 大規模不均質表データに適用可能な, 教師なし不連続学習型不均質異常検出 (chad) を提案する。 当社のモデルchadは、公開ベンチマークデータセットの複数の比較ベースラインに対して好適に動作し、取引データの場合よりも優れています。 さらに重要なことは、我々のアプローチがハイパーパラメータチューニングを必要とする仮定と労力を減らすことを実証することです。 具体的には,ラディング取引記録データを用いて,疑わしい木材の出荷状況やパターンを検出することを目的とした。 出荷記録における異常取引の検出は、政府機関やサプライチェーン構成員によるさらなる調査を可能にする。

Timber and forest products made from wood, like furniture, are valuable commodities, and like the global trade of many highly-valued natural resources, face challenges of corruption, fraud, and illegal harvesting. These grey and black market activities in the wood and forest products sector are not limited to the countries where the wood was harvested, but extend throughout the global supply chain and have been tied to illicit financial flows, like trade-based money laundering, document fraud, species mislabeling, and other illegal activities. The task of finding such fraudulent activities using trade data, in the absence of ground truth, can be modelled as an unsupervised anomaly detection problem. However existing approaches suffer from certain shortcomings in their applicability towards large scale trade data. Trade data is heterogeneous, with both categorical and numerical attributes in a tabular format. The overall challenge lies in the complexity, volume and velocity of data, with large number of entities and lack of ground truth labels. To mitigate these, we propose a novel unsupervised anomaly detection -- Contrastive Learning based Heterogeneous Anomaly Detection (CHAD) that is generally applicable for large-scale heterogeneous tabular data. We demonstrate our model CHAD performs favorably against multiple comparable baselines for public benchmark datasets, and outperforms them in the case of trade data. More importantly we demonstrate our approach reduces assumptions and efforts required hyperparameter tuning, which is a key challenging aspect in an unsupervised training paradigm. Specifically, our overarching objective pertains to detecting suspicious timber shipments and patterns using Bill of Lading trade record data. Detecting anomalous transactions in shipment records can enable further investigation by government agencies and supply chain constituents.
翻訳日:2022-08-02 13:07:24 公開日:2022-07-31
# 機械学習におけるヒューリスティック最適化アルゴリズムの形式保証

Formal guarantees for heuristic optimization algorithms used in machine learning ( http://arxiv.org/abs/2208.00502v1 )

ライセンス: Link先を確認
Xiaoyu Li(参考訳) 近年、SGD(Stochastic Gradient Descent)とその変種は機械学習(ML)問題の大規模最適化において主要な手法となっている。 適応的なステップサイズから、各イテレーションのステップサイズを変更するヒューリスティックメソッドまで、ステップサイズを調整するためのさまざまな戦略が提案されている。 また、トレーニングプロセスの高速化のため、MLタスクにおいて運動量も広く採用されている。 しかし、我々の理論的理解にはギャップがある。 本研究では,いくつかのヒューリスティック最適化手法の形式的保証と改良アルゴリズムの提案により,このギャップを埋める。 まず, adagrad (delayed adagrad) ステップサイズの一般化版を凸と非凸の両方の設定で解析し, これらのステップサイズにより, アルゴリズムが確率勾配の雑音レベルに自動的に適応できることを示した。 遅延アダグラードが勾配をほぼ確実にゼロに収束させるのに十分な条件を初めて示す。 さらに,非凸設定における遅延アダグラードとその運動量変化に対する高い確率解析を行う。 第2に, sgdを指数関数的およびコサイン的ステップサイズで分析し, 実験的に成功したが, 理論的支援は得られていない。 滑らかで非凸な設定で、Polyak-{\L}ojasiewicz (PL) 条件を満たさずに、それらに対する初めての収束保証を提供する。 また,PL条件下での雑音に対する適応性の良さを示す。 第3に、運動量法の最後の反復について研究する。 我々は、sgd の最後に一定の運動量を持つ反復数に対する凸設定の最初の下界を証明できる。 さらに,モーメントの増大と更新の縮小を伴うフォローザ・ザ・レギュラライズド・リーダに基づくモーメントアルゴリズムのクラスについて検討した。 最後に, 制約のない凸確率最適化問題に対する最適収束性を示す。

Recently, Stochastic Gradient Descent (SGD) and its variants have become the dominant methods in the large-scale optimization of machine learning (ML) problems. A variety of strategies have been proposed for tuning the step sizes, ranging from adaptive step sizes to heuristic methods to change the step size in each iteration. Also, momentum has been widely employed in ML tasks to accelerate the training process. Yet, there is a gap in our theoretical understanding of them. In this work, we start to close this gap by providing formal guarantees to a few heuristic optimization methods and proposing improved algorithms. First, we analyze a generalized version of the AdaGrad (Delayed AdaGrad) step sizes in both convex and non-convex settings, showing that these step sizes allow the algorithms to automatically adapt to the level of noise of the stochastic gradients. We show for the first time sufficient conditions for Delayed AdaGrad to achieve almost sure convergence of the gradients to zero. Moreover, we present a high probability analysis for Delayed AdaGrad and its momentum variant in the non-convex setting. Second, we analyze SGD with exponential and cosine step sizes, which are empirically successful but lack theoretical support. We provide the very first convergence guarantees for them in the smooth and non-convex setting, with and without the Polyak-{\L}ojasiewicz (PL) condition. We also show their good property of adaptivity to noise under the PL condition. Third, we study the last iterate of momentum methods. We prove the first lower bound in the convex setting for the last iterate of SGD with constant momentum. Moreover, we investigate a class of Follow-The-Regularized-Leader-based momentum algorithms with increasing momentum and shrinking updates. We show that their last iterate has optimal convergence for unconstrained convex stochastic optimization problems.
翻訳日:2022-08-02 13:05:34 公開日:2022-07-31
# CloudAttention: 3Dポイントのクラウド学習のための効率的なマルチスケールアテンションスキーム

CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning ( http://arxiv.org/abs/2208.00524v1 )

ライセンス: Link先を確認
Mahdi Saleh, Yige Wang, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) 3Dデータを効率的に処理することは、常に課題だった。 スパースデータとして格納される大規模ポイントクラウド上の空間操作には、余分なコストが必要である。 トランスフォーマーの成功に惹かれ、研究者は視覚タスクにマルチヘッドアテンションを使用している。 しかし、変圧器の注意計算は入力数において2次複雑さを伴い、点雲のような集合上の空間直観を見逃す。 この作業でセットトランスフォーマーを再設計し,形状分類と部分,シーンセグメンテーションのための階層的枠組みに組み込んだ。 そこで我々は,地域の特徴を捉えた地域注意ユニットを提案する。 また、各イテレーションのサンプリングとグループ化を利用して、効率的でダイナミックなグローバルクロスアテンションを計算します。 最後に,ポイントクラウドの非ヘテロゲニティを緩和するために,注意操作のためのスケール不変トークンを抽出する効率的なマルチスケールトークン化(mst)を提案する。 提案する階層モデルは, 従来のセグメンテーション法と同等の精度で最先端の形状分類を実現し, 計算量を大幅に削減する。 提案アーキテクチャは,従来の性能の最も効率的な手法の約半分のレイテンシとパラメータ数でセグメンテーションラベルを予測する。 コードはhttps://github.com/YigeWang-WHU/CloudAttentionで入手できる。

Processing 3D data efficiently has always been a challenge. Spatial operations on large-scale point clouds, stored as sparse data, require extra cost. Attracted by the success of transformers, researchers are using multi-head attention for vision tasks. However, attention calculations in transformers come with quadratic complexity in the number of inputs and miss spatial intuition on sets like point clouds. We redesign set transformers in this work and incorporate them into a hierarchical framework for shape classification and part and scene segmentation. We propose our local attention unit, which captures features in a spatial neighborhood. We also compute efficient and dynamic global cross attentions by leveraging sampling and grouping at each iteration. Finally, to mitigate the non-heterogeneity of point clouds, we propose an efficient Multi-Scale Tokenization (MST), which extracts scale-invariant tokens for attention operations. The proposed hierarchical model achieves state-of-the-art shape classification in mean accuracy and yields results on par with the previous segmentation methods while requiring significantly fewer computations. Our proposed architecture predicts segmentation labels with around half the latency and parameter count of the previous most efficient method with comparable performance. The code is available at https://github.com/YigeWang-WHU/CloudAttention.
翻訳日:2022-08-02 13:01:28 公開日:2022-07-31
# 自然言語推論による遠隔教師付き関係抽出の改善

Improving Distantly Supervised Relation Extraction by Natural Language Inference ( http://arxiv.org/abs/2208.00346v1 )

ライセンス: Link先を確認
Kang Zhou, Qiao Qiao, Yuepei Li, Qi Li(参考訳) 関係抽出(RE)タスクに対する人間のアノテーションを減らすため,低性能に苦慮しながら遠隔操作によるアプローチが提案されている。 本研究では,既存の知識ベースから遠ざかる監視と,事前学習した言語モデルから他のタスクへ間接的に監督するDSRE-NLIフレームワークを提案する。 dsre-nliは、半自動関係動詞化(sarv)機構を備えた市販自然言語推論(nli)エンジンに間接的な監督を与え、遠隔アノテーションをさらに統合することで、多分類再モデルに利益をもたらす。 nliベースの間接監督は、各関係に対する意味論的汎用テンプレートとして人間から1つの関係動詞化テンプレートのみを取得し、その後、遠方の注釈付きコーパスから自動的に抽出される高品質なテキストパターンによってテンプレートセットが強化される。 2つのシンプルで効果的なデータ統合戦略により、トレーニングデータの質が大幅に向上する。 大規模な実験により、提案フレームワークは、遠隔監視されたREベンチマークデータセット上でのSOTA性能(最大7.73 %)を著しく改善することが示された。

To reduce human annotations for relation extraction (RE) tasks, distantly supervised approaches have been proposed, while struggling with low performance. In this work, we propose a novel DSRE-NLI framework, which considers both distant supervision from existing knowledge bases and indirect supervision from pretrained language models for other tasks. DSRE-NLI energizes an off-the-shelf natural language inference (NLI) engine with a semi-automatic relation verbalization (SARV) mechanism to provide indirect supervision and further consolidates the distant annotations to benefit multi-classification RE models. The NLI-based indirect supervision acquires only one relation verbalization template from humans as a semantically general template for each relationship, and then the template set is enriched by high-quality textual patterns automatically mined from the distantly annotated corpus. With two simple and effective data consolidation strategies, the quality of training data is substantially improved. Extensive experiments demonstrate that the proposed framework significantly improves the SOTA performance (up to 7.73\% of F1) on distantly supervised RE benchmark datasets.
翻訳日:2022-08-02 13:00:10 公開日:2022-07-31
# 効率パイプラインの構築:変圧器用効率演算子の通勤性と累積性

Building an Efficiency Pipeline: Commutativity and Cumulativeness of Efficiency Operators for Transformers ( http://arxiv.org/abs/2208.00483v1 )

ライセンス: Link先を確認
Ji Xin, Raphael Tang, Zhiying Jiang, Yaoliang Yu, Jimmy Lin(参考訳) 自然言語処理(NLP)タスクには、プルーニング、蒸留、動的推論、量子化など、さまざまな効率性がある。 効率をモデルに適用した演算子として考えることができる。 当然、モデルに複数の演算子を順次適用するために、複数の効率メソッドのパイプラインを構築することができる。 本稿では,この概念の可算性,さらに,効率作用素の可換性と累積性について検討する。 1)効率演算子は可換である -- パイプライン内の効率メソッドの順序は最終結果にほとんど影響を与えない; (2)効率演算子も累積的である -- いくつかの効率メソッドを組み合わせる最終的な結果は、個々の方法の結果を組み合わせることで推定できる。 これらの観察は、効率演算子の理解を深め、実世界の応用に有用なガイドラインを提供する。

There exists a wide variety of efficiency methods for natural language processing (NLP) tasks, such as pruning, distillation, dynamic inference, quantization, etc. We can consider an efficiency method as an operator applied on a model. Naturally, we may construct a pipeline of multiple efficiency methods, i.e., to apply multiple operators on the model sequentially. In this paper, we study the plausibility of this idea, and more importantly, the commutativity and cumulativeness of efficiency operators. We make two interesting observations: (1) Efficiency operators are commutative -- the order of efficiency methods within the pipeline has little impact on the final results; (2) Efficiency operators are also cumulative -- the final results of combining several efficiency methods can be estimated by combining the results of individual methods. These observations deepen our understanding of efficiency operators and provide useful guidelines for their real-world applications.
翻訳日:2022-08-02 12:59:48 公開日:2022-07-31
# チャットボットを使って言語を教える

Using Chatbots to Teach Languages ( http://arxiv.org/abs/2208.00376v1 )

ライセンス: Link先を確認
Yu Li, Chun-Yen Chen, Dian Yu, Sam Davidson, Ryan Hou, Xun Yuan, Yinghua Tan, Derek Pham and Zhou Yu(参考訳) 本稿では,対話システムを用いて会話体験を提供するオンライン言語学習ツールの構築に向けての進展について報告する。 我々のシステムは、ユーザの言語能力に即時に適応できる。 自動文法エラーフィードバックも提供しています。 最初の採用者によると、私たちのシステムは面白くて便利です。 さらに,言語学習と文法修正に関する大規模対話データセットを,学習技術コミュニティに提供する。 我々の次のステップは、強化学習アルゴリズムを用いてユーザープロファイル情報に適応させることです。

This paper reports on progress towards building an online language learning tool to provide learners with conversational experience by using dialog systems as conversation practice partners. Our system can adapt to users' language proficiency on the fly. We also provide automatic grammar error feedback to help users learn from their mistakes. According to our first adopters, our system is entertaining and useful. Furthermore, we will provide the learning technology community a large-scale conversation dataset on language learning and grammar correction. Our next step is to make our system more adaptive to user profile information by using reinforcement learning algorithms.
翻訳日:2022-08-02 12:55:33 公開日:2022-07-31
# 予習変圧器の神経知識バンク

Neural Knowledge Bank for Pretrained Transformers ( http://arxiv.org/abs/2208.00399v1 )

ライセンス: Link先を確認
Damai Dai, Wenbin Jiang, Qingxiu Dong, Yajuan Lyu, Qiaoqiao She, Zhifang Sui(参考訳) 事前学習されたトランスフォーマーの知識を記憶する能力は、クローズドブック質問応答のような知識インテンス下流タスクには不可欠である。 既存の研究によると、事前訓練されたトランスフォーマーは、事前訓練されたコーパスに現れる事実の知識をある程度リコールまたは活用することができる。 しかし、モデル能力の限界により、事前訓練されたモデルが事実知識を記憶する能力も制限されている。 Dai et al. (2022) は、事前訓練されたトランスフォーマーのフィードフォワードネットワーク (FFN) が、メモリライクな方法で事実知識を格納していることを発見した。 この発見にインスパイアされた我々は、事前訓練されたトランスフォーマーに余分な事実知識を格納する神経知識銀行(NKB)を提案する。 具体的には、FFNをキー値メモリとみなし、追加のメモリスロットで拡張する。 知識注入の間、私たちは元のモデルを修正し、拡張メモリスロットに事実知識を注入します。 さらに、FFNをキー値記憶として見ることで、NKBは高度に解釈可能である。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。 また,NKBは,要約と機械翻訳の2つの代表的タスクを通じて,事前学習されたモデルの汎用言語生成能力を低下させないことを示す。 さらに, nkbを徹底的に解析し, その動作機構を明らかにし, そのキーと値の意味を人間が読みやすい方法で提示する。 さらに,NKBにおける事実知識を直接更新する予備的な試みを,追加のトレーニングを必要とせずに実施する。

The ability of pretrained Transformers to remember factual knowledge is essential for knowledge-intense downstream tasks such as closed-book question answering. Existing work has shown that pretrained Transformers can recall or leverage factual knowledge that appears in the pretraining corpus to some degree. However, due to the limit of the model capacity, the ability of pretrained models to remember factual knowledge is also limited. Dai et al. (2022) find that the Feed-Forward Networks (FFNs) in pretrained Transformers store factual knowledge in a memory-like manner. Inspired by this finding, we propose a Neural Knowledge Bank (NKB) to store extra factual knowledge for pretrained Transformers. To be specific, we also regard FFNs as key-value memories, and extend them with additional memory slots. During knowledge injection, we fix the original model and inject factual knowledge into the extended memory slots, so there will be no catastrophic forgetting for the pretrained model. In addition, the view of FFNs as key-value memories makes the NKB highly interpretable. We use three closed-book question answering datasets to show our strong ability to store extra factual knowledge. Also, we prove that the NKB will not degrade the general language generation ability of pretrained models through two representative generation tasks, summarization and machine translation. Further, we thoroughly analyze the NKB to reveal its working mechanism and present the meaning of its keys and values in a human-readable way. On top of it, we perform a preliminary attempt to directly update the factual knowledge in the NKB without any additional training.
翻訳日:2022-08-02 12:55:26 公開日:2022-07-31
# STrajNet:マルチモーダルスウィン変換器による実行フロー予測

STrajNet: Occupancy Flow Prediction via Multi-modal Swin Transformer ( http://arxiv.org/abs/2208.00394v1 )

ライセンス: Link先を確認
Haochen Liu, Zhiyu Huang, Chen Lv(参考訳) 複雑な交通シナリオ下での自動運転車の安全性とインタラクションを改善するためには、正確な占有率とフローの予測が不可欠である。 本研究は,効率的なシーン占有とフロー予測のためのマルチモーダルスウィントランスフォーマーベースのフレームワークSTrajNetを提案する。 我々は,Swin Transformerを用いて画像とインタラクションを意識した動作表現を符号化し,異なる時間ステップで動作認識をグリッドセルに注入するクロスアテンションモジュールを提案する。 フローと占有予測は時間共有ピラミッドデコーダを通じてデコードされる。 提案手法は,Waymo Open Datasetベンチマークにおいて,競合予測精度および他の評価指標を示す。

Making an accurate prediction of occupancy and flow is essential to enable better safety and interaction for autonomous vehicles under complex traffic scenarios. This work proposes STrajNet: a multi-modal Swin Transformerbased framework for effective scene occupancy and flow predictions. We employ Swin Transformer to encode the image and interaction-aware motion representations and propose a cross-attention module to inject motion awareness into grid cells across different time steps. Flow and occupancy predictions are then decoded through temporalsharing Pyramid decoders. The proposed method shows competitive prediction accuracy and other evaluation metrics in the Waymo Open Dataset benchmark.
翻訳日:2022-08-02 12:53:27 公開日:2022-07-31
# マスキングにおける意味的ミスマッチを用いた分布外検出

Out-of-Distribution Detection with Semantic Mismatch under Masking ( http://arxiv.org/abs/2208.00446v1 )

ライセンス: Link先を確認
Yijun Yang, Ruiyuan Gao, Qiang Xu(参考訳) 本稿では,画像分類器用MoodCatという,新しい配布外検出フレームワークを提案する。 moodcatは入力画像のランダムな部分をマスクし、生成モデルを用いて分類結果に基づいて新しい画像にマスク画像を合成する。 次に、OOD検出のための原画像と合成画像とのセマンティックな差を計算する。 既存のソリューションと比較して、MoodCatは、OODを識別するために重要なマスクと条件合成戦略を用いて、分散データのセマンティック情報を自然に学習する。 実験の結果,MoodCatは最先端のOOD検出ソリューションよりも大きなマージンで優れていることがわかった。

This paper proposes a novel out-of-distribution (OOD) detection framework named MoodCat for image classifiers. MoodCat masks a random portion of the input image and uses a generative model to synthesize the masked image to a new image conditioned on the classification result. It then calculates the semantic difference between the original image and the synthesized one for OOD detection. Compared to existing solutions, MoodCat naturally learns the semantic information of the in-distribution data with the proposed mask and conditional synthesis strategy, which is critical to identifying OODs. Experimental results demonstrate that MoodCat outperforms state-of-the-art OOD detection solutions by a large margin.
翻訳日:2022-08-02 12:53:17 公開日:2022-07-31
# 3つの異なる成長段階におけるトウモロコシ畑のボランティア綿花検出のためのyolov5アルゴリズムの性能評価

Assessing The Performance of YOLOv5 Algorithm for Detecting Volunteer Cotton Plants in Corn Fields at Three Different Growth Stages ( http://arxiv.org/abs/2208.00519v1 )

ライセンス: Link先を確認
Pappu Kumar Yadav, J. Alex Thomasson, Stephen W. Searcy, Robert G. Hardin, Ulisses Braga-Neto, Sorin C. Popescu, Daniel E. Martin, Roberto Rodriguez, Karem Meza, Juan Enciso, Jorge Solorzano Diaz, Tianyi Wang(参考訳) ボイル・ウィービル(anthonomus grandis l.)は綿花を主食とする深刻な害虫である。 テキサス州のローワーリオグランデ・バレーのような地域では、亜熱帯気候のため、綿花は年中栽培できるため、収穫の前の季節の種子はトウモロコシ(Zea mays L.)やソルガム(Sorghum bicolor L.)のような回転作物の中間で成長し続ける。 これらのフェラールまたはボランティア綿(VC)植物は、ピンヘッド赤道期(5-6葉期)に達すると、ウズラ害虫の宿主として作用する。 テキサス・ボール・ウィービル根絶プログラム (TBWEP) では、道路や農地の側面で成長するVCの植物を発見・排除するが、畑の真ん中で成長している植物は発見されていない。 本稿では,3つの成長段階(V3,V6,VT)におけるトウモロコシ畑の中央で成長するVCプラントを無人航空機システム(UAS)リモートセンシング画像を用いて検出するための,You Only Look Onceバージョン5(YOLOv5)に基づくコンピュータビジョン(CV)アルゴリズムの適用例を示す。 これら4種類のyolov5 (s, m, l, x) を全て使用し, 分類精度, 平均精度 (map) およびf1-score を用いて性能比較を行った。 YOLOv5sは最大分類精度98%,mAPは96.3%,YOLOv5sとYOLOv5mは最低分類精度85%,YOLOv5mとYOLOv5lは416 x 416ピクセルのVTで86.5%であった。 開発したCVアルゴリズムは、トウモロコシ畑の中央で成長するVCプラントを効果的に検出し、発見し、TBWEPの管理面を迅速化することができる。

The boll weevil (Anthonomus grandis L.) is a serious pest that primarily feeds on cotton plants. In places like Lower Rio Grande Valley of Texas, due to sub-tropical climatic conditions, cotton plants can grow year-round and therefore the left-over seeds from the previous season during harvest can continue to grow in the middle of rotation crops like corn (Zea mays L.) and sorghum (Sorghum bicolor L.). These feral or volunteer cotton (VC) plants when reach the pinhead squaring phase (5-6 leaf stage) can act as hosts for the boll weevil pest. The Texas Boll Weevil Eradication Program (TBWEP) employs people to locate and eliminate VC plants growing by the side of roads or fields with rotation crops but the ones growing in the middle of fields remain undetected. In this paper, we demonstrate the application of computer vision (CV) algorithm based on You Only Look Once version 5 (YOLOv5) for detecting VC plants growing in the middle of corn fields at three different growth stages (V3, V6, and VT) using unmanned aircraft systems (UAS) remote sensing imagery. All the four variants of YOLOv5 (s, m, l, and x) were used and their performances were compared based on classification accuracy, mean average precision (mAP), and F1-score. It was found that YOLOv5s could detect VC plants with a maximum classification accuracy of 98% and mAP of 96.3 % at the V6 stage of corn while YOLOv5s and YOLOv5m resulted in the lowest classification accuracy of 85% and YOLOv5m and YOLOv5l had the least mAP of 86.5% at the VT stage on images of size 416 x 416 pixels. The developed CV algorithm has the potential to effectively detect and locate VC plants growing in the middle of corn fields as well as expedite the management aspects of TBWEP.
翻訳日:2022-08-02 12:53:07 公開日:2022-07-31
# ニューロシンボリック学習 : 眼科における原理と応用

Neuro-Symbolic Learning: Principles and Applications in Ophthalmology ( http://arxiv.org/abs/2208.00374v1 )

ライセンス: Link先を確認
Muhammad Hassan, Haifei Guan, Aikaterini Melliou, Yuqi Wang, Qianhui Sun, Sen Zeng, Wen Liang, Yiwei Zhang, Ziheng Zhang, Qiuyue Hu, Yang Liu, Shunkai Shi, Lin An, Shuyue Ma, Ijaz Gul, Muhammad Akmal Rahee, Zhou You, Canyang Zhang, Vijay Kumar Pandey, Yuxing Han, Yongbing Zhang, Ming Xu, Qiming Huang, Jiefu Tan, Qi Xing, Peiwu Qin, Dongmei Yu(参考訳) 近年、ニューラルネットワークは、新しい戦略と応用によって急速に拡大している。 しかし、解釈可能性、説明可能性、ロバスト性、安全性、信頼性、センシティビリティといった課題は、重要な応用に避けられないという事実にもかかわらず、ニューラルネットワーク技術では解決されていない。 シンボリック表現の観点でドメイン知識を表現し埋め込むことで、ニューラルネットワークコンピューティングの課題を克服する試みがなされている。 このように、ニューロシンボリックラーニング(NeSyL)の概念が生まれ、記号表現の側面を取り入れ、ニューラルネットワーク(NeSyL)に常識をもたらす。 ビデオキャプションや画像キャプション、質問応答と推論、健康情報学、ゲノム学など、解釈、推論、説明が重要である領域では、nesylが有望な結果を示している。 本稿では,最先端のnesylアプローチ,その原理,機械学習とディープラーニングアルゴリズムの進歩,光学などの応用,そして最も重要なのは,この新興分野の将来展望に関する総合的な調査を行う。

Neural networks have been rapidly expanding in recent years, with novel strategies and applications. However, challenges such as interpretability, explainability, robustness, safety, trust, and sensibility remain unsolved in neural network technologies, despite the fact that they will unavoidably be addressed for critical applications. Attempts have been made to overcome the challenges in neural network computing by representing and embedding domain knowledge in terms of symbolic representations. Thus, the neuro-symbolic learning (NeSyL) notion emerged, which incorporates aspects of symbolic representation and bringing common sense into neural networks (NeSyL). In domains where interpretability, reasoning, and explainability are crucial, such as video and image captioning, question-answering and reasoning, health informatics, and genomics, NeSyL has shown promising outcomes. This review presents a comprehensive survey on the state-of-the-art NeSyL approaches, their principles, advances in machine and deep learning algorithms, applications such as opthalmology, and most importantly, future perspectives of this emerging field.
翻訳日:2022-08-02 12:48:29 公開日:2022-07-31
# 敵の強靭性に関する現在の研究は正しい問題に対処しているか?

Is current research on adversarial robustness addressing the right problem? ( http://arxiv.org/abs/2208.00539v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) 短い答え: はい、長い答え: いいえ! 実際、敵対的堅牢性の研究は、問題のさまざまな側面を理解し、探求するのに役立つ貴重な洞察をもたらしました。 ここ数年、多くの攻撃や防衛策が提案されている。 しかし、問題は未解決であり、よく理解されていない。 ここで、この問題の現在の定式化は短期的な目標に役立ち、より大きな利益を達成するためには修正する必要があると論じます。 具体的には、摂動の束縛はやや複雑な設定を生み出し、緩和する必要がある。 これは、最初から表現力のないモデルクラスにフォーカスすることを誤解させました。 代わりに、人間のビジョンや、形状、頂点、前景といった堅牢な特徴よりも、テクスチャのような非ロバストな特徴に依存するという事実にインスパイアされた努力は、かなり異なるモデルのクラスを探すことに向けられなければならない。 恐らくは、知覚できない逆の摂動を狭める代わりに、知覚できる摂動、幾何学的変換(回転、スケーリング)、画像の歪み(光、ぼやけなど)、その他(オクルージョン、影など)に同時に堅牢なアーキテクチャを見つけるという、より一般的な問題に取り組むべきである。 それだけで、敵の脆弱性の問題を解決できるかもしれません。

Short answer: Yes, Long answer: No! Indeed, research on adversarial robustness has led to invaluable insights helping us understand and explore different aspects of the problem. Many attacks and defenses have been proposed over the last couple of years. The problem, however, remains largely unsolved and poorly understood. Here, I argue that the current formulation of the problem serves short term goals, and needs to be revised for us to achieve bigger gains. Specifically, the bound on perturbation has created a somewhat contrived setting and needs to be relaxed. This has misled us to focus on model classes that are not expressive enough to begin with. Instead, inspired by human vision and the fact that we rely more on robust features such as shape, vertices, and foreground objects than non-robust features such as texture, efforts should be steered towards looking for significantly different classes of models. Maybe instead of narrowing down on imperceptible adversarial perturbations, we should attack a more general problem which is finding architectures that are simultaneously robust to perceptible perturbations, geometric transformations (e.g. rotation, scaling), image distortions (lighting, blur), and more (e.g. occlusion, shadow). Only then we may be able to solve the problem of adversarial vulnerability.
翻訳日:2022-08-02 12:48:05 公開日:2022-07-31
# 知識蒸留に基づく中国語文法の誤り訂正

Chinese grammatical error correction based on knowledge distillation ( http://arxiv.org/abs/2208.00351v1 )

ライセンス: Link先を確認
Peng Xia, Yuechi Zhou, Ziyan Zhang, Zecheng Tang, Juntao Li(参考訳) 本稿では,既存の中国語文法的誤り訂正モデルの攻撃試験セットと大規模モデルパラメータに対するロバストさを考慮し,知識蒸留法を用いてモデルパラメータを圧縮し,モデルのアンチアタック能力を向上させる。 データの観点からは、標準評価データセットに外乱を統合して攻撃テストセットを構築し、攻撃テストセットによってモデルロバスト性を評価する。 実験結果から, 蒸留した小型モデルでは, モデルパラメータの削減条件下での性能向上とトレーニング速度の向上が図られ, 攻撃試験セットに対する最適効果が得られ, 堅牢性が著しく向上することがわかった。

In view of the poor robustness of existing Chinese grammatical error correction models on attack test sets and large model parameters, this paper uses the method of knowledge distillation to compress model parameters and improve the anti-attack ability of the model. In terms of data, the attack test set is constructed by integrating the disturbance into the standard evaluation data set, and the model robustness is evaluated by the attack test set. The experimental results show that the distilled small model can ensure the performance and improve the training speed under the condition of reducing the number of model parameters, and achieve the optimal effect on the attack test set, and the robustness is significantly improved.
翻訳日:2022-08-02 12:46:45 公開日:2022-07-31
# enpheeph:スパイクおよび圧縮ディープニューラルネットワークのためのフォールトインジェクションフレームワーク

enpheeph: A Fault Injection Framework for Spiking and Compressed Deep Neural Networks ( http://arxiv.org/abs/2208.00328v1 )

ライセンス: Link先を確認
Alessio Colucci and Andreas Steininger and Muhammad Shafique(参考訳) ディープニューラルネットワーク(dnns)の研究は、実世界のデプロイメントのパフォーマンスと正確性の向上に重点を置いており、スパイクニューラルネットワーク(snns)や圧縮ネットワークの量子化やプルーニングといった最適化技術といった新しいモデルを生み出している。 しかし、これらの革新的なモデルと最適化手法の展開は、DNNが自律運転など安全クリティカルなアプリケーションで広く使われるための柱となる、信頼性の問題を引き起こす。 さらに、スケーリング技術ノードは複数の障害を同時に発生させるリスクがあり、最先端のレジリエンス分析では対処できない可能性がある。 DNNの信頼性向上を目的として,スパイクおよび圧縮DNNのためのフォールトインジェクションフレームワークであるenpheephを提案する。 enpheephフレームワークは、gpuなどの特殊なハードウェアデバイス上での最適化実行を可能にし、さまざまなフォールトモデルを調査し、さまざまな信頼性制約やユースケースをエミュレートする完全なカスタマイズ性を提供する。 したがって、障害はsnsだけでなく、基盤となるコードに最小限の変更を加えることで、圧縮されたネットワークでも実行することができる。 そこで我々は,異なる圧縮手法を用いて,異なるDNNモデルとSNNモデルのレジリエンスを分析する。 ランダムな断層数の増加により,DNNはパラメータあたり7 x 10 ^ (-7) の断層率で精度を低下させることができ,精度は40%以上低下することを示した。 並列に100万の障害を実行する場合、enpheephの実行時の実行時のオーバーヘッドは、ベースラインの実行時間の20%未満であり、最先端のフレームワークよりも少なくとも10倍低い。 enpheephはhttps://github.com/alexei95/enpheephでリリースします。

Research on Deep Neural Networks (DNNs) has focused on improving performance and accuracy for real-world deployments, leading to new models, such as Spiking Neural Networks (SNNs), and optimization techniques, e.g., quantization and pruning for compressed networks. However, the deployment of these innovative models and optimization techniques introduces possible reliability issues, which is a pillar for DNNs to be widely used in safety-critical applications, e.g., autonomous driving. Moreover, scaling technology nodes have the associated risk of multiple faults happening at the same time, a possibility not addressed in state-of-the-art resiliency analyses. Towards better reliability analysis for DNNs, we present enpheeph, a Fault Injection Framework for Spiking and Compressed DNNs. The enpheeph framework enables optimized execution on specialized hardware devices, e.g., GPUs, while providing complete customizability to investigate different fault models, emulating various reliability constraints and use-cases. Hence, the faults can be executed on SNNs as well as compressed networks with minimal-to-none modifications to the underlying code, a feat that is not achievable by other state-of-the-art tools. To evaluate our enpheeph framework, we analyze the resiliency of different DNN and SNN models, with different compression techniques. By injecting a random and increasing number of faults, we show that DNNs can show a reduction in accuracy with a fault rate as low as 7 x 10 ^ (-7) faults per parameter, with an accuracy drop higher than 40%. Run-time overhead when executing enpheeph is less than 20% of the baseline execution time when executing 100 000 faults concurrently, at least 10x lower than state-of-the-art frameworks, making enpheeph future-proof for complex fault injection scenarios. We release enpheeph at https://github.com/Alexei95/enpheeph.
翻訳日:2022-08-02 12:43:03 公開日:2022-07-31
# 大規模小型物体検出に向けて:調査とベンチマーク

Towards Large-Scale Small Object Detection: Survey and Benchmarks ( http://arxiv.org/abs/2207.14096v2 )

ライセンス: Link先を確認
Gong Cheng, Xiang Yuan, Xiwen Yao, Kebing Yan, Qinghua Zeng, and Junwei Han(参考訳) 深層畳み込みニューラルネットワークの台頭により、物体検出はここ数年で顕著な進歩を遂げている。 しかし、そのような繁栄は、小さな目標の本質的な構造によって引き起こされる視覚的外観やノイズの表現のために、コンピュータビジョンにおける非常に困難なタスクの1つである小対象検出(SOD)の不満足な状況に火をつけることができなかった。 さらに、小さなオブジェクト検出メソッドをベンチマークするための大規模なデータセットもボトルネックのままである。 本稿では,まず,小物体検出の徹底的な検討を行う。 次に,SOOD の開発を触媒として,運転シナリオと航空シナリオに焦点を当てた2つの大規模小型物体検出 dAtasets (SODA), SODA-D, SODA-A を構築した。 SODA-Dには、24704の高品質なトラフィックイメージと、9つのカテゴリの277596インスタンスが含まれている。 SODA-Aでは,高分解能空中画像2510点を抽出し,9クラスに800203点のアノテートを行う。 提案されたデータセットは、私たちが知っているように、マルチカテゴリのSOD用に調整された、広範囲に注釈付きインスタンスのコレクションを持つ大規模なベンチマークを最初に試みる試みである。 最後に,SODAにおける主流手法の性能を評価する。 リリースされているベンチマークによってsodの開発が促進され、この分野でさらなるブレークスルーが生まれると期待しています。 データセットとコードは、次のようになる。 \url{https://shaunyuan22.github.io/SODA}。

With the rise of deep convolutional neural networks, object detection has achieved prominent advances in past years. However, such prosperity could not camouflage the unsatisfactory situation of Small Object Detection (SOD), one of the notoriously challenging tasks in computer vision, owing to the poor visual appearance and noisy representation caused by the intrinsic structure of small targets. In addition, large-scale dataset for benchmarking small object detection methods remains a bottleneck. In this paper, we first conduct a thorough review of small object detection. Then, to catalyze the development of SOD, we construct two large-scale Small Object Detection dAtasets (SODA), SODA-D and SODA-A, which focus on the Driving and Aerial scenarios respectively. SODA-D includes 24704 high-quality traffic images and 277596 instances of 9 categories. For SODA-A, we harvest 2510 high-resolution aerial images and annotate 800203 instances over 9 classes. The proposed datasets, as we know, are the first-ever attempt to large-scale benchmarks with a vast collection of exhaustively annotated instances tailored for multi-category SOD. Finally, we evaluate the performance of mainstream methods on SODA. We expect the released benchmarks could facilitate the development of SOD and spawn more breakthroughs in this field. Datasets and codes will be available soon at: \url{https://shaunyuan22.github.io/SODA}.
翻訳日:2022-08-02 11:04:38 公開日:2022-07-31