このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230813となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# sathur: 一般化クラスインクリメンタル学習のための自己強化タスク幻覚統一表現 SATHUR: Self Augmenting Task Hallucinal Unified Representation for Generalized Class Incremental Learning ( http://arxiv.org/abs/2311.18630v1 ) ライセンス: Link先を確認 | Sathursan Kanagarajah, Thanuja Ambegoda, Ranga Rodrigo | (参考訳) クラスインクリメンタル学習(cil)は、以前のクラスを忘れずに新しいクラスを学習できる人間の能力にインスパイアされている。
インクリメンタルステップのサンプルが不均衡にある場合、現実のシナリオではcilがより困難になる。
これにより、GCIL(Generalized Class Incremental Learning)と呼ばれる別の問題が発生し、各段階がより現実的に構造化される。
Grow When Required (GWR) ネットワークは,適応学習のためのノードやエッジを動的に生成,削除する,自己組織化マップの一種である。
GWRは、特徴抽出器として機能する畳み込みニューラルネットワーク(CNN)によって抽出された特徴ベクトルから漸進的に学習する。
GWRが異なるクラスタを形成する固有の能力は、それぞれ、サンプルの順序やクラス不均衡に関わらず、特徴ベクトル空間のクラスに対応するもので、GCILを達成するのに適している。
GWRの分類性能を高めるためには,高品質な特徴抽出器が必要である。
しかし、各段階に畳み込み層を適応させると、先行知識に対応するGWRノードがほぼ無効となる。
本研究は,GWRネットワークを段階的に再起動し,現在の特徴抽出器と整合させる自己拡張タスクHAL(Self Augmenting Task Hallucinal Unified Representation)を導入する。
CIFAR-100 および CORe50 データセット上で,提案手法が他の最先端 GCIL 手法よりも優れていることを示す。 Class Incremental Learning (CIL) is inspired by the human ability to learn new classes without forgetting previous ones. CIL becomes more challenging in real-world scenarios when the samples in each incremental step are imbalanced. This creates another branch of problem, called Generalized Class Incremental Learning (GCIL) where each incremental step is structured more realistically. Grow When Required (GWR) network, a type of Self-Organizing Map (SOM), dynamically create and remove nodes and edges for adaptive learning. GWR performs incremental learning from feature vectors extracted by a Convolutional Neural Network (CNN), which acts as a feature extractor. The inherent ability of GWR to form distinct clusters, each corresponding to a class in the feature vector space, regardless of the order of samples or class imbalances, is well suited to achieving GCIL. To enhance GWR's classification performance, a high-quality feature extractor is required. However, when the convolutional layers are adapted at each incremental step, the GWR nodes corresponding to prior knowledge are subject to near-invalidation. This work introduces the Self Augmenting Task Hallucinal Unified Representation (SATHUR), which re-initializes the GWR network at each incremental step, aligning it with the current feature extractor. Comprehensive experimental results demonstrate that our proposed method significantly outperforms other state-of-the-art GCIL methods on CIFAR-100 and CORe50 datasets. | 翻訳日:2024-01-15 15:25:33 公開日:2023-08-13 |
# ソフトウェア工学研究におけるチャットGPTの倫理的側面 Ethical Aspects of ChatGPT in Software Engineering Research ( http://arxiv.org/abs/2306.07557v2 ) ライセンス: Link先を確認 | Muhammad Azeem Akbar, Arif Ali Khan, Peng Liang | (参考訳) ChatGPTは、自然言語の相互作用に基づいた効率的でアクセスしやすい情報分析と合成を提供することで、ソフトウェア工学(SE)の研究プラクティスを改善することができる。
しかしChatGPTは、盗用、プライバシー、データセキュリティ、バイアスや有害なデータを生成するリスクを含む倫理的課題をもたらす可能性がある。
本研究の目的は、モチベーター、デモティベーター、SEリサーチでChatGPTを使用する倫理的原則といった重要な要素を解明することで、与えられたギャップを埋めることである。
この目的を達成するため,文献調査を行い,これらの要素を同定し,その関係を分類学に展開した。
さらに,SE研究者を対象とした包括的質問紙調査を実施し,文献ベース要素(モチベーター,デモティベーター,倫理原則)を実証的に評価した。
さらに,解釈構造モデリング(ISM)手法を用いて,SE研究におけるChatGPTの倫理的原則間の関係を分析し,レベルに基づく意思決定モデルを開発した。
さらに,分類(micmac)分析に適用したクロスインパクト行列の乗算を行い,クラスタベース決定モデルを作成した。
これらのモデルは、SE研究者がモチベーターを採用し、デモティベーターに対処することで、特定原則に従うことによって、SE研究にChatGPTを倫理的に統合するための効果的な戦略を考案することを目的としている。
本研究の結果は,se研究にchatgptサービスを組み込むためのベンチマークを確立し,倫理的考察に重点を置く。 ChatGPT can improve Software Engineering (SE) research practices by offering efficient, accessible information analysis and synthesis based on natural language interactions. However, ChatGPT could bring ethical challenges, encompassing plagiarism, privacy, data security, and the risk of generating biased or potentially detrimental data. This research aims to fill the given gap by elaborating on the key elements: motivators, demotivators, and ethical principles of using ChatGPT in SE research. To achieve this objective, we conducted a literature survey, identified the mentioned elements, and presented their relationships by developing a taxonomy. Further, the identified literature-based elements (motivators, demotivators, and ethical principles) were empirically evaluated by conducting a comprehensive questionnaire-based survey involving SE researchers. Additionally, we employed Interpretive Structure Modeling (ISM) approach to analyze the relationships between the ethical principles of using ChatGPT in SE research and develop a level based decision model. We further conducted a Cross-Impact Matrix Multiplication Applied to Classification (MICMAC) analysis to create a cluster-based decision model. These models aim to help SE researchers devise effective strategies for ethically integrating ChatGPT into SE research by following the identified principles through adopting the motivators and addressing the demotivators. The findings of this study will establish a benchmark for incorporating ChatGPT services in SE research with an emphasis on ethical considerations. | 翻訳日:2023-10-23 19:46:20 公開日:2023-08-13 |
# MASC:静的暗号APIミス検出器の突然変異に基づく評価ツール MASC: A Tool for Mutation-Based Evaluation of Static Crypto-API Misuse Detectors ( http://arxiv.org/abs/2308.02310v2 ) ライセンス: Link先を確認 | Amit Seal Ami, Syed Yusuf Ahmed, Radowan Mahmud Redoy, Nathan Cooper, Kaushal Kafle, Kevin Moran, Denys Poshyvanyk, Adwait Nadkarni | (参考訳) ソフトウェアエンジニアは、ソフトウェア開発サイクルで暗号api誤用検知器(または暗号検出器)を楽観的に採用しているが、この勢いは、実際に暗号api誤用を見つけるための暗号検出者の有効性を厳格に理解する必要がある。
本論文では,静的暗号API誤用検知(MASC)を評価するための変異解析という,ツールの技術的詳細と利用シナリオについて述べる。
汎用化,使用ベースの突然変異操作,および3つの突然変異スコープ,すなわち主スコープ,類似度スコープ,徹底的なスコープを開発し,暗号api誤用事例のコンパイル可能な変種を表現的にインスタンス化する。
MASCを用いて、9つの暗号検出装置を評価し、19ドルのユニークで文書化されていない欠陥を発見した。
我々はMASCを構成可能でユーザフレンドリに設計し、ユーザが生成した突然変異の性質を変えるパラメータを設定することができる。
さらに、MASCはコマンドラインインターフェースとWebベースのフロントエンドの両方を備えており、異なるレベルの専門知識を持つユーザには実用的です。 While software engineers are optimistically adopting crypto-API misuse detectors (or crypto-detectors) in their software development cycles, this momentum must be accompanied by a rigorous understanding of crypto-detectors' effectiveness at finding crypto-API misuses in practice. This demo paper presents the technical details and usage scenarios of our tool, namely Mutation Analysis for evaluating Static Crypto-API misuse detectors (MASC). We developed $12$ generalizable, usage based mutation operators and three mutation scopes, namely Main Scope, Similarity Scope, and Exhaustive Scope, which can be used to expressively instantiate compilable variants of the crypto-API misuse cases. Using MASC, we evaluated nine major crypto-detectors, and discovered $19$ unique, undocumented flaws. We designed MASC to be configurable and user-friendly; a user can configure the parameters to change the nature of generated mutations. Furthermore, MASC comes with both Command Line Interface and Web-based front-end, making it practical for users of different levels of expertise. | 翻訳日:2023-10-23 15:21:30 公開日:2023-08-13 |
# ユーザの視点から見たバーチャルリアリティアプリケーションのソフトウェア品質のモデリング Towards Modeling Software Quality of Virtual Reality Applications from Users' Perspectives ( http://arxiv.org/abs/2308.06783v1 ) ライセンス: Link先を確認 | Shuqing Li, Lili Wei, Yepang Liu, Cuiyun Gao, Shing-Chi Cheung and Michael R. Lyu | (参考訳) 近年,Metaverseの重要な実現手段として,仮想現実(VR)技術が人気を博している。
VRアプリケーションには、従来のソフトウェアと区別する革命的な人間とコンピュータのインタラクション機構など、ユニークな特徴がある。
したがって、VRアプリケーションのソフトウェア品質に対するユーザの期待は、従来のソフトウェアと異なる。
これらの品質の期待を調査することは、vrアプリケーションの効果的な開発とメンテナンスに不可欠である。
このギャップを埋めるため,vrアプリケーションのソフトウェア品質をユーザの視点からモデル化する最初の大規模実証研究を行った。
この目的のために,7つのアプリストアにわたる14,150のvrアプリケーションの1,132,056ユーザレビューを,半自動レビューマイニングアプローチによって分析する。
私たちは、vrユーザにとって大きな関心事となる12のソフトウェア品質属性の分類を構築します。
われわれの分析によると、VR特有の品質特性はユーザーにとって非常に重要であり、VRアプリケーションの最もユニークな特性と密接に関連している。
関連ユーザの苦情を調べたところ,VR特有の品質特性によるユーザの満足度に影響を及ぼす主な要因が明らかとなった。
移動機構,制御機構,マルチメディアシステム,物理の貧弱な設計や実装は,ユーザエクスペリエンスを著しく低下させる可能性がある。
さらに、開発者と研究者の両方が将来の作業に光を当てるvr品質保証の意義についても論じる。
例えば、モビリティの制限、感覚障害、およびインタラクションメカニズムをカスタマイズするための特別なニーズを持つユーザに対して、十分なアクセシビリティと快適性オプションを実装することを推奨します。
私たちのデータセットと結果は、フォローアップ研究を促進するためにリリースされます。 Virtual Reality (VR) technology has become increasingly popular in recent years as a key enabler of the Metaverse. VR applications have unique characteristics, including the revolutionized human-computer interaction mechanisms, that distinguish them from traditional software. Hence, user expectations for the software quality of VR applications diverge from those for traditional software. Investigating these quality expectations is crucial for the effective development and maintenance of VR applications, which remains an under-explored area in prior research. To bridge the gap, we conduct the first large-scale empirical study to model the software quality of VR applications from users' perspectives. To this end, we analyze 1,132,056 user reviews of 14,150 VR applications across seven app stores through a semiautomatic review mining approach. We construct a taxonomy of 12 software quality attributes that are of major concern to VR users. Our analysis reveals that the VR-specific quality attributes are of utmost importance to users, which are closely related to the most unique properties of VR applications like revolutionized interaction mechanisms and immersive experiences. Our examination of relevant user complaints reveals the major factors impacting user satisfaction with VR-specific quality attributes. We identify that poor design or implementation of the movement mechanisms, control mechanisms, multimedia systems, and physics, can significantly degrade the user experience. Moreover, we discuss the implications of VR quality assurance for both developers and researchers to shed light on future work. For instance, we suggest developers implement sufficient accessibility and comfort options for users with mobility limitations, sensory impairments, and other specific needs to customize the interaction mechanisms. Our datasets and results will be released to facilitate follow-up studies. | 翻訳日:2023-10-23 14:30:55 公開日:2023-08-13 |
# PentestGPT: LLMを利用した自動浸透試験ツール PentestGPT: An LLM-empowered Automatic Penetration Testing Tool ( http://arxiv.org/abs/2308.06782v1 ) ライセンス: Link先を確認 | Gelei Deng, Yi Liu, V\'ictor Mayoral-Vilches, Peng Liu, Yuekang Li, Yuan Xu, Tianwei Zhang, Yang Liu, Martin Pinzger, Stefan Rass | (参考訳) システムセキュリティを確保する上で重要な産業プラクティスである浸透テストは、従来の自動化に抵抗してきた。
大規模言語モデル(llm)は様々な分野において著しい進歩を示しており、その創発的な能力は産業に革命をもたらす可能性を示唆している。
本研究では,テストマシンとプラットフォームを併用したロバストなベンチマークを用いて実世界の浸透試験におけるLLMの性能を評価する。
その結果,LSMは,テストツールの使用,アウトプットの解釈,その後の動作の提案など,浸透試験プロセス内の特定のサブタスクの習熟度を示す一方で,総合的なテストシナリオの統合的理解の維持にも困難が生じた。
これらの知見に応えて,LLMに固有の豊富なドメイン知識を活用する自動浸透テストツールであるPentestGPTを紹介した。
PentestGPTは、3つの自己相互作用モジュールで慎重に設計されており、それぞれが個々の潜入テストのサブタスクに対処し、コンテキスト損失に関連する課題を軽減する。
評価の結果,pentestgptは228.6\%のタスクコンプリートでllmを上回るだけでなく,実世界の浸透テストの課題に取り組む上で有効であることがわかった。
GitHubでオープンソース化されて以来、PentestGPTは4700以上のスターを集め、学術分野と産業分野の両方でその価値と影響を証明し、活発なコミュニティの関与を促進してきた。 Penetration testing, a crucial industrial practice for ensuring system security, has traditionally resisted automation due to the extensive expertise required by human professionals. Large Language Models (LLMs) have shown significant advancements in various domains, and their emergent abilities suggest their potential to revolutionize industries. In this research, we evaluate the performance of LLMs on real-world penetration testing tasks using a robust benchmark created from test machines with platforms. Our findings reveal that while LLMs demonstrate proficiency in specific sub-tasks within the penetration testing process, such as using testing tools, interpreting outputs, and proposing subsequent actions, they also encounter difficulties maintaining an integrated understanding of the overall testing scenario. In response to these insights, we introduce PentestGPT, an LLM-empowered automatic penetration testing tool that leverages the abundant domain knowledge inherent in LLMs. PentestGPT is meticulously designed with three self-interacting modules, each addressing individual sub-tasks of penetration testing, to mitigate the challenges related to context loss. Our evaluation shows that PentestGPT not only outperforms LLMs with a task-completion increase of 228.6\% compared to the \gptthree model among the benchmark targets but also proves effective in tackling real-world penetration testing challenges. Having been open-sourced on GitHub, PentestGPT has garnered over 4,700 stars and fostered active community engagement, attesting to its value and impact in both the academic and industrial spheres. | 翻訳日:2023-10-23 14:30:32 公開日:2023-08-13 |
# Helion: スマートホームの自然なテストを実現する Helion: Enabling Natural Testing of Smart Homes ( http://arxiv.org/abs/2308.06695v1 ) ライセンス: Link先を確認 | Prianka Mandal, Sunil Manandhar, Kaushal Kafle, Kevin Moran, Denys Poshyvanyk, Adwait Nadkarni | (参考訳) 以前の研究は、スマートホームのセキュリティと安全性をテストする多くのシステムを開発した。
これらのシステムが実際に適用されるためには、スマートホーム、すなわちホームオートメーションの使用を現実のシナリオでテストする必要がある。
本稿では,Helionの技術的詳細と使用法について述べる。Helionは,ユーザ主導型プログラムの規則性,すなわちスマートホーム用に開発されたルーチンを学習するために,n-gram言語モデリングを用いたシステムであり,ホームオートメーションの自然なシナリオ,すなわち,現実的なホームオートメーションの使用を反映したイベントシーケンスを予測する。
helionhaプラットフォームは、helionを人気のホームアシスタントスマートホームプラットフォームに統合して開発された。
HelionHAは、現実と仮想のスマートホームデバイスでテストケースとして実行することにより、Helionのシナリオをエンドツーエンドで探索することを可能にする。 Prior work has developed numerous systems that test the security and safety of smart homes. For these systems to be applicable in practice, it is necessary to test them with realistic scenarios that represent the use of the smart home, i.e., home automation, in the wild. This demo paper presents the technical details and usage of Helion, a system that uses n-gram language modeling to learn the regularities in user-driven programs, i.e., routines developed for the smart home, and predicts natural scenarios of home automation, i.e., event sequences that reflect realistic home automation usage. We demonstrate the HelionHA platform, developed by integrating Helion with the popular Home Assistant smart home platform. HelionHA allows an end-to-end exploration of Helion's scenarios by executing them as test cases with real and virtual smart home devices. | 翻訳日:2023-10-23 14:30:02 公開日:2023-08-13 |
# 会話型AIにおける信頼の構築: LLMと知識グラフを用いた説明可能なプライバシ対応システムのための包括的レビューとソリューションアーキテクチャ Building Trust in Conversational AI: A Comprehensive Review and Solution Architecture for Explainable, Privacy-Aware Systems using LLMs and Knowledge Graph ( http://arxiv.org/abs/2308.13534v1 ) ライセンス: Link先を確認 | Ahtsham Zafar, Venkatesh Balavadhani Parthasarathy, Chan Le Van, Saad Shahid, Aafaq Iqbal khan, Arsalan Shahid | (参考訳) 会話型AIシステムは、多分野にわたる人間のような対話の鍵となる手段として登場した。
それにもかかわらず、言語のニュアンスと事実の正確さのバランスは明らかである。
本稿ではまず,150以上の大規模言語モデル(llm)の詳細なレビューを行い,社会的・倫理的・規制的・産業横断的適用性など幅広い影響を明らかにする総合的ツールであるllmxplorerについて紹介する。
この基盤に基づいて,知識グラフの構造化ダイナミクスとllmの言語能力とをシームレスに統合した,新しい機能的アーキテクチャを提案する。
我々のアーキテクチャは、実世界のAIニュースデータを用いて検証され、言語的な洗練と事実の厳密さを十分にブレンドし、ロールベースアクセス制御によるデータセキュリティをさらに強化します。
この研究は、会話型AIの進化する展望を洞察し、効率的で透明で信頼に値するシステムに対する命令を強調します。 Conversational AI systems have emerged as key enablers of human-like interactions across diverse sectors. Nevertheless, the balance between linguistic nuance and factual accuracy has proven elusive. In this paper, we first introduce LLMXplorer, a comprehensive tool that provides an in-depth review of over 150 Large Language Models (LLMs), elucidating their myriad implications ranging from social and ethical to regulatory, as well as their applicability across industries. Building on this foundation, we propose a novel functional architecture that seamlessly integrates the structured dynamics of Knowledge Graphs with the linguistic capabilities of LLMs. Validated using real-world AI news data, our architecture adeptly blends linguistic sophistication with factual rigour and further strengthens data security through Role-Based Access Control. This research provides insights into the evolving landscape of conversational AI, emphasizing the imperative for systems that are efficient, transparent, and trustworthy. | 翻訳日:2023-09-03 21:43:13 公開日:2023-08-13 |
# クロスサブジェクト脳波に基づく感情認識のための半教師付き自己対向グラフコントラスト学習 Semi-Supervised Dual-Stream Self-Attentive Adversarial Graph Contrastive Learning for Cross-Subject EEG-based Emotion Recognition ( http://arxiv.org/abs/2308.11635v1 ) ライセンス: Link先を確認 | Weishan Ye, Zhiguo Zhang, Min Zhang, Fei Teng, Li Zhang, Linling Li, Gan Huang, Jianhong Wang, Dong Ni, and Zhen Liang | (参考訳) 脳波(Electroencephalography、EEG)は、有望な応用を伴う感情認識のための客観的ツールである。
しかし、この分野ではラベル付きデータの不足が大きな課題であり、脳波に基づく感情認識の広範使用を制限する。
本稿では,クロスサブジェクト脳波に基づく感情認識における限定ラベルデータの課題に対処するために,半教師付き双対的自己対向グラフコントラスト学習フレームワーク(ds-agc)を提案する。
DS-AGCフレームワークは、非構造的および構造的EEG特徴を抽出する2つの並列ストリームを含む。
非構造的ストリームは、ラベル付きソースドメイン、ラベル付きソースドメイン、未知のターゲットドメイン間の分散不一致を軽減するための、半教師付きマルチドメイン適応手法を含む。
構造ストリームは,複数のEEGチャネルから効率的なグラフベースの特徴表現を半教師付きで抽出するグラフコントラスト学習法を開発する。
さらに、特徴融合、サンプル選択、感情認識のための自己注意融合モジュールが開発され、ターゲットドメインに近いラベル付きソースドメイン内の感情やデータサンプルとより関連性の高い脳波特徴が強調される。
2つのベンチマークデータベース(seedおよびseed-iv)において、半教師付きクロスサブジェクト残・one-subject-outクロスバリデーション評価方式を用いて、提案手法が、異なる不完全なラベル条件下で既存の手法よりも優れていること(平均で5.83%、seed-ivで6.99%改善)を示し、クロスサブジェクトeegに基づく感情認識におけるラベル不足問題に対処する上での有効性を実証した。 Electroencephalography (EEG) is an objective tool for emotion recognition with promising applications. However, the scarcity of labeled data remains a major challenge in this field, limiting the widespread use of EEG-based emotion recognition. In this paper, a semi-supervised Dual-stream Self-Attentive Adversarial Graph Contrastive learning framework (termed as DS-AGC) is proposed to tackle the challenge of limited labeled data in cross-subject EEG-based emotion recognition. The DS-AGC framework includes two parallel streams for extracting non-structural and structural EEG features. The non-structural stream incorporates a semi-supervised multi-domain adaptation method to alleviate distribution discrepancy among labeled source domain, unlabeled source domain, and unknown target domain. The structural stream develops a graph contrastive learning method to extract effective graph-based feature representation from multiple EEG channels in a semi-supervised manner. Further, a self-attentive fusion module is developed for feature fusion, sample selection, and emotion recognition, which highlights EEG features more relevant to emotions and data samples in the labeled source domain that are closer to the target domain. Extensive experiments conducted on two benchmark databases (SEED and SEED-IV) using a semi-supervised cross-subject leave-one-subject-out cross-validation evaluation scheme show that the proposed model outperforms existing methods under different incomplete label conditions (with an average improvement of 5.83% on SEED and 6.99% on SEED-IV), demonstrating its effectiveness in addressing the label scarcity problem in cross-subject EEG-based emotion recognition. | 翻訳日:2023-08-27 04:46:31 公開日:2023-08-13 |
# ChatGPTを用いた金融ドメインの変換知覚分析 Transforming Sentiment Analysis in the Financial Domain with ChatGPT ( http://arxiv.org/abs/2308.07935v1 ) ライセンス: Link先を確認 | Georgios Fatouros, John Soldatos, Kalliopi Kouroumali, Georgios Makridis, Dimosthenis Kyriazis | (参考訳) 金融センチメント分析は、市場のトレンドを解読し、戦略的取引決定を導く上で重要な役割を果たす。
金融における感情分析を洗練させる先進的な深層学習技術や言語モデルが展開されているにもかかわらず、金融感情分析における大規模言語モデル、特にChatGPT 3.5の可能性を調査し、外国為替市場(ex)に重点を置いている。
ゼロショットプロンプトアプローチを用いて,複数のchatgptプロンプトを,forex関連ニュースヘッドラインの細心の注意深いキュレーションデータセット上で検討し,センチメントクラスの精度,リコール,f1-score,平均絶対誤差(mae)などの指標を用いてパフォーマンスを測定した。
さらに,予測感情と市場リターンの相関関係をさらなる評価手法として検討する。
ファイナンシャルテキストの感情分析モデルであるFinBERTと比較して、ChatGPTは感情分類において約35%向上し、市場リターンと36%高相関を示した。
特にゼロショットの文脈において、プロンプトエンジニアリングの重要性を概説することで、この研究は、金融アプリケーションにおける感情分析を著しく促進するchatgptの可能性を浮き彫りにする。
利用済みデータセットを共有することで、金融サービス分野におけるさらなる研究と進歩を促すことを目的としています。 Financial sentiment analysis plays a crucial role in decoding market trends and guiding strategic trading decisions. Despite the deployment of advanced deep learning techniques and language models to refine sentiment analysis in finance, this study breaks new ground by investigating the potential of large language models, particularly ChatGPT 3.5, in financial sentiment analysis, with a strong emphasis on the foreign exchange market (forex). Employing a zero-shot prompting approach, we examine multiple ChatGPT prompts on a meticulously curated dataset of forex-related news headlines, measuring performance using metrics such as precision, recall, f1-score, and Mean Absolute Error (MAE) of the sentiment class. Additionally, we probe the correlation between predicted sentiment and market returns as an additional evaluation approach. ChatGPT, compared to FinBERT, a well-established sentiment analysis model for financial texts, exhibited approximately 35\% enhanced performance in sentiment classification and a 36\% higher correlation with market returns. By underlining the significance of prompt engineering, particularly in zero-shot contexts, this study spotlights ChatGPT's potential to substantially boost sentiment analysis in financial applications. By sharing the utilized dataset, our intention is to stimulate further research and advancements in the field of financial services. | 翻訳日:2023-08-17 16:01:31 公開日:2023-08-13 |
# CDR:デバイアスドレコメンデーションのための保守的二重ロバスト学習 CDR: Conservative Doubly Robust Learning for Debiased Recommendation ( http://arxiv.org/abs/2308.08461v1 ) ライセンス: Link先を確認 | ZiJie Song, JiaWei Chen, Sheng Zhou, QiHao Shi, Yan Feng, Chun Chen and Can Wang | (参考訳) レコメンデーションシステム(RS)では、ユーザー行動データは実験よりも観察的であり、データに広範なバイアスをもたらす。
その結果、バイアスに取り組むことは、レコメンデーションシステムの分野で大きな課題となっている。
近年,Doubly Robust Learning (DR) が注目されている。
しかし,本研究の結果から,既存のDR法はいわゆるPisonous Imputationの存在によって深刻な影響を受けていることが示唆された。
この問題に対処するため、本研究では、その平均と分散を精査し、計算をフィルタリングする保守的二重ロバスト戦略(CDR)を提案する。
理論的解析により,CDRはばらつきを低減し,尾部境界が改善していることが明らかとなった。また,本研究では,CDRが性能を著しく向上し,有毒なインキュベーションの頻度を低減できることを示す実験的検討を行った。 In recommendation systems (RS), user behavior data is observational rather than experimental, resulting in widespread bias in the data. Consequently, tackling bias has emerged as a major challenge in the field of recommendation systems. Recently, Doubly Robust Learning (DR) has gained significant attention due to its remarkable performance and robust properties. However, our experimental findings indicate that existing DR methods are severely impacted by the presence of so-called Poisonous Imputation, where the imputation significantly deviates from the truth and becomes counterproductive. To address this issue, this work proposes Conservative Doubly Robust strategy (CDR) which filters imputations by scrutinizing their mean and variance. Theoretical analyses show that CDR offers reduced variance and improved tail bounds.In addition, our experimental investigations illustrate that CDR significantly enhances performance and can indeed reduce the frequency of poisonous imputation. | 翻訳日:2023-08-17 12:44:18 公開日:2023-08-13 |
# 障害に対する良性ショートカット:ショートカット機能による介入による公正な視覚認識 Benign Shortcut for Debiasing: Fair Visual Recognition via Intervention with Shortcut Features ( http://arxiv.org/abs/2308.08482v1 ) ライセンス: Link先を確認 | Yi Zhang, Jitao Sang, Junyang Wang, Dongmei Jiang, Yaowei Wang | (参考訳) 機械学習モデルは、性別や人種のようなセンシティブな社会的属性に依存する予測を学習し、特に雇用、銀行、刑事司法といった社会的な応用において、かなりの公正性リスクをもたらす。
既存の作業は、デバイアスのモデルにおける社会的属性に関する雇用情報の最小化によってこの問題に取り組む。
しかし,対象課題とこれらの社会的属性との間に高い相関関係があるため,対象タスクの学習は嫌悪感と相容れない。
モデルバイアスは、バイアス特徴 (\emph{i.e}) の学習によって生じる。
目標タスク最適化におけるバイアス機能の役割を置き換えるために、ショートカット機能を活用します。
この目的のために,まず,対象タスクのバイアス特性の学習をバイアス特徴からショートカット特徴へ伝達し,推論中にショートカット特徴を除去するために因果的介入を採用する。
emph{Shortcut Debiasing} のキーとなるアイデアは、トレーニング段階における目標タスクへの貢献において、一方がバイアス機能を置き換えるための制御可能なショートカット機能を設計することであり、他方が推論段階における介入によって容易に除去される。
これにより、対象タスクの学習がバイアス特徴の排除を妨げないことが保証される。
いくつかのベンチマークデータセットに \emph{Shortcut Debiasing} を適用し、精度と公平性の両方で最先端の debiasing 手法を大幅に改善する。 Machine learning models often learn to make predictions that rely on sensitive social attributes like gender and race, which poses significant fairness risks, especially in societal applications, such as hiring, banking, and criminal justice. Existing work tackles this issue by minimizing the employed information about social attributes in models for debiasing. However, the high correlation between target task and these social attributes makes learning on the target task incompatible with debiasing. Given that model bias arises due to the learning of bias features (\emph{i.e}., gender) that help target task optimization, we explore the following research question: \emph{Can we leverage shortcut features to replace the role of bias feature in target task optimization for debiasing?} To this end, we propose \emph{Shortcut Debiasing}, to first transfer the target task's learning of bias attributes from bias features to shortcut features, and then employ causal intervention to eliminate shortcut features during inference. The key idea of \emph{Shortcut Debiasing} is to design controllable shortcut features to on one hand replace bias features in contributing to the target task during the training stage, and on the other hand be easily removed by intervention during the inference stage. This guarantees the learning of the target task does not hinder the elimination of bias features. We apply \emph{Shortcut Debiasing} to several benchmark datasets, and achieve significant improvements over the state-of-the-art debiasing methods in both accuracy and fairness. | 翻訳日:2023-08-17 12:35:21 公開日:2023-08-13 |
# intune:深いレコメンデーションモデルのための強化学習ベースのデータパイプライン最適化 InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep Recommendation Models ( http://arxiv.org/abs/2308.08500v1 ) ライセンス: Link先を確認 | Kabir Nagrecha, Lingyi Liu, Pablo Delgado, Prasanna Padmanabhan | (参考訳) 深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
現在、いくつかの企業がDLRMトレーニング用にのみ予約された大規模な計算クラスタを構築しており、コストと時間節約の最適化に新たな関心を喚起している。
典型的なディープラーニングトレーニングジョブはモデルの実行によって支配されるが、dlrmトレーニングのパフォーマンスにおいて最も重要な要素は、多くの場合、オンラインデータ取り込みである。
本稿では,このデータ取り込み問題の特徴を考察し,DLRMトレーニングパイプラインのボトルネックと課題について考察する。
Netflixの計算クラスタから取得した実世界のDLRMデータ処理パイプラインを調査し、オンライン摂取によるパフォーマンスへの影響を観察し、既存のパイプラインオプティマイザの欠点を特定する。
現在のツールでは、サブ最適パフォーマンス、頻繁なクラッシュ、あるいは非現実的なクラスタ再編成が必要です。
私たちの研究は、データパイプライン最適化のための新しいソリューションInTuneの設計と構築につながります。
InTuneは強化学習(RL)エージェントを使用して、DLRMデータパイプラインにトレーナーマシンのCPUリソースを分散する方法を学び、データのロードをより効率的に並列化し、スループットを向上させる。
我々の実験によると、InTuneは数分で最適化されたデータパイプライン構成を構築でき、既存のトレーニングワークフローに簡単に統合できる。
RLの応答性と適応性を活用することで、InTuneは既存のオプティマイザよりも高いオンラインデータ取り込み率を実現し、モデル実行時のアイドル時間を短縮し、効率を向上する。
intuneを実世界のクラスタに適用し、データ取り込みスループットを最先端のデータパイプラインオプティマイザと比較して最大2.29倍向上するとともに、cpuとgpuの利用性も向上しています。 Deep learning-based recommender models (DLRMs) have become an essential component of many modern recommender systems. Several companies are now building large compute clusters reserved only for DLRM training, driving new interest in cost- and time- saving optimizations. The systems challenges faced in this setting are unique; while typical deep learning training jobs are dominated by model execution, the most important factor in DLRM training performance is often online data ingestion. In this paper, we explore the unique characteristics of this data ingestion problem and provide insights into DLRM training pipeline bottlenecks and challenges. We study real-world DLRM data processing pipelines taken from our compute cluster at Netflix to observe the performance impacts of online ingestion and to identify shortfalls in existing pipeline optimizers. We find that current tooling either yields sub-optimal performance, frequent crashes, or else requires impractical cluster re-organization to adopt. Our studies lead us to design and build a new solution for data pipeline optimization, InTune. InTune employs a reinforcement learning (RL) agent to learn how to distribute the CPU resources of a trainer machine across a DLRM data pipeline to more effectively parallelize data loading and improve throughput. Our experiments show that InTune can build an optimized data pipeline configuration within only a few minutes, and can easily be integrated into existing training workflows. By exploiting the responsiveness and adaptability of RL, InTune achieves higher online data ingestion rates than existing optimizers, thus reducing idle times in model execution and increasing efficiency. We apply InTune to our real-world cluster, and find that it increases data ingestion throughput by as much as 2.29X versus state-of-the-art data pipeline optimizers while also improving both CPU & GPU utilization. | 翻訳日:2023-08-17 12:23:33 公開日:2023-08-13 |
# 旅行セールスマン問題に対するメタヒューリスティックな解の並列アンサンブル A Parallel Ensemble of Metaheuristic Solvers for the Traveling Salesman Problem ( http://arxiv.org/abs/2308.07347v1 ) ライセンス: Link先を確認 | Swetha Varadarajan and Darrell Whitley | (参考訳) トラベリングセールスマン問題(TSP)は、文献でよく研究されているNPハード問題の一つである。
最先端のTSP解決者はLin-Kernighan-Helsgaun(LKH)ヒューリスティックとエッジアセンブリクロスオーバー(EAX)である。
最近の研究は、再起動機構を持つEAXが広範囲のTSPインスタンスでうまく機能することを示唆している。
しかし、この研究は都市問題2000に制限されている。
2,000から85,900の問題について検討する。
解法の性能は問題の種類によって異なることが分かる。
しかし,これらの解器をアンサンブル設定で組み合わせることで,個々の解器の性能より優れる。
計算資源の豊富さを活用する効率的な方法として,アンサンブルの設定が考えられる。
EAX と LKH に加えて、EAX と Mixing Genetic Algorithm (MGA) のハイブリッド版もいくつか使用しています。
MGAとEAXのハイブリッドは、いくつかの難しい問題を解くことが知られている。
ハイブリッド版のアンサンブルは1万都市以上の問題に対して最先端の解法よりも優れています。 The travelling salesman problem (TSP) is one of the well-studied NP-hard problems in the literature. The state-of-the art inexact TSP solvers are the Lin-Kernighan-Helsgaun (LKH) heuristic and Edge Assembly crossover (EAX). A recent study suggests that EAX with restart mechanisms perform well on a wide range of TSP instances. However, this study is limited to 2,000 city problems. We study for problems ranging from 2,000 to 85,900. We see that the performance of the solver varies with the type of the problem. However, combining these solvers in an ensemble setup, we are able to outperform the individual solver's performance. We see the ensemble setup as an efficient way to make use of the abundance of compute resources. In addition to EAX and LKH, we use several versions of the hybrid of EAX and Mixing Genetic Algorithm (MGA). A hybrid of MGA and EAX is known to solve some hard problems. We see that the ensemble of the hybrid version outperforms the state-of-the-art solvers on problems larger than 10,000 cities. | 翻訳日:2023-08-16 15:18:34 公開日:2023-08-13 |
# Py-TetradとRPy-Tetrad: Tetrad Causal SearchをRサポートした新しいPythonインターフェース Py-Tetrad and RPy-Tetrad: A New Python Interface with R Support for Tetrad Causal Search ( http://arxiv.org/abs/2308.07346v1 ) ライセンス: Link先を確認 | Joseph D. Ramsey, Bryan Andrews | (参考訳) 因果モデリング,検索,推定のための新しいPythonおよびRインターフェースを (Java) Tetrad プロジェクトで提供します。
tetradプロジェクトは、30年以上にわたって一貫した開発が続けられてきた、文学における主要分野である。
アルゴリズムの中には、PCやFCIのような古典的なものもあり、最近の開発もある。
しかし、研究者が基礎となるjavaコードをpythonやrからアクセスする必要があるケースがますます増えている。
JPypeのPython-JavaインターフェースとReticulateのPython-Rインターフェースを使って,これらの問題を直接解決する。
いくつかのシンプルなツールの追加とPythonとRの動作例の提供により、JPypeとReticulateを使ってPythonとRをTetradでインターフェースするのは簡単で直感的だ。 We give novel Python and R interfaces for the (Java) Tetrad project for causal modeling, search, and estimation. The Tetrad project is a mainstay in the literature, having been under consistent development for over 30 years. Some of its algorithms are now classics, like PC and FCI; others are recent developments. It is increasingly the case, however, that researchers need to access the underlying Java code from Python or R. Existing methods for doing this are inadequate. We provide new, up-to-date methods using the JPype Python-Java interface and the Reticulate Python-R interface, directly solving these issues. With the addition of some simple tools and the provision of working examples for both Python and R, using JPype and Reticulate to interface Python and R with Tetrad is straightforward and intuitive. | 翻訳日:2023-08-16 15:18:18 公開日:2023-08-13 |
# メモリ効率最適化のためのコニックDescent Redux Conic Descent Redux for Memory-Efficient Optimization ( http://arxiv.org/abs/2308.07343v1 ) ライセンス: Link先を確認 | Bingcong Li, Georgios B. Giannakis | (参考訳) conicプログラミングは、信号処理と機械学習タスクの多種多様な分野において、十分に文書化されている。
この貢献は、最近開発された一階円錐降下(cd)ソルバを再検討し、直観、理論、アルゴリズム実装の3つの側面でそれを発展させる。
CD は双対問題に由来する直感的な幾何学的導出が可能であることが判明した。
これは新しいアルゴリズム設計への扉を開き、CDの運動量変化、運動量円錐降下(MOCO)を例示する。
デュアルビヘイビアCDとMOCOに深く入り込むと、次のことが分かる。
一 分析上正当化された停止基準、及び
二 二重収束を早めるためのプレコンディショナーを設計する可能性
最後に、特に低ランクソリューションに対して半定値プログラミング(SDP)をスケールするために、メモリ効率の良いMOCO変種を開発し、数値的に検証する。 Conic programming has well-documented merits in a gamut of signal processing and machine learning tasks. This contribution revisits a recently developed first-order conic descent (CD) solver, and advances it in three aspects: intuition, theory, and algorithmic implementation. It is found that CD can afford an intuitive geometric derivation that originates from the dual problem. This opens the door to novel algorithmic designs, with a momentum variant of CD, momentum conic descent (MOCO) exemplified. Diving deeper into the dual behavior CD and MOCO reveals: i) an analytically justified stopping criterion; and, ii) the potential to design preconditioners to speed up dual convergence. Lastly, to scale semidefinite programming (SDP) especially for low-rank solutions, a memory efficient MOCO variant is developed and numerically validated. | 翻訳日:2023-08-16 15:18:03 公開日:2023-08-13 |
# オープンソースツールによるMRI画像の予測結果の評価-プロトタイプアプローチ Evaluating the anticipated outcomes of MRI seizure image from open-source tool- Prototype approach ( http://arxiv.org/abs/2308.07762v1 ) ライセンス: Link先を確認 | Jayanthi Vajiram, Aishwarya Senthil, Utkarsh Maurya | (参考訳) Epileptic Seizureは脳の異常なニューロン運動であり、世界の人口の7000万人近くに影響している(Ngugi et al., 2010)。
多くのオープンソースの神経画像ツールが代謝検査や分析に使われている。
この論文では、MATLAB、Slicer 3D、Brain Suite21a、SPM、MedCalcといったオープンソースツールのスコープを説明します。
MATLABは60%の研究者が画像処理に使用し、10%は独自のソフトウェアを使用していた。
研究者の30%以上が他のオープンソースソフトウェアツールを使って、磁気共鳴てんかん画像の研究を行っている。 Epileptic Seizure is an abnormal neuronal exertion in the brain, affecting nearly 70 million of the world's population (Ngugi et al., 2010). So many open-source neuroimaging tools are used for metabolism checkups and analysis purposes. The scope of open-source tools like MATLAB, Slicer 3D, Brain Suite21a, SPM, and MedCalc are explained in this paper. MATLAB was used by 60% of the researchers for their image processing and 10% of them use their proprietary software. More than 30% of the researchers use other open-source software tools with their processing techniques for the study of magnetic resonance seizure images | 翻訳日:2023-08-16 12:51:36 公開日:2023-08-13 |
# ResNet型畳み込みニューラルネットワークの近似と非パラメトリック推定 Approximation and Non-parametric Estimation of ResNet-type Convolutional Neural Networks ( http://arxiv.org/abs/1903.10047v4 ) ライセンス: Link先を確認 | Kenta Oono, Taiji Suzuki | (参考訳) 畳み込みニューラルネットワーク(CNN)は、いくつかの関数クラスにおいて最適近似と推定誤差率(ミニマックス)を達成することが示されている。
しかしながら、以前の解析された最適cnnは、h\"olderクラスを含む重要な関数クラスにおける疎制約のため、最適化によって非現実的な幅と取得が困難である。
resnet タイプの cnn では,より可能性の高い状況下で,これらのクラスにおける minimax の最適誤差率を達成可能であることを示し,その幅,チャネルサイズ,フィルタサイズはサンプルサイズに対して一定であることを示した。
鍵となるアイデアは、fnnが \textit{block-sparse}構造を持つ限り、完全接続型ニューラルネットワーク(fnn)の学習能力をカスタマイズしたcnnで再現できることである。
我々の理論は、ブロックスパースFNNによって達成された近似率をCNNによって自動的に変換できるという意味で一般的である。
応用として、上記のCNNの近似と推定誤差率を、同じ戦略を持つBarronとH\"olderクラスに対して導出する。 Convolutional neural networks (CNNs) have been shown to achieve optimal approximation and estimation error rates (in minimax sense) in several function classes. However, previous analyzed optimal CNNs are unrealistically wide and difficult to obtain via optimization due to sparse constraints in important function classes, including the H\"older class. We show a ResNet-type CNN can attain the minimax optimal error rates in these classes in more plausible situations -- it can be dense, and its width, channel size, and filter size are constant with respect to sample size. The key idea is that we can replicate the learning ability of Fully-connected neural networks (FNNs) by tailored CNNs, as long as the FNNs have \textit{block-sparse} structures. Our theory is general in a sense that we can automatically translate any approximation rate achieved by block-sparse FNNs into that by CNNs. As an application, we derive approximation and estimation error rates of the aformentioned type of CNNs for the Barron and H\"older classes with the same strategy. | 翻訳日:2023-08-16 00:00:25 公開日:2023-08-13 |
# 密林天蓋下リアルタイムセマンティックスラムを用いた大規模自律飛行 Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense Forest Canopy ( http://arxiv.org/abs/2109.06479v5 ) ライセンス: Link先を確認 | Xu Liu, Guilherme V. Nardari, Fernando Cladera Ojeda, Yuezhan Tao, Alex Zhou, Thomas Donnelly, Chao Qu, Steven W. Chen, Roseli A. F. Romero, Camillo J. Taylor, Vijay Kumar | (参考訳) セマンティックマップは、セマンティックな意味のあるオブジェクトの集合を使って環境を表現する。
この表現は、ストレージ効率が良く、曖昧で、より情報に富むもので、大規模な自律性と、高度に非構造化されたGPS環境での実行可能な情報の取得を容易にする。
本稿では,大規模自律飛行とリアルタイムセマンティックマッピングを,挑戦的なアンダーキャノピー環境下で実現可能な統合システムを提案する。
lidarデータから樹幹と地上面を検出しモデル化し,スキャンに関連付けられ,ロボットのポーズや樹幹モデルに制約を与える。
自律ナビゲーションモジュールは、マルチレベル計画およびマッピングフレームワークを使用し、UAVがユーザの定義した関心領域のセマンティックマップを計算的かつ効率的な方法で構築する、動的に実現可能な軌道を計算する。
ドリフト補償機構は、プランナー最適性とコントローラ安定性を維持しつつ、セマンティックSLAM出力を用いたドリフトをリアルタイムで最小化するように設計されている。
これによりUAVは、そのミッションを正確かつ安全に実施することができる。
コードはhttps://github.com/KumarRobotics/kr_autonomous_flight and https://github.com/KumarRobotics/sloam.comで公開されている。 Semantic maps represent the environment using a set of semantically meaningful objects. This representation is storage-efficient, less ambiguous, and more informative, thus facilitating large-scale autonomy and the acquisition of actionable information in highly unstructured, GPS-denied environments. In this letter, we propose an integrated system that can perform large-scale autonomous flights and real-time semantic mapping in challenging under-canopy environments. We detect and model tree trunks and ground planes from LiDAR data, which are associated across scans and used to constrain robot poses as well as tree trunk models. The autonomous navigation module utilizes a multi-level planning and mapping framework and computes dynamically feasible trajectories that lead the UAV to build a semantic map of the user-defined region of interest in a computationally and storage efficient manner. A drift-compensation mechanism is designed to minimize the odometry drift using semantic SLAM outputs in real time, while maintaining planner optimality and controller stability. This leads the UAV to execute its mission accurately and safely at scale. Code is released at: https://github.com/KumarRobotics/kr_autonomous_flight and https://github.com/KumarRobotics/sloam. | 翻訳日:2023-08-15 23:56:54 公開日:2023-08-13 |
# PaCo: Commonsenseの知識に貢献する前提条件 PaCo: Preconditions Attributed to Commonsense Knowledge ( http://arxiv.org/abs/2104.08712v3 ) ライセンス: Link先を確認 | Ehsan Qasemi, Filip Ilievski, Muhao Chen, Pedro Szekely | (参考訳) 人間は常識知識の状況条件でシームレスに推論することができる。
ガラスが壊れたり、水が有毒でない限り、ガラスが飲料水に使われることは理解できます。
最先端(sota)言語モデル(lms)は常識知識を推測する印象的な性能を誇っているが、状況的前提条件を理解するかどうかは不明である。
このギャップに対処するため,我々は状況条件を用いた推論の新たな挑戦を提案する。
私たちはPaCoと呼ばれるデータセットを収集し、自然言語で表現された常識文の124万の前提条件で構成されています。
このデータセットに基づいて、3つの標準的評価タスクを作成し、既存のLMの能力を調べて状況条件を理解する。
この結果から,タスクにおける機械と人的パフォーマンスの10~30%のギャップが明らかとなり,前提条件による推論がオープンな課題であることが示唆された。 Humans can seamlessly reason with circumstantial preconditions of commonsense knowledge. We understand that a glass is used for drinking water, unless the glass is broken or the water is toxic. Despite state-of-the-art (SOTA) language models' (LMs) impressive performance on inferring commonsense knowledge, it is unclear whether they understand the circumstantial preconditions. To address this gap, we propose a novel challenge of reasoning with circumstantial preconditions. We collect a dataset, called PaCo, consisting of 12.4 thousand preconditions of commonsense statements expressed in natural language. Based on this dataset, we create three canonical evaluation tasks and use them to examine the capability of existing LMs to understand situational preconditions. Our results reveal a 10-30% gap between machine and human performance on our tasks, which shows that reasoning with preconditions is an open challenge. | 翻訳日:2023-08-15 23:53:11 公開日:2023-08-13 |
# 双知覚類似性を用いた直交ネットワークアライメントのパワーについて On the Power of Gradual Network Alignment Using Dual-Perception Similarities ( http://arxiv.org/abs/2201.10945v2 ) ライセンス: Link先を確認 | Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao | (参考訳) ネットワークアライメント(NA)は、ネットワーク構造とノード属性に基づいて、2つのネットワーク間のノードの対応を見つけるタスクである。
本研究の動機は,既存のNA手法が全てのノード対を一度に発見しようとしたため,ノード対応の暫定的な発見によって得られた情報を利用して,ノードマッチング中の次の対応をより正確に見つけることにある。
この課題に対処するため,我々は,段階的マッチングの初期段階で容易に発見できる強い整合性を示すノードペアをフル活用することにより,ノードペアを徐々に発見する新しいNA手法であるGrad-Alignを提案する。
特に、Grad-Alignは、まずグラフニューラルネットワークに基づく2つのネットワークのノード埋め込みを生成する。
そして、複数層埋め込み類似度を含む二重知覚類似度と、異なるスケールのネットワークに適用可能なトベルスキー指数を用いた非対称集合類似度とを演算することにより、ノードを徐々に整列させる。
さらに,エッジ拡張モジュールをgrad-alignに組み込んで構造的一貫性を強化した。
実世界および合成データセットを用いた包括的実験により, grad-alignが最先端のna法を一貫して上回っていることを実証した。 Network alignment (NA) is the task of finding the correspondence of nodes between two networks based on the network structure and node attributes. Our study is motivated by the fact that, since most of existing NA methods have attempted to discover all node pairs at once, they do not harness information enriched through interim discovery of node correspondences to more accurately find the next correspondences during the node matching. To tackle this challenge, we propose Grad-Align, a new NA method that gradually discovers node pairs by making full use of node pairs exhibiting strong consistency, which are easy to be discovered in the early stage of gradual matching. Specifically, Grad-Align first generates node embeddings of the two networks based on graph neural networks along with our layer-wise reconstruction loss, a loss built upon capturing the first-order and higher-order neighborhood structures. Then, nodes are gradually aligned by computing dual-perception similarity measures including the multi-layer embedding similarity as well as the Tversky similarity, an asymmetric set similarity using the Tversky index applicable to networks with different scales. Additionally, we incorporate an edge augmentation module into Grad-Align to reinforce the structural consistency. Through comprehensive experiments using real-world and synthetic datasets, we empirically demonstrate that Grad-Align consistently outperforms state-of-the-art NA methods. | 翻訳日:2023-08-15 23:47:44 公開日:2023-08-13 |
# 雑音障害行列に対する行列順序付け:最適性と計算効率の良いアルゴリズム Matrix Reordering for Noisy Disordered Matrices: Optimality and Computationally Efficient Algorithms ( http://arxiv.org/abs/2201.06438v2 ) ライセンス: Link先を確認 | T. Tony Cai and Rong Ma | (参考訳) 単細胞生物学とメダゲノミクスの応用により,雑音に乱れた単調なToeplitz行列モデルに基づく行列再構成の問題点を考察した。
決定論的枠組みにおいて,この問題に対する基本的な統計的限界を定め,制約付き最小二乗推定器が最適速度を達成することを示す。
しかし,計算の複雑さから,一般的な多項式時間アルゴリズムであるスペクトルセレーションを解析し,サブオプティマイズであることを示す。
そこで本研究では,性能向上を保証した多項式時間適応ソートアルゴリズムを提案する。
2つの実シングルセルRNAシークエンシングデータセットのシミュレーションと解析は、既存の手法よりもアルゴリズムの方が優れていることを示す。 Motivated by applications in single-cell biology and metagenomics, we investigate the problem of matrix reordering based on a noisy disordered monotone Toeplitz matrix model. We establish the fundamental statistical limit for this problem in a decision-theoretic framework and demonstrate that a constrained least squares estimator achieves the optimal rate. However, due to its computational complexity, we analyze a popular polynomial-time algorithm, spectral seriation, and show that it is suboptimal. To address this, we propose a novel polynomial-time adaptive sorting algorithm with guaranteed performance improvement. Simulations and analyses of two real single-cell RNA sequencing datasets demonstrate the superiority of our algorithm over existing methods. | 翻訳日:2023-08-15 23:47:19 公開日:2023-08-13 |
# マルチビューサブスペースクラスタリングのためのきめ細かいグラフ学習 Fine-grained Graph Learning for Multi-view Subspace Clustering ( http://arxiv.org/abs/2201.04604v4 ) ライセンス: Link先を確認 | Yidi Wang, Xiaobing Pei, Haoxi Zhan | (参考訳) マルチビューサブスペースクラスタリング(MSC)は、ビューに隠された固有のクラスタリング構造を明らかにするために異種情報を統合することで、一般的な教師なしの手法である。
通常、msc法はグラフ(またはアフィニティ行列)融合を使って共通の構造を学び、さらにグラフベースのアプローチをクラスタリングに適用する。
進歩にもかかわらず、ほとんどの手法はグラフ学習とクラスタリングの関連性を確立していない。
一方、従来のグラフ融合戦略では、局所構造の重要性を無視した多グラフを組み合わせるために粗粒度重みを割り当てている。
本稿では,これらの問題に対処するために,マルチビューサブスペースクラスタリング(FGL-MSC)のためのきめ細かいグラフ学習フレームワークを提案する。
マルチビュー情報を十分に活用するために,グラフ正規化と局所構造融合パターンを導入して,特定のグラフ学習手法を設計する。
主な課題は、クラスタリングタスクに適合する学習グラフを生成しながら、きめ細かい融合重みを最適化し、クラスタリング表現を有意義かつ競争力のあるものにする方法である。
そこで, 学習グラフ, クラスタリング表現, 融合重み付けを同時に取得する, 上記の共同最適化問題を解決するために, 反復アルゴリズムを提案する。
8つの実世界のデータセットに対する大規模な実験により、提案されたフレームワークは最先端の手法に匹敵する性能を示した。
提案手法のソースコードはhttps://github.com/siriuslay/fgl-mscで入手できる。 Multi-view subspace clustering (MSC) is a popular unsupervised method by integrating heterogeneous information to reveal the intrinsic clustering structure hidden across views. Usually, MSC methods use graphs (or affinity matrices) fusion to learn a common structure, and further apply graph-based approaches to clustering. Despite progress, most of the methods do not establish the connection between graph learning and clustering. Meanwhile, conventional graph fusion strategies assign coarse-grained weights to combine multi-graph, ignoring the importance of local structure. In this paper, we propose a fine-grained graph learning framework for multi-view subspace clustering (FGL-MSC) to address these issues. To utilize the multi-view information sufficiently, we design a specific graph learning method by introducing graph regularization and a local structure fusion pattern. The main challenge is how to optimize the fine-grained fusion weights while generating the learned graph that fits the clustering task, thus making the clustering representation meaningful and competitive. Accordingly, an iterative algorithm is proposed to solve the above joint optimization problem, which obtains the learned graph, the clustering representation, and the fusion weights simultaneously. Extensive experiments on eight real-world datasets show that the proposed framework has comparable performance to the state-of-the-art methods. The source code of the proposed method is available at https://github.com/siriuslay/FGL-MSC. | 翻訳日:2023-08-15 23:47:06 公開日:2023-08-13 |
# 時間変動状態と制御制約を考慮したモデルベース安全強化学習:知的車両への適用 Model-Based Safe Reinforcement Learning with Time-Varying State and Control Constraints: An Application to Intelligent Vehicles ( http://arxiv.org/abs/2112.11217v3 ) ライセンス: Link先を確認 | Xinglong Zhang, Yaoqian Peng, Biao Luo, Wei Pan, Xin Xu, and Haibin Xie | (参考訳) 近年,連続制御タスクのためのアクター批判構造を用いた安全強化学習(RL)が注目されている。
安全と収束の保証を備えた準最適制御政策を学ぶことは依然として困難である。
また、安全性に制約のある安全RLアルゴリズムの設計に対処する研究はほとんどない。
本稿では,時変状態と制御制約を伴う非線形システムの最適制御のための安全なrlアルゴリズムを提案する。
提案手法では,制御安全を確保するために,新たなバリアフォースベースの制御ポリシー構造を構築する。
政策の安全上の制約下での安全リスクを予測し、政策を安全に更新するための多段階政策評価機構を提案する。
安定性と堅牢性に関する理論的結果が証明されている。
また,アクタ・クリティカルな実装の収束性も分析する。
提案アルゴリズムの性能は,安全体育館シミュレーション環境において,最先端のrlアルゴリズムを上回っている。
さらに,実世界の2台の知的車両の経路追従・衝突回避問題にもアプローチを適用した。
ディファレンシャルドライブ車両とアッカーマンドライブ車両は、それぞれオフラインデプロイメントとオンライン学習性能を検証するために使用される。
提案手法は,この実験において印象的なsim-to-real転送機能と良好なオンライン制御性能を示す。 Recently, safe reinforcement learning (RL) with the actor-critic structure for continuous control tasks has received increasing attention. It is still challenging to learn a near-optimal control policy with safety and convergence guarantees. Also, few works have addressed the safe RL algorithm design under time-varying safety constraints. This paper proposes a safe RL algorithm for optimal control of nonlinear systems with time-varying state and control constraints. In the proposed approach, we construct a novel barrier force-based control policy structure to guarantee control safety. A multi-step policy evaluation mechanism is proposed to predict the policy's safety risk under time-varying safety constraints and guide the policy to update safely. Theoretical results on stability and robustness are proven. Also, the convergence of the actor-critic implementation is analyzed. The performance of the proposed algorithm outperforms several state-of-the-art RL algorithms in the simulated Safety Gym environment. Furthermore, the approach is applied to the integrated path following and collision avoidance problem for two real-world intelligent vehicles. A differential-drive vehicle and an Ackermann-drive one are used to verify offline deployment and online learning performance, respectively. Our approach shows an impressive sim-to-real transfer capability and a satisfactory online control performance in the experiment. | 翻訳日:2023-08-15 23:46:11 公開日:2023-08-13 |
# 一般空間を持つmdpのq-learning:弱連続性下での量子化による収束と近似最適性 Q-Learning for MDPs with General Spaces: Convergence and Near Optimality via Quantization under Weak Continuity ( http://arxiv.org/abs/2111.06781v2 ) ライセンス: Link先を確認 | Ali Devran Kara, Naci Saldi, Serdar Y\"uksel | (参考訳) 強化学習アルゴリズムはマルコフ決定過程 (MDPs) における状態空間と行動空間の有限性を必要とすることが多く、連続状態および行動空間に対するそのようなアルゴリズムの適用性について様々な研究がなされている。
本稿では、非常に穏やかな正規性条件(特にmdpの遷移核の弱連続性のみを含む)下では、状態と動作(量子化q学習と呼ばれる)の量子化による標準ボレルmdpのq-ラーニングが極限に収束し、さらにこの極限は、明示的な性能境界または漸近的に最適となることを保証した最適性方程式を満たすことを示す。
私たちのアプローチは
i)量子化を測定核として、したがって量子化されたMDPを部分的に観察されたマルコフ決定過程(POMDP)として見ること。
(ii)pomdpsにおけるq-learningの最適化と収束結果の活用
(iii) 最後に, 構築した pomdp の不動点に対応する弱連続核を持つ mdps に対する有限状態モデル近似の近似近似に近い最適化性を示す。
そこで本研究では,連続mdpに対するq-learningの適用可能性について,非常に一般的な収束と近似結果を示す。 Reinforcement learning algorithms often require finiteness of state and action spaces in Markov decision processes (MDPs) (also called controlled Markov chains) and various efforts have been made in the literature towards the applicability of such algorithms for continuous state and action spaces. In this paper, we show that under very mild regularity conditions (in particular, involving only weak continuity of the transition kernel of an MDP), Q-learning for standard Borel MDPs via quantization of states and actions (called Quantized Q-Learning) converges to a limit, and furthermore this limit satisfies an optimality equation which leads to near optimality with either explicit performance bounds or which are guaranteed to be asymptotically optimal. Our approach builds on (i) viewing quantization as a measurement kernel and thus a quantized MDP as a partially observed Markov decision process (POMDP), (ii) utilizing near optimality and convergence results of Q-learning for POMDPs, and (iii) finally, near-optimality of finite state model approximations for MDPs with weakly continuous kernels which we show to correspond to the fixed point of the constructed POMDP. Thus, our paper presents a very general convergence and approximation result for the applicability of Q-learning for continuous MDPs. | 翻訳日:2023-08-15 23:45:55 公開日:2023-08-13 |
# 対数整合性を利用した衛星画像のクロスリージョン化 Cross-Region Building Counting in Satellite Imagery using Counting Consistency ( http://arxiv.org/abs/2110.13558v2 ) ライセンス: Link先を確認 | Muaaz Zakria, Hamza Rawal, Waqas Sultani, Mohsen Ali | (参考訳) 地理的な地域における建物数の推定は、都市分析、防災管理、公共政策決定の重要な要素である。
衛星画像のローカライズとカウントのためのディープラーニング手法は、実現可能で安価な代替手段として機能する。
しかし、これらのアルゴリズムは、訓練されていない領域に適用した場合、性能劣化に悩まされる。
現在の大規模なデータセットは、主に開発済みのリージョンをカバーし、すべてのリージョンでそのようなデータセットを収集している。
本稿では,ラベル付きソースドメイン(開発領域)を用いて建物を数え,ラベル付きターゲットドメイン(開発領域)にトレーニングされたモデルを適応させる,教師なしドメイン適応手法を提案する。
まず、逆損失を通して出力空間分布を整列することで、領域間の分布マップを整列する。
次に、ドメインシフトを減らすために、カウント一貫性の制約、イン・イメージカウントの一貫性、およびクロス・イメージカウントの一貫性を利用する。
イメージ内の一貫性は、イメージ全体のビルド数は、そのサブイメージのいずれかのカウントよりも大きいか等しいべきであることを強制する。
画像間の整合性制約は、ある画像が他の画像よりもかなり多くの建物を含む場合、それらのサブイメージも同じ順序を持つように強制する。
これらの2つの制約は、スケールに関係なく、行動が画像全体と内部に一貫性を持つように促します。
提案手法の性能を評価するため,既存のデータセットと比較して高い建物密度と不規則構造を有する南アジア地域を挑戦する大規模データセットを収集,注釈した。
提案手法の有効性を検証するために広範な実験を行い,競合ベースライン法と比較して約7%から20%の改善を報告した。 Estimating the number of buildings in any geographical region is a vital component of urban analysis, disaster management, and public policy decision. Deep learning methods for building localization and counting in satellite imagery, can serve as a viable and cheap alternative. However, these algorithms suffer performance degradation when applied to the regions on which they have not been trained. Current large datasets mostly cover the developed regions and collecting such datasets for every region is a costly, time-consuming, and difficult endeavor. In this paper, we propose an unsupervised domain adaptation method for counting buildings where we use a labeled source domain (developed regions) and adapt the trained model on an unlabeled target domain (developing regions). We initially align distribution maps across domains by aligning the output space distribution through adversarial loss. We then exploit counting consistency constraints, within-image count consistency, and across-image count consistency, to decrease the domain shift. Within-image consistency enforces that building count in the whole image should be greater than or equal to count in any of its sub-image. Across-image consistency constraint enforces that if an image contains considerably more buildings than the other image, then their sub-images shall also have the same order. These two constraints encourage the behavior to be consistent across and within the images, regardless of the scale. To evaluate the performance of our proposed approach, we collected and annotated a large-scale dataset consisting of challenging South Asian regions having higher building densities and irregular structures as compared to existing datasets. We perform extensive experiments to verify the efficacy of our approach and report improvements of approximately 7% to 20% over the competitive baseline methods. | 翻訳日:2023-08-15 23:45:28 公開日:2023-08-13 |
# データ駆動型イニシアチブにおける認識的不確かさの表現とその知覚 Representations of epistemic uncertainty and its perception in data-driven initiatives ( http://arxiv.org/abs/2110.11482v4 ) ライセンス: Link先を確認 | Mario Angelelli, Massimiliano Gervasi | (参考訳) AIの出現によるデータ駆動戦略の進化は、意思決定プロセスを再構築し、従来のデータインタラクションへの依存から遠ざかっている。
このパラダイムシフトは、データ駆動型イニシアティブの影響を評価する上で、新たな課題を導入します。
これらの進化する方法論をサポートするためには、限られたデータ観測可能性から生じる不確実性や意思決定の曖昧さを記述できる新しいモデルが必要である。
この貢献は、知識表現の不確実性やエージェントが媒介する情報伝達の推論を扱うために設計された新しい概念モデルを示す。
データ駆動型イニシアチブで生成される価値を評価するために現在採用されている多次元フレームワークから、知識状態とそのダイナミクスを代数的に記述する。
具体的には、知識状態の比較と結合のための形式的な構造をモデルに付与し、これらの組み合わせを通じて更新を行い、その説明可能性は異なる次元表現における一貫性に基づいている。
知識の等価表現が価値次元の不確実性に関連するいくつかの問題に対処できる事例について議論する。
さらに、曖昧さと他の(技術)エージェントがデータを観察している知識に関する推論という観点から、古典的でない不確実性を示す2つのシナリオで形式的なアナロジーを定義することができる。 Emerging data-driven strategies, powered by the advent of AI, are reshaping decision-making processes, moving away from traditional reliance on direct data interaction. This paradigm shift introduces new challenges in assessing the impact of data-driven initiatives. To support these evolving methodologies, there is a crucial need for new models capable of describing the uncertainties stemming from limited data observability and the resulting ambiguities in decision-making. This contribution presents a novel conceptual model designed to deal with uncertainty in knowledge representations and reasoning about information transfer mediated by agents. Drawing from the multidimensional frameworks currently adopted to assess the value generated in data-driven initiatives, we provide an algebraic description of knowledge states and their dynamics. Specifically, we endow our model with a formal structure to compare and combine knowledge states; an update is represented through these combinations, and its explainability is based on their consistency in different dimensional representations. We discuss instances where inequivalent representations of knowledge can address some issues related to uncertainty about value dimensions. Furthermore, we can define a formal analogy with two scenarios that illustrate non-classical uncertainty in terms of ambiguity and reasoning about knowledge mediated by other (artificial) agents observing data. | 翻訳日:2023-08-15 23:44:59 公開日:2023-08-13 |
# ディープラーニングの教訓を用いたニューラルネットワークの学習 Training Spiking Neural Networks Using Lessons From Deep Learning ( http://arxiv.org/abs/2109.12894v6 ) ライセンス: Link先を確認 | Jason K. Eshraghian and Max Ward and Emre Neftci and Xinxin Wang and Gregor Lenz and Girish Dwivedi and Mohammed Bennamoun and Doo Seok Jeong and Wei D. Lu | (参考訳) 脳はより効率的なニューラルネットワークを開発するためのインスピレーションを探すのに最適な場所だ。
シナプスやニューロンの内部活動は、ディープラーニングの未来がどのようなものになるのかを垣間見せてくれる。
本論文は, 深層学習, 勾配降下, バックプロパゲーション, 神経科学における数十年の研究から学んだ教訓を, 生物学的にもっともらしいスパイクニューラルネットワークに適用する方法を示すチュートリアルおよび視点として機能する。
また、データをスパイクとしてエンコーディングすることと学習プロセスの間の繊細な相互作用、勾配ベースの学習をスパイクニューラルネットワーク(snn)に適用することの課題と解決策、時間的バックプロパゲーションとスパイクタイミング依存可塑性との微妙な関連、そして深層学習が生物学的に妥当なオンライン学習にどのように移行するかについても検討する。
いくつかのアイデアは広く受け入れられ、神経形工学のコミュニティで広く使われていますが、他のアイデアはここで初めて提示または正当化されます。
ディープラーニングとスパイクニューラルネットワークの分野は急速に進化している。
我々は、この文書を"動的"な原稿として扱い、SNNのトレーニングの一般的な実践が変わるにつれて、引き続き更新し続けます。
この論文を補完する一連のコンパニオンインタラクティブチュートリアルも,pythonパッケージであるsnntorchを使って公開しています。
https://snntorch.readthedocs.io/en/latest/tutorials/index.htmlを参照。 The brain is the perfect place to look for inspiration to develop more efficient neural networks. The inner workings of our synapses and neurons provide a glimpse at what the future of deep learning might look like. This paper serves as a tutorial and perspective showing how to apply the lessons learnt from several decades of research in deep learning, gradient descent, backpropagation and neuroscience to biologically plausible spiking neural neural networks. We also explore the delicate interplay between encoding data as spikes and the learning process; the challenges and solutions of applying gradient-based learning to spiking neural networks (SNNs); the subtle link between temporal backpropagation and spike timing dependent plasticity, and how deep learning might move towards biologically plausible online learning. Some ideas are well accepted and commonly used amongst the neuromorphic engineering community, while others are presented or justified for the first time here. The fields of deep learning and spiking neural networks evolve very rapidly. We endeavour to treat this document as a 'dynamic' manuscript that will continue to be updated as the common practices in training SNNs also change. A series of companion interactive tutorials complementary to this paper using our Python package, snnTorch, are also made available. See https://snntorch.readthedocs.io/en/latest/tutorials/index.html . | 翻訳日:2023-08-15 23:44:13 公開日:2023-08-13 |
# POSTER:表情認識のためのピラミッド型クロスフュージョントランスネットワーク POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression Recognition ( http://arxiv.org/abs/2204.04083v2 ) ライセンス: Link先を確認 | Ce Zheng, Matias Mendieta, and Chen Chen | (参考訳) 顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。
この挑戦的なFERタスクでは、特に大きな問題として、クラス間類似性、クラス内類似性、スケール感度の3つがある。
既存の作業は通常これらの問題に対処するが、統一フレームワークにおける3つの課題すべてに完全に対処することはない。
本稿では,3つの問題を一括で解決することを目的とした2ストリームのピラミッドcrOss-fuSion TransformERネットワーク(POSTER)を提案する。
具体的には,顔のランドマーク特徴と画像特徴を効果的に協調し,正常な顔領域への注意を最大化するトランスフォーマーベースのクロスフュージョン法を考案する。
さらに、POSTERはスケール不変性を促進するためにピラミッド構造を採用している。
広範な実験結果から,raf-db (92.05%), ferplus (91.62%), affectnet 7 クラス (67.31%), 8 クラス (63.34%) において新たな最先端結果が得られた。
コードはhttps://github.com/zczcwh/posterで入手できる。 Facial expression recognition (FER) is an important task in computer vision, having practical applications in areas such as human-computer interaction, education, healthcare, and online monitoring. In this challenging FER task, there are three key issues especially prevalent: inter-class similarity, intra-class discrepancy, and scale sensitivity. While existing works typically address some of these issues, none have fully addressed all three challenges in a unified framework. In this paper, we propose a two-stream Pyramid crOss-fuSion TransformER network (POSTER), that aims to holistically solve all three issues. Specifically, we design a transformer-based cross-fusion method that enables effective collaboration of facial landmark features and image features to maximize proper attention to salient facial regions. Furthermore, POSTER employs a pyramid structure to promote scale invariance. Extensive experimental results demonstrate that our POSTER achieves new state-of-the-art results on RAF-DB (92.05%), FERPlus (91.62%), as well as AffectNet 7 class (67.31%) and 8 class (63.34%). The code is available at https://github.com/zczcwh/POSTER. | 翻訳日:2023-08-15 23:36:34 公開日:2023-08-13 |
# 安静時マルチアーマッドバンドにおけるスケーラブルな意思決定型学習と母子保健への応用 Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health ( http://arxiv.org/abs/2202.00916v4 ) ライセンス: Link先を確認 | Kai Wang, Shresth Verma, Aditya Mate, Sanket Shah, Aparna Taneja, Neha Madhiwalla, Aparna Hegde, Milind Tambe | (参考訳) 本稿では、未知のアーム遷移ダイナミクスを持つが既知のアーム特徴を持つレストレスマルチアームバンディット(rmab)問題について検討する。
目標は、WhittleインデックスポリシーがRMAB問題を予測トランジションを用いて解決する、与えられた特徴の遷移ダイナミクスを予測するモデルを学ぶことである。
しかしながら、先行研究は、最終的なRMABソリューションの品質の代わりに予測精度を最大化し、トレーニングと評価目標のミスマッチを引き起こすことでモデルを学習することが多い。
そこで本研究では,Whittle指数解の品質を最大化するために,予測モデルを直接訓練するRMABにおける意思決定型学習手法を提案する。
主な貢献は3つあります
一 意思決定中心の学習を支援するために、ウィトル指数政策の差別性を確立すること。
(II)シーケンシャルな問題,特にRMAB問題における意思決定中心の学習アプローチのスケーラビリティを著しく改善する。
3) これまでに収集した母子保健のデータセットにアルゴリズムを適用し,その性能を実証した。
実際、我々のアルゴリズムはrmabにおいて、実世界の問題サイズにスケールする意思決定にフォーカスした学習の最初のものである。 This paper studies restless multi-armed bandit (RMAB) problems with unknown arm transition dynamics but with known correlated arm features. The goal is to learn a model to predict transition dynamics given features, where the Whittle index policy solves the RMAB problems using predicted transitions. However, prior works often learn the model by maximizing the predictive accuracy instead of final RMAB solution quality, causing a mismatch between training and evaluation objectives. To address this shortcoming, we propose a novel approach for decision-focused learning in RMAB that directly trains the predictive model to maximize the Whittle index solution quality. We present three key contributions: (i) we establish differentiability of the Whittle index policy to support decision-focused learning; (ii) we significantly improve the scalability of decision-focused learning approaches in sequential problems, specifically RMAB problems; (iii) we apply our algorithm to a previously collected dataset of maternal and child health to demonstrate its performance. Indeed, our algorithm is the first for decision-focused learning in RMAB that scales to real-world problem sizes. | 翻訳日:2023-08-15 23:33:43 公開日:2023-08-13 |
# PInKS:ミニマルスーパービジョンによるプレコンディション付きコモンセンス推論 PInKS: Preconditioned Commonsense Inference with Minimal Supervision ( http://arxiv.org/abs/2206.07920v2 ) ライセンス: Link先を確認 | Ehsan Qasemi, Piyush Khanna, Qiang Ning, Muhao Chen | (参考訳) ガラスが粉々にされない限り、水を飲むのにガラスが使える」といった前提条件による推論は、言語モデルには未解決の問題である。
主な課題は、前提条件データの不足と、そのような推論に対するモデルのサポートの欠如である。
我々は, ピンク, 弱い監督を伴う事前条件付きコモンセンス推論, 最小監督による前提条件推論のための改良モデルを提案する。
経験的および理論的に、ピンクスは常識知識の前提条件(最大40%マクロf1スコア)による推論に焦点を当てたベンチマークの結果を改善していることを示している。
PAC-Bayesian informationativeness analysis, precision measures, ablation studyによりPInKSをさらに検討した。 Reasoning with preconditions such as "glass can be used for drinking water unless the glass is shattered" remains an open problem for language models. The main challenge lies in the scarcity of preconditions data and the model's lack of support for such reasoning. We present PInKS, Preconditioned Commonsense Inference with WeaK Supervision, an improved model for reasoning with preconditions through minimum supervision. We show, both empirically and theoretically, that PInKS improves the results on benchmarks focused on reasoning with the preconditions of commonsense knowledge (up to 40% Macro-F1 scores). We further investigate PInKS through PAC-Bayesian informativeness analysis, precision measures, and ablation study. | 翻訳日:2023-08-15 23:25:45 公開日:2023-08-13 |
# SmartGD: 多様な美容目標のためのGANベースのグラフ描画フレームワーク SmartGD: A GAN-Based Graph Drawing Framework for Diverse Aesthetic Goals ( http://arxiv.org/abs/2206.06434v3 ) ライセンス: Link先を確認 | Xiaoqi Wang, Kevin Yen, Yifan Hu and Han-Wei Shen | (参考訳) グラフ描画について多くの研究が行われてきたが、既存の多くの手法はグラフレイアウトの1つの美的側面を最適化することにのみ焦点を絞っている。
異なる美的基準で測定される異なる美的側面を最適化するための柔軟なソリューションの開発を試みた既存の方法もいくつか存在する。
さらに,ディープラーニング技術の進歩により,近年,深層学習に基づくレイアウト手法が提案されている。
これらの手法は,グラフ描画における深層学習手法の利点を実証している。
しかし、これらの既存の手法は、特別な調節なしに、微分不可能な基準を最適化するために直接適用することはできない。
本研究では,グラフ描画のためのGAN(Generative Adversarial Network)ベースのディープラーニングフレームワークであるSmartGDを提案する。
smartgdの有効性と効率を実証するために, 応力の最小化, エッジ交差の最小化, 交差角の最大化, 形状に基づくメトリクスの最大化, 複数の美学の組み合わせについて実験を行った。
いくつかのグラフ描画アルゴリズムと比較して,実験結果から,SmartGDは定量的かつ定性的に優れた性能を発揮することが示された。 While a multitude of studies have been conducted on graph drawing, many existing methods only focus on optimizing a single aesthetic aspect of graph layouts, which can lead to sub-optimal results. There are a few existing methods that have attempted to develop a flexible solution for optimizing different aesthetic aspects measured by different aesthetic criteria. Furthermore, thanks to the significant advance in deep learning techniques, several deep learning-based layout methods were proposed recently. These methods have demonstrated the advantages of deep learning approaches for graph drawing. However, none of these existing methods can be directly applied to optimizing non-differentiable criteria without special accommodation. In this work, we propose a novel Generative Adversarial Network (GAN) based deep learning framework for graph drawing, called SmartGD, which can optimize different quantitative aesthetic goals, regardless of their differentiability. To demonstrate the effectiveness and efficiency of SmartGD, we conducted experiments on minimizing stress, minimizing edge crossing, maximizing crossing angle, maximizing shape-based metrics, and a combination of multiple aesthetics. Compared with several popular graph drawing algorithms, the experimental results show that SmartGD achieves good performance both quantitatively and qualitatively. | 翻訳日:2023-08-15 23:25:32 公開日:2023-08-13 |
# 深層学習モデルの機能的ニューラルコードの解析 Analysis of functional neural codes of deep learning models ( http://arxiv.org/abs/2205.10952v2 ) ライセンス: Link先を確認 | Jung Hoon Lee and Sujith Vijayan | (参考訳) ディープラーニング(DL)エージェントであるディープニューラルネットワーク(DNN)は、大量の並列/シーケンス操作を必要とする。
これにより、DNNの動作を理解することが難しく、適切な診断を妨げる。
内部プロセスに関するより詳しい知識がなければ、DNNを高い領域にデプロイすることは破滅的な失敗につながる可能性がある。
したがって、より信頼性の高いDNN/DLを現実世界の高精細な問題に展開するためには、DNNの内部動作に関する洞察を得ることが不可欠である。
本稿では、DNNの意思決定に関連するDLモデルの内部コードの解析に自己組織化マップ(SOM)を用いる。
分析の結果,入力層近傍の浅層は特徴を凝縮空間に圧縮し,出力層近傍の深層は特徴空間を広げることが示唆された。
また, 圧縮された特徴がDNNの障害を負う可能性を示唆する証拠も発見された。 Deep neural networks (DNNs), the agents of deep learning (DL), require a massive number of parallel/sequential operations. This makes it difficult to comprehend DNNs' operations and impedes proper diagnosis. Without better knowledge of their internal process, deploying DNNs in high-stakes domains can lead to catastrophic failures. Therefore, to build more reliable DNNs/DL to be deployed in high-stakes real-world problems, it is imperative that we gain insights into DNNs' internal operations underlying their decision-making. Here, we use the self-organizing map (SOM) to analyze DL models' internal codes associated with DNNs' decision-making. Our analyses suggest that shallow layers close to the input layer compress features into condensed space and that deep layers close to the output layer expand feature space. We also found evidence indicating that compressed features may underlie DNNs' vulnerabilities to adversarial perturbations. | 翻訳日:2023-08-15 23:25:12 公開日:2023-08-13 |
# 離散時間線形系の最大エントロピー最適密度制御とschr\"odinger橋 Maximum entropy optimal density control of discrete-time linear systems and Schr\"odinger bridges ( http://arxiv.org/abs/2204.05263v2 ) ライセンス: Link先を確認 | Kaito Ito, Kenji Kashima | (参考訳) 決定論的離散時間線形系の最適密度制御のエントロピー正規化版を考える。
最適制御のためのエントロピー正則化あるいは最大エントロピー法(MaxEnt)は、特に自然探査戦略のような多くの利点のために強化学習において多くの注目を集めている。
これらの利点にもかかわらず、規則化によって引き起こされる高エントロピー制御ポリシーは、システムに確率的不確実性をもたらす。
この状況を改善するために、状態不確実性を直接制御するMaxEnt最適制御にガウス密度制約を所定時間で課す。
具体的には、MaxEnt最適密度制御の明示的な形式を導出する。
さらに,密度制約が不動点制約に置き換えられる場合についても考察する。
次に、関連する状態過程を、ブラウン橋の線形系への一般化であるピン付き過程として特徴づける。
最後に、MaxEntの最適密度制御により、離散時間線形系に付随するいわゆるSchr\"odingerブリッジが得られることを明らかにした。 We consider an entropy-regularized version of optimal density control of deterministic discrete-time linear systems. Entropy regularization, or a maximum entropy (MaxEnt) method for optimal control has attracted much attention especially in reinforcement learning due to its many advantages such as a natural exploration strategy. Despite the merits, high-entropy control policies induced by the regularization introduce probabilistic uncertainty into systems, which severely limits the applicability of MaxEnt optimal control to safety-critical systems. To remedy this situation, we impose a Gaussian density constraint at a specified time on the MaxEnt optimal control to directly control state uncertainty. Specifically, we derive the explicit form of the MaxEnt optimal density control. In addition, we also consider the case where density constraints are replaced by fixed point constraints. Then, we characterize the associated state process as a pinned process, which is a generalization of the Brownian bridge to linear systems. Finally, we reveal that the MaxEnt optimal density control gives the so-called Schr\"odinger bridge associated to a discrete-time linear system. | 翻訳日:2023-08-15 23:24:16 公開日:2023-08-13 |
# 大規模言語モデルはポリシーイテレーションを実装できる Large Language Models can Implement Policy Iteration ( http://arxiv.org/abs/2210.03821v2 ) ライセンス: Link先を確認 | Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh | (参考訳) 本研究は,基盤モデルを用いて強化学習(rl)を行うアルゴリズムであるin-context policy iterationを提案する。
基礎モデルのRLへの適用は注目されているが、ほとんどのアプローチは、(1)手動設計またはタスク固有の事前訓練による)専門家によるデモンストレーションのキュレーション、または(2)勾配法(アダプタ層の微調整や訓練)によるタスクへの適応のいずれかに依存している。
これらの技法には欠点がある。
デモの収集は労働集約的であり、それに依存するアルゴリズムは、デモが導かれた専門家を上回らない。
すべてのグラデーションテクニックは本質的に遅いので、コンテキスト内学習を最初から魅力的なものにする“ファウショット”品質を犠牲にします。
本研究では、専門家による実証や勾配を伴わずにRLタスクの実行を学習するアルゴリズムICPIを提案する。
代わりに、プロンプトコンテンツが学習の軌跡全体であるポリシー・イテレーション手法を提案する。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
重み付き学習(決定変換器のようなアプローチが強く依存する)の役割を解消するために、我々はCodexという言語モデルを用いてアルゴリズムを実証した。 This work presents In-Context Policy Iteration, an algorithm for performing Reinforcement Learning (RL), in-context, using foundation models. While the application of foundation models to RL has received considerable attention, most approaches rely on either (1) the curation of expert demonstrations (either through manual design or task-specific pretraining) or (2) adaptation to the task of interest using gradient methods (either fine-tuning or training of adapter layers). Both of these techniques have drawbacks. Collecting demonstrations is labor-intensive, and algorithms that rely on them do not outperform the experts from which the demonstrations were derived. All gradient techniques are inherently slow, sacrificing the "few-shot" quality that made in-context learning attractive to begin with. In this work, we present an algorithm, ICPI, that learns to perform RL tasks without expert demonstrations or gradients. Instead we present a policy-iteration method in which the prompt content is the entire locus of learning. ICPI iteratively updates the contents of the prompt from which it derives its policy through trial-and-error interaction with an RL environment. In order to eliminate the role of in-weights learning (on which approaches like Decision Transformer rely heavily), we demonstrate our algorithm using Codex, a language model with no prior knowledge of the domains on which we evaluate it. | 翻訳日:2023-08-15 23:17:14 公開日:2023-08-13 |
# 量子複雑性について On Quantum Complexity ( http://arxiv.org/abs/2209.14689v3 ) ライセンス: Link先を確認 | Mohsen Alishahiha | (参考訳) エネルギー固有状態基底における与えられた作用素の行列要素に対する eth ansatz はカオス系の熱化の概念をもたらす。
この文脈において、与えられたモデルに対して見出されるある量に対して、エネルギー固有状態基底において行列要素に特定の条件を課し、対応する量が遅くとも線形な成長を示すようにすることができる。
この条件は、対応する行列要素が持つ可能性のある極構造と関係している。
複雑性の一般的な期待に基づいて、この量は量子複雑性の候補として考えられるものと考えることができる。
しかし、本論文で検討した明示的な例について、同様の振る舞いを示す量は無限に多いことに留意する。 The ETH ansatz for matrix elements of a given operator in the energy eigenstate basis results in a notion of thermalization for a chaotic system. In this context for a certain quantity - to be found for a given model - one may impose a particular condition on its matrix elements in the energy eigenstate basis so that the corresponding quantity exhibit linear growth at late times. The condition is to do with a possible pole structure the corresponding matrix elements may have. Based on the general expectation of complexity one may want to think of this quantity as a possible candidate for the quantum complexity. We note, however, that for the explicit examples we have considered in this paper, there are infinitely many quantities exhibiting similar behavior. | 翻訳日:2023-08-15 23:16:31 公開日:2023-08-13 |
# voxurf:voxelベースの効率的かつ正確な神経表面再構成 Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2208.12697v5 ) ライセンス: Link先を確認 | Tong Wu, Jiaqi Wang, Xingang Pan, Xudong Xu, Christian Theobalt, Ziwei Liu, Dahua Lin | (参考訳) 神経表面再構成は、多視点画像に基づく正確な3次元表面の再構築を目的としている。
ニューラルボリュームレンダリングに基づく従来の方法は、主に完全に暗黙のモデルをMDPでトレーニングするが、通常は1つのシーンで何時間もトレーニングする必要がある。
最近の取り組みは、学習可能なvoxelグリッドで重要な情報を記憶することで最適化を加速するために明示的なボリューム表現を探求している。
しかしながら、既存のボクセルベースの手法は、SDFベースのボリュームレンダリングスキームと組み合わせても、微細な幾何学の再構築に苦慮することが多い。
これが原因であることを明らかにする。
1)voxelグリッドは,細粒度学習を容易にする色-幾何依存性を破る傾向がある。
2) 拘束されていないボクセル格子は空間コヒーレンスを欠き, 局所ミニマに弱い。
本稿では,voxurfを用いて,効率と精度を兼ね備えた表面再構成手法を提案する。
voxurfは、上記の問題をいくつかの重要な設計で解決する。
1)コヒーレントな粗い形状に到達し,細部を順次回収する2段階の訓練手順
2)色幾何依存性を保ったデュアルカラーネットワーク,および
3)voxel間の情報伝達を促進する階層幾何学的特徴。
大規模な実験では、Voxurfは高い効率と高品質を同時に達成している。
DTUベンチマークでは、Voxurfは従来の完全に暗黙の手法に比べて20倍のトレーニングスピードアップで高い再構築品質を達成する。
私たちのコードはhttps://github.com/wutong16/voxurfで利用可能です。 Neural surface reconstruction aims to reconstruct accurate 3D surfaces based on multi-view images. Previous methods based on neural volume rendering mostly train a fully implicit model with MLPs, which typically require hours of training for a single scene. Recent efforts explore the explicit volumetric representation to accelerate the optimization via memorizing significant information with learnable voxel grids. However, existing voxel-based methods often struggle in reconstructing fine-grained geometry, even when combined with an SDF-based volume rendering scheme. We reveal that this is because 1) the voxel grids tend to break the color-geometry dependency that facilitates fine-geometry learning, and 2) the under-constrained voxel grids lack spatial coherence and are vulnerable to local minima. In this work, we present Voxurf, a voxel-based surface reconstruction approach that is both efficient and accurate. Voxurf addresses the aforementioned issues via several key designs, including 1) a two-stage training procedure that attains a coherent coarse shape and recovers fine details successively, 2) a dual color network that maintains color-geometry dependency, and 3) a hierarchical geometry feature to encourage information propagation across voxels. Extensive experiments show that Voxurf achieves high efficiency and high quality at the same time. On the DTU benchmark, Voxurf achieves higher reconstruction quality with a 20x training speedup compared to previous fully implicit methods. Our code is available at https://github.com/wutong16/Voxurf. | 翻訳日:2023-08-15 23:16:01 公開日:2023-08-13 |
# 気候ダウンスケーリングのためのハードコントラスト深層学習 Hard-Constrained Deep Learning for Climate Downscaling ( http://arxiv.org/abs/2208.05424v7 ) ライセンス: Link先を確認 | Paula Harder, Alex Hernandez-Garcia, Venkatesh Ramesh, Qidong Yang, Prasanna Sattigeri, Daniela Szwarcman, Campbell Watson, David Rolnick | (参考訳) 信頼性の高い高解像度の気候データと気象データの提供は、気候適応と緩和に関する長期的な決定を通知し、極端な出来事に対する迅速な対応を導くために重要である。
予測モデルは計算コストによって制限されるため、しばしば粗い解像度予測を生成する。
深層学習からの超解像法を含む統計的ダウンスケーリングは、低解像データを効率的にアップサンプリングする方法を提供する。
しかし、ある場合には視覚的に説得力のある結果が得られたにもかかわらず、そのようなモデルは物理変数を予測するときにしばしば保存則に違反する。
本稿では,物理量を保存するために,統計的制約が深層学習のダウンスケーリングモデルによって満たされるのを保証し,従来の指標に従って性能を向上する手法を提案する。
我々は、異なる制約アプローチを比較し、異なるニューラルネットワークアーキテクチャと様々な気候・気象データセットに適用性を示す。
ダウンスケーリングによるより高速で正確な気候予測を可能にすることに加えて、我々の新しい手法が衛星データや標準データセットの超解像を改善できることも示している。 The availability of reliable, high-resolution climate and weather data is important to inform long-term decisions on climate adaptation and mitigation and to guide rapid responses to extreme events. Forecasting models are limited by computational costs and, therefore, often generate coarse-resolution predictions. Statistical downscaling, including super-resolution methods from deep learning, can provide an efficient method of upsampling low-resolution data. However, despite achieving visually compelling results in some cases, such models frequently violate conservation laws when predicting physical variables. In order to conserve physical quantities, here we introduce methods that guarantee statistical constraints are satisfied by a deep learning downscaling model while also improving their performance according to traditional metrics. We compare different constraining approaches and demonstrate their applicability across different neural architectures as well as a variety of climate and weather datasets. Besides enabling faster and more accurate climate predictions through downscaling, we also show that our novel methodologies can improve super-resolution for satellite data and standard datasets. | 翻訳日:2023-08-15 23:15:03 公開日:2023-08-13 |
# ガラス状液体表現学習のための回転同値グラフニューラルネットワーク Rotation-equivariant Graph Neural Networks for Learning Glassy Liquids Representations ( http://arxiv.org/abs/2211.03226v2 ) ライセンス: Link先を確認 | Francesco Saverio Pezzicoli, Guillaume Charpiat, Fran\c{c}ois P. Landes | (参考訳) glassy liquidsコミュニティでは、粒子の静的構造をモデル化する機械学習(ml)が、現在ホットなトピックとなっている。
state of the artはグラフニューラルネットワーク(gnns)で構成されており、非常に表現力があるが、多くのパラメータと解釈能力の欠如した重いモデルである。
機械学習群同変表現の分野での最近の進歩に触発されて、ガラスの静的構造の堅牢な表現を、ロト翻訳(SE(3))同値を保つために制約することで学習するGNNを構築した。
この制約は予測能力を大幅に向上するだけでなく、パラメータの数を減らしながら未確認温度に一般化する能力も向上することを示す。
さらに, 基本畳み込み層の作用をよく知られた回転不変な専門家特徴に関連付けることにより, 解釈性が向上した。
移動学習実験により、我々のネットワークは堅牢な表現を学習し、学習されたガラス構造秩序パラメータのアイデアを前進させることができることを示した。 Within the glassy liquids community, the use of Machine Learning (ML) to model particles' static structure is currently a hot topic. The state of the art consists in Graph Neural Networks (GNNs), which have a great expressive power but are heavy models with numerous parameters and lack interpretability. Inspired by recent advances in the field of Machine Learning group-equivariant representations, we build a GNN that learns a robust representation of the glass' static structure by constraining it to preserve the roto-translation (SE(3)) equivariance. We show that this constraint not only significantly improves the predictive power but also improves the ability to generalize to unseen temperatures while allowing to reduce the number of parameters. Furthermore, interpretability is improved, as we can relate the action of our basic convolution layer to well-known rotation-invariant expert features. Through transfer-learning experiments we demonstrate that our network learns a robust representation, which allows us to push forward the idea of a learned glass structural order parameter. | 翻訳日:2023-08-15 23:09:03 公開日:2023-08-13 |
# JAX-DIPS:有限離散化法のニューラルブートストラップと不連続な楕円問題への応用 JAX-DIPS: Neural bootstrapping of finite discretization methods and application to elliptic problems with discontinuities ( http://arxiv.org/abs/2210.14312v2 ) ライセンス: Link先を確認 | Pouria Mistani, Samira Pakravan, Rajesh Ilango, Frederic Gibou | (参考訳) 本稿では,メッシュ型数値離散化法に基づくメッシュフリーハイブリッド型ニューロシンボリック偏微分方程式解法の開発のためのスケーラブルな戦略を提案する。
特に、この戦略は偏微分方程式のモデルを効率的に訓練するために使うことができる。
(i)高度な数値解法、解法、プリコンディショナーの精度と収束特性の活用
二 最適化を一階自動微分に厳格に制限することにより、高階PDEに対するスケーラビリティを向上する。
提案手法(以下nbmと呼ぶ)は、ニューラルネットワークの学習可能なパラメータに関して、ランダムなコロケーション点の集合を中心とする暗黙のデカルトセル上で得られるpdeシステムの有限離散化残差の評価に基づいている。
重要なことに、ブートストラップされた有限離散化方程式に存在する保存則と対称性は、トレーニングポイントの局所近傍における解正則性についてニューラルネットワークに知らせる。
NBMを3次元における不規則な界面を横断するジャンプ条件を持つ楕円問題の重要なクラスに適用する。
本手法は,領域内のコロケーション点数を増やして残差を前置することにより,モデルの精度が向上するように収束することを示す。
NBMは他のPINNタイプのフレームワークとメモリとトレーニングの速度で競合することを示す。
ここで提示されるアルゴリズムは、ソフトウェアパッケージ \texttt{JAX-DIPS} (https://github.com/JAX-DIPS/JAX-DIPS) に \textt{JAX} を用いて実装され、相違可能な界面PDEソルバを表す。
我々は,ハイブリッド pde ソルバ開発における微分可能アルゴリズムの利用研究を容易にするために, \texttt{jax-dips} をオープンソース化した。 We present a scalable strategy for development of mesh-free hybrid neuro-symbolic partial differential equation solvers based on existing mesh-based numerical discretization methods. Particularly, this strategy can be used to efficiently train neural network surrogate models of partial differential equations by (i) leveraging the accuracy and convergence properties of advanced numerical methods, solvers, and preconditioners, as well as (ii) better scalability to higher order PDEs by strictly limiting optimization to first order automatic differentiation. The presented neural bootstrapping method (hereby dubbed NBM) is based on evaluation of the finite discretization residuals of the PDE system obtained on implicit Cartesian cells centered on a set of random collocation points with respect to trainable parameters of the neural network. Importantly, the conservation laws and symmetries present in the bootstrapped finite discretization equations inform the neural network about solution regularities within local neighborhoods of training points. We apply NBM to the important class of elliptic problems with jump conditions across irregular interfaces in three spatial dimensions. We show the method is convergent such that model accuracy improves by increasing number of collocation points in the domain and predonditioning the residuals. We show NBM is competitive in terms of memory and training speed with other PINN-type frameworks. The algorithms presented here are implemented using \texttt{JAX} in a software package named \texttt{JAX-DIPS} (https://github.com/JAX-DIPS/JAX-DIPS), standing for differentiable interfacial PDE solver. We open sourced \texttt{JAX-DIPS} to facilitate research into use of differentiable algorithms for developing hybrid PDE solvers. | 翻訳日:2023-08-15 23:08:21 公開日:2023-08-13 |
# ハイブリッドフェデレーション学習のための2次アルゴリズム A Primal-Dual Algorithm for Hybrid Federated Learning ( http://arxiv.org/abs/2210.08106v2 ) ライセンス: Link先を確認 | Tom Overman, Garrett Blum, Diego Klabjan | (参考訳) クライアントが機能とサンプルの両方のサブセットしか持たないハイブリッド連合学習の方法は非常に少ない。
しかし、このシナリオは実践的な環境では非常に重要です。
フェンシェル双対性に係わるハイブリッドフェデレート学習のための高速でロバストなアルゴリズムを提案する。
我々は,モデルが多種多様な実践的手法で集中的に訓練されたように,アルゴリズムを同じ解に収束させることを証明した。
さらに,フェデレート学習における一般的な手法であるFedAvgに対して,アルゴリズムの性能改善を示す実験結果を提供する。
また、クライアントデータを保護するためのプライバシーの考慮と必要な手順も提供します。 Very few methods for hybrid federated learning, where clients only hold subsets of both features and samples, exist. Yet, this scenario is very important in practical settings. We provide a fast, robust algorithm for hybrid federated learning that hinges on Fenchel Duality. We prove the convergence of the algorithm to the same solution as if the model was trained centrally in a variety of practical regimes. Furthermore, we provide experimental results that demonstrate the performance improvements of the algorithm over a commonly used method in federated learning, FedAvg. We also provide privacy considerations and necessary steps to protect client data. | 翻訳日:2023-08-15 23:06:55 公開日:2023-08-13 |
# 球面画像投影によるマルチパラメトリックMRIによるグリオーマ分割におけるU-Net不確かさの定量化 Quantifying U-Net Uncertainty in Multi-Parametric MRI-based Glioma Segmentation by Spherical Image Projection ( http://arxiv.org/abs/2210.06512v3 ) ライセンス: Link先を確認 | Zhenyu Yang, Kyle Lafata, Eugene Vaios, Zongsheng Hu, Trey Mullikin, Fang-Fang Yin, Chunhao Wang | (参考訳) 平面MRIデータの球面への投影は、大域的解剖情報を保持する非線形画像変換と等価である。
提案した球面投影型U-Netセグメンテーションモデル設計にこの画像変換処理を組み込むことで,単一のMRIから複数の独立セグメンテーション予測を得ることができる。
最終的なセグメンテーションは利用可能なすべての結果の平均であり、その変動はピクセルごとの不確実性マップとして可視化することができる。
不確かさ測定の性能を評価・比較するために不確実性スコアを導入した。
The proposed SPU-Net model was implemented on 369 glioma patients with MP-MRI scans (T1, T1-Ce, T2, FLAIR)。
3種類のSPU-Netモデルを用いて, 造影腫瘍 (ET), 腫瘍コア (TC), 腫瘍全体 (WT) の分画訓練を行った。
SPU-Netモデルは,(1)テスト時間拡張(TTA)を用いた古典的U-Netモデルと(2)線形スケーリングベースU-Netセグメンテーションモデルを比較し,セグメンテーション精度(ディス係数,感度,特異性,精度)とセグメンテーション不確実性(不確かさマップと不確かさスコア)の両方の観点から比較した。
開発したSPU-Netモデルは正しいセグメンテーション予測(腫瘍内部や健全な組織内部など)に対して低い不確実性を達成し、誤った結果(腫瘍の境界など)に対して高い不確実性を達成した。
このモデルにより、U-Netで見逃された腫瘍の標的やセグメンテーションエラーを識別できる。
SPU-Net モデルは3つのセグメンテーション目標 (ET/TC/WT) に対して 0.826/0.848/0.936 を達成し、U-Net with TTA では 0.784/0.643/0.872 、LSU-Net (scaling factor = 2) では 0.743/0.702/0.876 とした。
SPU-NetはDice係数を統計的に有意に高め、セグメンテーション精度を向上させた。 The projection of planar MRI data onto a spherical surface is equivalent to a nonlinear image transformation that retains global anatomical information. By incorporating this image transformation process in our proposed spherical projection-based U-Net (SPU-Net) segmentation model design, multiple independent segmentation predictions can be obtained from a single MRI. The final segmentation is the average of all available results, and the variation can be visualized as a pixel-wise uncertainty map. An uncertainty score was introduced to evaluate and compare the performance of uncertainty measurements. The proposed SPU-Net model was implemented on the basis of 369 glioma patients with MP-MRI scans (T1, T1-Ce, T2, and FLAIR). Three SPU-Net models were trained to segment enhancing tumor (ET), tumor core (TC), and whole tumor (WT), respectively. The SPU-Net model was compared with (1) the classic U-Net model with test-time augmentation (TTA) and (2) linear scaling-based U-Net (LSU-Net) segmentation models in terms of both segmentation accuracy (Dice coefficient, sensitivity, specificity, and accuracy) and segmentation uncertainty (uncertainty map and uncertainty score). The developed SPU-Net model successfully achieved low uncertainty for correct segmentation predictions (e.g., tumor interior or healthy tissue interior) and high uncertainty for incorrect results (e.g., tumor boundaries). This model could allow the identification of missed tumor targets or segmentation errors in U-Net. Quantitatively, the SPU-Net model achieved the highest uncertainty scores for three segmentation targets (ET/TC/WT): 0.826/0.848/0.936, compared to 0.784/0.643/0.872 using the U-Net with TTA and 0.743/0.702/0.876 with the LSU-Net (scaling factor = 2). The SPU-Net also achieved statistically significantly higher Dice coefficients, underscoring the improved segmentation accuracy. | 翻訳日:2023-08-15 23:05:59 公開日:2023-08-13 |
# ディープニューラルネットワークにおけるフォアリング説明 Foiling Explanations in Deep Neural Networks ( http://arxiv.org/abs/2211.14860v3 ) ライセンス: Link先を確認 | Snir Vitrack Tamam, Raz Lapid, Moshe Sipper | (参考訳) ディープニューラルネットワーク(DNN)は、過去10年間に多くの分野に大きな影響を与えてきた。
しかし、多くの問題に対して優れたパフォーマンスを示すにもかかわらず、ブラックボックスの性質は説明可能性に関して依然として大きな課題となっている。
実際、説明可能な人工知能(XAI)はいくつかの分野で重要である。
本稿では、画像ベースDNNにおける説明手法の厄介な性質を明らかにする: 入力画像に小さな視覚的変化を加えることで、ネットワークの出力に影響を与えることがほとんどなく、進化戦略を用いて、どのように説明が任意に操作されるかを実証する。
我々の新しいアルゴリズムであるAttaXAIは、XAIアルゴリズムに対するモデルに依存しない、敵対的な攻撃であり、分類器の出力ロジットと説明マップへのアクセスしか必要としない。
ベンチマークデータセットであるcifar100とimagenetのパフォーマンスを,vgg16-cifar100,vgg16-imagenet,mobilenet-cifar100,inception-v3-imagenetの4つの異なるディープラーニングモデルを用いて比較した。
XAI法は勾配やモデル内部を使わずに操作できることがわかった。
我々の新しいアルゴリズムは、XAI法が特定の説明図を出力するように、人間の目では認識できない方法で画像を操作できる。
我々の知る限り、これはブラックボックス設定における最初の方法であり、説明責任が望まれ、必要であり、法的に義務付けられている重要な価値があると考えている。 Deep neural networks (DNNs) have greatly impacted numerous fields over the past decade. Yet despite exhibiting superb performance over many problems, their black-box nature still poses a significant challenge with respect to explainability. Indeed, explainable artificial intelligence (XAI) is crucial in several fields, wherein the answer alone -- sans a reasoning of how said answer was derived -- is of little value. This paper uncovers a troubling property of explanation methods for image-based DNNs: by making small visual changes to the input image -- hardly influencing the network's output -- we demonstrate how explanations may be arbitrarily manipulated through the use of evolution strategies. Our novel algorithm, AttaXAI, a model-agnostic, adversarial attack on XAI algorithms, only requires access to the output logits of a classifier and to the explanation map; these weak assumptions render our approach highly useful where real-world models and data are concerned. We compare our method's performance on two benchmark datasets -- CIFAR100 and ImageNet -- using four different pretrained deep-learning models: VGG16-CIFAR100, VGG16-ImageNet, MobileNet-CIFAR100, and Inception-v3-ImageNet. We find that the XAI methods can be manipulated without the use of gradients or other model internals. Our novel algorithm is successfully able to manipulate an image in a manner imperceptible to the human eye, such that the XAI method outputs a specific explanation map. To our knowledge, this is the first such method in a black-box setting, and we believe it has significant value where explainability is desired, required, or legally mandatory. | 翻訳日:2023-08-15 22:56:44 公開日:2023-08-13 |
# ほぼ直交データを用いた過パラメータランダム特徴回帰 Overparameterized random feature regression with nearly orthogonal data ( http://arxiv.org/abs/2211.06077v3 ) ライセンス: Link先を確認 | Zhichao Wang and Yizhe Zhu | (参考訳) ランダムガウス初期化を持つ2層ニューラルネットワークによって与えられるランダム特徴リッジ回帰(rfrr)の特性について検討する。
RFRRの非漸近挙動とほぼ直交決定論的な単位長入力データベクトルについて,第1層の幅が試料サイズよりもはるかに大きい過パラメータ化状態下で検討した。
本研究は,カーネルリッジ回帰(KRR)におけるRFRRのトレーニング誤差,クロスバリデーション,一般化誤差について高確率な非漸近性濃度結果を示す。
このKRRは、非線形ランダム特徴写像によって生成される期待カーネルから導かれる。
次に、活性化関数のエルミート多項式展開から得られる多項式カーネル行列によりKRRの性能を近似し、その次数は異なるデータポイント間の直交度にのみ依存する。
この多項式カーネルはRFRRとKRRの漸近挙動を決定する。
その結果、ほぼ直交的な特性を持つ様々なアクティベーション関数と入力データセットが得られた。
これらの近似に基づいて、非線形学習者モデルに対するRFRRの一般化誤差の下位境界を求める。 We investigate the properties of random feature ridge regression (RFRR) given by a two-layer neural network with random Gaussian initialization. We study the non-asymptotic behaviors of the RFRR with nearly orthogonal deterministic unit-length input data vectors in the overparameterized regime, where the width of the first layer is much larger than the sample size. Our analysis shows high-probability non-asymptotic concentration results for the training errors, cross-validations, and generalization errors of RFRR centered around their respective values for a kernel ridge regression (KRR). This KRR is derived from an expected kernel generated by a nonlinear random feature map. We then approximate the performance of the KRR by a polynomial kernel matrix obtained from the Hermite polynomial expansion of the activation function, whose degree only depends on the orthogonality among different data points. This polynomial kernel determines the asymptotic behavior of the RFRR and the KRR. Our results hold for a wide variety of activation functions and input data sets that exhibit nearly orthogonal properties. Based on these approximations, we obtain a lower bound for the generalization error of the RFRR for a nonlinear student-teacher model. | 翻訳日:2023-08-15 22:54:53 公開日:2023-08-13 |
# StyleNAT: それぞれのヘッドに新たな視点を与える StyleNAT: Giving Each Head a New Perspective ( http://arxiv.org/abs/2211.05770v2 ) ライセンス: Link先を確認 | Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi | (参考訳) 画像生成は長く追求されてきたが困難な課題であり、効率的な生成タスクの実行も同様に困難である。
多くの場合、研究者は"one size fits all"ジェネレータを作成しようとするが、パラメータ空間には劇的に異なるデータセットの差がほとんどない。
本稿では,優れた効率と柔軟性を備えた高品質画像生成を目的とした,新しいトランスフォーマティブベースのフレームワークstylenatを提案する。
我々のモデルの中核となるのは、注意を分割して局所的およびグローバルな情報をキャプチャする、慎重に設計されたフレームワークであり、これは、Neighborhood Attention (NA)を使用して達成される。
異なる頭部が様々な受容領域に注意を払っているため、モデルはこれらの情報をよりうまく組み合わせ、非常に柔軟な方法で、手元にあるデータに適応することができる。
StyleNATはFFHQ-256で2.046で新しいSOTA FIDスコアを獲得し、StyleGAN-XLやHITやStyleSwinなどの変圧器、FFHQ-1024で新しいSOTAのFIDスコアが4.174である。
これらの結果から,ffhq-256はパラメータ数28%,サンプリングスループットは56%改善し,s stylegan-xlと比較すると6.4%改善した。
コードとモデルはhttps://github.com/SHI-Labs/StyleNAT.comでオープンソース化される。 Image generation has been a long sought-after but challenging task, and performing the generation task in an efficient manner is similarly difficult. Often researchers attempt to create a "one size fits all" generator, where there are few differences in the parameter space for drastically different datasets. Herein, we present a new transformer-based framework, dubbed StyleNAT, targeting high-quality image generation with superior efficiency and flexibility. At the core of our model, is a carefully designed framework that partitions attention heads to capture local and global information, which is achieved through using Neighborhood Attention (NA). With different heads able to pay attention to varying receptive fields, the model is able to better combine this information, and adapt, in a highly flexible manner, to the data at hand. StyleNAT attains a new SOTA FID score on FFHQ-256 with 2.046, beating prior arts with convolutional models such as StyleGAN-XL and transformers such as HIT and StyleSwin, and a new transformer SOTA on FFHQ-1024 with an FID score of 4.174. These results show a 6.4% improvement on FFHQ-256 scores when compared to StyleGAN-XL with a 28% reduction in the number of parameters and 56% improvement in sampling throughput. Code and models will be open-sourced at https://github.com/SHI-Labs/StyleNAT. | 翻訳日:2023-08-15 22:54:36 公開日:2023-08-13 |
# 高調波(量子)ニューラルネットワーク Harmonic (Quantum) Neural Networks ( http://arxiv.org/abs/2212.07462v2 ) ライセンス: Link先を確認 | Atiyo Ghosh, Antonio A. Gentile, Mario Dagrada, Chul Lee, Seong-Hyok Kim, Hyukgeun Cha, Yunjun Choi, Brad Kim, Jeong-Il Kye, Vincent E. Elfving | (参考訳) 調和函数は自然界において豊富であり、マクスウェル方程式、ナヴィエ・ストークス方程式、熱、波動方程式の極限に現れる。
その結果、産業プロセス最適化からロボット経路計画、ランダムウォークの最初の終了時間の計算に至るまで、調和関数の多くの応用がある。
ユビキタスさと妥当性にもかかわらず、機械学習の文脈における調和関数に対する帰納バイアスを組み込む試みは少ない。
本研究では,ニューラルネットワークにおける高調波関数を表現できる効果的な手法を示し,その効果を量子ニューラルネットワークにも拡張し,本手法の汎用性を示す。
我々は、(量子)物理インフォームドニューラルネットワークに対する我々のアプローチをベンチマークし、好ましい性能を示す。 Harmonic functions are abundant in nature, appearing in limiting cases of Maxwell's, Navier-Stokes equations, the heat and the wave equation. Consequently, there are many applications of harmonic functions from industrial process optimisation to robotic path planning and the calculation of first exit times of random walks. Despite their ubiquity and relevance, there have been few attempts to incorporate inductive biases towards harmonic functions in machine learning contexts. In this work, we demonstrate effective means of representing harmonic functions in neural networks and extend such results also to quantum neural networks to demonstrate the generality of our approach. We benchmark our approaches against (quantum) physics-informed neural networks, where we show favourable performance. | 翻訳日:2023-08-15 22:47:21 公開日:2023-08-13 |
# ノード選択可能な多視点グラフ畳み込みネットワーク Multi-view Graph Convolutional Networks with Differentiable Node Selection ( http://arxiv.org/abs/2212.05124v2 ) ライセンス: Link先を確認 | Zhaoliang Chen, Lele Fu, Shunxin Xiao, Shiping Wang, Claudia Plant, Wenzhong Guo | (参考訳) 相補的およびコンセンサス情報を含むマルチビューデータは、マルチビュー機能の無傷な統合を利用して表現学習を容易にする。
現実世界のほとんどのオブジェクトは基盤となる接続を持っているため、異種グラフとしてマルチビューデータを整理することは、異なるオブジェクト間で潜在情報を抽出するのに有用である。
本稿では,近傍ノードの情報収集能力の強大さから,グラフ畳み込みネットワーク (gcn) を適用し,gcnの分野において未検討のままである多視点データから発生する不均一グラフデータに対処する。
ネットワークトポロジの品質を改善し,グラフ融合によって生じる雑音の干渉を軽減するため,グラフ畳み込み処理の前にソート処理を行う方法がある。
これらのGCNベースの手法は、一般に、予め定義された信頼値に従ってトップkノードを選択するなど、頂点ごとに最も自信のある近傍ノードをソートし、選択する。
それにもかかわらず、これは微分不能なソート演算子と柔軟性のないグラフ埋め込み学習のために問題であり、これはブロックされた勾配計算と望ましくないパフォーマンスをもたらす可能性がある。
これらの問題に対処するために,適応的なグラフ融合層,グラフ学習モジュール,および微分可能なノード選択スキーマで構成されるMGCN-DNSを用いた多視点グラフ畳み込みネットワーク(Multi-view Graph Convolutional Network)を提案する。
MGCN-DNSは、マルチチャネルグラフ構造データを入力として受け入れ、微分可能なニューラルネットワークを通じてより堅牢なグラフ融合を学ぶことを目指している。
提案手法の有効性は,多視点半教師付き分類タスクにおける最先端手法と厳密な比較によって検証される。 Multi-view data containing complementary and consensus information can facilitate representation learning by exploiting the intact integration of multi-view features. Because most objects in real world often have underlying connections, organizing multi-view data as heterogeneous graphs is beneficial to extracting latent information among different objects. Due to the powerful capability to gather information of neighborhood nodes, in this paper, we apply Graph Convolutional Network (GCN) to cope with heterogeneous-graph data originating from multi-view data, which is still under-explored in the field of GCN. In order to improve the quality of network topology and alleviate the interference of noises yielded by graph fusion, some methods undertake sorting operations before the graph convolution procedure. These GCN-based methods generally sort and select the most confident neighborhood nodes for each vertex, such as picking the top-k nodes according to pre-defined confidence values. Nonetheless, this is problematic due to the non-differentiable sorting operators and inflexible graph embedding learning, which may result in blocked gradient computations and undesired performance. To cope with these issues, we propose a joint framework dubbed Multi-view Graph Convolutional Network with Differentiable Node Selection (MGCN-DNS), which is constituted of an adaptive graph fusion layer, a graph learning module and a differentiable node selection schema. MGCN-DNS accepts multi-channel graph-structural data as inputs and aims to learn more robust graph fusion through a differentiable neural network. The effectiveness of the proposed method is verified by rigorous comparisons with considerable state-of-the-art approaches in terms of multi-view semi-supervised classification tasks. | 翻訳日:2023-08-15 22:46:49 公開日:2023-08-13 |
# タスクに色を付ける:Color Quantisation Transformerを使ってColor Namingを人工的に発見する Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer ( http://arxiv.org/abs/2212.03434v6 ) ライセンス: Link先を確認 | Shenghan Su and Lin Gu and Yue Yang and Zenghui Zhang and Tatsuya Harada | (参考訳) カラーナミングシステムが効率的なコミュニケーションと知覚機構の二重の圧力の下で進化するという長年の理論は、ナファアナラ語から40年分のダイアクロニックデータを分析することを含む、より多くの言語研究によって支持されている。
これは、ハイレベルな認識性能で表現される通信効率を最適化することで、機械学習が進化し、類似のカラーナミングシステムを見つけることができるかどうかを探求するきっかけとなる。
そこで本研究では,色空間を定量化する新しいカラー量子化変換器CQFormerを提案する。
rgb画像が与えられると、アノテーションブランチは色パレットで定量化された画像を生成する前にインデックスマップにマップし、パレットブランチは色空間全体の中で適切な色を見つけるためにキーポイント検出手段を利用する。
色アノテーションと相互作用することで、cqformerは、検出された色システムのために、マシンビジョンの正確さと、異なる色分布や安定した色分布のような色知覚構造の両方をバランスさせることができる。
興味深いことに、私たちは人工色システムと人間の言語における基本色用語の一貫性のある進化パターンも観察しています。
また,色量化手法は,分類や検出などのハイレベルな認識タスクにおいて高い性能を維持しながら,画像記憶を効果的に圧縮する効率的な定量化手法も提供する。
広範にわたる実験により,極端に低ビットレート色で,画像からネットワークアクティベーションまでの量に量子化ネットワークに統合できる可能性が示された。
ソースコードはhttps://github.com/ryeocthiv/CQFormerで入手できる。 The long-standing theory that a colour-naming system evolves under dual pressure of efficient communication and perceptual mechanism is supported by more and more linguistic studies, including analysing four decades of diachronic data from the Nafaanra language. This inspires us to explore whether machine learning could evolve and discover a similar colour-naming system via optimising the communication efficiency represented by high-level recognition performance. Here, we propose a novel colour quantisation transformer, CQFormer, that quantises colour space while maintaining the accuracy of machine recognition on the quantised images. Given an RGB image, Annotation Branch maps it into an index map before generating the quantised image with a colour palette; meanwhile the Palette Branch utilises a key-point detection way to find proper colours in the palette among the whole colour space. By interacting with colour annotation, CQFormer is able to balance both the machine vision accuracy and colour perceptual structure such as distinct and stable colour distribution for discovered colour system. Very interestingly, we even observe the consistent evolution pattern between our artificial colour system and basic colour terms across human languages. Besides, our colour quantisation method also offers an efficient quantisation method that effectively compresses the image storage while maintaining high performance in high-level recognition tasks such as classification and detection. Extensive experiments demonstrate the superior performance of our method with extremely low bit-rate colours, showing potential to integrate into quantisation network to quantities from image to network activation. The source code is available at https://github.com/ryeocthiv/CQFormer | 翻訳日:2023-08-15 22:46:20 公開日:2023-08-13 |
# スパイキングニューラルネットワークを用いた医療データ解析の展望 Review of medical data analysis based on spiking neural networks ( http://arxiv.org/abs/2212.02234v2 ) ライセンス: Link先を確認 | X. Li (1), X. Zhang (1), X. Yi (1), D. Liu (1), H. Wang (1), B. Zhang (1), B. Zhang (1), D. Zhao (2 and 3), L. Wang (1, 4) ((1) China University of Petroleum, Beijing,(2) Institute of Computing Technology, Chinese Academy of Sciences, (3) University of Chinese Academy of Sciences, (4) Beijing Key Laboratory of Optical Detection Technology for Oil and Gas, China University of Petroleum) | (参考訳) 医療データは主に様々な種類の生体信号と医用画像を含んでおり、これは専門医が患者の健康状態の判断に使うことができる。
しかし、医療データの解釈には多くの人的コストが必要であり、誤った判断もあるため、多くの学者はニューラルネットワークとディープラーニングを用いて医療データの分類と研究を行い、医師の効率と正確性を改善し、早期診断に早く病気を検出することができる。
そのため、幅広い応用の見通しがある。
しかし、従来のニューラルネットワークは高エネルギー消費や高レイテンシ(計算速度が低い)といった欠点がある。
本稿では,脳波信号,心電図信号,筋電図信号,MRI画像などの医療データを用いて,第3世代の神経ネットワークであるスパイクニューロンネットワークに基づく信号分類と疾患診断に関する最近の研究について述べる。
従来のネットワークと比較してパルスニューラルネットワークの利点とデメリットを要約し,今後の開発方向性を展望する。 Medical data mainly includes various types of biomedical signals and medical images, which can be used by professional doctors to make judgments on patients' health conditions. However, the interpretation of medical data requires a lot of human cost and there may be misjudgments, so many scholars use neural networks and deep learning to classify and study medical data, which can improve the efficiency and accuracy of doctors and detect diseases early for early diagnosis, etc. Therefore, it has a wide range of application prospects. However, traditional neural networks have disadvantages such as high energy consumption and high latency (slow computation speed). This paper presents recent research on signal classification and disease diagnosis based on a third-generation neural network, the spiking neuron network, using medical data including EEG signals, ECG signals, EMG signals and MRI images. The advantages and disadvantages of pulsed neural networks compared with traditional networks are summarized and its development orientation in the future is prospected. | 翻訳日:2023-08-15 22:45:27 公開日:2023-08-13 |
# スライストランスフォーマーと自己教師付き学習による3dポイントクラウドマップにおける6dof位置推定 Slice Transformer and Self-supervised Learning for 6DoF Localization in 3D Point Cloud Maps ( http://arxiv.org/abs/2301.08957v2 ) ライセンス: Link先を確認 | Muhammad Ibrahim, Naveed Akhtar, Saeed Anwar, Michael Wise and Ajmal Mian | (参考訳) 精密なローカライゼーションは自動運転車にとって重要である。
本稿では,LiDARデータを用いた屋外ローカライズ作業にトランスフォーマーを用いた自己教師型学習手法を提案する。
360^\circ$のlidarスキャンのスライスを再編成し、その軸方向の特性を活用するプリテキストタスクを提案する。
我々のモデルはSlice Transformerと呼ばれ、スライスを体系的に処理しながらマルチヘッドで処理する。
私たちの知る限りでは、これは屋外の点雲にマルチヘッドアテンションを利用する最初の例です。
さらに、オーストラリア西部のパース市の大規模LiDARマップを提供するPerth-WAデータセットを紹介し、$\sim$4km$^2$のエリアをカバーしている。
ローカライズアノテーションはPerth-WA向けに提供されている。
提案手法はPerth-WAとAppollo-SouthBayのデータセットで完全に評価される。
また、ModelNet40とScanNNデータセットを用いたオブジェクト分類の共通下流タスクに対する自己教師型学習手法の有効性を確立した。
コードとPerth-WAデータは公開されます。 Precise localization is critical for autonomous vehicles. We present a self-supervised learning method that employs Transformers for the first time for the task of outdoor localization using LiDAR data. We propose a pre-text task that reorganizes the slices of a $360^\circ$ LiDAR scan to leverage its axial properties. Our model, called Slice Transformer, employs multi-head attention while systematically processing the slices. To the best of our knowledge, this is the first instance of leveraging multi-head attention for outdoor point clouds. We additionally introduce the Perth-WA dataset, which provides a large-scale LiDAR map of Perth city in Western Australia, covering $\sim$4km$^2$ area. Localization annotations are provided for Perth-WA. The proposed localization method is thoroughly evaluated on Perth-WA and Appollo-SouthBay datasets. We also establish the efficacy of our self-supervised learning approach for the common downstream task of object classification using ModelNet40 and ScanNN datasets. The code and Perth-WA data will be publicly released. | 翻訳日:2023-08-15 22:36:20 公開日:2023-08-13 |
# FemtoDet: エネルギーバーサス性能トレードオフのためのオブジェクト検出ベースライン FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs ( http://arxiv.org/abs/2301.06719v5 ) ライセンス: Link先を確認 | Peng Tu, Xu Xie, Guo AI, Yuexiang Li, Yawen Huang, Yefeng Zheng | (参考訳) エッジデバイスの効率的な検出器は、しばしばパラメータや速度カウントの指標に最適化され、検出器のエネルギーと弱い相関関係にある。
しかし、常にオンの監視カメラのような畳み込みニューラルネットワークの視覚応用はエネルギー制約に不可欠である。
本論文は, エネルギーと性能のトレードオフに到達するための検出器を設計することで, ベースラインとして機能することを目的としている。1) 活性化関数の選択, 畳み込み演算子, 首のフィーチャ融合構造など, 低エネルギーのアーキテクチャを識別するために, 様々なCNNを広範囲に解析する。
これらの未承認の詳細は, 検出器のエネルギー消費に深刻な影響を及ぼす; 2) ディレンマ的なエネルギー性能問題を突破するために, 発見された低エネルギー成分であるtextit{FemtoDet} を用いて, エネルギーによって駆動される平衡検出器を提案する。
新たな構成に加えて,畳み込みとトレーニング戦略最適化を考慮したFemtoDetの改良を行った。
具体的には,様々な空間表現におけるcnnの限られた容量と検出タスクの矛盾を克服する畳み込み最適化のための新しいインスタンス境界拡張(ibe)モジュールを開発し,一般の増補で生成されたデータシフトを考慮して,軽量検出器のサブ最適化から逃れるための訓練戦略を最適化する再帰的ウォームリスタート(recwr)を提案する。
その結果、68.77kのパラメータしか持たないFemtoDetは、PASCAL VOCで46.3 AP50、Qualcomm Snapdragon 865 CPUプラットフォームで1.11 W$\&$ 64.47 FPSの競合スコアを達成した。
COCOとTJU-DHDデータセットの大規模な実験は、提案手法が多様な場面で競合する結果をもたらすことを示している。 Efficient detectors for edge devices are often optimized for parameters or speed count metrics, which remain in weak correlation with the energy of detectors. However, some vision applications of convolutional neural networks, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including selecting activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past work seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors by considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and 1.11 W $\&$ 64.47 FPS on Qualcomm Snapdragon 865 CPU platforms. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes. | 翻訳日:2023-08-15 22:35:33 公開日:2023-08-13 |
# 超伝導アンドリーフ・リフレクションエンジンにおける量子増強性能 Quantum-enhanced performance in superconducting Andreev-reflection engines ( http://arxiv.org/abs/2302.09414v2 ) ライセンス: Link先を確認 | Gonzalo Manzano and Rosa L\'opez | (参考訳) 量子ドットが金属貯水池に取り付けられ、超伝導接触アンドリーブプロセスが通常のリードでの有限サブギャップ電流とクーパー対の生成または破壊に繋がる。
andreev-reflection engineはクーパーペアの破壊で利益を得、電力を発生させる通常のコンダクタ・コンタクトにチャージ電流を設定するのに必要な作業を提供する。
この電力変換装置では、量子力学的に強化されたレシエーションにおける高電力と大きな効率性を示す。
古典的なエンジンに有効なパワー、効率、安定性の間の熱力学的トレードオフ関係は克服され、エンジンの精度の運動的制約は平衡状態から遠ざかっている。 When a quantum dot is attached to a metallic reservoir and a superconducting contact Andreev processes leads to a finite subgap current at the normal lead and the creation or destruction of Cooper pairs. Andreev-reflection engines profit from the destruction of Cooper pairs to provide the work needed to set a charge current at the normal-conductor contact generating electrical power. For this power-transduction device high power and large efficiencies in quantum-mechanically enhanced regimes are demonstrated. There thermodynamic trade-off relations between power, efficiency and stability, valid for any classical engine are overcome, and kinetic constraints on the engine precision are largely surpassed in arbitrary far from equilibrium conditions. | 翻訳日:2023-08-15 22:26:03 公開日:2023-08-13 |
# labelprompt: 関係分類のための効果的なプロンプトベース学習 LabelPrompt: Effective Prompt-based Learning for Relation Classification ( http://arxiv.org/abs/2302.08068v2 ) ライセンス: Link先を確認 | Wenjie Zhang, Xiaoning Song, Zhenhua Feng, Tianyang Xu, Xiaojun Wu | (参考訳) 近年,自然言語処理 (nlp) タスクにおいて,事前学習された言語モデル (plm) を下流タスクに適合させるために,cloze 形式の形式に再構成することで,プロンプトベースの学習が広く普及している。
しかし、この手法を関係分類に適用することはユニークな課題である。
具体的には、マスクされたトークンを意味関係ラベルで満たす自然言語単語の関連付けは困難である(\textit{例えば} \textit{`org:founded\_by}'')。
この課題に対処するために,関係分類タスクのための新しいプロンプトベースの学習手法であるLabelPromptを提案する。
GIVE MODEL CHOICES!' への直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなし、プロンプトテンプレートメソッドで明示的に構成する。
次に、予測関係と与えられた実体との矛盾を軽減するため、比較学習を伴うエンティティ認識モジュールを実装した。
最後に,セルフアテンション層内でアテンションクエリ戦略を実施し,プロンプトトークンとシーケンストークンを区別する。
これらの戦略は、特に小さなラベル付きデータセットのみが利用できる場合に、プロンプトベースの学習の適応性を高める。
ベンチマークデータセットに関する総合的な実験は,本手法の優位性を実証している。 Recently, prompt-based learning has gained popularity across many natural language processing (NLP) tasks by reformulating them into a cloze-style format to better align pre-trained language models (PLMs) with downstream tasks. However, applying this approach to relation classification poses unique challenges. Specifically, associating natural language words that fill the masked token with semantic relation labels (\textit{e.g.} \textit{``org:founded\_by}'') is difficult. To address this challenge, this paper presents a novel prompt-based learning method, namely LabelPrompt, for the relation classification task. Motivated by the intuition to ``GIVE MODEL CHOICES!'', we first define additional tokens to represent relation labels, which regard these tokens as the verbaliser with semantic initialisation and explicitly construct them with a prompt template method. Then, to mitigate inconsistency between predicted relations and given entities, we implement an entity-aware module with contrastive learning. Last, we conduct an attention query strategy within the self-attention layer to differentiates prompt tokens and sequence tokens. Together, these strategies enhance the adaptability of prompt-based learning, especially when only small labelled datasets is available. Comprehensive experiments on benchmark datasets demonstrate the superiority of our method, particularly in the few-shot scenario. | 翻訳日:2023-08-15 22:25:49 公開日:2023-08-13 |
# 統合タスクとデータ指向セマンティック通信: 深部的なソースチャネル符号化方式 Joint Task and Data Oriented Semantic Communications: A Deep Separate Source-channel Coding Scheme ( http://arxiv.org/abs/2302.13580v2 ) ライセンス: Link先を確認 | Jianhao Huang, Dongxu Li, Chuan Huang, Xiaoqi Qin, and Wei Zhang | (参考訳) セマンティクスコミュニケーションは、ソースデータのセマンティクス特徴を利用して、比較的少ないスペクトル資源で様々なセマンティクスタスクを実現することが期待されている。
データ送信とセマンティックタスクを同時に行うために、データ圧縮とセマンティック分析がセマンティックコミュニケーションにおいて重要な問題となっている。
本稿では,統合タスクとデータ指向意味コミュニケーション(jtd-sc)のためのdsscc(deep separate source-channel coding)フレームワークを提案する。
まず、DSSCCフレームワークのベイズモデルを分析することにより、一般データ分布とセマンティックタスクに対するベイズ推定手法を用いて、新しい速度歪み最適化問題を導出する。
次に、共同画像伝送と分類の典型的な応用として、変分オートエンコーダアプローチと前方適応方式を組み合わせて画像特徴を効果的に抽出し、得られた特徴の密度情報を適応的に学習する。
最後に,ディープラーニングモデルの過剰適合問題に対処するために,反復学習アルゴリズムを提案する。
シミュレーションの結果,提案手法は,従来の圧縮方式や深層震源チャネル方式と比較して,多くのシナリオにおいて,データ回復と分類性能の向上を実現していることがわかった。 Semantic communications are expected to accomplish various semantic tasks with relatively less spectrum resource by exploiting the semantic feature of source data. To simultaneously serve both the data transmission and semantic tasks, joint data compression and semantic analysis has become pivotal issue in semantic communications. This paper proposes a deep separate source-channel coding (DSSCC) framework for the joint task and data oriented semantic communications (JTD-SC) and utilizes the variational autoencoder approach to solve the rate-distortion problem with semantic distortion. First, by analyzing the Bayesian model of the DSSCC framework, we derive a novel rate-distortion optimization problem via the Bayesian inference approach for general data distributions and semantic tasks. Next, for a typical application of joint image transmission and classification, we combine the variational autoencoder approach with a forward adaption scheme to effectively extract image features and adaptively learn the density information of the obtained features. Finally, an iterative training algorithm is proposed to tackle the overfitting issue of deep learning models. Simulation results reveal that the proposed scheme achieves better coding gain as well as data recovery and classification performance in most scenarios, compared to the classical compression schemes and the emerging deep joint source-channel schemes. | 翻訳日:2023-08-15 22:15:04 公開日:2023-08-13 |
# 対話からのマルチビューゼロショットオープンインテント誘導:マルチドメインバッチとプロキシグラディエント転送 Multi-View Zero-Shot Open Intent Induction from Dialogues: Multi Domain Batch and Proxy Gradient Transfer ( http://arxiv.org/abs/2303.13099v3 ) ライセンス: Link先を確認 | Hyukhun Koh, Haesung Pyun, Nakyeong Yang, Kyomin Jung | (参考訳) タスク指向対話(TOD)システムでは,新たな意図の検出と誘導が,実世界でシステムを適用する上で大きな課題である。
本稿では,(1)一般埋め込み(GE)のためのSBERT,(2)対話ドメイン知識のためのMultiple Domain Batch(MDB)、(3)クラスタ特定セマンティックのためのPGT(Proxy Gradient Transfer)という2つの課題を解決するためのセマンティックマルチビューモデルを提案する。
MDBは多様な対話データセットをモデルに一度に供給し、複数のドメイン知識を学習することで、マルチドメイン問題に取り組む。
本稿では,クラスタリング手法でモデルを微調整するために,Siameseネットワークを利用した新しいPGTを提案する。
実験の結果,mdbとpgtを用いたマルチビューモデルは,ベースラインシステムに比べてオープンインテント誘導性能が著しく向上することがわかった。 In Task Oriented Dialogue (TOD) system, detecting and inducing new intents are two main challenges to apply the system in the real world. In this paper, we suggest the semantic multi-view model to resolve these two challenges: (1) SBERT for General Embedding (GE), (2) Multi Domain Batch (MDB) for dialogue domain knowledge, and (3) Proxy Gradient Transfer (PGT) for cluster-specialized semantic. MDB feeds diverse dialogue datasets to the model at once to tackle the multi-domain problem by learning the multiple domain knowledge. We introduce a novel method PGT, which employs the Siamese network to fine-tune the model with a clustering method directly.Our model can learn how to cluster dialogue utterances by using PGT. Experimental results demonstrate that our multi-view model with MDB and PGT significantly improves the Open Intent Induction performance compared to baseline systems. | 翻訳日:2023-08-15 22:08:50 公開日:2023-08-13 |
# テキスト・画像拡散モデルによる物体レベルの形状変化の局在化 Localizing Object-level Shape Variations with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.11306v2 ) ライセンス: Link先を確認 | Or Patashnik, Daniel Garibi, Idan Azuri, Hadar Averbuch-Elor, Daniel Cohen-Or | (参考訳) テキスト・ツー・イメージのモデルは、しばしば探索ステップから始まるワークフローを生み出し、ユーザーは生成された画像の大規模なコレクションをシャットダウンする。
テキスト・画像生成プロセスのグローバルな性質は、ユーザーが画像内の特定のオブジェクトへの探索を狭めるのを防ぐ。
本稿では,特定の物体の形状のバリエーションを表現した画像の集合を生成し,物体レベルの形状探索を可能にする手法を提案する。
生成したオブジェクトの形状をそのセマンティクスを尊重しながら制御する必要があるため、妥当なバリエーションの作成は困難である。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
我々は,様々な形状の選択を達成するために,ディノジングプロセスに沿ってプロンプトを切り替えるプロンプト混合手法を提案する。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
さらに,これらのローカライズ手法は,オブジェクトの変動を生成する範囲を超え,汎用的かつ効果的であることを示す。
実験結果と比較結果から,物体の変動生成における本手法の有効性と局所化手法の能力が示された。 Text-to-image models give rise to workflows which often begin with an exploration step, where users sift through a large collection of generated images. The global nature of the text-to-image generation process prevents users from narrowing their exploration to a particular object in the image. In this paper, we present a technique to generate a collection of images that depicts variations in the shape of a specific object, enabling an object-level shape exploration process. Creating plausible variations is challenging as it requires control over the shape of the generated object while respecting its semantics. A particular challenge when generating object variations is accurately localizing the manipulation applied over the object's shape. We introduce a prompt-mixing technique that switches between prompts along the denoising process to attain a variety of shape choices. To localize the image-space operation, we present two techniques that use the self-attention layers in conjunction with the cross-attention layers. Moreover, we show that these localization techniques are general and effective beyond the scope of generating object variations. Extensive results and comparisons demonstrate the effectiveness of our method in generating object variations, and the competence of our localization techniques. | 翻訳日:2023-08-15 22:07:34 公開日:2023-08-13 |
# CheckerPose: グラフニューラルネットワークを用いたオブジェクトポス推定のためのプログレッシブディエンスキーポイント位置決め CheckerPose: Progressive Dense Keypoint Localization for Object Pose Estimation with Graph Neural Network ( http://arxiv.org/abs/2303.16874v2 ) ライセンス: Link先を確認 | Ruyi Lian, Haibin Ling | (参考訳) 単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、密接な対応に基づくソリューションの可能性を秘めているが、実用的展開には改善が必要である。
本稿では,3つの面を改良した新しいポーズ推定アルゴリズムであるcheckerposeを提案する。
第一に、CheckerPoseは3Dオブジェクトの表面から3Dキーポイントを密にサンプリングし、2D画像に徐々に2D対応を見出す。
画像空間で高密度サンプリングを行う従来のソリューションと比較して、我々の戦略は2次元グリッド(ピクセル座標)での対応探索を可能にする。
次に,2次元画像位置のためのコンパクトなバイナリコード表現を設計する。
この表現はプログレッシブ対応の洗練を可能にするだけでなく、対応回帰をより効率的な分類問題に変換する。
第3に,サンプリングされた3dキーポイント間のインタラクションを明示的にモデル化するグラフニューラルネットワークを採用することで,対応の信頼性と精度をさらに向上させる。
これらの新しいコンポーネントは、CheckerPoseを強力なポーズ推定アルゴリズムにする。
一般的なLinemod、Linemod-O、YCB-Vオブジェクトポーズ推定ベンチマークで評価すると、CheckerPoseは対応ベースのメソッドの精度を高め、最先端のパフォーマンスを達成する。
コードはhttps://github.com/RuyiLian/CheckerPoseで入手できる。 Estimating the 6-DoF pose of a rigid object from a single RGB image is a crucial yet challenging task. Recent studies have shown the great potential of dense correspondence-based solutions, yet improvements are still needed to reach practical deployment. In this paper, we propose a novel pose estimation algorithm named CheckerPose, which improves on three main aspects. Firstly, CheckerPose densely samples 3D keypoints from the surface of the 3D object and finds their 2D correspondences progressively in the 2D image. Compared to previous solutions that conduct dense sampling in the image space, our strategy enables the correspondence searching in a 2D grid (i.e., pixel coordinate). Secondly, for our 3D-to-2D correspondence, we design a compact binary code representation for 2D image locations. This representation not only allows for progressive correspondence refinement but also converts the correspondence regression to a more efficient classification problem. Thirdly, we adopt a graph neural network to explicitly model the interactions among the sampled 3D keypoints, further boosting the reliability and accuracy of the correspondences. Together, these novel components make CheckerPose a strong pose estimation algorithm. When evaluated on the popular Linemod, Linemod-O, and YCB-V object pose estimation benchmarks, CheckerPose clearly boosts the accuracy of correspondence-based methods and achieves state-of-the-art performances. Code is available at https://github.com/RuyiLian/CheckerPose. | 翻訳日:2023-08-15 21:56:05 公開日:2023-08-13 |
# SparseNeRF:新しい視点合成のための深度ランク付け SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2303.16196v2 ) ライセンス: Link先を確認 | Guangcong Wang and Zhaoxi Chen and Chen Change Loy and Ziwei Liu | (参考訳) ニューラルレージアンスフィールド(NeRF)は、限られた数のビューしか利用できない場合、著しく劣化する。
3D情報の欠如を補うため、DSNeRFやMonoSDFのような深度モデルでは、複数のビューの正確な深度マップが利用可能であると明確に仮定している。
彼らは数発のNeRFの予測深度を導くために、正確な深度マップを監督として線形にスケールする。
しかし、正確な深度マップは野生の広範囲の深度距離のため、撮影が困難で高価である。
本研究では,実世界の不正確な観測から深度を推定する新しいスパースビューNeRF(Sparse-view NeRF)フレームワークを提案する。
不正確な深度観測は、事前訓練された深度モデルまたは消費者レベルの深度センサーの粗い深度マップからである。
粗深さマップは, 地中深さマップに対して厳密にスケールされていないので, 局地深さマップと一致するように, nerf上での局所深さランキング法を, 単純かつ効果的な制約として提案する。
推定したNeRFの深さの空間的連続性を維持するため,我々はさらに空間的連続性制約を提案し,NeRFの予測深度連続性と粗い深度マップとの整合性を促進する。
驚くべきことに、単純な深さランキングの制約により、sparsenerfは標準のllffおよびdtuデータセットの最先端のnrfメソッド(深度ベースモデルを含む)を上回っている。
さらに、Azure Kinect、ZED 2、iPhone 13 Proから現実世界の深度マップを含む新しいデータセットNVS-RGBDを収集します。
NVS-RGBDデータセットに関する大規模な実験は、スパースNeRFの優位性と一般化性についても検証した。
コードとデータセットはhttps://sparsenerf.github.io/で入手できる。 Neural Radiance Field (NeRF) significantly degrades when only a limited number of views are available. To complement the lack of 3D information, depth-based models, such as DSNeRF and MonoSDF, explicitly assume the availability of accurate depth maps of multiple views. They linearly scale the accurate depth maps as supervision to guide the predicted depth of few-shot NeRFs. However, accurate depth maps are difficult and expensive to capture due to wide-range depth distances in the wild. In this work, we present a new Sparse-view NeRF (SparseNeRF) framework that exploits depth priors from real-world inaccurate observations. The inaccurate depth observations are either from pre-trained depth models or coarse depth maps of consumer-level depth sensors. Since coarse depth maps are not strictly scaled to the ground-truth depth maps, we propose a simple yet effective constraint, a local depth ranking method, on NeRFs such that the expected depth ranking of the NeRF is consistent with that of the coarse depth maps in local patches. To preserve the spatial continuity of the estimated depth of NeRF, we further propose a spatial continuity constraint to encourage the consistency of the expected depth continuity of NeRF with coarse depth maps. Surprisingly, with simple depth ranking constraints, SparseNeRF outperforms all state-of-the-art few-shot NeRF methods (including depth-based models) on standard LLFF and DTU datasets. Moreover, we collect a new dataset NVS-RGBD that contains real-world depth maps from Azure Kinect, ZED 2, and iPhone 13 Pro. Extensive experiments on NVS-RGBD dataset also validate the superiority and generalizability of SparseNeRF. Code and dataset are available at https://sparsenerf.github.io/. | 翻訳日:2023-08-15 21:55:41 公開日:2023-08-13 |
# 磁性誘電体$\delta$-functionプレートのカシミールエネルギー Casimir energy of $N$ magnetodielectric $\delta$-function plates ( http://arxiv.org/abs/2304.10022v2 ) ライセンス: Link先を確認 | Venkat Abhignan | (参考訳) N$体におけるカシミール電磁相互作用を調べるために、電気的および磁気的性質を持つ複数の$\delta$-functionプレートを実装した。
我々はそれらの光学特性を用いて、複数の散乱形式を実装して、プレート間のカシミールエネルギーを研究する。
まず,2板および3板構成のグリーン関数を解き,反射係数を求める。
さらに, この係数を多重散乱形式に実装し, 図形ループを用いた多重散乱展開におけるエネルギー密度分布を簡易に表現した。
n$ の天体のカシミールエネルギーは多重散乱パラメータ $\delta$ に依存するが、このパラメータは反射、透過、伝播距離によって異なるループで表される近接散乱とnear-to-nearest近傍散乱に分配された。
このようにして、カシミールエネルギー密度は図形ループの表現における体系的なパターンを同定することにより、$N$プレートに一般化された。 To investigate Casimir electromagnetic interaction in $N$ bodies, we implement multiple $\delta$-function plates with electric and magnetic properties. We use their optical properties to study the Casimir energy between the plates by implementing multiple scattering formalism. We initially solve Green's functions for two and three plates configurations to obtain their reflection coefficients. Further, the coefficients are implemented in multiple scattering formalism, and a simple method was obtained to depict energy density distribution in the multiple scattering expansions using diagrammatic loops. The Casimir energy for $N$ bodies depends on multiple scattering parameter $\Delta$; this parameter was distributed into nearest neighbour scattering and next-to-nearest neighbour scattering terms represented by different loops depending on reflection, transmission and propagation distance. In this manner, the Casimir energy density was generalized to $N$ plates by identifying a systematic pattern in the representation of diagrammatic loops. | 翻訳日:2023-08-15 20:12:18 公開日:2023-08-13 |
# udtiri: オープンソースのインテリジェント道路検査ベンチマークスイート UDTIRI: An Open-Source Intelligent Road Inspection Benchmark Suite ( http://arxiv.org/abs/2304.08842v2 ) ライセンス: Link先を確認 | Sicen Guo, Jiahang Li, Shuai Su, Yi Feng, Dacheng Zhou, Chen Chen, Denghuang Zhang, Xingyi Zhu, Qijun Chen, Rui Fan | (参考訳) 都市デジタル双生児の新興分野において,強力な深層学習手法を活用する大きな可能性を秘めている。
インテリジェントな道路検査の分野では特に、現在利用可能な研究とデータが限られている。
この分野での進展を促進するため,我々はUrban Digital Twins Intelligent Road Inspection (UDTIRI) データセットを開発した。
このデータセットにより、都市道路検査における強力なディープラーニング手法の利用が可能になり、より包括的な状況理解と潜在能力を最大化するアルゴリズムが提供されることを期待しています。
われわれのデータセットは1000枚の穴の画像で構成されており、様々なシナリオで異なる照明と湿度条件で撮影されている。
私たちの意図は、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションタスクにこのデータセットを使用することです。
私たちのチームは、詳細な統計分析や、近年の代表的なアルゴリズムのベンチマークに多大な努力を払っています。
また、UDTIRIデータセットのサポートにより、研究者が様々なアルゴリズムの性能を完全に活用するためのマルチタスクプラットフォームも提供します。 It is seen that there is enormous potential to leverage powerful deep learning methods in the emerging field of urban digital twins. It is particularly in the area of intelligent road inspection where there is currently limited research and data available. To facilitate progress in this field, we have developed a well-labeled road pothole dataset named Urban Digital Twins Intelligent Road Inspection (UDTIRI) dataset. We hope this dataset will enable the use of powerful deep learning methods in urban road inspection, providing algorithms with a more comprehensive understanding of the scene and maximizing their potential. Our dataset comprises 1000 images of potholes, captured in various scenarios with different lighting and humidity conditions. Our intention is to employ this dataset for object detection, semantic segmentation, and instance segmentation tasks. Our team has devoted significant effort to conducting a detailed statistical analysis, and benchmarking a selection of representative algorithms from recent years. We also provide a multi-task platform for researchers to fully exploit the performance of various algorithms with the support of UDTIRI dataset. | 翻訳日:2023-08-15 20:11:15 公開日:2023-08-13 |
# クリップのタイポグラフィー攻撃防止のための防御プリフィックス Defense-Prefix for Preventing Typographic Attacks on CLIP ( http://arxiv.org/abs/2304.04512v2 ) ライセンス: Link先を確認 | Hiroki Azuma, Yusuke Matsui | (参考訳) 視覚言語事前学習モデル(VLP)は、様々な視覚言語タスクに革命的な改善をもたらした。
VLPでは、一部の敵対的攻撃は、モデルを偽りまたは不条理な分類に騙す。
以前の研究では、モデルを微調整したり、アーキテクチャを変更したりすることで、これらの攻撃に対処した。
しかし、これらの手法は元のモデルの性能を失う危険を冒し、下流のタスクに適用することは困難である。
特に、他のタスクへの適用性は考慮されていない。
本研究では,モデルパラメータを変更することなく,CLIPに対するタイポグラフィー攻撃の影響の低減について検討した。
これを実現するために,我々は 'prefix learning' というアイデアを拡張し,簡単な方法である Defense-Prefix (DP) を導入し,クラス名の前にDPトークンを挿入し,"`robust' という単語をタイポグラフィー攻撃に対して生成する。
提案手法はモデルパラメータに依存しないため,オブジェクト検出などの下流タスクにも容易に適用できる。
本手法は,モデルのゼロショット機能を維持しつつ,タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
さらに,提案手法をオブジェクト検出に適用し,高い適用性と有効性を示す。
コードとデータセットはhttps://github.com/azuma164/Defense-Prefix.orgで公開されている。 Vision-language pre-training models (VLPs) have exhibited revolutionary improvements in various vision-language tasks. In VLP, some adversarial attacks fool a model into false or absurd classifications. Previous studies addressed these attacks by fine-tuning the model or changing its architecture. However, these methods risk losing the original model's performance and are difficult to apply to downstream tasks. In particular, their applicability to other tasks has not been considered. In this study, we addressed the reduction of the impact of typographic attacks on CLIP without changing the model parameters. To achieve this, we expand the idea of ``prefix learning'' and introduce our simple yet effective method: Defense-Prefix (DP), which inserts the DP token before a class name to make words ``robust'' against typographic attacks. Our method can be easily applied to downstream tasks, such as object detection, because the proposed method is independent of the model parameters. Our method significantly improves the accuracy of classification tasks for typographic attack datasets, while maintaining the zero-shot capabilities of the model. In addition, we leverage our proposed method for object detection, demonstrating its high applicability and effectiveness. The codes and datasets are available at https://github.com/azuma164/Defense-Prefix. | 翻訳日:2023-08-15 20:10:32 公開日:2023-08-13 |
# 量子エミッタを用いた量子コンピューティングのための損失耐性アーキテクチャ Loss-tolerant architecture for quantum computing with quantum emitters ( http://arxiv.org/abs/2304.03796v2 ) ライセンス: Link先を確認 | Matthias C. L\"obl, Stefano Paesani, and Anders S. S{\o}rensen | (参考訳) 我々はフォトニック量子エミッタを用いた計測に基づく量子コンピューティングのためのアーキテクチャを開発した。
このアーキテクチャはスピン-光子絡み合いを資源状態として利用し、光子の標準ベル測定を大きなスピン量子クラスター状態に融合させる。
このスキームは、複数のエミッタの完全なパーコレーショングラフ状態を構築するために、最初の非適応的(ボール的な)融合プロセスのみを使用するため、メモリ能力に制限のあるエミッタ向けに調整される。
決定論的エミッタから絡み合った光子を融合させる様々な幾何学的構造を探索することにより、同様の全フォトニックスキームと比較して光子損失耐性を著しく改善する。 We develop an architecture for measurement-based quantum computing using photonic quantum emitters. The architecture exploits spin-photon entanglement as resource states and standard Bell measurements of photons for fusing them into a large spin-qubit cluster state. The scheme is tailored to emitters with limited memory capabilities since it only uses an initial non-adaptive (ballistic) fusion process to construct a fully percolated graph state of multiple emitters. By exploring various geometrical constructions for fusing entangled photons from deterministic emitters, we improve the photon loss tolerance significantly compared to similar all-photonic schemes. | 翻訳日:2023-08-15 20:09:53 公開日:2023-08-13 |
# Tiny-PPG:エッジデバイス上のフォトプレソグラム信号における動きアーチファクトのリアルタイム検出のための軽量ディープニューラルネットワーク Tiny-PPG: A Lightweight Deep Neural Network for Real-Time Detection of Motion Artifacts in Photoplethysmogram Signals on Edge Devices ( http://arxiv.org/abs/2305.03308v2 ) ライセンス: Link先を確認 | Yali Zheng, Chen Wu, Peizheng Cai, Zhiqiang Zhong, Hongda Huang, Yuqi Jiang | (参考訳) 光胸腺電図(PPG)信号は、心臓血管の健康モニタリングにIoT(Internet-of-Things)ベースのウェアラブルおよびスマートヘルスデバイスで広く使用されているにもかかわらず、現実の環境でのモーションアーティファクトによって容易に汚染される。
本研究は,IoTエッジデバイス上でのPPGアーティファクトの高精度かつリアルタイムなセグメンテーションを実現するための,Tiny-PPGと呼ばれる軽量なディープニューラルネットワークを提案する。
モデルはパブリックデータセット PPG DaLiA でトレーニングおよびテストされ、時計型デバイス(Empatica E4)を使用して15人の被験者の日々のさまざまな活動において、様々な長さと形態を持つ複雑なアーティファクトを特徴とした。
モデル構造, 訓練方法, 損失関数は, 実時間ppgアーチファクト検出における検出精度と速度のバランスをとるように設計されている。
マルチスケール特徴表現におけるモデルサイズと能力の最適化のために、深度分割可能な畳み込みとatrous空間ピラミッドプーリングモジュールを用いた。
さらに、機能埋め込みをさらに最適化するために、対照的な損失も利用しました。
さらなるモデルプルーニングにより、tiny-ppgは19,726モデルパラメータ(0.15メガバイト)しか持たず、87.4%の最先端検出精度を達成し、リアルタイムppgアーティファクト検出のためのstm32組み込みシステムへのデプロイに成功した。
そこで本研究では, PPGアーチファクト検出における資源制約型IoTスマートヘルスデバイスに対する効果的なソリューションを提供する。 Photoplethysmogram (PPG) signals are easily contaminated by motion artifacts in real-world settings, despite their widespread use in Internet-of-Things (IoT) based wearable and smart health devices for cardiovascular health monitoring. This study proposed a lightweight deep neural network, called Tiny-PPG, for accurate and real-time PPG artifact segmentation on IoT edge devices. The model was trained and tested on a public dataset, PPG DaLiA, which featured complex artifacts with diverse lengths and morphologies during various daily activities of 15 subjects using a watch-type device (Empatica E4). The model structure, training method and loss function were specifically designed to balance detection accuracy and speed for real-time PPG artifact detection in resource-constrained embedded devices. To optimize the model size and capability in multi-scale feature representation, the model employed depth-wise separable convolution and atrous spatial pyramid pooling modules, respectively. Additionally, the contrastive loss was also utilized to further optimize the feature embeddings. With additional model pruning, Tiny-PPG achieved state-of-the-art detection accuracy of 87.4% while only having 19,726 model parameters (0.15 megabytes), and was successfully deployed on an STM32 embedded system for real-time PPG artifact detection. Therefore, this study provides an effective solution for resource-constraint IoT smart health devices in PPG artifact detection. | 翻訳日:2023-08-15 20:01:41 公開日:2023-08-13 |
# 新しい視点合成のためのニューラルLiDAR場 Neural LiDAR Fields for Novel View Synthesis ( http://arxiv.org/abs/2305.01643v2 ) ライセンス: Link先を確認 | Shengyu Huang, Zan Gojcic, Zian Wang, Francis Williams, Yoni Kasten, Sanja Fidler, Konrad Schindler, Or Litany | (参考訳) 我々は,新しい視点から現実的なLiDARスキャンを合成することを目的とした,LiDAR計測からニューラルネットワークシーン表現を最適化する手法である,LiDARのためのニューラルフィールド(NFL)を提案する。
NFLは、ニューラルネットワークのレンダリングパワーとLiDARセンシングプロセスの詳細な物理的動機付けモデルを組み合わせることで、ビームの発散、二次リターン、レイドロップといったキーセンサーの動作を正確に再現することができる。
nfl を合成および実際のlidarスキャンで評価し, 明示的な再構成-then-simulate 法, および他の nerf 方式の lidar novel view 合成タスクよりも優れていることを示した。
さらに,合成ビューのリアリズムが向上することで,ドメイン間ギャップが実際のスキャンに狭まり,登録やセマンティクスセグメンテーションのパフォーマンスが向上することを示す。 We present Neural Fields for LiDAR (NFL), a method to optimise a neural field scene representation from LiDAR measurements, with the goal of synthesizing realistic LiDAR scans from novel viewpoints. NFL combines the rendering power of neural fields with a detailed, physically motivated model of the LiDAR sensing process, thus enabling it to accurately reproduce key sensor behaviors like beam divergence, secondary returns, and ray dropping. We evaluate NFL on synthetic and real LiDAR scans and show that it outperforms explicit reconstruct-then-simulate methods as well as other NeRF-style methods on LiDAR novel view synthesis task. Moreover, we show that the improved realism of the synthesized views narrows the domain gap to real scans and translates to better registration and semantic segmentation performance. | 翻訳日:2023-08-15 20:00:24 公開日:2023-08-13 |
# 線形回帰としての増大バランスウェイト Augmented balancing weights as linear regression ( http://arxiv.org/abs/2304.14545v2 ) ライセンス: Link先を確認 | David Bruns-Smith, Oliver Dukes, Avi Feller, and Elizabeth L. Ogburn | (参考訳) 本稿では,自動脱バイアス機械学習(AutoDML)としても知られる拡張バランスウェイトの特徴について述べる。
これら2重のロバストあるいは2重機械学習推定器は、結果モデリングと、確率スコアの推定と反転の代わりに直接共変バランスを達成する重みのバランスを組み合わせる。
結果モデルと重み付けモデルの両方が、ある(おそらく無限)基底で線型である場合、拡張推定器は、元の結果モデル係数から係数と、同じデータに収まる未定の通常の最小二乗(OLS)から係数を結合した係数を持つ単一の線形モデルと等価であることを示す。
次にこれらの結果を、結果と重み付けモデルの特定の選択に拡張します。
まず,結果モデルと重み付けモデルの両方に(ケネル)リッジ回帰を用いる拡張推定器は,シングル・アンダースムース(ケネル)リッジ回帰と等価であることを示す。
これは有限なサンプルで数値的に保持され、アンダースムーシングと漸近収束率の新しい解析の基礎となる。
重み付けモデルがラッソペナル化回帰である場合、特殊ケースに対して閉形式表現を与え、 ``double selection' 特性を示す。
我々のフレームワークは、この人気の高い推定器のクラスにブラックボックスを開き、アンダースムースとダブルロバストな推定器の半パラメトリック効率に関する既存の結果のギャップを埋め、拡張バランスウェイトの性能に関する新たな洞察を提供する。 We provide a novel characterization of augmented balancing weights, also known as automatic debiased machine learning (AutoDML). These popular doubly robust or double machine learning estimators combine outcome modeling with balancing weights -- weights that achieve covariate balance directly in lieu of estimating and inverting the propensity score. When the outcome and weighting models are both linear in some (possibly infinite) basis, we show that the augmented estimator is equivalent to a single linear model with coefficients that combine the coefficients from the original outcome model coefficients and coefficients from an unpenalized ordinary least squares (OLS) fit on the same data; in many real-world applications the augmented estimator collapses to the OLS estimate alone. We then extend these results to specific choices of outcome and weighting models. We first show that the augmented estimator that uses (kernel) ridge regression for both outcome and weighting models is equivalent to a single, undersmoothed (kernel) ridge regression. This holds numerically in finite samples and lays the groundwork for a novel analysis of undersmoothing and asymptotic rates of convergence. When the weighting model is instead lasso-penalized regression, we give closed-form expressions for special cases and demonstrate a ``double selection'' property. Our framework opens the black box on this increasingly popular class of estimators, bridges the gap between existing results on the semiparametric efficiency of undersmoothed and doubly robust estimators, and provides new insights into the performance of augmented balancing weights. | 翻訳日:2023-08-15 19:59:32 公開日:2023-08-13 |
# 弱いテキストによる画像の人間-人間間相互作用の学習 Learning Human-Human Interactions in Images from Weak Textual Supervision ( http://arxiv.org/abs/2304.14104v3 ) ライセンス: Link先を確認 | Morris Alper and Hadar Averbuch-Elor | (参考訳) 人間間の相互作用は多様で文脈に依存しないが、以前の研究はそれらをカテゴリー的扱いし、可能な相互作用の重みを無視している。
本研究では,人間と人間の相互作用を自由テキストとして学習する新たなパラダイムを提案する。
本課題に特有なラベル付きデータの欠如を克服するために,大言語モデルによって生成された合成キャプションデータに対して,明示的な監督なしに知識蒸留を行う。
本手法により作成した擬似ラベルは,画像中の人間と人間の相互作用を効果的に理解するためのキャプションモデルを訓練するために使用することができることを示す。
さらに本手法は,SOTA画像のキャプションや状況認識モデルよりも優れていることを示す。
コードと擬似ラベルをwaldoとwendaと共にリリースします。これは、静止画の人間と人間とのインタラクションを理解するための手動によるテストセットです。 Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding. | 翻訳日:2023-08-15 19:59:03 公開日:2023-08-13 |
# NightHazeFormer: 事前クエリ変換器を用いた単一夜間ヘイズ除去 NightHazeFormer: Single Nighttime Haze Removal Using Prior Query Transformer ( http://arxiv.org/abs/2305.09533v3 ) ライセンス: Link先を確認 | Yun Liu, Zhongsheng Yan, Sixiang Chen, Tian Ye, Wenqi Ren and Erkang Chen | (参考訳) 夜間の消光は、光、迷路、ぼやけ、ノイズ、色歪みなど、さまざまな有害な劣化効果があるため、困難な課題である。
しかし, 従来の研究では, 夜間の嫌悪な場面で提示される日中の画像劣化や部分的な劣化が中心であり, 修復に不満足な結果をもたらす可能性がある。
本稿では,夜間ヘイズ除去のためのエンドツーエンドトランスフォーマーフレームワークであるnighthazeformerを提案する。
提案手法は,教師付き事前学習と半教師付き微調整の2段階からなる。
事前学習段階では、トランスフォーマーデコーダに2つの強力なプリエントを導入し、非学習可能なプリエントクエリを生成し、モデルに特定の劣化を抽出するよう指示する。
微調整では,生成した擬似基底真理と実世界の夜間空想画像とをペア画像として組み合わせて合成領域に入力し,事前学習したモデルを微調整する。
この半教師付き微調整パラダイムは、実領域への一般化を改善するのに役立つ。
さらに,実世界の夜間ヘイズシナリオを包括的にシミュレートするUNREAL-NHという大規模合成データセットも提案する。
いくつかの合成および実世界のデータセットに対する大規模な実験は、現状の夜間ヘイズ除去法よりも視覚的および定量的にNightHazeFormerの優位性を示している。 Nighttime image dehazing is a challenging task due to the presence of multiple types of adverse degrading effects including glow, haze, blurry, noise, color distortion, and so on. However, most previous studies mainly focus on daytime image dehazing or partial degradations presented in nighttime hazy scenes, which may lead to unsatisfactory restoration results. In this paper, we propose an end-to-end transformer-based framework for nighttime haze removal, called NightHazeFormer. Our proposed approach consists of two stages: supervised pre-training and semi-supervised fine-tuning. During the pre-training stage, we introduce two powerful priors into the transformer decoder to generate the non-learnable prior queries, which guide the model to extract specific degradations. For the fine-tuning, we combine the generated pseudo ground truths with input real-world nighttime hazy images as paired images and feed into the synthetic domain to fine-tune the pre-trained model. This semi-supervised fine-tuning paradigm helps improve the generalization to real domain. In addition, we also propose a large-scale synthetic dataset called UNREAL-NH, to simulate the real-world nighttime haze scenarios comprehensively. Extensive experiments on several synthetic and real-world datasets demonstrate the superiority of our NightHazeFormer over state-of-the-art nighttime haze removal methods in terms of both visually and quantitatively. | 翻訳日:2023-08-15 19:50:54 公開日:2023-08-13 |
# 分散SGDと平均方向SAMは漸近的に等価である Decentralized SGD and Average-direction SAM are Asymptotically Equivalent ( http://arxiv.org/abs/2306.02913v4 ) ライセンス: Link先を確認 | Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao | (参考訳) 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
しかし、既存の理論では、分散化が一般化を弱めている。
本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。
d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。
This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. | 翻訳日:2023-08-15 19:42:20 公開日:2023-08-13 |
# 置換決定木 Permutation Decision Trees ( http://arxiv.org/abs/2306.02617v2 ) ライセンス: Link先を確認 | Harikrishnan N B and Nithin Nagaraj | (参考訳) decision treeは、内部ノードの不純物を最小化することに基づく、よく知られた機械学習モデルである。
最も一般的な不純物対策はシャノンエントロピーとジーニ不純物である。
これらの不純物対策はトレーニングデータの順序に敏感であるため、得られた最終木はデータの任意の置換に不変である。
これにより、順序依存性を持つデータインスタンスのモデリングに深刻な制限が生じる。
本研究では, 初めて, 不純物測定として, 圧縮努力(etc)を用いる方法を提案する。
シャノンエントロピーやジーニの不純物とは異なり、ETCに基づく構造的不純物はデータ内の順序依存をキャプチャし、同じデータインスタンスの異なる置換に対する潜在的に異なる決定木を取得することができる(置換決定木)。
次に,無作為な特徴選択やサブサンプリングを必要とせず,順列決定木を用いた順列バッキングの概念を導入する。
提案した変分木決定木の性能をランダムフォレストと比較した。
当社のモデルは、データインスタンスが独立かつ同一分散であることを想定していません。
潜在的なアプリケーションには、データインスタンスに存在する一時的な順序を尊重するシナリオが含まれる。 Decision Tree is a well understood Machine Learning model that is based on minimizing impurities in the internal nodes. The most common impurity measures are Shannon entropy and Gini impurity. These impurity measures are insensitive to the order of training data and hence the final tree obtained is invariant to any permutation of the data. This leads to a serious limitation in modeling data instances that have order dependencies. In this work, we propose the use of Effort-To-Compress (ETC) - a complexity measure, for the first time, as an impurity measure. Unlike Shannon entropy and Gini impurity, structural impurity based on ETC is able to capture order dependencies in the data, thus obtaining potentially different decision trees for different permutations of the same data instances (Permutation Decision Trees). We then introduce the notion of Permutation Bagging achieved using permutation decision trees without the need for random feature selection and sub-sampling. We compare the performance of the proposed permutation bagged decision trees with Random Forests. Our model does not assume that the data instances are independent and identically distributed. Potential applications include scenarios where a temporal order present in the data instances is to be respected. | 翻訳日:2023-08-15 19:42:06 公開日:2023-08-13 |
# 時系列予測における良質なコントラスト学習とは何か What Constitutes Good Contrastive Learning in Time-Series Forecasting? ( http://arxiv.org/abs/2306.12086v2 ) ライセンス: Link先を確認 | Chiyu Zhang, Qi Yan, Lili Meng, Tristan Sylvain | (参考訳) 近年,自己教師付きコントラスト学習(SSCL)の導入により,自然言語処理やコンピュータビジョンなど,様々な領域での表現学習が著しく改善されている。
自己スーパービジョンの固有の利点を活用することで、ssclは膨大な量のラベルなしデータを使用して表現モデルの事前トレーニングを可能にする。
これらの進歩にもかかわらず、SSCLがもたらす具体的なメリットだけでなく、時系列予測のパフォーマンスに対する様々なSSCL戦略の影響を理解する上で、大きなギャップがある。
本稿では,SSCLアルゴリズム,学習戦略,モデルアーキテクチャ,それらの相互作用など,様々な学習変数の有効性を包括的に分析することにより,これらのギャップに対処することを目的とする。
さらに,SSCLによる時系列予測における改善についてより深い知見を得るため,経験的受容領域の質的分析を行った。
実験により,平均二乗誤差(MSE)損失とSSCLを用いたトランスフォーマーモデルのエンドツーエンドトレーニングが時系列予測において最も効果的なアプローチとして現れることを示した。
特に、対照的な目的を組み込むことで、モデルがスケールや周期的な関係のような予測のためのより適切な情報を優先順位付けすることができる。
これらの知見は,時系列予測におけるSSCLのメリットの理解に寄与し,今後の研究に有用な知見を提供する。
私たちのコードはhttps://github.com/chiyuzhang94/contrastive_learning_time-series_e2eで利用可能です。 In recent years, the introduction of self-supervised contrastive learning (SSCL) has demonstrated remarkable improvements in representation learning across various domains, including natural language processing and computer vision. By leveraging the inherent benefits of self-supervision, SSCL enables the pre-training of representation models using vast amounts of unlabeled data. Despite these advances, there remains a significant gap in understanding the impact of different SSCL strategies on time series forecasting performance, as well as the specific benefits that SSCL can bring. This paper aims to address these gaps by conducting a comprehensive analysis of the effectiveness of various training variables, including different SSCL algorithms, learning strategies, model architectures, and their interplay. Additionally, to gain deeper insights into the improvements brought about by SSCL in the context of time-series forecasting, a qualitative analysis of the empirical receptive field is performed. Through our experiments, we demonstrate that the end-to-end training of a Transformer model using the Mean Squared Error (MSE) loss and SSCL emerges as the most effective approach in time series forecasting. Notably, the incorporation of the contrastive objective enables the model to prioritize more pertinent information for forecasting, such as scale and periodic relationships. These findings contribute to a better understanding of the benefits of SSCL in time series forecasting and provide valuable insights for future research in this area. Our codes are available at https://github.com/chiyuzhang94/contrastive_learning_time-series_e2e. | 翻訳日:2023-08-15 19:32:56 公開日:2023-08-13 |
# 視覚認識のための動的知覚器 Dynamic Perceiver for Efficient Visual Recognition ( http://arxiv.org/abs/2306.11248v2 ) ライセンス: Link先を確認 | Yizeng Han, Dongchen Han, Zeyu Liu, Yulin Wang, Xuran Pan, Yifan Pu, Chao Deng, Junlan Feng, Shiji Song, Gao Huang | (参考訳) 早期離脱は、ディープネットワークの推論効率を改善するための有望なアプローチとなっている。
複数の分類器(exit)でモデルを構築することで、以前の出口で ``easy'' サンプルの予測が生成され、より深い層の実行の必要性が否定される。
現在のマルチエクイットネットワークは、一般的に中間層で線形分類器を実装し、低レベルな特徴に高レベルのセマンティクスをカプセル化する。
この準最適設計は、しばしば後の出口の性能を損なう。
本稿では,特徴抽出手順と初期分類タスクを,新しいデュアルブランチアーキテクチャで分離する動的パーシーバ(Dyn-Perceiver)を提案する。
機能ブランチは画像の特徴を抽出するのに役立ち、分類ブランチは分類タスクに割り当てられた潜在コードを処理する。
双方向のクロスアテンション層が確立され、両ブランチの情報を段階的に融合させる。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
dyn-perceiverは多様なアーキテクチャ上に構築可能な多用途で適応可能なフレームワークである。
画像分類,行動認識,物体検出実験により,提案手法は様々なバックボーンの推論効率を大幅に向上し,幅広い計算予算において多くの競争的アプローチを上回った。
CPUとGPUプラットフォームの評価は、Dyn-Perceiverの優れた実用効率を裏付けるものである。
コードはhttps://www.github.com/leaplabthu/dynamic_perceiverで入手できる。 Early exiting has become a promising approach to improving the inference efficiency of deep networks. By structuring models with multiple classifiers (exits), predictions for ``easy'' samples can be generated at earlier exits, negating the need for executing deeper layers. Current multi-exit networks typically implement linear classifiers at intermediate layers, compelling low-level features to encapsulate high-level semantics. This sub-optimal design invariably undermines the performance of later exits. In this paper, we propose Dynamic Perceiver (Dyn-Perceiver) to decouple the feature extraction procedure and the early classification task with a novel dual-branch architecture. A feature branch serves to extract image features, while a classification branch processes a latent code assigned for classification tasks. Bi-directional cross-attention layers are established to progressively fuse the information of both branches. Early exits are placed exclusively within the classification branch, thus eliminating the need for linear separability in low-level features. Dyn-Perceiver constitutes a versatile and adaptable framework that can be built upon various architectures. Experiments on image classification, action recognition, and object detection demonstrate that our method significantly improves the inference efficiency of different backbones, outperforming numerous competitive approaches across a broad range of computational budgets. Evaluation on both CPU and GPU platforms substantiate the superior practical efficiency of Dyn-Perceiver. Code is available at https://www.github.com/LeapLabTHU/Dynamic_Perceiver. | 翻訳日:2023-08-15 19:32:09 公開日:2023-08-13 |
# MMBench: マルチモーダルモデルはオールアラウンドプレイヤーか? MMBench: Is Your Multi-modal Model an All-around Player? ( http://arxiv.org/abs/2307.06281v3 ) ライセンス: Link先を確認 | Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin | (参考訳) 大規模視覚言語モデルは近年顕著な進歩を遂げており、視覚情報に関する認識と推論能力を示している。
しかし、これらの大きな視覚言語モデルをどのように効果的に評価するかは大きな障害であり、将来のモデル開発を妨げる。
VQAv2やCOCO Captionのような従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非ロバスト評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
これらの課題に対応するために,新しいマルチモーダリティベンチマークMMBenchを提案する。
MMBenchは、主に2つの要素からなる包括的な評価パイプラインを方法論的に開発する。
第1の要素は厳密にキュレートされたデータセットで、既存の類似ベンチマークを、さまざまな評価質問や能力で上回る。
第2の要素は、新しいCircularEval戦略を導入し、ChatGPTの使用を取り入れている。
この実装は、フリーフォーム予測を事前定義された選択に変換するように設計されているので、モデルの予測をより堅牢な評価が容易になる。
mmbenchは視覚言語モデルの様々な能力を堅牢に評価するための体系的に設計された客観的ベンチマークである。
mmbenchが研究コミュニティのモデルの評価を改善し、この分野の今後の進歩を促進することを願っている。
プロジェクトページ: https://opencompass.org.cn/mmbench Large vision-language models have recently achieved remarkable progress, exhibiting great perception and reasoning abilities concerning visual information. However, how to effectively evaluate these large vision-language models remains a major obstacle, hindering future model development. Traditional benchmarks like VQAv2 or COCO Caption provide quantitative performance measurements but suffer from a lack of fine-grained ability assessment and non-robust evaluation metrics. Recent subjective benchmarks, such as OwlEval, offer comprehensive evaluations of a model's abilities by incorporating human labor, but they are not scalable and display significant bias. In response to these challenges, we propose MMBench, a novel multi-modality benchmark. MMBench methodically develops a comprehensive evaluation pipeline, primarily comprised of two elements. The first element is a meticulously curated dataset that surpasses existing similar benchmarks in terms of the number and variety of evaluation questions and abilities. The second element introduces a novel CircularEval strategy and incorporates the use of ChatGPT. This implementation is designed to convert free-form predictions into pre-defined choices, thereby facilitating a more robust evaluation of the model's predictions. MMBench is a systematically-designed objective benchmark for robustly evaluating the various abilities of vision-language models. We hope MMBench will assist the research community in better evaluating their models and encourage future advancements in this domain. Project page: https://opencompass.org.cn/mmbench. | 翻訳日:2023-08-15 19:22:35 公開日:2023-08-13 |
# nexus sine qua non: トラフィック予測のための接続ネットワーク Nexus sine qua non: Essentially Connected Networks for Traffic Forecasting ( http://arxiv.org/abs/2307.01482v4 ) ライセンス: Link先を確認 | Tong Nie, Guoyang Qin, Lijun Sun, Yunpeng Wang, Jian Sun | (参考訳) 時空間グラフニューラルネットワーク(STGNN)は、トポロジと相関構造に基づくトラフィックデータセットの表現と予測を学習するための主要なアプローチとして登場した。
しかし、現在のSTGNNは複雑な複雑な手法を使ってこれらの構造を捉えるため、理解とスケールが難しい。
シンプルで効率的なアーキテクチャの存在は、まだ未解決の問題である。
より詳しく調べると、STGNNの表現の中核にあるものが時空間化の特定の形態であることがわかった。
そこで我々は,Nexus sine qua non (NexuSQN) を設計した。
NexuSQNは、上記のコンテキスト化のための学習可能な"where"と"when"ロケータを使い、RNN、トランスフォーマー、拡散畳み込みなどの複雑なコンポーネントを省略する。
NexuSQNは、サイズ、計算効率、精度の点で複雑な設計のベンチマークより優れていることを示す。
これは、単純で効率的な神経予測器を開発する有望な未来を示唆する。 Spatiotemporal graph neural networks (STGNNs) have emerged as a leading approach for learning representations and forecasting on traffic datasets with underlying topological and correlational structures. However, current STGNNs use intricate techniques with high complexities to capture these structures, making them difficult to understand and scale. The existence of simple yet efficient architectures remains an open question. Upon closer examination, we find what lies at the core of STGNN's representations are certain forms of spatiotemporal contextualization. In light of this, we design Nexus sine qua non (NexuSQN), an essentially connected network built on an efficient message-passing backbone. NexuSQN simply uses learnable "where" and "when" locators for the aforementioned contextualization and omits any intricate components such as RNNs, Transformers, and diffusion convolutions. Results show that NexuSQN outperforms intricately designed benchmarks in terms of size, computational efficiency, and accuracy. This suggests a promising future for developing simple yet efficient neural predictors. | 翻訳日:2023-08-15 19:21:46 公開日:2023-08-13 |
# AlignDet: オブジェクト検出における事前トレーニングと微調整の調整 AlignDet: Aligning Pre-training and Fine-tuning in Object Detection ( http://arxiv.org/abs/2307.11077v2 ) ライセンス: Link先を確認 | Ming Li, Jie Wu, Xionghui Wang, Chen Chen, Jie Qin, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan | (参考訳) 大規模事前学習のパラダイムと下流の微調整は様々な物体検出アルゴリズムで広く採用されている。
本稿では,既存の手法における事前学習手順と微調整手順との間に,検出器の性能,一般化能力,収束速度を暗黙的に制限する,データ,モデル,タスクの差異を明らかにする。
この目的のために、我々は、様々な既存の検出器に適応可能な統合事前学習フレームワークであるAlignDetを提案する。
AlignDetは事前トレーニングプロセスを、イメージドメインとボックスドメイン事前トレーニングの2つのステージに分離する。
イメージドメイン事前トレーニングは検出バックボーンを最適化し、総合的な視覚的抽象化をキャプチャし、ボックスドメイン事前トレーニングはインスタンスレベルのセマンティクスとタスクアウェアの概念を学習し、バックボーンから部品を初期化する。
自己教師付きバックボーンを組み込むことで、様々な検出器のための全てのモジュールを教師なしパラダイムで事前訓練することができる。
図1に示すように、allendetが検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコルで大幅に改善できることが、広範な実験で示されています。
例えば、AlignDetはFCOSを5.3mAPで改善し、RetinaNetを2.1mAPで、R-CNNを3.3mAPで、DETRを2.3mAPで改善した。 The paradigm of large-scale pre-training followed by downstream fine-tuning has been widely employed in various object detection algorithms. In this paper, we reveal discrepancies in data, model, and task between the pre-training and fine-tuning procedure in existing practices, which implicitly limit the detector's performance, generalization ability, and convergence speed. To this end, we propose AlignDet, a unified pre-training framework that can be adapted to various existing detectors to alleviate the discrepancies. AlignDet decouples the pre-training process into two stages, i.e., image-domain and box-domain pre-training. The image-domain pre-training optimizes the detection backbone to capture holistic visual abstraction, and box-domain pre-training learns instance-level semantics and task-aware concepts to initialize the parts out of the backbone. By incorporating the self-supervised pre-trained backbones, we can pre-train all modules for various detectors in an unsupervised paradigm. As depicted in Figure 1, extensive experiments demonstrate that AlignDet can achieve significant improvements across diverse protocols, such as detection algorithm, model backbone, data setting, and training schedule. For example, AlignDet improves FCOS by 5.3 mAP, RetinaNet by 2.1 mAP, Faster R-CNN by 3.3 mAP, and DETR by 2.3 mAP under fewer epochs. | 翻訳日:2023-08-15 19:14:56 公開日:2023-08-13 |
# CaRT:マルチエージェントシステムのための学習型運動計画における安全保証とロバスト追跡 CaRT: Certified Safety and Robust Tracking in Learning-based Motion Planning for Multi-Agent Systems ( http://arxiv.org/abs/2307.08602v2 ) ライセンス: Link先を確認 | Hiroyasu Tsukamoto and Benjamin Rivi\`ere and Changrak Choi and Amir Rahmani and Soon-Jo Chung | (参考訳) 分析手法であるcartの重要なイノベーションは、与えられた学習に基づくモーションプランニングポリシの安全性と堅牢性を保証するために、新しい階層的分散アーキテクチャを確立することです。
まず、名目上、我々のCaRT安全フィルタの分析形式は、学習ベースのポリシーから最小限の偏差で、非線形マルチエージェントシステムの安全な操作を正式に保証する。
第2に,オフノミナル環境では,cartロバストフィルタの解析形式が,先行層であるcartsafeフィルタによって生成された安全軌道を最適に追跡する。
本稿では,CaRTが軌道追従誤差の安全性と指数的有界性を保証することを,決定論的および確率的乱れの存在下においても,収縮理論を用いて示す。
また、cartの階層的な性質により、認証された安全軌道への優れた追跡によって安全性の堅牢性が向上し、大きな外乱を伴うオフノミナルシナリオに適している。
これは従来の安全機能駆動のアプローチとの大きな違いであり、ロバスト性は安全セットの安定性に起因し、安全セットの内部に過保守的にシステムを引き込むことができる。
当社のCaRTにおけるログバリアの定式化は,マルチエージェント設定での分散実装を可能にします。
本稿では, 非線形動作計画と制御問題のいくつかの例において, CaRTの有効性を実証する。 The key innovation of our analytical method, CaRT, lies in establishing a new hierarchical, distributed architecture to guarantee the safety and robustness of a given learning-based motion planning policy. First, in a nominal setting, the analytical form of our CaRT safety filter formally ensures safe maneuvers of nonlinear multi-agent systems, optimally with minimal deviation from the learning-based policy. Second, in off-nominal settings, the analytical form of our CaRT robust filter optimally tracks the certified safe trajectory, generated by the previous layer in the hierarchy, the CaRT safety filter. We show using contraction theory that CaRT guarantees safety and the exponential boundedness of the trajectory tracking error, even under the presence of deterministic and stochastic disturbance. Also, the hierarchical nature of CaRT enables enhancing its robustness for safety just by its superior tracking to the certified safe trajectory, thereby making it suitable for off-nominal scenarios with large disturbances. This is a major distinction from conventional safety function-driven approaches, where the robustness originates from the stability of a safe set, which could pull the system over-conservatively to the interior of the safe set. Our log-barrier formulation in CaRT allows for its distributed implementation in multi-agent settings. We demonstrate the effectiveness of CaRT in several examples of nonlinear motion planning and control problems, including optimal, multi-spacecraft reconfiguration. | 翻訳日:2023-08-15 19:13:52 公開日:2023-08-13 |
# SVDFormer: セルフビュー拡張と自己構造デュアルジェネレータによるポイントクラウドの補完 SVDFormer: Complementing Point Cloud via Self-view Augmentation and Self-structure Dual-generator ( http://arxiv.org/abs/2307.08492v2 ) ライセンス: Link先を確認 | Zhe Zhu, Honghua Chen, Xing He, Weiming Wang, Jing Qin, Mingqiang Wei | (参考訳) 本稿では,不完全点雲からの忠実なグローバルな形状の理解と高精度な局所構造の生成という,ポイントクラウド完成における2つの課題に対処する新しいネットワークSVDFormerを提案する。
現在の方法では、3次元座標のみを用いて形状パターンを知覚するか、不在部分の幾何推定を導くために、よく校正された固有パラメータで余分なイメージをインポートする。
しかし、これらのアプローチは必ずしも、正確で高品質なクラウド完備化のために利用可能なクロスモーダルな自己構造を完全に活用するとは限らない。
そこで我々はまず,複数視点深度画像情報を利用して不完全な自己形状を観察し,コンパクトな大域的な形状を生成するセルフビュー融合ネットワークを設計する。
高精細な構造を明らかにするために、我々は、学習された形状の事前と幾何学的自己相似性を組み込んで新しい点を作り出す自己構造双生成子と呼ばれる精細モジュールを導入する。
各点の不完全性を知覚することにより、二重パス設計は各点の構造型に規定された洗練戦略を歪曲する。
svdformerは自己構造に関する知恵を吸収し、カメラ固有のパラメータを精密に調整したカラー画像などの追加情報を避ける。
包括的実験により,本手法は広く使用されているベンチマークにおいて最先端の性能を実現することを示す。
コードはhttps://github.com/czvvd/svdformerで入手できる。 In this paper, we propose a novel network, SVDFormer, to tackle two specific challenges in point cloud completion: understanding faithful global shapes from incomplete point clouds and generating high-accuracy local structures. Current methods either perceive shape patterns using only 3D coordinates or import extra images with well-calibrated intrinsic parameters to guide the geometry estimation of the missing parts. However, these approaches do not always fully leverage the cross-modal self-structures available for accurate and high-quality point cloud completion. To this end, we first design a Self-view Fusion Network that leverages multiple-view depth image information to observe incomplete self-shape and generate a compact global shape. To reveal highly detailed structures, we then introduce a refinement module, called Self-structure Dual-generator, in which we incorporate learned shape priors and geometric self-similarities for producing new points. By perceiving the incompleteness of each point, the dual-path design disentangles refinement strategies conditioned on the structural type of each point. SVDFormer absorbs the wisdom of self-structures, avoiding any additional paired information such as color images with precisely calibrated camera intrinsic parameters. Comprehensive experiments indicate that our method achieves state-of-the-art performance on widely-used benchmarks. Code will be available at https://github.com/czvvd/SVDFormer. | 翻訳日:2023-08-15 19:13:03 公開日:2023-08-13 |
# 超大規模データセットに対するブロックベーススパース行列圧縮による分散バンドル調整 Distributed bundle adjustment with block-based sparse matrix compression for super large scale datasets ( http://arxiv.org/abs/2307.08383v2 ) ライセンス: Link先を確認 | Maoteng Zheng, Nengcheng Chen, Junfeng Zhu, Xiaoru Zeng, Huanbin Qiu, Yuyao Jiang, Xingyue Lu, Hao Qu | (参考訳) 超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。
既存のメソッドのほとんどはグローバルマップを小さなマップに分割し、サブマップでバンドル調整を行います。
並列フレームワークに適合するために、彼らはlmアルゴリズムの代わりに近似解を用いる。
しかし、これらの手法はしばしば準最適結果を与える。
それらと異なり、我々は正確なLMアルゴリズムを用いて、縮小カメラシステム(RCS)の形成が実際に並列化され、分散的に実行されるグローバルバンドル調整を行う。
大規模RCSを格納するために、ブロックベースのスパース行列圧縮フォーマット(BSMC)で圧縮し、ブロック機能を完全に活用する。
BSMCフォーマットは、グローバルRCSの分散ストレージと更新を可能にする。
提案手法は合成データと実データの両方を用いて,最先端パイプラインと比較評価を行った。
予備的な結果は,提案手法のメモリ使用率と拡張性について,ベースラインと比較した。
本研究では,118万画像と1000万画像(最先端のLMベースBAの約500倍)の合成データセットを分散コンピューティングシステム上で実データセット上で,LMアルゴリズムを用いた並列バンドル調整を行った。 We propose a distributed bundle adjustment (DBA) method using the exact Levenberg-Marquardt (LM) algorithm for super large-scale datasets. Most of the existing methods partition the global map to small ones and conduct bundle adjustment in the submaps. In order to fit the parallel framework, they use approximate solutions instead of the LM algorithm. However, those methods often give sub-optimal results. Different from them, we utilize the exact LM algorithm to conduct global bundle adjustment where the formation of the reduced camera system (RCS) is actually parallelized and executed in a distributed way. To store the large RCS, we compress it with a block-based sparse matrix compression format (BSMC), which fully exploits its block feature. The BSMC format also enables the distributed storage and updating of the global RCS. The proposed method is extensively evaluated and compared with the state-of-the-art pipelines using both synthetic and real datasets. Preliminary results demonstrate the efficient memory usage and vast scalability of the proposed method compared with the baselines. For the first time, we conducted parallel bundle adjustment using LM algorithm on a real datasets with 1.18 million images and a synthetic dataset with 10 million images (about 500 times that of the state-of-the-art LM-based BA) on a distributed computing system. | 翻訳日:2023-08-15 19:12:40 公開日:2023-08-13 |
# 2次元スパルス心磁気共鳴画像からの2次元心筋形状再構成とモデリングのためのニューラルデフォルマブルモデル Neural Deformable Models for 3D Bi-Ventricular Heart Shape Reconstruction and Modeling from 2D Sparse Cardiac Magnetic Resonance Imaging ( http://arxiv.org/abs/2307.07693v2 ) ライセンス: Link先を確認 | Meng Ye, Dong Yang, Mikael Kanski, Leon Axel, Dimitris Metaxas | (参考訳) 2d sparse heart magnetic resonance (cmr) 画像データから心臓の3次元心室形状の再構成とモデリングを目標とした新しい神経変形モデル(ndm)を提案する。
両心室形状を混合変形可能なスーパークワッドリックを用いてモデル化し, パラメータ関数の集合によってパラメータ化され, グローバルかつ局所的に変形することができる。
大域的幾何パラメータ関数と変形は視覚データから全体形状の特徴を捉えるが、局所的変形は神経二相性点流としてパラメータ化され、詳細な心臓形状を回復するために学習することができる。従来の変形可能なモデル定式化で使われる反復的最適化法とは異なり、ndmsはそのような幾何学的パラメータ関数、大域的および局所的な変形を形状分布多様体から学ぶように訓練することができる。
我々のNDMは、任意のスケールで疎い心点雲を密度化し、高品質な三角メッシュを自動的に生成することを学ぶことができる。
また、異なる心臓形状のインスタンス間の密接な対応を暗黙的に学習し、正確な心臓形状の登録を可能にする。
さらに、NDMのパラメータは直感的であり、高度な後処理なしで医師が使用することができる。
大規模cmrデータセットにおける実験結果から,従来の手法に比べてndmの性能が向上した。 We propose a novel neural deformable model (NDM) targeting at the reconstruction and modeling of 3D bi-ventricular shape of the heart from 2D sparse cardiac magnetic resonance (CMR) imaging data. We model the bi-ventricular shape using blended deformable superquadrics, which are parameterized by a set of geometric parameter functions and are capable of deforming globally and locally. While global geometric parameter functions and deformations capture gross shape features from visual data, local deformations, parameterized as neural diffeomorphic point flows, can be learned to recover the detailed heart shape.Different from iterative optimization methods used in conventional deformable model formulations, NDMs can be trained to learn such geometric parameter functions, global and local deformations from a shape distribution manifold. Our NDM can learn to densify a sparse cardiac point cloud with arbitrary scales and generate high-quality triangular meshes automatically. It also enables the implicit learning of dense correspondences among different heart shape instances for accurate cardiac shape registration. Furthermore, the parameters of NDM are intuitive, and can be used by a physician without sophisticated post-processing. Experimental results on a large CMR dataset demonstrate the improved performance of NDM over conventional methods. | 翻訳日:2023-08-15 19:11:46 公開日:2023-08-13 |
# 一般マルチウェイ比較に基づくスペクトルランキング推定 Spectral Ranking Inferences based on General Multiway Comparisons ( http://arxiv.org/abs/2308.02918v2 ) ライセンス: Link先を確認 | Jianqing Fan, Zhipeng Lou, Weichen Wang, Mengxin Yu | (参考訳) 本稿では,比較グラフが不均質な大きさの超エッジと与えられた超エッジとで構成される非常に一般的かつ現実的な構成において,比較対象の観測されていない選好スコアの推定と不確かさの定量化におけるスペクトル法の性能について検討する。
このような設定は、実アプリケーションでは広く行き渡っており、グラフのランダム性や、一般的に使用されるブラッドリー・テリー・ルース(btl)やプラケット・ルース(pl)モデルに課される制限的な均質なサンプリング仮定を回避している。
さらに,BTLモデルやPLモデルが適切である場合,スペクトル推定器とMLE(Maximum Likelihood Estimator)の関係を明らかにする。
等重化バニラスペクトル法から推定される最適重み付けを2段階のスペクトル法で適用することで,MLEと同じ漸近効率が得られることがわかった。
推定された選好スコアの漸近分布を考えると、固定グラフとランダムグラフの設定の両方に適用可能な1サンプルと2サンプルの両方のランク付けを行うための包括的なフレームワークも導入する。
有効な2サンプルランク試験法が提案されたのはこれが初めてである。
最後に,本研究の成果を総合的な数値シミュレーションにより検証し,その後,統計雑誌や映画ランキングの統計的推測に応用した。 This paper studies the performance of the spectral method in the estimation and uncertainty quantification of the unobserved preference scores of compared entities in a very general and more realistic setup in which the comparison graph consists of hyper-edges of possible heterogeneous sizes and the number of comparisons can be as low as one for a given hyper-edge. Such a setting is pervasive in real applications, circumventing the need to specify the graph randomness and the restrictive homogeneous sampling assumption imposed in the commonly-used Bradley-Terry-Luce (BTL) or Plackett-Luce (PL) models. Furthermore, in the scenarios when the BTL or PL models are appropriate, we unravel the relationship between the spectral estimator and the Maximum Likelihood Estimator (MLE). We discover that a two-step spectral method, where we apply the optimal weighting estimated from the equal weighting vanilla spectral method, can achieve the same asymptotic efficiency as the MLE. Given the asymptotic distributions of the estimated preference scores, we also introduce a comprehensive framework to carry out both one-sample and two-sample ranking inferences, applicable to both fixed and random graph settings. It is noteworthy that it is the first time effective two-sample rank testing methods are proposed. Finally, we substantiate our findings via comprehensive numerical simulations and subsequently apply our developed methodologies to perform statistical inferences on statistics journals and movie rankings. | 翻訳日:2023-08-15 18:42:31 公開日:2023-08-13 |
# 持続可能な開発指向型キャンパス自転車共有サイト評価モデル:ヘナン工科大学を事例として Sustainable development-oriented campus bike-sharing site evaluation model: A case study of Henan Polytechnic University ( http://arxiv.org/abs/2308.04454v2 ) ライセンス: Link先を確認 | Huimin Qi, Xianghong Li, Kai Yin, Xiangnan Song, Xufei Fang | (参考訳) 持続可能な輸送手段の推進は、環境にやさしく効率的なキャンパス移動システムの追求においてますます重要になっている。
これらの選択肢の中で、自転車共有プログラムは交通渋滞を緩和し、二酸化炭素排出量を削減し、キャンパス全体の持続可能性を高める能力にかなりの注意を払っている。
しかし、自転車共有サイトの不適切な選択は、無秩序な駐車や自転車共有の無差別な配置など、キャンパスにおける持続不可能な慣行の問題を増大させている。
そこで本研究では,改良型Delphiとファジィ総合評価手法を統合した,持続可能な開発指向型自転車共有サイト評価モデルを提案する。
14の評価指標をまず4次元から選択し, 専門家経験とデルファイ法の改良により, パーキングスポットのユーザ特性, 利用特性, 環境持続可能性, 社会持続可能性について検討した。
次に, 分析階層法とエントロピー重み法を用いて, 評価指標の重み付けを決定し, 頑健で客観的な評価枠組みを確立する。
最後に, ファジィ包括的評価手法を実装し, 位置選択の質評価を行った。
提案する評価システムを用いたケーススタディとして,河南工科大学南キャンパスを選定した。
本研究は, 持続可能な開発原理に基づいて, キャンパス自転車共有のための総合的位置選択評価システムを提案することによって, 既存の知識体系に寄与する。 Promoting sustainable transportation options is increasingly crucial in the pursuit of environmentally friendly and efficient campus mobility systems. Among these options, bike-sharing programs have garnered substantial attention for their capacity to mitigate traffic congestion, decrease carbon emissions, and enhance overall campus sustainability. However, improper selection of bike-sharing sites has led to the growing problems of unsustainable practices in campus, including the disorderly parking and indiscriminate placement of bike-sharing. To this end, this paper proposes a novel sustainable development-oriented campus bike-sharing site evaluation model integrating the improved Delphi and fuzzy comprehensive evaluation approaches. Fourteen evaluation metrics are firstly selected from four dimensions: the user features, implementation and usage characteristics of parking spots, environmental sustainability, and social sustainability, through the combination of expert experience and the improved Delphi method. Then, the analytic hierarchy process and the entropy weight method are employed to determine the weights of the evaluation indices, ensuring a robust and objective assessment framework. The fuzzy comprehensive evaluation method is finally implemented to evaluate the quality of location selection. South Campus of Henan Polytechnic University is selected as a case study using the proposed evaluation system. This work contributes to the existing body of knowledge by presenting a comprehensive location selection evaluation system for campus bike-sharing, informed by the principles of sustainable development. | 翻訳日:2023-08-15 18:34:25 公開日:2023-08-13 |
# Coarse-to-Fine Lexicon-based RetrieverによるFew-shotおよびZero-shotエンティティリンクの改善 Improving Few-shot and Zero-shot Entity Linking with Coarse-to-Fine Lexicon-based Retriever ( http://arxiv.org/abs/2308.03365v2 ) ライセンス: Link先を確認 | Shijue Huang, Bingbing Wang, Libo Qin, Qin Zhao and Ruifeng Xu | (参考訳) 短いショットとゼロショットのエンティティリンクは、より難しいが現実のシナリオに近い、テールと新興エンティティに焦点を当てている。
主流の方法は'retrieve and rerank'の二段階フレームワークである。
本稿では,2つの層で機能するエンティティ候補を効果的に検索する,粗大なレキシコンベース検索手法を提案する。
第1の層はエンティティ名を利用して粗粒度候補を検索し、第2の層は粗粒度候補を絞り込む。
さらに、この第2層はエンティティ記述を利用して、既存の人気エンティティと名前を共有するテールまたは新しいエンティティを効果的に曖昧にします。
実験の結果,検索段階において広範囲な微調整を必要とせず,優れた性能を得ることができた。
特に,nlpcc 2023の共有タスク6では,中国のマイナショットとゼロショットのエンティティリンクで第1位にランク付けした。 Few-shot and zero-shot entity linking focus on the tail and emerging entities, which are more challenging but closer to real-world scenarios. The mainstream method is the ''retrieve and rerank'' two-stage framework. In this paper, we propose a coarse-to-fine lexicon-based retriever to retrieve entity candidates in an effective manner, which operates in two layers. The first layer retrieves coarse-grained candidates by leveraging entity names, while the second layer narrows down the search to fine-grained candidates within the coarse-grained ones. In addition, this second layer utilizes entity descriptions to effectively disambiguate tail or new entities that share names with existing popular entities. Experimental results indicate that our approach can obtain superior performance without requiring extensive finetuning in the retrieval stage. Notably, our approach ranks the 1st in NLPCC 2023 Shared Task 6 on Chinese Few-shot and Zero-shot Entity Linking. | 翻訳日:2023-08-15 18:31:58 公開日:2023-08-13 |
# Kairos: 全システム前処理を用いた実用的な侵入検知と調査 Kairos: Practical Intrusion Detection and Investigation using Whole-system Provenance ( http://arxiv.org/abs/2308.05034v2 ) ライセンス: Link先を確認 | Zijun Cheng, Qiujian Lv, Jinyuan Liang, Yan Wang, Degang Sun, Thomas Pasquier, Xueyuan Han | (参考訳) 警告グラフは、システムの実行履歴を記述した構造化監査ログである。
最近の研究では、ホスト侵入検出のためのプロヴァンスグラフを分析する様々な手法が研究され、特に高度な永続的脅威に焦点を当てている。
Sifting through their design documents, we identify four common dimensions that drive the development of provenance-based intrusion detection systems (PIDSes): scope (can PIDSes detect modern attacks that infiltrate across application boundaries?), attack agnosticity (can PIDSes detect novel attacks without a priori knowledge of attack characteristics?), timeliness (can PIDSes efficiently monitor host systems as they run?), and attack reconstruction (can PIDSes distill attack activity from large provenance graphs so that sysadmins can easily understand and quickly respond to system intrusion?).
KAIROSは4次元すべてでデシラタを同時に満足させる最初のPIDSであるが、既存のアプローチでは少なくとも1つを犠牲にして、同等な検出性能を達成するのに苦労している。
Kairosは、新しいグラフニューラルネットワークベースのエンコーダ-デコーダアーキテクチャを活用し、前兆グラフの構造変化の時間的進化を学び、各システムイベントの異常度を定量化する。
そして、この詳細な情報に基づいて攻撃フットプリントを再構築し、システム監査ログのストリーム上で悪意のあるアクティビティを正確に記述するコンパクトな要約グラフを生成する。
最先端のベンチマークデータセットを使用して、Kairosが従来のアプローチより優れていることを示す。 Provenance graphs are structured audit logs that describe the history of a system's execution. Recent studies have explored a variety of techniques to analyze provenance graphs for automated host intrusion detection, focusing particularly on advanced persistent threats. Sifting through their design documents, we identify four common dimensions that drive the development of provenance-based intrusion detection systems (PIDSes): scope (can PIDSes detect modern attacks that infiltrate across application boundaries?), attack agnosticity (can PIDSes detect novel attacks without a priori knowledge of attack characteristics?), timeliness (can PIDSes efficiently monitor host systems as they run?), and attack reconstruction (can PIDSes distill attack activity from large provenance graphs so that sysadmins can easily understand and quickly respond to system intrusion?). We present KAIROS, the first PIDS that simultaneously satisfies the desiderata in all four dimensions, whereas existing approaches sacrifice at least one and struggle to achieve comparable detection performance. Kairos leverages a novel graph neural network-based encoder-decoder architecture that learns the temporal evolution of a provenance graph's structural changes to quantify the degree of anomalousness for each system event. Then, based on this fine-grained information, Kairos reconstructs attack footprints, generating compact summary graphs that accurately describe malicious activity over a stream of system audit logs. Using state-of-the-art benchmark datasets, we demonstrate that Kairos outperforms previous approaches. | 翻訳日:2023-08-15 18:23:48 公開日:2023-08-13 |
# 粗大な自己スーパービジョンによるポリプセグメンテーションモデルの教師なし適応 Unsupervised Adaptation of Polyp Segmentation Models via Coarse-to-Fine Self-Supervision ( http://arxiv.org/abs/2308.06665v1 ) ライセンス: Link先を確認 | Jiexiang Wang, Chaoqi Chen | (参考訳) Unsupervised Domain Adaptation~(UDA)は、過去10年間に注目を集めてきたが、現実世界のアプリケーションでは利用できない。
本稿では,プライバシ保護問題とセキュリティ問題を考慮して,注釈付きソースデータに依存しないソースフリードメイン適応(sfda)の実用的問題について検討する。
現在のsfdaメソッドは、ソース訓練されたモデルからドメイン知識を抽出することに重点を置いているが、ターゲットドメインの本質的な構造は無視している。
さらに、彼らは通常、ターゲットドメインでの自己学習に擬似ラベルを使用するが、悪名高いエラー蓄積問題に悩まされる。
これらの問題に対処するため,我々は領域レベルと画素レベルの識別表現を粗大な自己スーパービジョンを通じて学習する領域間適応ネットワーク(RPANet)と呼ばれる新しいSFDAフレームワークを提案する。
提案した RPANet は,FCL (Foreground-aware Contrastive Learning) とCCPL (Confidence-Calibrated Pseudo-Labeling) の2つのモジュールから構成される。
具体的に言うと、FCLは領域レベルで教師付きコントラスト学習パラダイムを導入し、異なる領域セントロイドを異なるターゲット画像間で対比する。
ccplは、追加のネットワークモジュールを導入することなく、2つの異なるターゲット予測を融合することにより、疑似ラベルの過剰信頼問題を解決する新しい融合戦略を設計する。
3つのクロスドメインポリープセグメンテーションタスクに対する大規模な実験により、RPANetはソースデータにアクセスせずに最先端のSFDAおよびUDAメソッドを著しく上回り、医学応用におけるSFDAの可能性を明らかにする。 Unsupervised Domain Adaptation~(UDA) has attracted a surge of interest over the past decade but is difficult to be used in real-world applications. Considering the privacy-preservation issues and security concerns, in this work, we study a practical problem of Source-Free Domain Adaptation (SFDA), which eliminates the reliance on annotated source data. Current SFDA methods focus on extracting domain knowledge from the source-trained model but neglects the intrinsic structure of the target domain. Moreover, they typically utilize pseudo labels for self-training in the target domain, but suffer from the notorious error accumulation problem. To address these issues, we propose a new SFDA framework, called Region-to-Pixel Adaptation Network~(RPANet), which learns the region-level and pixel-level discriminative representations through coarse-to-fine self-supervision. The proposed RPANet consists of two modules, Foreground-aware Contrastive Learning (FCL) and Confidence-Calibrated Pseudo-Labeling (CCPL), which explicitly address the key challenges of ``how to distinguish'' and ``how to refine''. To be specific, FCL introduces a supervised contrastive learning paradigm in the region level to contrast different region centroids across different target images, which efficiently involves all pseudo labels while robust to noisy samples. CCPL designs a novel fusion strategy to reduce the overconfidence problem of pseudo labels by fusing two different target predictions without introducing any additional network modules. Extensive experiments on three cross-domain polyp segmentation tasks reveal that RPANet significantly outperforms state-of-the-art SFDA and UDA methods without access to source data, revealing the potential of SFDA in medical applications. | 翻訳日:2023-08-15 16:16:05 公開日:2023-08-13 |
# ディックモデルに基づく普遍量子オットー熱機械 Universal quantum Otto heat machine based on the Dicke model ( http://arxiv.org/abs/2308.06664v1 ) ライセンス: Link先を確認 | He-Guang Xu, Jiasen Jin, G.D.M. Neto and Norton G. de Almeida | (参考訳) 本稿では、原子と磁場が貯水池と相互作用するボソニック場の単一モードにn個の同一の量子ビットからなる量子オットー熱機械について、いわゆるopen dickeモデルを用いて研究する。
モデルの関連する、実験的にアクセス可能なパラメータを制御することで、エンジン、冷蔵庫、ヒーター、加速器として機能するユニバーサル量子熱機械(uqhm)を構築できることが示される。
熱交換と熱交換は、原子の数Nの成長と、2つの熱貯水池の温度のいくつかの比率でディックモデルに特徴的な結合状態を考慮して計算される。
絡み合いや二階相関のような量子的特徴の分析は、これらの量子資源がオープンディックモデルに基づくUQHMの効率と性能に影響を与えないことを示している。
さらに、モデルの位相遷移パラメータの臨界値付近の領域において、UQHMの効率性と性能係数の改善が生じることを示す。 In this paper we study a quantum Otto thermal machine where the working substance is composed of N identical qubits coupled to a single mode of a bosonic field, where the atoms and the field interact with a reservoir, as described by the so-called open Dicke model. By controlling the relevant and experimentally accessible parameters of the model we show that it is possible to build a universal quantum heat machine (UQHM) that can function as an engine, refrigerator, heater or accelerator. The heat and work exchanges are computed taking into account the growth of the number N of atoms as well as the coupling regimes characteristic of the Dicke model for several ratios of temperatures of the two thermal reservoirs. The analysis of quantum features such as entanglement and second-order correlation shows that these quantum resources do not affect either the efficiency or the performance of the UQHM based on the open Dicke Model. In addition, we show that the improvement in both efficiency and coefficient of performance of our UQHM occurs for regions around the critical value of the phase transition parameter of the model. | 翻訳日:2023-08-15 16:15:25 公開日:2023-08-13 |
# ALGAN:調整LSTM GANによる時系列異常検出 ALGAN: Time Series Anomaly Detection with Adjusted-LSTM GAN ( http://arxiv.org/abs/2308.06663v1 ) ライセンス: Link先を確認 | Md Abul Bashar, Richi Nayak | (参考訳) 時系列データにおける異常検出は、通常の行動から逸脱する点を特定するために、製造、医用画像、サイバーセキュリティなどの様々な領域で一般的な問題である。
近年,GAN(Generative Adversarial Networks)は時系列データの異常検出に有効であることが示されている。
GAN(ジェネレータとディスクリミネータ)のニューラルネットワークアーキテクチャは異常検出精度を大幅に向上させることができる。
本稿では,ALGAN(Adjusted-LSTM GAN)と呼ばれる新しいGANモデルを提案する。LSTMネットワークの出力を調整し,教師なし環境での一変量および多変量時系列データの異常検出を改善する。
複数の領域にまたがる46個の実世界の単変量時系列データセットと大規模多変量データセット上でのALGANの性能を評価する。
実験の結果,ALGANは従来型,ニューラルネットワーク,その他のGANに基づく時系列データ異常検出法よりも優れていた。 Anomaly detection in time series data, to identify points that deviate from normal behaviour, is a common problem in various domains such as manufacturing, medical imaging, and cybersecurity. Recently, Generative Adversarial Networks (GANs) are shown to be effective in detecting anomalies in time series data. The neural network architecture of GANs (i.e. Generator and Discriminator) can significantly improve anomaly detection accuracy. In this paper, we propose a new GAN model, named Adjusted-LSTM GAN (ALGAN), which adjusts the output of an LSTM network for improved anomaly detection in both univariate and multivariate time series data in an unsupervised setting. We evaluate the performance of ALGAN on 46 real-world univariate time series datasets and a large multivariate dataset that spans multiple domains. Our experiments demonstrate that ALGAN outperforms traditional, neural network-based, and other GAN-based methods for anomaly detection in time series data. | 翻訳日:2023-08-15 16:15:10 公開日:2023-08-13 |
# 極性衝突グリッド:衝突チェックを用いた共有空間における歩行者軌道予測のための効果的な相互作用モデリング Polar Collision Grids: Effective Interaction Modelling for Pedestrian Trajectory Prediction in Shared Space Using Collision Checks ( http://arxiv.org/abs/2308.06654v1 ) ライセンス: Link先を確認 | Mahsa Golchoubian, Moojan Ghafurian, Kerstin Dautenhahn, Nasser Lashgarian Azad | (参考訳) 歩行者の軌道を予測することは、自動運転車の安全な航行、特に歩行者と共有する空間において重要な能力である。
共有空間における歩行者の動きは、車両や歩行者の存在の影響を受けている。
したがって、歩行者と歩行者の相互作用を効果的にモデル化することは、歩行者の軌道予測モデルの精度を高めることができる。
ディープラーニングモデルを用いた歩行者の予測軌道に対する相互作用エージェントの効果をエンコードする方法に関する膨大な文献にもかかわらず、相互作用エージェントの効果的な選択に限定された努力がなされている。
ほとんどの場合、使用される相互作用特徴は主に相対距離に基づいており、相互作用の定式化における速度と接近方向の影響にはあまり注意を払わない。
本稿では,衝突リスク計算に基づいて相互作用するエージェントを選択するヒューリスティックな手法を提案する。
対象歩行者と潜在的に衝突するエージェントの相互作用に着目し,相互作用効果を符号化する2つのエージェントの時間対衝突とアプローチ方向角の使用を提案する。
これは、新しい極性衝突グリッドマップを導入することによって行われる。
以上の結果から,HBSデータセット上の既存の手法(ベースラインとして使用される)と比較して,地上の真実に近い軌道が予測された。 Predicting pedestrians' trajectories is a crucial capability for autonomous vehicles' safe navigation, especially in spaces shared with pedestrians. Pedestrian motion in shared spaces is influenced by both the presence of vehicles and other pedestrians. Therefore, effectively modelling both pedestrian-pedestrian and pedestrian-vehicle interactions can increase the accuracy of the pedestrian trajectory prediction models. Despite the huge literature on ways to encode the effect of interacting agents on a pedestrian's predicted trajectory using deep-learning models, limited effort has been put into the effective selection of interacting agents. In the majority of cases, the interaction features used are mainly based on relative distances while paying less attention to the effect of the velocity and approaching direction in the interaction formulation. In this paper, we propose a heuristic-based process of selecting the interacting agents based on collision risk calculation. Focusing on interactions of potentially colliding agents with a target pedestrian, we propose the use of time-to-collision and the approach direction angle of two agents for encoding the interaction effect. This is done by introducing a novel polar collision grid map. Our results have shown predicted trajectories closer to the ground truth compared to existing methods (used as a baseline) on the HBS dataset. | 翻訳日:2023-08-15 16:14:52 公開日:2023-08-13 |
# SimMatchV2: グラフ一貫性による半教師付き学習 SimMatchV2: Semi-Supervised Learning with Graph Consistency ( http://arxiv.org/abs/2308.06692v1 ) ライセンス: Link先を確認 | Mingkai Zheng, Shan You, Lang Huang, Chen Luo, Fei Wang, Chen Qian, Chang Xu | (参考訳) 半教師付き画像分類はコンピュータビジョンにおける最も根本的な問題の1つであり、人的労働の必要性を大幅に減らす。
本稿では,ラベル付きデータとラベルなしデータの整合性をグラフの観点から定式化する半教師付き学習アルゴリズム,SimMatchV2を提案する。
SimMatchV2では、サンプルの拡張ビューを、ラベルとその対応する表現からなるノードとみなす。
異なるノードはエッジに接続され、ノード表現の類似性によって測定される。
グラフ理論におけるメッセージパッシングとノード分類に着想を得て,4種類の構成型を提案する。
1)ノードノードの整合性
2)ノードエッジ整合性
3)エッジの整合性、及び
4)エッジノードの整合性。
また、単純な機能正規化は、異なる拡張ビュー間の特徴ノルムのギャップを減らし、SimMatchV2の性能を著しく改善することを明らかにする。
我々のSimMatchV2は、複数の半教師付き学習ベンチマークで検証されている。
特に、ResNet-50をバックボーンとして、300エポックのトレーニングとして、SimMatchV2は、ImageNet上の1\%と10\%のラベル付き例で71.9\%と76.2\%のTop-1精度を達成した。
コードと事前訓練されたモデルは、 \href{https://github.com/mingkai-zheng/SimMatchV2}{https://github.com/mingkai-zheng/SimMatchV2} で入手できる。 Semi-Supervised image classification is one of the most fundamental problem in computer vision, which significantly reduces the need for human labor. In this paper, we introduce a new semi-supervised learning algorithm - SimMatchV2, which formulates various consistency regularizations between labeled and unlabeled data from the graph perspective. In SimMatchV2, we regard the augmented view of a sample as a node, which consists of a label and its corresponding representation. Different nodes are connected with the edges, which are measured by the similarity of the node representations. Inspired by the message passing and node classification in graph theory, we propose four types of consistencies, namely 1) node-node consistency, 2) node-edge consistency, 3) edge-edge consistency, and 4) edge-node consistency. We also uncover that a simple feature normalization can reduce the gaps of the feature norm between different augmented views, significantly improving the performance of SimMatchV2. Our SimMatchV2 has been validated on multiple semi-supervised learning benchmarks. Notably, with ResNet-50 as our backbone and 300 epochs of training, SimMatchV2 achieves 71.9\% and 76.2\% Top-1 Accuracy with 1\% and 10\% labeled examples on ImageNet, which significantly outperforms the previous methods and achieves state-of-the-art performance. Code and pre-trained models are available at \href{https://github.com/mingkai-zheng/SimMatchV2}{https://github.com/mingkai-zheng/SimMatchV2}. | 翻訳日:2023-08-15 16:05:22 公開日:2023-08-13 |
# EstimatorがEquilibrium Perspectiveと出会う: バイナリニューラルネットワークトレーニングのためのEstimator Estimator Meets Equilibrium Perspective: A Rectified Straight Through Estimator for Binary Neural Networks Training ( http://arxiv.org/abs/2308.06689v1 ) ライセンス: Link先を確認 | Xiao-Ming Wu, Dian Zheng, Zuhao Liu, Wei-Shi Zheng | (参考訳) ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。
先駆的な作業であるBinaryConnectは、手話関数の勾配を模倣するためにSTE(Straight Through Estimator)を使用しているが、重要な一貫性の問題を引き起こす。
従来の手法の多くは、steの代わりに異なる推定器を設計する。
しかし、推定誤差を減少させると勾配安定性が相乗的に低下するという事実を無視する。
これらの高度に分散した勾配はモデルの訓練に害を与え、勾配の消滅と勾配の爆発のリスクを増大させる。
勾配安定性を十分に考慮するために, 推定誤差と勾配安定性の平衡としてBNNのトレーニングに新たな視点を提示する。
本稿ではまず,平衡現象を定量的に示す2つの指標を設計する。
また, 推定誤差と勾配安定性のバランスをとるために, 元の直線を推定器で補正し, 電力関数に基づく推定器Rectified Straight Through Estimator (略してReSTE)を提案する。
他の推定器と比較して、ReSTEは合理的であり、推定誤差と勾配安定性との柔軟にバランスをとることができる。
CIFAR-10とImageNetデータセットの大規模な実験により、ReSTEは優れたパフォーマンスを示し、補助モジュールや損失なしに最先端のメソッドを超越している。 Binarization of neural networks is a dominant paradigm in neural networks compression. The pioneering work BinaryConnect uses Straight Through Estimator (STE) to mimic the gradients of the sign function, but it also causes the crucial inconsistency problem. Most of the previous methods design different estimators instead of STE to mitigate it. However, they ignore the fact that when reducing the estimating error, the gradient stability will decrease concomitantly. These highly divergent gradients will harm the model training and increase the risk of gradient vanishing and gradient exploding. To fully take the gradient stability into consideration, we present a new perspective to the BNNs training, regarding it as the equilibrium between the estimating error and the gradient stability. In this view, we firstly design two indicators to quantitatively demonstrate the equilibrium phenomenon. In addition, in order to balance the estimating error and the gradient stability well, we revise the original straight through estimator and propose a power function based estimator, Rectified Straight Through Estimator (ReSTE for short). Comparing to other estimators, ReSTE is rational and capable of flexibly balancing the estimating error with the gradient stability. Extensive experiments on CIFAR-10 and ImageNet datasets show that ReSTE has excellent performance and surpasses the state-of-the-art methods without any auxiliary modules or losses. | 翻訳日:2023-08-15 16:04:50 公開日:2023-08-13 |
# MDB: データセットとモデルを相互にクエリする MDB: Interactively Querying Datasets and Models ( http://arxiv.org/abs/2308.06686v1 ) ライセンス: Link先を確認 | Aaditya Naik, Adam Stein, Yinjun Wu, Eric Wong, Mayur Naik | (参考訳) モデルがトレーニングされ、デプロイされるため、開発者は機械学習パイプラインに現れるエラーを体系的にデバッグする必要がある。
データセットとモデルをインタラクティブにクエリするデバッグフレームワークであるmdbを提案する。
MDBは関数プログラミングとリレーショナル代数を統合し、データセットとモデル予測のデータベース上で表現力のあるクエリを構築する。
クエリは再利用可能で容易に修正できるため、デバッガはクエリをすばやく繰り返し、洗練し、エラーやモデル動作を発見して特徴付けることができる。
我々は、オブジェクト検出、バイアス発見、画像分類、および自動運転ビデオ、大規模言語モデル、医療記録におけるデータ計算タスクに関するMDBを評価する。
実験の結果,mdbは他のベースラインよりも最大10倍高速で40\%短いクエリが可能となった。
ユーザスタディでは、開発者は機械学習モデルのエラーを記述する複雑なクエリをうまく構築できることがわかった。 As models are trained and deployed, developers need to be able to systematically debug errors that emerge in the machine learning pipeline. We present MDB, a debugging framework for interactively querying datasets and models. MDB integrates functional programming with relational algebra to build expressive queries over a database of datasets and model predictions. Queries are reusable and easily modified, enabling debuggers to rapidly iterate and refine queries to discover and characterize errors and model behaviors. We evaluate MDB on object detection, bias discovery, image classification, and data imputation tasks across self-driving videos, large language models, and medical records. Our experiments show that MDB enables up to 10x faster and 40\% shorter queries than other baselines. In a user study, we find developers can successfully construct complex queries that describe errors of machine learning models. | 翻訳日:2023-08-15 16:04:25 公開日:2023-08-13 |
# デュアルグラフとゲーテッドフュージョンに基づくアグリゲーション特徴によるビデオキャプション Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion ( http://arxiv.org/abs/2308.06685v1 ) ライセンス: Link先を確認 | Yutao Jin, Bin Liu, Jing Wang | (参考訳) ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
ビデオにおけるオブジェクト間の相互作用の複雑な性質のため、オブジェクトの時空間関係の包括的理解は依然として難しい課題である。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
本稿では,二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。我々は2種類のグラフを用いて映像コンテンツの特徴表現を生成し,ゲート融合を用いてこれらの異なる情報のレベルをさらに理解する。
デュアルグラフモデルを用いて外観特徴と動作特徴をそれぞれ生成し、フレーム内のコンテンツ相関を利用して複数の視点から様々な特徴を生成する。
これらのうち、デュアルグラフ推論はフレーム列内のコンテンツ相関を強化し、高度な意味的特徴を生成することができる。
MSR-VTT と MSVD を用いた実験により,提案手法の最先端性能を実証した。 The application of video captioning models aims at translating the content of videos by using accurate natural language. Due to the complex nature inbetween object interaction in the video, the comprehensive understanding of spatio-temporal relations of objects remains a challenging task. Existing methods often fail in generating sufficient feature representations of video content. In this paper, we propose a video captioning model based on dual graphs and gated fusion: we adapt two types of graphs to generate feature representations of video content and utilize gated fusion to further understand these different levels of information. Using a dual-graphs model to generate appearance features and motion features respectively can utilize the content correlation in frames to generate various features from multiple perspectives. Among them, dual-graphs reasoning can enhance the content correlation in frame sequences to generate advanced semantic features; The gated fusion, on the other hand, aggregates the information in multiple feature representations for comprehensive video content understanding. The experiments conducted on worldly used datasets MSVD and MSR-VTT demonstrate state-of-the-art performance of our proposed approach. | 翻訳日:2023-08-15 16:04:10 公開日:2023-08-13 |
# 分離可能なガウス型ニューラルネットワーク:構造、解析、関数近似 Separable Gaussian Neural Networks: Structure, Analysis, and Function Approximations ( http://arxiv.org/abs/2308.06679v1 ) ライセンス: Link先を確認 | Siyuan Xing and Jianqiao Sun | (参考訳) gaussian-radial-basis function neural network (grbfnn) は補間と分類に一般的な選択肢である。
しかし、入力ベクトルの次元が高いときは計算量が多い。
そこで本研究では,ガウス関数の分離性を利用して,入力データを複数の列に分割し,一変量ガウス関数によって形成された並列層に順次フィードする,新たなフィードフォワードネットワーク-分離ガウスニューラルネットワーク(SGNN)を提案する。
この構造は、GRBFNNのO(N^d)からO(dN)へのニューロンの数を減少させ、SGNNの計算速度を指数関数的に向上させ、入力次元が増加するにつれて線形にスケールさせる。
さらに、SGNNは勾配降下訓練において、GRBFNNのヘシアン行列の支配的な部分空間を保ち、GRBFNNと同等の精度が得られる。
3変量関数近似におけるGRBFNNよりも100倍の精度でSGNNが達成できることを実験的に実証した。
SGNNはトレーニング性も優れており、RuLUやSigmoidの機能を持つDNNよりもチューニングに優しい。
複雑な幾何学を持つ関数を近似するために、SGNNは、RuLU-DNNの2倍の層数と1層あたりのニューロン数を持つ3桁の精度で結果を得ることができる。 The Gaussian-radial-basis function neural network (GRBFNN) has been a popular choice for interpolation and classification. However, it is computationally intensive when the dimension of the input vector is high. To address this issue, we propose a new feedforward network - Separable Gaussian Neural Network (SGNN) by taking advantage of the separable property of Gaussian functions, which splits input data into multiple columns and sequentially feeds them into parallel layers formed by uni-variate Gaussian functions. This structure reduces the number of neurons from O(N^d) of GRBFNN to O(dN), which exponentially improves the computational speed of SGNN and makes it scale linearly as the input dimension increases. In addition, SGNN can preserve the dominant subspace of the Hessian matrix of GRBFNN in gradient descent training, leading to a similar level of accuracy to GRBFNN. It is experimentally demonstrated that SGNN can achieve 100 times speedup with a similar level of accuracy over GRBFNN on tri-variate function approximations. The SGNN also has better trainability and is more tuning-friendly than DNNs with RuLU and Sigmoid functions. For approximating functions with complex geometry, SGNN can lead to three orders of magnitude more accurate results than a RuLU-DNN with twice the number of layers and the number of neurons per layer. | 翻訳日:2023-08-15 16:03:52 公開日:2023-08-13 |
# 可換関係に基づく非断熱的ホロノミック量子計算 Nonadiabatic holonomic quantum computation based on commutation relation ( http://arxiv.org/abs/2308.06674v1 ) ライセンス: Link先を確認 | P. Z. Zhao, D. M. Tong | (参考訳) 非線形ホロノミック量子計算は、制御誤差に対する堅牢性と高速な実装の両方の利点から注目されている。
非線形ホロノミック量子計算を実現するための重要なステップは、全位相から動的位相を取り除くことである。
このため、非断熱的なホロノミック量子計算の以前のスキームは、並列輸送条件(即時動的位相を常にゼロとする)に頼らなければならない。
本稿では,並列輸送条件よりも可換関係に基づく非断熱ホロノミック量子計算を設計するための戦略について述べる。
瞬時動的位相を常にゼロにする代わりに、全位相の動的部分は幾何学的部分から分離され、進化パラメータを適切に選択することで除去される。
この戦略は、並列輸送条件よりも可換関係が緩和されるため、非断熱ホロノミック量子計算を実現する柔軟性を高める。
非線形ホロノミック量子計算を実現するためのより多くのオプションを提供しており、進化時間や進化経路のような実現を最適化することができる。 Nonadiabatic holonomic quantum computation has received increasing attention due to the merits of both robustness against control errors and high-speed implementation. A crucial step in realizing nonadiabatic holonomic quantum computation is to remove the dynamical phase from the total phase. For this reason, previous schemes of nonadiabatic holonomic quantum computation have to resort to the parallel transport condition, i.e., requiring the instantaneous dynamical phase to be always zero. In this paper, we put forward a strategy to design nonadiabatic holonomic quantum computation, which is based on a commutation relation rather than the parallel transport condition. Instead of requiring the instantaneous dynamical phase to be always zero, the dynamical part of the total phase is separated from the geometric part and then removed by properly choosing evolution parameters. This strategy enhances the flexibility to realize nonadiabatic holonomic quantum computation as the commutation relation is more relaxed than the parallel transport condition. It provides more options for realizing nonadiabatic holonomic quantum computation and hence allows us to optimize realizations such as the evolution time and evolution paths. | 翻訳日:2023-08-15 16:03:28 公開日:2023-08-13 |
# 物理インフォームドニューラルネットワークに基づくマルチスケールモデルのためのディープラーニングフレームワーク A deep learning framework for multi-scale models based on physics-informed neural networks ( http://arxiv.org/abs/2308.06672v1 ) ライセンス: Link先を確認 | Yong Wang and Yanzhong Yao and Jiawei Guo and Zhiming Gao | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークと偏微分方程式(PDE)の解を結合し、PDEを数値的に解くための新しい、有望な研究領域を作り出す。
損失関数に等級の異なる損失項を含むマルチスケールの問題に直面すると、標準的なpinn法が利用可能な予測を得ることは困難である。
本稿では,損失関数の再構成によるマルチスケール問題を解決するための新しい枠組みを提案する。
このフレームワークは標準のPINN法に基づいており、異なる数の電力演算を異なる大きさの損失項に適用することにより、標準のPINN法の損失関数を修正し、損失関数を構成する個々の損失項は、それぞれがほぼ同じ大きさである。
さらに、グループ化正規化戦略を提案し、この戦略は異なるサブドメインで大きく異なる問題に対処できる。
提案手法は,異なる大きさの損失項を同時に最適化し,マルチスケール問題へのPINNの適用を推し進める。 Physics-informed neural networks (PINN) combine deep neural networks with the solution of partial differential equations (PDEs), creating a new and promising research area for numerically solving PDEs. Faced with a class of multi-scale problems that include loss terms of different orders of magnitude in the loss function, it is challenging for standard PINN methods to obtain an available prediction. In this paper, we propose a new framework for solving multi-scale problems by reconstructing the loss function. The framework is based on the standard PINN method, and it modifies the loss function of the standard PINN method by applying different numbers of power operations to the loss terms of different magnitudes, so that the individual loss terms composing the loss function have approximately the same order of magnitude among themselves. In addition, we give a grouping regularization strategy, and this strategy can deal well with the problem which varies significantly in different subdomains. The proposed method enables loss terms with different magnitudes to be optimized simultaneously, and it advances the application of PINN for multi-scale problems. | 翻訳日:2023-08-15 16:03:10 公開日:2023-08-13 |
# 確率勾配降下の平衡の法則と定常分布 Law of Balance and Stationary Distribution of Stochastic Gradient Descent ( http://arxiv.org/abs/2308.06671v1 ) ライセンス: Link先を確認 | Liu Ziyin, Hongchao Li, Masahito Ueda | (参考訳) 確率勾配降下(sgd)アルゴリズムは、ニューラルネットワークのトレーニングに使用するアルゴリズムである。
しかし、SGDがニューラルネットワークの非常に非線形で縮退した損失の状況をどのようにナビゲートするかは理解されていない。
本研究では、損失関数が再スケーリング対称性を含む場合、SGDのミニバッチノイズが平衡解に対する解を正則化することを示す。
単純な拡散過程とsgd動力学の違いは対称性が存在する場合に最も重要であるため、損失関数対称性はsgdの作用の基本的なプローブであることが示唆される。
この結果を用いて,任意の深さと幅を持つ対角線ネットワークに対する確率勾配流の定常分布を導出する。
定常分布は、相転移、破壊エルゴード性、揺らぎの反転といった複雑な非線形現象を示す。
これらの現象は深層ネットワークに一意に存在することが示されており、深層モデルと浅層モデルの違いを示唆している。 The stochastic gradient descent (SGD) algorithm is the algorithm we use to train neural networks. However, it remains poorly understood how the SGD navigates the highly nonlinear and degenerate loss landscape of a neural network. In this work, we prove that the minibatch noise of SGD regularizes the solution towards a balanced solution whenever the loss function contains a rescaling symmetry. Because the difference between a simple diffusion process and SGD dynamics is the most significant when symmetries are present, our theory implies that the loss function symmetries constitute an essential probe of how SGD works. We then apply this result to derive the stationary distribution of stochastic gradient flow for a diagonal linear network with arbitrary depth and width. The stationary distribution exhibits complicated nonlinear phenomena such as phase transitions, broken ergodicity, and fluctuation inversion. These phenomena are shown to exist uniquely in deep networks, implying a fundamental difference between deep and shallow models. | 翻訳日:2023-08-15 16:02:51 公開日:2023-08-13 |
# ヒルベルト空間の不物理性 The unphysicality of Hilbert spaces ( http://arxiv.org/abs/2308.06669v1 ) ライセンス: Link先を確認 | Gabriele Carcassi, Francisco Calderon, Christine A. Aidala | (参考訳) ヒルベルト空間は、数学的に量子状態を表現するための「正しい」空間と考えるべきではない。
まず、複素内積空間による要求が物理的に正当であることを証明する。
そして、無限次元の場合の完備性には、無限の期待を持つ状態の包含、無限の期待を無限の期待と逆転に導く座標変換、有限の期待を無限の時間で無限の期待に変換する時間発展が必要であることを示す。
これにより、ヒルベルト空間は、ポテンシャル無限遠を実際の無限遠としてモデル化するので、物理的に不健全となる。
無限大に関連する量子論における少なくともいくつかの問題は、最終的に使用中の間違った空間によって引き起こされる可能性がある。
我々はより良い解を見つけることができると強く信じており、シュワルツ空間にインスピレーションを与え、例えば、位置と運動量のすべての多項式の期待が有限であること、モーメント問題に対する解が保証され、フーリエ変換の下で閉じた唯一の空間であることを保証する。 We show that Hilbert spaces should not be considered the ``correct'' spaces to represent quantum states mathematically. We first prove that the requirements posited by complex inner product spaces are physically justified. We then show that completeness in the infinite-dimensional case requires the inclusion of states with infinite expectations, coordinate transformations that take finite expectations to infinite ones and vice-versa, and time evolutions that transform finite expectations to infinite ones in finite time. This makes Hilbert spaces physically unsound as they model a potential infinity as an actual infinity. We suspect that at least some problems in quantum theory related to infinities may be ultimately caused by the wrong space being used. We strongly believe a better solution can be found, and we look at Schwartz spaces for inspiration, as, among other things, they guarantee that the expectation of all polynomials of position and momentum are finite, guarantee solution to the moment problem and are the only space closed under Fourier transform. | 翻訳日:2023-08-15 16:02:35 公開日:2023-08-13 |
# スマート農業の基礎モデル : 基礎, 機会, 課題 Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges ( http://arxiv.org/abs/2308.06668v1 ) ライセンス: Link先を確認 | Jiajia Li, Mingle Xu, Lirong Xiang, Dong Chen, Weichao Zhuang, Xunyuan Yin and Zhaojian Li | (参考訳) 過去10年間、農業システムにおけるMLとDLの方法論の急速な発展を目撃してきた。
しかし、これらの従来のML/DLモデルには、いくつかの制限がある: トレーニングには、大きくて費用がかかるラベル付きデータセットに強く依存し、開発とメンテナンスに特別な専門知識を必要とし、主に特定のタスクに適したため、一般化性に欠ける。
近年,基礎モデルは言語や視覚のタスクにおいて,様々な領域で顕著な成功を収めている。
これらのモデルは、複数のドメインとモダリティから大量のデータに基づいて訓練されている。
トレーニングをすれば、小さな微調整と最小限のタスク固有のラベル付きデータだけで、多用途なタスクを実現できる。
その実証された効果と大きな潜在能力にもかかわらず、農業分野にFMを適用するという調査はほとんど行われていない。
そこで本研究では,スマート農業分野におけるFMの可能性を探究する。
特に,問題空間の理解と新たな研究の方向性を明らかにするための概念的ツールと技術的背景について述べる。
この目的のために、コンピュータ科学分野における最近のFMをまずレビューし、言語FM、ビジョンFM、マルチモーダルFM、強化学習FMの4つのカテゴリに分類した。
続いて,農業fmsの展開過程を概説し,スマート農業におけるその可能性について論じる。
また,モデルトレーニングや検証,デプロイメントなど,afm開発に伴うユニークな課題についても論じる。
本研究は農業におけるAIの進歩に寄与し、AFMを広範なラベル付きデータセットへの依存を著しく軽減し、農業AIシステムの効率、有効性、一般化を向上する有望なパラダイムとして導入する。 The past decade has witnessed the rapid development of ML and DL methodologies in agricultural systems, showcased by great successes in variety of agricultural applications. However, these conventional ML/DL models have certain limitations: They heavily rely on large, costly-to-acquire labeled datasets for training, require specialized expertise for development and maintenance, and are mostly tailored for specific tasks, thus lacking generalizability. Recently, foundation models have demonstrated remarkable successes in language and vision tasks across various domains. These models are trained on a vast amount of data from multiple domains and modalities. Once trained, they can accomplish versatile tasks with just minor fine-tuning and minimal task-specific labeled data. Despite their proven effectiveness and huge potential, there has been little exploration of applying FMs to agriculture fields. Therefore, this study aims to explore the potential of FMs in the field of smart agriculture. In particular, we present conceptual tools and technical background to facilitate the understanding of the problem space and uncover new research directions in this field. To this end, we first review recent FMs in the general computer science domain and categorize them into four categories: language FMs, vision FMs, multimodal FMs, and reinforcement learning FMs. Subsequently, we outline the process of developing agriculture FMs and discuss their potential applications in smart agriculture. We also discuss the unique challenges associated with developing AFMs, including model training, validation, and deployment. Through this study, we contribute to the advancement of AI in agriculture by introducing AFMs as a promising paradigm that can significantly mitigate the reliance on extensive labeled datasets and enhance the efficiency, effectiveness, and generalization of agricultural AI systems. | 翻訳日:2023-08-15 16:02:16 公開日:2023-08-13 |
# LAW拡散:レイアウト拡散による複雑なシーン生成 LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts ( http://arxiv.org/abs/2308.06713v1 ) ライセンス: Link先を確認 | Binbin Yang, Yi Luo, Ziliang Chen, Guangrun Wang, Xiaodan Liang, Liang Lin | (参考訳) 拡散モデルの急速な発展により、画像合成における前例のない進歩が見られた。
以前の作品は、主に事前訓練された言語モデルに依存していたが、画像の空間的特性(例えば、シーンのレイアウト構成)を適切に指定するにはテキストは抽象的すぎることが多く、複雑なシーン生成の準最適結果につながる。
本稿では,LAW拡散と呼ばれる意味制御可能なLayout-AWare拡散モデルを提案した。
従来のl2i(layout-to-image generation)メソッドとは異なり、law-diffusionでは、オブジェクト間の位置認識セマンティックコヒーレンスをレイアウト埋め込みとしてエンコードする空間依存パーサを導入し、知覚的に調和したオブジェクトスタイルとコンテキスト関係を持つシーンを生成する。
具体的には、各対象の局所的な意味を対象領域マップとして微妙にインスタンス化し、位置認識可能なクロスオブジェクトアテンションモジュールを利用して、これらの異種表現間の空間的依存関係をキャプチャする。
さらに,地域的意味的アライメントと生成対象のテクスチャ忠実度とのトレードオフを軽減するため,レイアウト指導のための適応的ガイダンススケジュールを提案する。
さらに、LAW-Diffusionは、局所的な意味論を再構成するレイアウト対応の潜伏グラフト機構を導入することにより、合成画像内の他の領域を維持しながら、インスタンスの再設定を可能にする。
SRS(Scene Relation Score)と呼ばれるL2Iタスクに対して,画像が文脈オブジェクト間の合理的かつ調和的な関係をいかに保っているかを評価するための新しい評価基準を提案する。
包括的実験により、我々のLAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことが示された。 Thanks to the rapid development of diffusion models, unprecedented progress has been witnessed in image synthesis. Prior works mostly rely on pre-trained linguistic models, but a text is often too abstract to properly specify all the spatial properties of an image, e.g., the layout configuration of a scene, leading to the sub-optimal results of complex scene generation. In this paper, we achieve accurate complex scene generation by proposing a semantically controllable Layout-AWare diffusion model, termed LAW-Diffusion. Distinct from the previous Layout-to-Image generation (L2I) methods that only explore category-aware relationships, LAW-Diffusion introduces a spatial dependency parser to encode the location-aware semantic coherence across objects as a layout embedding and produces a scene with perceptually harmonious object styles and contextual relations. To be specific, we delicately instantiate each object's regional semantics as an object region map and leverage a location-aware cross-object attention module to capture the spatial dependencies among those disentangled representations. We further propose an adaptive guidance schedule for our layout guidance to mitigate the trade-off between the regional semantic alignment and the texture fidelity of generated objects. Moreover, LAW-Diffusion allows for instance reconfiguration while maintaining the other regions in a synthesized image by introducing a layout-aware latent grafting mechanism to recompose its local regional semantics. To better verify the plausibility of generated scenes, we propose a new evaluation metric for the L2I task, dubbed Scene Relation Score (SRS) to measure how the images preserve the rational and harmonious relations among contextual objects. Comprehensive experiments demonstrate that our LAW-Diffusion yields the state-of-the-art generative performance, especially with coherent object relations. | 翻訳日:2023-08-15 15:57:45 公開日:2023-08-13 |
# 非バイアスシーングラフ生成のための合成特徴拡張 Compositional Feature Augmentation for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2308.06712v1 ) ライセンス: Link先を確認 | Lin Li, Guikun Chen, Jun Xiao, Yi Yang, Chunping Wang, Long Chen | (参考訳) シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係トリプレット<sub, pred, obj>を検出することを目的としている。
近年SGGは,各関係三重項における内在的情報と外因的情報の両方をよりよく活用するための様々な高度な技術が出現し,大きな進歩を遂げている。
しかし、ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
現在、sggの最も一般的なデバイアスソリューションは、元のトレーニングサンプルの分布を変更するような再バランス法である。
本稿では,すべての既存再バランス戦略が,ロバストsggに不可欠な各述語の関係三重項特徴の多様性を増大させることができないことを論じる。
この目的のために,三重項特徴の多様性を増大させる観点からバイアス問題を緩和する新しい構成的特徴拡張(CFA)戦略を提案する。
具体的には,まず,関係三重項の特徴を内在的特徴と外在的特徴の2つの成分に分解し,関係三重項の内在的特徴と外因的文脈をそれぞれ対応付ける。
次に, 2 つの特徴拡張モジュールを設計し, それらの内在的特徴と外在的特徴を他のサンプルから置き換え, 混合することにより, 元の関係三重項の特徴の多様性を高める。
モデルに依存しない性質のため、CFAは様々なSGGフレームワークにシームレスに組み込むことができる。
広範なアブレーションは、cfaが異なるメトリクス間のトレードオフにおいて、新たな最先端のパフォーマンスを達成していることを示している。 Scene Graph Generation (SGG) aims to detect all the visual relation triplets <sub, pred, obj> in a given image. With the emergence of various advanced techniques for better utilizing both the intrinsic and extrinsic information in each relation triplet, SGG has achieved great progress over the recent years. However, due to the ubiquitous long-tailed predicate distributions, today's SGG models are still easily biased to the head predicates. Currently, the most prevalent debiasing solutions for SGG are re-balancing methods, e.g., changing the distributions of original training samples. In this paper, we argue that all existing re-balancing strategies fail to increase the diversity of the relation triplet features of each predicate, which is critical for robust SGG. To this end, we propose a novel Compositional Feature Augmentation (CFA) strategy, which is the first unbiased SGG work to mitigate the bias issue from the perspective of increasing the diversity of triplet features. Specifically, we first decompose each relation triplet feature into two components: intrinsic feature and extrinsic feature, which correspond to the intrinsic characteristics and extrinsic contexts of a relation triplet, respectively. Then, we design two different feature augmentation modules to enrich the feature diversity of original relation triplets by replacing or mixing up either their intrinsic or extrinsic features from other samples. Due to its model-agnostic nature, CFA can be seamlessly incorporated into various SGG frameworks. Extensive ablations have shown that CFA achieves a new state-of-the-art performance on the trade-off between different metrics. | 翻訳日:2023-08-15 15:57:10 公開日:2023-08-13 |
# インタフェース最適制御問題に対するハードコントラストPINN The Hard-Constraint PINNs for Interface Optimal Control Problems ( http://arxiv.org/abs/2308.06709v1 ) ライセンス: Link先を確認 | Ming-Chih Lai, Yongcun Song, Xiaoming Yuan, Hangrui Yue, Tianyou Zeng | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近開発された不連続性キャプチャニューラルネットワークと組み合わせて、インターフェイスといくつかの制御制約を持つ偏微分方程式(PDE)による最適制御問題を解くことができることを示す。
結果として得られるアルゴリズムはメッシュフリーで、異なるPDEに対してスケーラブルであり、制御の制約を厳格に保証する。
境界条件と界面条件は、PDEと同様に、すべて重み付き損失関数にまとめることでソフト制約として扱われるため、同時に学習する必要があるため、境界条件と界面条件が正確に満たされる保証はない。
これにより、対応する損失関数の重み付けとニューラルネットワークのトレーニングが直ちに困難になる。
これらの問題に対処し、数値精度を保証するため、新しいニューラルネットワークアーキテクチャを開発し、ピンの制約として境界条件と界面条件を課す。
結果として生じる制約付きPINNのアプローチは、境界条件とインターフェース条件の両方を正確に満たし、それらがPDEの学習から切り離されることを保証する。
その効率は楕円型および放物型インタフェースの最適制御問題によって有望に検証される。 We show that the physics-informed neural networks (PINNs), in combination with some recently developed discontinuity capturing neural networks, can be applied to solve optimal control problems subject to partial differential equations (PDEs) with interfaces and some control constraints. The resulting algorithm is mesh-free and scalable to different PDEs, and it ensures the control constraints rigorously. Since the boundary and interface conditions, as well as the PDEs, are all treated as soft constraints by lumping them into a weighted loss function, it is necessary to learn them simultaneously and there is no guarantee that the boundary and interface conditions can be satisfied exactly. This immediately causes difficulties in tuning the weights in the corresponding loss function and training the neural networks. To tackle these difficulties and guarantee the numerical accuracy, we propose to impose the boundary and interface conditions as hard constraints in PINNs by developing a novel neural network architecture. The resulting hard-constraint PINNs approach guarantees that both the boundary and interface conditions can be satisfied exactly and they are decoupled from the learning of the PDEs. Its efficiency is promisingly validated by some elliptic and parabolic interface optimal control problems. | 翻訳日:2023-08-15 15:56:42 公開日:2023-08-13 |
# 拡散確率モデルに基づくデータ同化のための観測誘導アンサンブルの生成 Generating observation guided ensembles for data assimilation with denoising diffusion probabilistic model ( http://arxiv.org/abs/2308.06708v1 ) ライセンス: Link先を確認 | Yuuichi Asahi, Yuta Hasegawa, Naoyuki Onodera, Takashi Shimokawabe, Hayato Shiba, Yasuhiro Idomura | (参考訳) 本稿では拡散確率モデルから生成した擬似アンサンブルを用いたアンサンブルデータ同化法を提案する。
このモデルは、ノイズの少ない観測データに対して訓練されるため、観測に近い異種アンサンブルを生成することができる。
生成したアンサンブルのばらつきにより,提案手法はシミュレーションモデルが不完全である場合に,確立されたアンサンブルデータ同化法よりも優れた性能を示す。 This paper presents an ensemble data assimilation method using the pseudo ensembles generated by denoising diffusion probabilistic model. Since the model is trained against noisy and sparse observation data, this model can produce divergent ensembles close to observations. Thanks to the variance in generated ensembles, our proposed method displays better performance than the well-established ensemble data assimilation method when the simulation model is imperfect. | 翻訳日:2023-08-15 15:56:22 公開日:2023-08-13 |
# 骨格に基づく歩行認識のための条件適応型グラフ畳み込み学習 Condition-Adaptive Graph Convolution Learning for Skeleton-Based Gait Recognition ( http://arxiv.org/abs/2308.06707v1 ) ライセンス: Link先を確認 | Xiaohu Huang, Xinggang Wang, Zhidianqiu Jin, Bo Yang, Botao He, Bin Feng, and Wenyu Liu | (参考訳) グラフ畳み込みネットワークは骨格に基づく歩行認識に広く応用されている。
この課題の重要な課題は、様々な視点で異なる被験者の歩行スタイルを区別することである。
既存の最先端手法では、様々なシーケンスから特徴を抽出し、視点変化の影響を無視するために均一な畳み込みを用いる。
これらの制約を克服するために,各骨格列の特定の属性と対応する視野角に動的に適応可能な条件適応グラフ(cag)畳み込みネットワークを提案する。
すべての関節およびシーケンスに対して固定重みを用いるのとは対照的に,CAG法では関節レベルでのシーケンス適応フィルタを生成するジョイント固有フィルタ学習(JSFL)モジュールを導入する。
適応フィルタは、各関節に特有のきめ細かいパターンを捕捉し、身体部分に関する多様な時空間情報を抽出する。
さらに,適応型グラフトポロジーを生成するvatl(view-adaptive topology learning)モジュールも設計する。
これらのグラフトポロジーは、特定のビュー条件に従って関節を適応的に相関付けるために使用される。
これにより、CAGは様々な歩行スタイルと視点を同時に調整することができる。
最も広く使われている2つのデータセット(例えばCASIA-BとOU-MVLP)の実験は、CAGが以前の骨格に基づく手法を全て上回っていることを示している。
さらに、CAGと外見に基づく手法を組み合わせることで、CAGが有用な補完情報を提供する能力を示すことで、認識性能を向上させることができる。 Graph convolutional networks have been widely applied in skeleton-based gait recognition. A key challenge in this task is to distinguish the individual walking styles of different subjects across various views. Existing state-of-the-art methods employ uniform convolutions to extract features from diverse sequences and ignore the effects of viewpoint changes. To overcome these limitations, we propose a condition-adaptive graph (CAG) convolution network that can dynamically adapt to the specific attributes of each skeleton sequence and the corresponding view angle. In contrast to using fixed weights for all joints and sequences, we introduce a joint-specific filter learning (JSFL) module in the CAG method, which produces sequence-adaptive filters at the joint level. The adaptive filters capture fine-grained patterns that are unique to each joint, enabling the extraction of diverse spatial-temporal information about body parts. Additionally, we design a view-adaptive topology learning (VATL) module that generates adaptive graph topologies. These graph topologies are used to correlate the joints adaptively according to the specific view conditions. Thus, CAG can simultaneously adjust to various walking styles and viewpoints. Experiments on the two most widely used datasets (i.e., CASIA-B and OU-MVLP) show that CAG surpasses all previous skeleton-based methods. Moreover, the recognition performance can be enhanced by simply combining CAG with appearance-based methods, demonstrating the ability of CAG to provide useful complementary information.The source code will be available at https://github.com/OliverHxh/CAG. | 翻訳日:2023-08-15 15:56:15 公開日:2023-08-13 |
# 絡み合った2モード系の条件ダイナミクスに対するウィグナーの位相空間電流 -新しい光のビームスプリッタを見る- Wigner's Phase Space Current for the Conditional Dynamics in Entangled Two Mode Systems -Seeing Beam Splitters in a New Light- ( http://arxiv.org/abs/2308.06706v1 ) ライセンス: Link先を確認 | Ole Steuernagel and Ray-Kuang Lee | (参考訳) 相空間における量子力学を,そのような他のモードと絡み合う連続的単一モード系に対して検討する。
主な例として、可変ビームスプリッタの強モード混合ダイナミクスを用いて、各モードのダイナミクスを他方のモードに条件付けする。
我々は、一方のモードの条件付きウィグナー電流Jの形状を、他方のモードをトレースした後に導出し、研究する。
量子論の他の表現では j の類似物は存在しないので、ウィグナー表現はそのような条件力学のこのタイプの視覚的研究にのみ利用できる。 We study quantum dynamics in phase space for a continuous single mode system which is entangled with another such mode. As our main example we use the strongly mode mixing dynamics of a variable beam splitter which makes the dynamics of each mode conditional on the other mode. We derive and study the form of the conditional Wigner current J of one mode after tracing out the other. Since in other representations of quantum theory no analogue for J exists, only the Wigner representation can be used for this type of visual study of such conditional dynamics. | 翻訳日:2023-08-15 15:55:52 公開日:2023-08-13 |
# 確率勾配降下法と適応勾配法とのロバスト性差の理解 Understanding the robustness difference between stochastic gradient descent and adaptive gradient methods ( http://arxiv.org/abs/2308.06703v1 ) ライセンス: Link先を確認 | Avery Ma, Yangchen Pan and Amir-massoud Farahmand | (参考訳) 確率勾配勾配(SGD)とアダムやRMSPropのような適応勾配法は、ディープニューラルネットワークのトレーニングに広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
特に,本研究は,モデルの一般化性能に影響を及ぼさない自然データセットにおける非関連周波数の存在を実証する。
しかし、適応的手法で訓練されたモデルはこれらの変化に敏感であり、それらの無関係な周波数の使用は摂動に敏感な解をもたらす可能性があることを示唆している。
この違いをよりよく理解するために,自然信号を反映した合成データセット上での勾配降下(gd)と符号勾配降下(signgd)の学習ダイナミクスについて検討した。
3次元入力空間では、GD と signGD で最適化されたモデルは標準リスクがゼロに近いが、その逆のリスクは異なる。
この結果から, モデルパラメータの重みノルムに対して, $\ell_2$-norm の有界変化に対する線形モデルのロバスト性は逆比例することがわかった。
深層学習の文脈において,sgd学習ニューラルネットワークはより小さなリプシッツ定数を示し,適応勾配法で学習したニューラルネットワークよりも入力摂動に対するロバスト性が高まることを示した。 Stochastic gradient descent (SGD) and adaptive gradient methods, such as Adam and RMSProp, have been widely used in training deep neural networks. We empirically show that while the difference between the standard generalization performance of models trained using these methods is small, those trained using SGD exhibit far greater robustness under input perturbations. Notably, our investigation demonstrates the presence of irrelevant frequencies in natural datasets, where alterations do not affect models' generalization performance. However, models trained with adaptive methods show sensitivity to these changes, suggesting that their use of irrelevant frequencies can lead to solutions sensitive to perturbations. To better understand this difference, we study the learning dynamics of gradient descent (GD) and sign gradient descent (signGD) on a synthetic dataset that mirrors natural signals. With a three-dimensional input space, the models optimized with GD and signGD have standard risks close to zero but vary in their adversarial risks. Our result shows that linear models' robustness to $\ell_2$-norm bounded changes is inversely proportional to the model parameters' weight norm: a smaller weight norm implies better robustness. In the context of deep learning, our experiments show that SGD-trained neural networks show smaller Lipschitz constants, explaining the better robustness to input perturbations than those trained with adaptive gradient methods. | 翻訳日:2023-08-15 15:55:41 公開日:2023-08-13 |
# カモフラージュ画像合成は、カモフラージュ画像検出の強化に必要なもの Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection ( http://arxiv.org/abs/2308.06701v1 ) ライセンス: Link先を確認 | Haichao Zhang, Can Qin, Yu Yin, Yun Fu | (参考訳) 自然界に溶け込むカモフラージュされた物体は、ディープラーニングモデルの検出と合成に重大な課題をもたらす。
カモフラージュされたオブジェクト検出は、様々な現実世界のアプリケーションでコンピュータビジョンにおいて重要な課題であるが、この研究は限られたデータ可用性に制約されている。
本研究では, カモフラージュデータを合成し, 自然場面におけるカモフラージュ物体の検出性を高めるための枠組みを提案する。
提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。
具体的には, カモフラージュ分布分類器が監視するカモフラージュ環境生成器を用いてカモフラージュ画像を合成し, 生成器に供給してデータセットを拡大する。
本フレームワークは,3つのデータセット(COD10k,CAMO,CHAMELEON)上での最先端の手法よりも優れており,カモフラージュされた物体検出の改善に有効であることを示す。
このアプローチは、既存のカモフラージュオブジェクト検出タスクのためのプラグアンドプレイデータ生成および拡張モジュールとして機能し、現在のカモフラージュデータセットにより多くの多様性と分散を導入する新しい方法を提供する。 Camouflaged objects that blend into natural scenes pose significant challenges for deep-learning models to detect and synthesize. While camouflaged object detection is a crucial task in computer vision with diverse real-world applications, this research topic has been constrained by limited data availability. We propose a framework for synthesizing camouflage data to enhance the detection of camouflaged objects in natural scenes. Our approach employs a generative model to produce realistic camouflage images, which can be used to train existing object detection models. Specifically, we use a camouflage environment generator supervised by a camouflage distribution classifier to synthesize the camouflage images, which are then fed into our generator to expand the dataset. Our framework outperforms the current state-of-the-art method on three datasets (COD10k, CAMO, and CHAMELEON), demonstrating its effectiveness in improving camouflaged object detection. This approach can serve as a plug-and-play data generation and augmentation module for existing camouflaged object detection tasks and provides a novel way to introduce more diversity and distributions into current camouflage datasets. | 翻訳日:2023-08-15 15:54:57 公開日:2023-08-13 |
# maco:モダリティを許容するマルチモダリティナレッジグラフ完成のためのモダリティの敵対的でコントラスト的な枠組み MACO: A Modality Adversarial and Contrastive Framework for Modality-missing Multi-modal Knowledge Graph Completion ( http://arxiv.org/abs/2308.06696v1 ) ライセンス: Link先を確認 | Yichi Zhang, Zhuo Chen, Wen Zhang | (参考訳) 近年,Multi-modal knowledge graph completion (MMKGC) が著しく進歩している。
MMKGCは、マルチモーダルなエンティティ情報を統合することで知識グラフ補完(KGC)を強化し、大規模知識グラフ(KG)における観測されていない三重項の発見を容易にする。
それにもかかわらず、既存の手法はモダリティ相互作用を促進するためのエレガントなKGCモデルの設計を強調しており、KGのモダリティの現実的な問題を無視している。
モダリティの欠如はモダリティの相互作用を妨げるため、モデルの性能を損なう。
本稿では,MMKGCにおけるモダリティ欠落問題を解決するための,モダリティ対逆およびコントラッシブフレームワーク(MACO)を提案する。
MACOは、MMKGCモデルに組み込むことができる欠落したモダリティ特徴を生成するために、ジェネレータと識別器を逆さまに訓練する。
一方,発電機の性能向上のために,クロスモーダルなコントラスト損失を設計する。
さらなる調査による公開ベンチマークの実験では、MACOが最先端の結果を達成でき、様々なMMKGCモデルを活性化するための汎用的なフレームワークとして機能することが示されている。
コードとベンチマークデータはhttps://github.com/zjukg/MACO.comで公開されています。 Recent years have seen significant advancements in multi-modal knowledge graph completion (MMKGC). MMKGC enhances knowledge graph completion (KGC) by integrating multi-modal entity information, thereby facilitating the discovery of unobserved triples in the large-scale knowledge graphs (KGs). Nevertheless, existing methods emphasize the design of elegant KGC models to facilitate modality interaction, neglecting the real-life problem of missing modalities in KGs. The missing modality information impedes modal interaction, consequently undermining the model's performance. In this paper, we propose a modality adversarial and contrastive framework (MACO) to solve the modality-missing problem in MMKGC. MACO trains a generator and discriminator adversarially to generate missing modality features that can be incorporated into the MMKGC model. Meanwhile, we design a cross-modal contrastive loss to improve the performance of the generator. Experiments on public benchmarks with further explorations demonstrate that MACO could achieve state-of-the-art results and serve as a versatile framework to bolster various MMKGC models. Our code and benchmark data are available at https://github.com/zjukg/MACO. | 翻訳日:2023-08-15 15:54:01 公開日:2023-08-13 |
# isomer:ゼロショットビデオオブジェクトセグメンテーションのための異性体トランスフォーマー Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation ( http://arxiv.org/abs/2308.06693v1 ) ライセンス: Link先を確認 | Yichen Yuan, Yifan Wang, Lijun Wang, Xiaoqi Zhao, Huchuan Lu, Yu Wang, Weibo Su, Lei Zhang | (参考訳) 最近のゼロショットビデオオブジェクトセグメンテーション(ZVOS)は、特徴融合モジュールを精巧に設計し、複数の特徴段階に同一に適用することにより、外観情報と動き情報の統合に尽力している。
予備実験では,Transformerの長距離依存性モデリング能力が強いことから,2つのモードの特徴を単純に結合し,バニラ変換器に供給することで,高い計算コストで性能を向上できることを示した。
さらに実験的な分析により,Transformerで学習した注意依存性は,低レベルステージにおけるグローバルクエリ非依存性,高レベルステージにおけるセマンティック依存など,まったく異なる特性を示すことがわかった。
観測結果に動機づけられた2種類の変圧器を提案する。
一 軽量な計算により、画像フレーム内のグローバル共有されたコンテキスト情報を学習するコンテキスト共有トランスフォーマ(cst)
二 前景及び背景のセマンティクス相関を別々にモデル化し、ソフトトークンマージ機構により計算コストを低減したセマンティクス収集散乱トランス(sgst)。
低レベルと高レベルの機能融合にそれぞれCSTとSGSTを適用し、ZVOSタスクのレベルアイソラストランスフォーマーフレームワークを定式化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
コードはhttps://github.com/dlut-yyc/isomerで入手できる。 Recent leading zero-shot video object segmentation (ZVOS) works devote to integrating appearance and motion information by elaborately designing feature fusion modules and identically applying them in multiple feature stages. Our preliminary experiments show that with the strong long-range dependency modeling capacity of Transformer, simply concatenating the two modality features and feeding them to vanilla Transformers for feature fusion can distinctly benefit the performance but at a cost of heavy computation. Through further empirical analysis, we find that attention dependencies learned in Transformer in different stages exhibit completely different properties: global query-independent dependency in the low-level stages and semantic-specific dependency in the high-level stages. Motivated by the observations, we propose two Transformer variants: i) Context-Sharing Transformer (CST) that learns the global-shared contextual information within image frames with a lightweight computation. ii) Semantic Gathering-Scattering Transformer (SGST) that models the semantic correlation separately for the foreground and background and reduces the computation cost with a soft token merging mechanism. We apply CST and SGST for low-level and high-level feature fusions, respectively, formulating a level-isomerous Transformer framework for ZVOS task. Compared with the baseline that uses vanilla Transformers for multi-stage fusion, ours significantly increase the speed by 13 times and achieves new state-of-the-art ZVOS performance. Code is available at https://github.com/DLUT-yyc/Isomer. | 翻訳日:2023-08-15 15:53:30 公開日:2023-08-13 |
# 欠測データを用いた時系列分類の確率論的計算 Probabilistic Imputation for Time-series Classification with Missing Data ( http://arxiv.org/abs/2308.06738v1 ) ライセンス: Link先を確認 | SeungHyun Kim, Hyunsu Kim, EungGu Yun, Hwangrae Lee, Jaehun Lee, Juho Lee | (参考訳) 実世界のアプリケーションのための多変量時系列データは通常、かなりの量の欠落値を含む。
このような値の欠如による分類の主流のアプローチは、特定の値(ゼロ、平均、隣接する時間ステップの値)や学習可能なパラメータをヒューリスティックに含めることである。
しかし、これらの単純な戦略はデータ生成プロセスを考慮に入れず、さらに重要なのは、欠落した値の複数の可能性のために予測の不確実性を効果的に捉えていないことである。
本稿では,多変量時系列データを欠落した値で分類する新しい確率的フレームワークを提案する。
我々のモデルは2つの部分で構成されており、値インプテーションを欠く深い生成モデルと分類器です。
既存の深部生成モデルを拡張して時系列データの構造をよりよく捉えることで、深部生成モデル部は、欠落した値を複数の可算方法でインプットし、インプットの不確かさを効果的にモデル化する。
分類部は、インプットされた不足値とともに時系列データを取り込み、信号を分類し、インプットの複数の可能性による予測不確実性を捕捉するように訓練する。
さらに, 生成モデルと分類器を組み合わせることで, 生成モデルが有意義な含意を生じないような自明な解が得られることを示す。
そこで本研究では,このモデルを用いて,分類に有用なインプテーション値を生成する新しい正規化手法を提案する。
実世界の時系列データに欠落した値を用いた広範な実験を通じて,本手法の有効性を実証する。 Multivariate time series data for real-world applications typically contain a significant amount of missing values. The dominant approach for classification with such missing values is to impute them heuristically with specific values (zero, mean, values of adjacent time-steps) or learnable parameters. However, these simple strategies do not take the data generative process into account, and more importantly, do not effectively capture the uncertainty in prediction due to the multiple possibilities for the missing values. In this paper, we propose a novel probabilistic framework for classification with multivariate time series data with missing values. Our model consists of two parts; a deep generative model for missing value imputation and a classifier. Extending the existing deep generative models to better capture structures of time-series data, our deep generative model part is trained to impute the missing values in multiple plausible ways, effectively modeling the uncertainty of the imputation. The classifier part takes the time series data along with the imputed missing values and classifies signals, and is trained to capture the predictive uncertainty due to the multiple possibilities of imputations. Importantly, we show that na\"ively combining the generative model and the classifier could result in trivial solutions where the generative model does not produce meaningful imputations. To resolve this, we present a novel regularization technique that can promote the model to produce useful imputation values that help classification. Through extensive experiments on real-world time series data with missing values, we demonstrate the effectiveness of our method. | 翻訳日:2023-08-15 15:46:16 公開日:2023-08-13 |
# aerialvln:uavの視覚・言語ナビゲーション AerialVLN: Vision-and-Language Navigation for UAVs ( http://arxiv.org/abs/2308.06735v1 ) ライセンス: Link先を確認 | Shubo Liu and Hongsheng Zhang and Yuankai Qi and Peng Wang and Yaning Zhang and Qi Wu | (参考訳) 近年,コンピュータビジョンと自然言語処理コミュニティにおいて視覚言語ナビゲーション(vln)タスクが注目されている。
既存のvlnタスクは、屋内または屋外の地上をナビゲートするエージェントのために構築されている。
しかし、多くのタスクでは、UAVベースの商品配送、交通・警備パトロール、景観ツアーなど、知的エージェントが空を飛ぶことを必要としている。
空を航行することは地上よりも複雑である、なぜならエージェントは飛行高度とより複雑な空間関係の推論を考える必要があるからだ。
このギャップを埋め、この分野の研究を促進するために、UAVベースの屋外環境に向けたAerialVLNという新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
シミュレータは,連続ナビゲーション,環境拡張,設定をサポートする。
また,広義のクロスモーダルアライメント(CMA)ナビゲーション手法に基づく拡張ベースラインモデルも提案した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
データセットとコードはhttps://github.com/AirVLN/AirVLNで入手できる。 Recently emerged Vision-and-Language Navigation (VLN) tasks have drawn significant attention in both computer vision and natural language processing communities. Existing VLN tasks are built for agents that navigate on the ground, either indoors or outdoors. However, many tasks require intelligent agents to carry out in the sky, such as UAV-based goods delivery, traffic/security patrol, and scenery tour, to name a few. Navigating in the sky is more complicated than on the ground because agents need to consider the flying height and more complex spatial relationship reasoning. To fill this gap and facilitate research in this field, we propose a new task named AerialVLN, which is UAV-based and towards outdoor environments. We develop a 3D simulator rendered by near-realistic pictures of 25 city-level scenarios. Our simulator supports continuous navigation, environment extension and configuration. We also proposed an extended baseline model based on the widely-used cross-modal-alignment (CMA) navigation methods. We find that there is still a significant gap between the baseline model and human performance, which suggests AerialVLN is a new challenging task. Dataset and code is available at https://github.com/AirVLN/AirVLN. | 翻訳日:2023-08-15 15:45:51 公開日:2023-08-13 |
# 生成拡散モデルによる降水流速予測 Precipitation nowcasting with generative diffusion models ( http://arxiv.org/abs/2308.06733v1 ) ライセンス: Link先を確認 | Andrea Asperti, Fabio Merizzi, Alberto Paparella, Giorgio Pedrazzi, Matteo Angelinelli and Stefano Colamonaco | (参考訳) 近年,深層学習法によって,正確な気象予報のための従来の数値的手法が求められている。
短距離および中距離の天気予報に用いられる多くの歴史的データセットは、通常、通常の空間格子構造に整理される。
この配置は画像によく似ており、それぞれの気象変動を地図として、あるいは時間軸をビデオとして考えるときに、可視化することができる。
生成逆ネットワーク、変分オートエンコーダ、あるいは最近の変分拡散モデルを含むいくつかの生成モデルクラスは、主に次のフレーム予測問題に適用できることを証明しており、そのため天気予報ベンチマークでその性能をテストするのが自然である。
気象予測の本質的な確率的性質から、拡散モデルは特にこの文脈で魅力的である:我々が本当に関心を持っているのは、気象指標の確率分布であり、その予測値が最も高い確率である。
本研究では,2016年から2021年までの中央ヨーロッパに関する時間データを含む,ERA-5データセットの特定のサブセットに着目した。
そこで本研究では,降水処理における拡散モデルの有効性について検討した。
本研究は,既存の文献に記録されているような,確立されたU-Netモデルの性能と比較したものである。
提案手法は, 拡散モデルを用いて, 気象シナリオのセットを生成し, 処理後ネットワークを用いて予測可能な予測に融合する手法である。
このアプローチは、最近のディープラーニングモデルと比較して、全体的なパフォーマンスにおいて、かなり優れています。 In recent years traditional numerical methods for accurate weather prediction have been increasingly challenged by deep learning methods. Numerous historical datasets used for short and medium-range weather forecasts are typically organized into a regular spatial grid structure. This arrangement closely resembles images: each weather variable can be visualized as a map or, when considering the temporal axis, as a video. Several classes of generative models, comprising Generative Adversarial Networks, Variational Autoencoders, or the recent Denoising Diffusion Models have largely proved their applicability to the next-frame prediction problem, and is thus natural to test their performance on the weather prediction benchmarks. Diffusion models are particularly appealing in this context, due to the intrinsically probabilistic nature of weather forecasting: what we are really interested to model is the probability distribution of weather indicators, whose expected value is the most likely prediction. In our study, we focus on a specific subset of the ERA-5 dataset, which includes hourly data pertaining to Central Europe from the years 2016 to 2021. Within this context, we examine the efficacy of diffusion models in handling the task of precipitation nowcasting. Our work is conducted in comparison to the performance of well-established U-Net models, as documented in the existing literature. Our proposed approach of Generative Ensemble Diffusion (GED) utilizes a diffusion model to generate a set of possible weather scenarios which are then amalgamated into a probable prediction via the use of a post-processing network. This approach, in comparison to recent deep learning models, substantially outperformed them in terms of overall performance. | 翻訳日:2023-08-15 15:45:32 公開日:2023-08-13 |
# CLE拡散:制御可能な光強調拡散モデル CLE Diffusion: Controllable Light Enhancement Diffusion Model ( http://arxiv.org/abs/2308.06725v1 ) ライセンス: Link先を確認 | Yuyang Yin, Dejia Xu, Chuangchuang Tan, Ping Liu, Yao Zhao, Yunchao Wei | (参考訳) 低光度エンハンスメントは、視覚創造と編集の急速な発展によって重要性を増している。
しかし、既存の拡張アルゴリズムのほとんどは、画像の輝度を予め定義された範囲まで均等に増やすように設計されており、ユーザエクスペリエンスを制限している。
この問題に対処するために,ユーザに対してリッチな制御性を提供する新しい拡散フレームワークであるCLE拡散(CLE Diffusion)を提案する。
条件拡散モデルを用いて構築し,ユーザが所望の明るさレベルを制御できるように照明埋め込みを導入する。
さらにsegment-anything model(sam)を組み込んで,ユーザがオブジェクトをクリックして拡張したい領域を指定することで,ユーザフレンドリなリージョン管理を可能にする。
大規模な実験により、CLE拡散は定量的メトリクス、質的結果、多目的制御性に関する競争性能を達成できることが示された。
プロジェクトページ: \url{https://yuyangyin.github.io/CLEDiffusion/} Low light enhancement has gained increasing importance with the rapid development of visual creation and editing. However, most existing enhancement algorithms are designed to homogeneously increase the brightness of images to a pre-defined extent, limiting the user experience. To address this issue, we propose Controllable Light Enhancement Diffusion Model, dubbed CLE Diffusion, a novel diffusion framework to provide users with rich controllability. Built with a conditional diffusion model, we introduce an illumination embedding to let users control their desired brightness level. Additionally, we incorporate the Segment-Anything Model (SAM) to enable user-friendly region controllability, where users can click on objects to specify the regions they wish to enhance. Extensive experiments demonstrate that CLE Diffusion achieves competitive performance regarding quantitative metrics, qualitative results, and versatile controllability. Project page: \url{https://yuyangyin.github.io/CLEDiffusion/} | 翻訳日:2023-08-15 15:45:08 公開日:2023-08-13 |
# IP-Adapter:テキスト間拡散モデルのためのテキスト互換画像プロンプトアダプタ IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2308.06721v1 ) ライセンス: Link先を確認 | Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang | (参考訳) 近年、高忠実度画像を作成するための印象的な生成能力のために、大きなテキスト・画像拡散モデルの強大な力を見てきた。
しかし、複雑なプロンプトエンジニアリングを伴う場合が多いため、テキストプロンプトのみを使用して所望の画像を生成するのは非常に難しい。
テキストプロンプトの代替として、画像プロンプトがある。
既存の訓練済みモデルから直接微調整する方法は有効であるが、大きな計算資源が必要であり、他のベースモデル、テキストプロンプト、構造制御と互換性がない。
本稿では,プリトレーニングされたテキストから画像への拡散モデルに対して,画像プロンプト機能を実現するための有効で軽量なアダプタであるip-adapterを提案する。
IP-Adapterの鍵となる設計は、テキスト機能と画像機能のためのクロスアテンション層を分離する分離されたクロスアテンションメカニズムである。
この方法の単純さにもかかわらず、パラメータが22mしかないipアダプタは、完全に微調整された画像プロンプトモデルと同等またはそれ以上の性能を達成できる。
事前学習した拡散モデルが凍結されると、提案するipアダプタは、同じベースモデルから微調整された他のカスタムモデルだけでなく、既存の制御可能なツールを使用して制御可能な生成にも一般化できる。
分離されたクロスアテンション戦略の利点により、画像プロンプトはテキストプロンプトとうまく連携してマルチモーダル画像生成を実現することができる。
プロジェクトページは \url{https://ip-adapter.github.io} で入手できる。 Recent years have witnessed the strong power of large text-to-image diffusion models for the impressive generative capability to create high-fidelity images. However, it is very tricky to generate desired images using only text prompt as it often involves complex prompt engineering. An alternative to text prompt is image prompt, as the saying goes: "an image is worth a thousand words". Although existing methods of direct fine-tuning from pretrained models are effective, they require large computing resources and are not compatible with other base models, text prompt, and structural controls. In this paper, we present IP-Adapter, an effective and lightweight adapter to achieve image prompt capability for the pretrained text-to-image diffusion models. The key design of our IP-Adapter is decoupled cross-attention mechanism that separates cross-attention layers for text features and image features. Despite the simplicity of our method, an IP-Adapter with only 22M parameters can achieve comparable or even better performance to a fully fine-tuned image prompt model. As we freeze the pretrained diffusion model, the proposed IP-Adapter can be generalized not only to other custom models fine-tuned from the same base model, but also to controllable generation using existing controllable tools. With the benefit of the decoupled cross-attention strategy, the image prompt can also work well with the text prompt to achieve multimodal image generation. The project page is available at \url{https://ip-adapter.github.io}. | 翻訳日:2023-08-15 15:44:52 公開日:2023-08-13 |
# 知識グラフを用いた点雲上の3次元シーングラフ予測 3D Scene Graph Prediction on Point Clouds Using Knowledge Graphs ( http://arxiv.org/abs/2308.06719v1 ) ライセンス: Link先を確認 | Yiding Qiu, Henrik I. Christensen | (参考訳) 3Dシーングラフ予測は、オブジェクトクラスとその関係を3D環境内で同時に予測することを目的としたタスクである。
これらの環境は、主に人間によって設計され、オブジェクトとその関係に関する常識知識を取り入れることで、シーングラフの予測を大幅に制限し、強化することができる。
本稿では,屋内シーンの点雲上での3次元シーングラフ予測におけるコモンセンス知識グラフの適用について検討する。
実世界の屋内データセット上で実施した実験により,メッセージパッシング手法による外部コモンセンス知識の統合により,外部知識を用いたシーングラフ予測精度が15.0%向上し,最先端アルゴリズムと比較して内部知識が7.96セント向上することを示した。
また、シーングラフ生成のために、1秒10フレームで実世界でテストし、よりリアルなロボティクス環境でのモデルの使用状況を示した。 3D scene graph prediction is a task that aims to concurrently predict object classes and their relationships within a 3D environment. As these environments are primarily designed by and for humans, incorporating commonsense knowledge regarding objects and their relationships can significantly constrain and enhance the prediction of the scene graph. In this paper, we investigate the application of commonsense knowledge graphs for 3D scene graph prediction on point clouds of indoor scenes. Through experiments conducted on a real-world indoor dataset, we demonstrate that integrating external commonsense knowledge via the message-passing method leads to a 15.0 % improvement in scene graph prediction accuracy with external knowledge and $7.96\%$ with internal knowledge when compared to state-of-the-art algorithms. We also tested in the real world with 10 frames per second for scene graph generation to show the usage of the model in a more realistic robotics setting. | 翻訳日:2023-08-15 15:44:25 公開日:2023-08-13 |
# 潜在変数を用いた因果構造推定のための一般化独立雑音条件 Generalized Independent Noise Condition for Estimating Causal Structure with Latent Variables ( http://arxiv.org/abs/2308.06718v1 ) ライセンス: Link先を確認 | Feng Xie, Biwei Huang, Zhengming Chen, Ruichu Cai, Clark Glymour, Zhi Geng, and Kun Zhang | (参考訳) 本研究では,潜伏変数の配置や数量の決定,潜伏変数と観測変数の因果関係の同定など,潜伏変数の存在下での因果構造学習の課題について検討する。
そこで本研究では,ある測定変数と他の測定変数の線形結合との独立性を確立する潜在変数を含む線形非ガウス型非巡回因果モデルに対する一般化された独立ノイズ(gin)条件を提案する。
具体的には、2つの観測されたランダムベクトル $\bf{Y}$ と $\bf{Z}$ に対して、GIN が成り立つのは、$\omega^{\intercal}\mathbf{Y}$ と $\mathbf{Z}$ が独立であることと、$\omega$ が $\mathbf{Y}$ と $\mathbf{Z}$ の交叉共分散によって決定される非零パラメータベクトルであることである。
そして、線形非ガウス的非巡回因果モデルにおいて、GIN条件の必要十分かつグラフィカルな基準を与える。
大まかに言えば、gin は、$\mathcal{s}$ が$\mathbf{z}$ から$\mathbf{y}$ を分離するような、$\mathbf{y}$ (w.r.t.) の親集合に対する外因的集合 $\mathcal{y}$ の存在を意味する。
興味深いことに、独立したノイズ条件(すなわち、共同創設者がいなければ、原因に対する効果の後退から生じる残差から独立している)が、GINの特別な場合と見なされる。
このようなGIN構造と潜在因果構造との接続により、提案されたGIN条件をさらに活用し、よく設計された探索手順とともに、線形非ガウス潜在階層モデル(LiNGLaHs)を効率的に推定する。
軽度の仮定により,LNGLaHの因果構造はGIN条件に照らして同定可能であることを示す。
実験の結果,提案手法の有効性が示された。 We investigate the challenging task of learning causal structure in the presence of latent variables, including locating latent variables and determining their quantity, and identifying causal relationships among both latent and observed variables. To address this, we propose a Generalized Independent Noise (GIN) condition for linear non-Gaussian acyclic causal models that incorporate latent variables, which establishes the independence between a linear combination of certain measured variables and some other measured variables. Specifically, for two observed random vectors $\bf{Y}$ and $\bf{Z}$, GIN holds if and only if $\omega^{\intercal}\mathbf{Y}$ and $\mathbf{Z}$ are independent, where $\omega$ is a non-zero parameter vector determined by the cross-covariance between $\mathbf{Y}$ and $\mathbf{Z}$. We then give necessary and sufficient graphical criteria of the GIN condition in linear non-Gaussian acyclic causal models. Roughly speaking, GIN implies the existence of an exogenous set $\mathcal{S}$ relative to the parent set of $\mathbf{Y}$ (w.r.t. the causal ordering), such that $\mathcal{S}$ d-separates $\mathbf{Y}$ from $\mathbf{Z}$. Interestingly, we find that the independent noise condition (i.e., if there is no confounder, causes are independent of the residual derived from regressing the effect on the causes) can be seen as a special case of GIN. With such a connection between GIN and latent causal structures, we further leverage the proposed GIN condition, together with a well-designed search procedure, to efficiently estimate Linear, Non-Gaussian Latent Hierarchical Models (LiNGLaHs), where latent confounders may also be causally related and may even follow a hierarchical structure. We show that the underlying causal structure of a LiNGLaH is identifiable in light of GIN conditions under mild assumptions. Experimental results show the effectiveness of the proposed approach. | 翻訳日:2023-08-15 15:44:08 公開日:2023-08-13 |
# 隠れ報酬による不完全知識エージェントの推定とインセンティブ化 Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards ( http://arxiv.org/abs/2308.06717v1 ) ライセンス: Link先を確認 | Ilgin Dogan, Zuo-Jun Max Shen, Anil Aswani | (参考訳) 実際には、インセンティブ提供者(すなわち、プリンシパル)は、これまで研究されてきた多くのプリンシパル・エージェントモデルとは対照的に、インセンティブ付きエージェントの報酬実現を観察できないことが多い。
この情報非対称性は、エージェントの判断のみを観察することで、エージェントの未知の報酬を一貫して見積もることに挑戦する。
この複雑な設定は、再生可能エネルギー貯蔵契約からパーソナライズされた医療インセンティブまで、様々な現実のシナリオで観察される。
したがって、興味深い理論的問題だけでなく、幅広い実践的関連性も提供する。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
エージェントは、期待される報酬とインセンティブを最大化するために、マルチアームバンディット(MAB)問題に取り組む。
エージェントの学習に加えて、プリンシパルは並列アルゴリズムを訓練し、エージェントの未知の報酬を一貫して推定し、エージェントをリードするために適応的なインセンティブを提供することで、自身のユーティリティを最大化するトレードオフに直面します。
非パラメトリックモデルでは、主席のインセンティブとエージェントの選択の歴史のみを入力とする推定器を導入する。
我々は、この推定とデータ駆動型インセンティブポリシーをMABフレームワーク内で統合する。
エージェントのアルゴリズムの型を制限することなく、エージェントが課す逐次的外部性を考慮して、推定器の有限サンプル整合性と主成分に対する厳密な後悔を証明した。
最後に,グリーンエネルギーアグリゲータ契約の適用性を正当化するシミュレーションにより,我々の理論結果を補強する。 In practice, incentive providers (i.e., principals) often cannot observe the reward realizations of incentivized agents, which is in contrast to many principal-agent models that have been previously studied. This information asymmetry challenges the principal to consistently estimate the agent's unknown rewards by solely watching the agent's decisions, which becomes even more challenging when the agent has to learn its own rewards. This complex setting is observed in various real-life scenarios ranging from renewable energy storage contracts to personalized healthcare incentives. Hence, it offers not only interesting theoretical questions but also wide practical relevance. This paper explores a repeated adverse selection game between a self-interested learning agent and a learning principal. The agent tackles a multi-armed bandit (MAB) problem to maximize their expected reward plus incentive. On top of the agent's learning, the principal trains a parallel algorithm and faces a trade-off between consistently estimating the agent's unknown rewards and maximizing their own utility by offering adaptive incentives to lead the agent. For a non-parametric model, we introduce an estimator whose only input is the history of principal's incentives and agent's choices. We unite this estimator with a proposed data-driven incentive policy within a MAB framework. Without restricting the type of the agent's algorithm, we prove finite-sample consistency of the estimator and a rigorous regret bound for the principal by considering the sequential externality imposed by the agent. Lastly, our theoretical results are reinforced by simulations justifying applicability of our framework to green energy aggregator contracts. | 翻訳日:2023-08-15 15:43:22 公開日:2023-08-13 |
# StairNetV3:ディープラーニングを用いた深層認識ステアモデリング StairNetV3: Depth-aware Stair Modeling using Deep Learning ( http://arxiv.org/abs/2308.06715v1 ) ライセンス: Link先を確認 | Chen Wang, Zhongcai Pei, Shuang Qiu, Yachun Wang, Zhiyong Tang | (参考訳) 視覚に基づく階段認識は、特に馴染みのない環境では、自律的な移動ロボットが階段を登るという課題に対処するのに役立つ。
本稿では,現在の単眼視法では深度情報なしでは階段を正確にモデル化することが困難である問題に対処するため,単眼視のための深度認識階段モデリング手法を提案する。
具体的には,畳み込みニューラルネットワーク(CNN)における段差幾何学的特徴の抽出と深度画像の予測を,設計した情報伝達アーキテクチャと組み合わせることで,深度情報による段差幾何学的特徴学習を効果的に行うことができる。
さらに, 階段モデルを完成させるために, 凸線, 凹線, トレッド面, ライザー面を階段幾何学的特徴とし, ガウスカーネルを用いて階段線内の文脈情報を予測する。
深度センサにより得られた深度情報と組み合わせて,階段の階段面に属する点雲を迅速に取得できる階段点雲再構成法を提案する。
提案手法は,従来の最良の単眼視法よりも大幅に改善され,結合(IOU)の交差が3.4%増加し,軽量バージョンは高速検出速度を有し,ほとんどのリアルタイムアプリケーションの要求を満たすことができることを示す。
私たちのデータセットはhttps://data.mendeley.com/datasets/6kffmjt7g2/1で利用可能です。 Vision-based stair perception can help autonomous mobile robots deal with the challenge of climbing stairs, especially in unfamiliar environments. To address the problem that current monocular vision methods are difficult to model stairs accurately without depth information, this paper proposes a depth-aware stair modeling method for monocular vision. Specifically, we take the extraction of stair geometric features and the prediction of depth images as joint tasks in a convolutional neural network (CNN), with the designed information propagation architecture, we can achieve effective supervision for stair geometric feature learning by depth information. In addition, to complete the stair modeling, we take the convex lines, concave lines, tread surfaces and riser surfaces as stair geometric features and apply Gaussian kernels to enable the network to predict contextual information within the stair lines. Combined with the depth information obtained by depth sensors, we propose a stair point cloud reconstruction method that can quickly get point clouds belonging to the stair step surfaces. Experiments on our dataset show that our method has a significant improvement over the previous best monocular vision method, with an intersection over union (IOU) increase of 3.4 %, and the lightweight version has a fast detection speed and can meet the requirements of most real-time applications. Our dataset is available at https://data.mendeley.com/datasets/6kffmjt7g2/1. | 翻訳日:2023-08-15 15:42:54 公開日:2023-08-13 |
# 分散ノードを用いたグラフの学習 Learning on Graphs with Out-of-Distribution Nodes ( http://arxiv.org/abs/2308.06714v1 ) ライセンス: Link先を確認 | Yu Song and Donglin Wang | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ上で予測タスクを実行する最先端モデルである。
既存のGNNは、グラフに関連するさまざまなタスクにおいて、優れたパフォーマンスを示しているが、トレーニングや推論中に、OOD(out-of-distribution)ノードがグラフに存在するシナリオにはほとんど注目されていない。
CVとNLPの概念を借用し、OODノードをトレーニングセットから見えないラベルを持つノードとして定義する。
多くのネットワークはプログラムによって自動的に構築されるため、現実世界のグラフはしばしば騒がしく、未知の分布のノードを含む可能性がある。
本研究では,分散ノードを用いたグラフ学習の問題を定義する。
具体的には2つの課題を 達成することを目指しています
1) 既知の分布に属さないノードを検出し,
2) 残りのノードを既知のクラスの1つに分類する。
グラフ内の接続パターンが外れ値検出に有用であることを実証し,特徴伝搬中の異なるノード間の相互作用を明示的にモデル化する新しいGNNモデルであるOut-of-Distribution Graph Attention Network (OODGAT)を提案する。
大規模な実験により、OODGATは分布内分類の点で優れているか同等であると同時に、既存の異常検出方法よりも大きなマージンで優れていることが示された。 Graph Neural Networks (GNNs) are state-of-the-art models for performing prediction tasks on graphs. While existing GNNs have shown great performance on various tasks related to graphs, little attention has been paid to the scenario where out-of-distribution (OOD) nodes exist in the graph during training and inference. Borrowing the concept from CV and NLP, we define OOD nodes as nodes with labels unseen from the training set. Since a lot of networks are automatically constructed by programs, real-world graphs are often noisy and may contain nodes from unknown distributions. In this work, we define the problem of graph learning with out-of-distribution nodes. Specifically, we aim to accomplish two tasks: 1) detect nodes which do not belong to the known distribution and 2) classify the remaining nodes to be one of the known classes. We demonstrate that the connection patterns in graphs are informative for outlier detection, and propose Out-of-Distribution Graph Attention Network (OODGAT), a novel GNN model which explicitly models the interaction between different kinds of nodes and separate inliers from outliers during feature propagation. Extensive experiments show that OODGAT outperforms existing outlier detection methods by a large margin, while being better or comparable in terms of in-distribution classification. | 翻訳日:2023-08-15 15:42:28 公開日:2023-08-13 |
# 超高速光誘起長距離反強磁性相関 Ultrafast light-induced long range antiferromagnetic correlations in paramagnets ( http://arxiv.org/abs/2308.06758v1 ) ライセンス: Link先を確認 | Lorenzo Amato, Markus M\"uller | (参考訳) パラマグネットにおける長距離規則パターン生成のためのレーザー駆動プロトコルの提案と解析を行った。
1次元チェーンにおける欠陥のない反強磁性クラスターの相関長と大きさをそれぞれ最大化する最適駆動パラメータを導出する。
断熱ポンプ方式で達成した手法よりも指数関数的に大きい相関長に到達できることが示される。
クラスタフロントの共鳴駆動ダイナミクスは、完全に可解な自由フェルミオンのモデルにマッピングされる。 We propose and analyze a laser-driven protocol to generate long-range ordered patterns in paramagnets, based on non-adiabatically driven aggregation dynamics. We derive the optimal driving parameters that maximize, respectively, the correlation length or the size of defect-free antiferromagnetic clusters in a one-dimensional chain. We show that one can reach correlation lengths that are exponentially larger than those achieved by adiabatic pumping schemes. The resonantly driven dynamics of cluster fronts is shown to map to an exactly solvable model of free fermions. | 翻訳日:2023-08-15 15:36:46 公開日:2023-08-13 |
# 影響関数に基づく第2次チャネルプルーニング-プルーニングにおける真の損失変化の評価- Influence Function Based Second-Order Channel Pruning-Evaluating True Loss Changes For Pruning Is Possible Without Retraining ( http://arxiv.org/abs/2308.06755v1 ) ライセンス: Link先を確認 | Hongrong Cheng, Miao Zhang, Javen Qinfeng Shi | (参考訳) チャネルプルーニングの課題は、プルーンのチャネルを選択するための効率的で効果的な基準を設計することである。
広く使われている基準は、最小の性能劣化である。
真実性能劣化を正確に評価するには、残余重量を再訓練する必要があるが、これは極めて遅い。
したがって、既存のプルーニング法は(再トレーニングなしで)以前の重量を使って性能劣化を評価する。
しかし,再トレーニングを伴わずとも損失の変化は著しく異なる。
再訓練をせずに真の損失変化を評価する手法を開発し、より確実かつ確実にプーンチャネルを選択できるようにする。
まず, 再学習を伴わない影響関数を用いて, プルーニングマスク変化時の真の損失変化の閉形式推定器を導出する。
ロバストな統計から得られる影響関数は、トレーニングサンプルがモデルの予測に与える影響を明らかにし、真の損失変化に対する影響を評価するために、我々が再利用する。
次に,全チャネルの重要性を同時に評価する方法を示し,それに応じて新たなグローバルチャネルプルーニングアルゴリズムを開発する。
提案アルゴリズムの有効性を検証するため,広範囲な実験を行った。
私たちの知る限りでは、リトレーニングなしで刈り取るための真の損失変化を評価することは可能です。
この発見は、既存の刈り取り方法とは異なる一連の新しいパラダイムが出現する機会を開くだろう。
コードはhttps://github.com/hrcheng1066/ifsoで入手できる。 A challenge of channel pruning is designing efficient and effective criteria to select channels to prune. A widely used criterion is minimal performance degeneration. To accurately evaluate the truth performance degeneration requires retraining the survived weights to convergence, which is prohibitively slow. Hence existing pruning methods use previous weights (without retraining) to evaluate the performance degeneration. However, we observe the loss changes differ significantly with and without retraining. It motivates us to develop a technique to evaluate true loss changes without retraining, with which channels to prune can be selected more reliably and confidently. We first derive a closed-form estimator of the true loss change per pruning mask change, using influence functions without retraining. Influence function which is from robust statistics reveals the impacts of a training sample on the model's prediction and is repurposed by us to assess impacts on true loss changes. We then show how to assess the importance of all channels simultaneously and develop a novel global channel pruning algorithm accordingly. We conduct extensive experiments to verify the effectiveness of the proposed algorithm. To the best of our knowledge, we are the first that shows evaluating true loss changes for pruning without retraining is possible. This finding will open up opportunities for a series of new paradigms to emerge that differ from existing pruning methods. The code is available at https://github.com/hrcheng1066/IFSO. | 翻訳日:2023-08-15 15:36:38 公開日:2023-08-13 |
# FastLLVE: インテンシティ対応ルックアップテーブルによるリアルタイム低照度ビデオ強調 FastLLVE: Real-Time Low-Light Video Enhancement with Intensity-Aware Lookup Table ( http://arxiv.org/abs/2308.06749v1 ) ライセンス: Link先を確認 | Wenhao Li, Guangyang Wu, Wenyi Wang, Peiran Ren and Xiaohong Liu | (参考訳) 近年,低照度映像強調(LLVE)が注目されている。
LLVEの重要な要件の1つはフレーム間の輝度一貫性であり、拡張ビデオの時間的コヒーレンスを維持するのに不可欠である。
しかし、既存のsingle-imageベースのメソッドの多くはこの問題に対処できず、拡張後の全体的な品質を低下させるflickering効果をもたらす。
さらに、フレーム間の一貫性を維持するためにビデオ用に設計された3D畳み込みニューラルネットワーク(CNN)ベースの手法は計算コストが高く、リアルタイムアプリケーションでは実用的ではない。
これらの問題に対処するために,Look-Up-Table(LUT)技術を利用してフレーム間の輝度一貫性を効果的に維持する,FastLLVEと呼ばれる効率的なパイプラインを提案する。
具体的には,低照度シナリオにおける低ダイナミックな問題に対処する適応性向上のための学習可能なIA-LUT (Intensity-Aware LUT) モジュールを設計する。
これによりfastllveは、高品質な結果を維持しながら、低レイテンシと低複雑さの強化操作を実行できる。
ベンチマークデータセットにおける実験結果は,画像品質とフレーム間輝度の一貫性の両面で,最先端(sota)性能を実現することを証明している。
より重要なことに、われわれのfastllveは1,080pのビデオを1秒あたり$\mathit{50+}$ frames per second (fps)で処理することができ、これはsata cnnベースのメソッドよりも推論時に$\mathit{2 \times}$高速で、リアルタイムアプリケーションにとって有望なソリューションになります。
コードはhttps://github.com/Wenhao-Li-777/FastLLVEで公開されている。 Low-Light Video Enhancement (LLVE) has received considerable attention in recent years. One of the critical requirements of LLVE is inter-frame brightness consistency, which is essential for maintaining the temporal coherence of the enhanced video. However, most existing single-image-based methods fail to address this issue, resulting in flickering effect that degrades the overall quality after enhancement. Moreover, 3D Convolution Neural Network (CNN)-based methods, which are designed for video to maintain inter-frame consistency, are computationally expensive, making them impractical for real-time applications. To address these issues, we propose an efficient pipeline named FastLLVE that leverages the Look-Up-Table (LUT) technique to maintain inter-frame brightness consistency effectively. Specifically, we design a learnable Intensity-Aware LUT (IA-LUT) module for adaptive enhancement, which addresses the low-dynamic problem in low-light scenarios. This enables FastLLVE to perform low-latency and low-complexity enhancement operations while maintaining high-quality results. Experimental results on benchmark datasets demonstrate that our method achieves the State-Of-The-Art (SOTA) performance in terms of both image quality and inter-frame brightness consistency. More importantly, our FastLLVE can process 1,080p videos at $\mathit{50+}$ Frames Per Second (FPS), which is $\mathit{2 \times}$ faster than SOTA CNN-based methods in inference time, making it a promising solution for real-time applications. The code is available at https://github.com/Wenhao-Li-777/FastLLVE. | 翻訳日:2023-08-15 15:36:17 公開日:2023-08-13 |
# 撮影前のターゲット:カスケードパッチ検索による1ミリ秒未満の正確な異常検出と位置推定 Target before Shooting: Accurate Anomaly Detection and Localization under One Millisecond via Cascade Patch Retrieval ( http://arxiv.org/abs/2308.06748v1 ) ライセンス: Link先を確認 | Hanxi Li, Jianfei Hu, Bo Li, Hao Chen, Yongbin Zheng, Chunhua Shen | (参考訳) 本稿では,アノマリー検出(ad)の「マッチング」特性を再検討することにより,広告精度と劇的に高い実行速度の新たな記録を同時に享受する新しい広告フレームワークを提案する。
このフレームワークでは、各テスト画像パッチに最も近い近傍を粗い方法で検索するカスケードパッチ検索手順によって異常検出問題を解決する。
テストサンプルが与えられた場合、ストレートなヒストグラムマッチングプロセスに基づいて、トップKで最も類似したトレーニング画像が最初に選択される。
第二に、各テストパッチの最も近い隣人は、慎重に訓練された局所計量を用いて、これらの「グローバルな隣人」の類似した幾何学的位置で検索される。
最後に、各テスト画像パッチの異常スコアは、その「近接近傍」と「非背景」確率との距離に基づいて算出される。
本研究では,提案手法を"Cascade Patch Retrieval"(CPR)と呼ぶ。
パッチマッチングベースのADアルゴリズムとは異なり、CPRは「パッチマッチング」の前に適切な「ターゲット」(参照画像と位置)を選択する。
評価されたMVTec AD, BTAD, MVTec-3D ADデータセットでは, 提案アルゴリズムは, 様々なAD測定値によって測定された, 比較したSOTA法よりも一貫して優れていた。
さらに、CPRは極めて効率的である。
標準設定で113 FPSの速度で動作し、単純化されたバージョンでは1ミリ秒未満で画像を処理することができる。
CPRのコードはhttps://github.com/flyinghu123/CPRで公開されている。 In this work, by re-examining the "matching" nature of Anomaly Detection (AD), we propose a new AD framework that simultaneously enjoys new records of AD accuracy and dramatically high running speed. In this framework, the anomaly detection problem is solved via a cascade patch retrieval procedure that retrieves the nearest neighbors for each test image patch in a coarse-to-fine fashion. Given a test sample, the top-K most similar training images are first selected based on a robust histogram matching process. Secondly, the nearest neighbor of each test patch is retrieved over the similar geometrical locations on those "global nearest neighbors", by using a carefully trained local metric. Finally, the anomaly score of each test image patch is calculated based on the distance to its "local nearest neighbor" and the "non-background" probability. The proposed method is termed "Cascade Patch Retrieval" (CPR) in this work. Different from the conventional patch-matching-based AD algorithms, CPR selects proper "targets" (reference images and locations) before "shooting" (patch-matching). On the well-acknowledged MVTec AD, BTAD and MVTec-3D AD datasets, the proposed algorithm consistently outperforms all the comparing SOTA methods by remarkable margins, measured by various AD metrics. Furthermore, CPR is extremely efficient. It runs at the speed of 113 FPS with the standard setting while its simplified version only requires less than 1 ms to process an image at the cost of a trivial accuracy drop. The code of CPR is available at https://github.com/flyinghu123/CPR. | 翻訳日:2023-08-15 15:35:48 公開日:2023-08-13 |
# ldctデノージングのためのモジュラーネットワークを用いた劣化画像を用いた自己教師ありノイズ2ノイズ法 Self-supervised Noise2noise Method Utilizing Corrupted Images with a Modular Network for LDCT Denoising ( http://arxiv.org/abs/2308.06746v1 ) ライセンス: Link先を確認 | Yuting Zhu and Qiang He and Yudong Yao and Yueyang Teng | (参考訳) 深層学習は低線量ct(low-dose computed tomography:ldct)画像の雑音化に非常に有望な技術である。
しかし、従来のディープラーニング手法ではペア化ノイズとクリーンなデータセットが必要であり、入手が難しいことが多い。
本稿では,LDCTデータのみを用いてLDCT画像の復調を行う新しい手法を提案する。
我々は、自己教師型ノイズ2ノイズモデルとノイズ・アズ・クリーン戦略の組み合わせを採用する。
まず、LDCT画像に2番目に類似したノイズを複数回追加する。
NDCT画像の代わりに,ノイズ・アズ・クリーン・ストラテジーに基づくLDCT画像を用いることに注意。
そして、トレーニング用二次劣化画像のみを用いてノイズ2ノイズモデルを実行する。
タスクを実行するために,共有パラメータを持つ複数の候補からモジュラーu-net構造を選択し,パラメータサイズを増加させることなくレセプティブフィールドを増加させる。
Mayo LDCTデータセットで得られた実験結果は,最先端のディープラーニング手法と比較して提案手法の有効性を示した。
開発コードはhttps://github.com/XYuan01/Self-supervised-Noise2Noise-for-LDCTで公開されている。 Deep learning is a very promising technique for low-dose computed tomography (LDCT) image denoising. However, traditional deep learning methods require paired noisy and clean datasets, which are often difficult to obtain. This paper proposes a new method for performing LDCT image denoising with only LDCT data, which means that normal-dose CT (NDCT) is not needed. We adopt a combination including the self-supervised noise2noise model and the noisy-as-clean strategy. First, we add a second yet similar type of noise to LDCT images multiple times. Note that we use LDCT images based on the noisy-as-clean strategy for corruption instead of NDCT images. Then, the noise2noise model is executed with only the secondary corrupted images for training. We select a modular U-Net structure from several candidates with shared parameters to perform the task, which increases the receptive field without increasing the parameter size. The experimental results obtained on the Mayo LDCT dataset show the effectiveness of the proposed method compared with that of state-of-the-art deep learning methods. The developed code is available at https://github.com/XYuan01/Self-supervised-Noise2Noise-for-LDCT. | 翻訳日:2023-08-15 15:35:19 公開日:2023-08-13 |
# 三元重み生成言語モデルのためのトークンスケールロジット蒸留 Token-Scaled Logit Distillation for Ternary Weight Generative Language Models ( http://arxiv.org/abs/2308.06744v1 ) ライセンス: Link先を確認 | Minsoo Kim, Sihwa Lee, Janghwan Lee, Sukjin Hong, Du-Seong Chang, Wonyong Sung, Jungwook Choi | (参考訳) ジェネレーティブ言語モデル(GLM)は、テキスト生成、理解、推論といったタスクにおいて素晴らしいパフォーマンスを示している。
しかし、大きなモデルサイズは実用的なデプロイメントに課題をもたらします。
この問題を解決するため,QAT(Quantization-Aware Training)が普及している。
しかし, 生成モデルに対する現在のQAT法では, 精度が著しく低下している。
本稿では, GLMを対象とした新しい知識蒸留法を提案する。
本手法はトークンスケールドロジット蒸留法と呼ばれ,教師モデルや基礎的真理から優れた学習を提供する。
本研究は, 大規模glmの3次重み量子化・アウェアトレーニングの最初の評価であり, パープレキシティが1.0未満であり, 推論作業において精度が低下しないことを示す。 Generative Language Models (GLMs) have shown impressive performance in tasks such as text generation, understanding, and reasoning. However, the large model size poses challenges for practical deployment. To solve this problem, Quantization-Aware Training (QAT) has become increasingly popular. However, current QAT methods for generative models have resulted in a noticeable loss of accuracy. To counteract this issue, we propose a novel knowledge distillation method specifically designed for GLMs. Our method, called token-scaled logit distillation, prevents overfitting and provides superior learning from the teacher model and ground truth. This research marks the first evaluation of ternary weight quantization-aware training of large-scale GLMs with less than 1.0 degradation in perplexity and no loss of accuracy in a reasoning task. | 翻訳日:2023-08-15 15:35:03 公開日:2023-08-13 |
# TextDiff:Scene Text Image Super-Resolutionのためのマスクガイド型残留拡散モデル TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution ( http://arxiv.org/abs/2308.06743v1 ) ライセンス: Link先を確認 | Baolin Liu and Zongyuan Yang and Pengfei Wang and Junjie Zhou and Ziqi Liu and Ziyi Song and Yan Liu and Yongping Xiong | (参考訳) シーンテキスト画像のスーパーレゾリューションの目的は、認識不能な低解像度入力から高解像度テキストライン画像を再構成することである。
画素レベルの損失の最適化に依存する既存の手法は、顕著なぼやけ度を示すテキストエッジを生成する傾向があり、それによってテキストの可読性と認識性の両方に大きな影響を及ぼす。
そこで本稿では,テキスト画像の超解像に適した最初の拡散ベースフレームワークであるtextdiffを提案する。
Text Enhancement Module (TEM) と Mask-Guided Residual Diffusion Module (MRD) の2つのモジュールがある。
TEMは、初期劣化したテキスト画像と、テキストの空間的位置を符号化するマスクを生成する。
MRDは、接地トラス画像と初期劣化画像の間の残差をモデル化することにより、テキストエッジを効果的にシャープする。
広範な実験により、textdiffはパブリックベンチマークデータセットで最先端(sota)性能を達成し、シーンテキスト画像の可読性を向上させることが証明された。
さらに,本提案モジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
この強化は、SOTA法によって生成された結果の可読性と認識性を向上するだけでなく、追加のジョイントトレーニングも必要としない。
利用可能なコード:https://github.com/Lenubolim/TextDiff。 The goal of scene text image super-resolution is to reconstruct high-resolution text-line images from unrecognizable low-resolution inputs. The existing methods relying on the optimization of pixel-level loss tend to yield text edges that exhibit a notable degree of blurring, thereby exerting a substantial impact on both the readability and recognizability of the text. To address these issues, we propose TextDiff, the first diffusion-based framework tailored for scene text image super-resolution. It contains two modules: the Text Enhancement Module (TEM) and the Mask-Guided Residual Diffusion Module (MRD). The TEM generates an initial deblurred text image and a mask that encodes the spatial location of the text. The MRD is responsible for effectively sharpening the text edge by modeling the residuals between the ground-truth images and the initial deblurred images. Extensive experiments demonstrate that our TextDiff achieves state-of-the-art (SOTA) performance on public benchmark datasets and can improve the readability of scene text images. Moreover, our proposed MRD module is plug-and-play that effectively sharpens the text edges produced by SOTA methods. This enhancement not only improves the readability and recognizability of the results generated by SOTA methods but also does not require any additional joint training. Available Codes:https://github.com/Lenubolim/TextDiff. | 翻訳日:2023-08-15 15:34:49 公開日:2023-08-13 |
# ミラーディフレッシュポリシー最適化による異種多エージェント強化学習 Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent Policy Optimization ( http://arxiv.org/abs/2308.06741v1 ) ライセンス: Link先を確認 | Mohammad Mehdi Nasiri, Mansoor Rezghi | (参考訳) 本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するミラー・ダイスン法の拡張について述べる。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を用いて,全体的な性能向上を確保しつつ,各エージェントの効率的なポリシー更新を実現する。
信頼領域問題の近似解を通じてエージェントポリシーを反復的に更新することにより、HAMDPOは安定性を保証し、性能を向上させる。
さらに、HAMDPOアルゴリズムは、様々なMARL問題における異種エージェントに対する連続的および離散的な作用空間を処理できる。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスクにおけるHAMDPOの評価を行い,HATRPOやHAPPOといった最先端アルゴリズムよりも優れていることを示す。
これらの結果から,HAMDPOは協調的MARL問題の解決に有望なアプローチであり,MARL分野における他の課題に対処するために拡張できる可能性が示唆された。 This paper presents an extension of the Mirror Descent method to overcome challenges in cooperative Multi-Agent Reinforcement Learning (MARL) settings, where agents have varying abilities and individual policies. The proposed Heterogeneous-Agent Mirror Descent Policy Optimization (HAMDPO) algorithm utilizes the multi-agent advantage decomposition lemma to enable efficient policy updates for each agent while ensuring overall performance improvements. By iteratively updating agent policies through an approximate solution of the trust-region problem, HAMDPO guarantees stability and improves performance. Moreover, the HAMDPO algorithm is capable of handling both continuous and discrete action spaces for heterogeneous agents in various MARL problems. We evaluate HAMDPO on Multi-Agent MuJoCo and StarCraftII tasks, demonstrating its superiority over state-of-the-art algorithms such as HATRPO and HAPPO. These results suggest that HAMDPO is a promising approach for solving cooperative MARL problems and could potentially be extended to address other challenging problems in the field of MARL. | 翻訳日:2023-08-15 15:34:24 公開日:2023-08-13 |
# 重み付きスパース部分最小二乗法によるジョイントサンプルと特徴選択 Weighted Sparse Partial Least Squares for Joint Sample and Feature Selection ( http://arxiv.org/abs/2308.06740v1 ) ライセンス: Link先を確認 | Wenwen Min, Taosheng Xu and Chris Ding | (参考訳) SPLS(Sparse partial Least Squares)は、データ融合のための一般的な次元削減手法であり、最大分散を持つ少数の変数との線形結合を求めることにより、2つのビューからデータサンプルを投影する。
しかし、sPLSは2つのデータセットとすべてのデータサンプルの組み合わせを抽出し、サンプルの潜在サブセットを検出することができない。
サンプルの特定の部分集合を特定して外れ値を取り除くことでsPLSの適用を拡大するため、サンプルのサブセットを選択するために$\ell_\infty/\ell_0$-norm制約付き重み付きスパースPSS(\ell_\infty/\ell_0$-wsPLS)法を提案する。
我々は、$\ell_\infty/\ell_0$-norm制約がkurdyka-\l{ojasiewicz}~propertyを持つことを証明し、それを解決するためにグローバル収束アルゴリズムが開発された。
さらに、同じサンプルセットを持つマルチビューデータは、様々な実問題で利用することができる。
この目的のために、$\ell_\infty/\ell_0$-wsPLSモデルを拡張し、マルチビューデータ融合のための2つのマルチビューwsPLSモデルを提案する。
マルチビューwsPLSモデル毎に効率的な反復アルゴリズムを開発し,その収束特性を示す。
数値および生物医学データ実験と同様に,提案手法の有効性を実証する。 Sparse Partial Least Squares (sPLS) is a common dimensionality reduction technique for data fusion, which projects data samples from two views by seeking linear combinations with a small number of variables with the maximum variance. However, sPLS extracts the combinations between two data sets with all data samples so that it cannot detect latent subsets of samples. To extend the application of sPLS by identifying a specific subset of samples and remove outliers, we propose an $\ell_\infty/\ell_0$-norm constrained weighted sparse PLS ($\ell_\infty/\ell_0$-wsPLS) method for joint sample and feature selection, where the $\ell_\infty/\ell_0$-norm constrains are used to select a subset of samples. We prove that the $\ell_\infty/\ell_0$-norm constrains have the Kurdyka-\L{ojasiewicz}~property so that a globally convergent algorithm is developed to solve it. Moreover, multi-view data with a same set of samples can be available in various real problems. To this end, we extend the $\ell_\infty/\ell_0$-wsPLS model and propose two multi-view wsPLS models for multi-view data fusion. We develop an efficient iterative algorithm for each multi-view wsPLS model and show its convergence property. As well as numerical and biomedical data experiments demonstrate the efficiency of the proposed methods. | 翻訳日:2023-08-15 15:34:03 公開日:2023-08-13 |
# 自由ATM:自由注意マスクを用いた拡散生成画像の教師なし学習 Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks ( http://arxiv.org/abs/2308.06739v1 ) ライセンス: Link先を確認 | David Junhao Zhang, Mutian Xu, Chuhui Xue, Wenqing Zhang, Xiaoguang Han, Song Bai, Mike Zheng Shou | (参考訳) 視覚的表現における教師なし学習の急速な進歩にもかかわらず、コストのかかるデータ収集を要求する大規模データセットのトレーニングと、データプライバシに関する懸念のために追加の課題を提起する必要がある。
近年,テキストから画像への拡散モデルによって生成された合成画像は,画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
そこで本研究では,拡散モデルのクロスアテンション層が,生成画像上の対応するテキスト入力に対応するアノテーションのないアテンションマスクを本質的に提供することを明らかにする。
次に,3つの教師なし学習手法(コントラスト学習,マスクモデリング,視覚言語事前学習)の問題点を調査し,前述のフリーアテンションマスクを十分に活用したカスタマイズソリューションを導入する。
提案手法は,画像分類,検出,セグメンテーション,画像テキスト検索など,下流タスクにおけるベースラインモデルの一貫した改善を示す広範な実験によって検証される。
本手法を用いることで,教師なし事前学習と実世界のシナリオ間の性能ギャップを埋めることが可能となる。 Despite the rapid advancement of unsupervised learning in visual representation, it requires training on large-scale datasets that demand costly data collection, and pose additional challenges due to concerns regarding data privacy. Recently, synthetic images generated by text-to-image diffusion models, have shown great potential for benefiting image recognition. Although promising, there has been inadequate exploration dedicated to unsupervised learning on diffusion-generated images. To address this, we start by uncovering that diffusion models' cross-attention layers inherently provide annotation-free attention masks aligned with corresponding text inputs on generated images. We then investigate the problems of three prevalent unsupervised learning techniques ( i.e., contrastive learning, masked modeling, and vision-language pretraining) and introduce customized solutions by fully exploiting the aforementioned free attention masks. Our approach is validated through extensive experiments that show consistent improvements in baseline models across various downstream tasks, including image classification, detection, segmentation, and image-text retrieval. By utilizing our method, it is possible to close the performance gap between unsupervised pretraining on synthetic data and real-world scenarios. | 翻訳日:2023-08-15 15:33:35 公開日:2023-08-13 |
# プルーンド四元数を持つフラクションにおけるニューラルネットワーク Neural Networks at a Fraction with Pruned Quaternions ( http://arxiv.org/abs/2308.06780v1 ) ライセンス: Link先を確認 | Sahel Mohammad Iqbal and Subhankar Mishra | (参考訳) 現代の最先端のニューラルネットワークはますます多くのパラメータを持ち、計算能力の制限されたデバイスへのデプロイを妨げている。
プルーニングは、不要な重量を取り除き、トレーニングと推論のリソース要求を減らす1つの手法である。
また、入力データが多次元であるMLタスクに対しては、複素数や四元数などの高次元データ埋め込みを用いて、精度を保ちながらパラメータ数を削減することが示されている。
本研究では,分類タスクにおいて,異なるアーキテクチャの現実および四元価値実装をpruningする。
いくつかのアーキテクチャでは、非常に高い空間レベルにおいて、四元数モデルは実際のアーキテクチャよりも高い精度を提供する。
例えば、Conv-4を用いたCIFAR-10の画像分類のタスクでは、元のモデルとしてのパラメータの3.5%の値で、プルーンド四元数バージョンは、プルーンドリアルを10.%以上上回っている。
さまざまなネットワークアーキテクチャとデータセットの実験により、極めてリソースが制約された環境でのデプロイメントにおいて、スパース四元ネットワークは、類似アーキテクチャの真のスパースモデルよりも適している可能性が示されている。 Contemporary state-of-the-art neural networks have increasingly large numbers of parameters, which prevents their deployment on devices with limited computational power. Pruning is one technique to remove unnecessary weights and reduce resource requirements for training and inference. In addition, for ML tasks where the input data is multi-dimensional, using higher-dimensional data embeddings such as complex numbers or quaternions has been shown to reduce the parameter count while maintaining accuracy. In this work, we conduct pruning on real and quaternion-valued implementations of different architectures on classification tasks. We find that for some architectures, at very high sparsity levels, quaternion models provide higher accuracies than their real counterparts. For example, at the task of image classification on CIFAR-10 using Conv-4, at $3\%$ of the number of parameters as the original model, the pruned quaternion version outperforms the pruned real by more than $10\%$. Experiments on various network architectures and datasets show that for deployment in extremely resource-constrained environments, a sparse quaternion network might be a better candidate than a real sparse model of similar architecture. | 翻訳日:2023-08-15 15:26:18 公開日:2023-08-13 |
# 半教師付き学習における確信度向上のためのクラス空間縮小 Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning ( http://arxiv.org/abs/2308.06777v1 ) ライセンス: Link先を確認 | Lihe Yang, Zhen Zhao, Lei Qi, Yu Qiao, Yinghuan Shi, Hengshuang Zhao | (参考訳) ラベルのないデータを組み合わせることに成功し、セミ教師付き学習が注目を集めている。
潜在的に誤った擬似ラベルを緩和するために、最近のフレームワークは、不確実なサンプルを破棄する固定された信頼しきい値を設定している。
この慣行は高品質な擬似ラベルを保証するが、ラベルなし集合全体の比較的低い利用を生じる。
この研究において、トップ1クラスの混乱クラスが検出され削除される限り、これらの不確実なサンプルを特定のサンプルに変換することが可能である。
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し,不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含んでいないスランククラス空間を適応的に求める。
この空間では混乱が除去されるので、再計算されたトップ1信頼度は予め定義された閾値を満たすことができる。
次に,シュロンク空間において強弱に拡張された一対の試料間の一貫性の正規化を行い,判別表現を試みる。
さらに, 不確実なサンプルの信頼性の変動と, トレーニング中に徐々に改善されたモデルを考えると, 不確実な損失に対する2つの再重み付け原理を設計する。
本手法は広く採用されているベンチマークで印象的な性能を示す。
コードはhttps://github.com/LiheYoung/ShrinkMatch.comで入手できる。 Semi-supervised learning is attracting blooming attention, due to its success in combining unlabeled data. To mitigate potentially incorrect pseudo labels, recent frameworks mostly set a fixed confidence threshold to discard uncertain samples. This practice ensures high-quality pseudo labels, but incurs a relatively low utilization of the whole unlabeled set. In this work, our key insight is that these uncertain samples can be turned into certain ones, as long as the confusion classes for the top-1 class are detected and removed. Invoked by this, we propose a novel method dubbed ShrinkMatch to learn uncertain samples. For each uncertain sample, it adaptively seeks a shrunk class space, which merely contains the original top-1 class, as well as remaining less likely classes. Since the confusion ones are removed in this space, the re-calculated top-1 confidence can satisfy the pre-defined threshold. We then impose a consistency regularization between a pair of strongly and weakly augmented samples in the shrunk space to strive for discriminative representations. Furthermore, considering the varied reliability among uncertain samples and the gradually improved model during training, we correspondingly design two reweighting principles for our uncertain loss. Our method exhibits impressive performance on widely adopted benchmarks. Code is available at https://github.com/LiheYoung/ShrinkMatch. | 翻訳日:2023-08-15 15:25:58 公開日:2023-08-13 |
# 自己協調型並列生成逆数分岐による実世界のシナリオにおける教師なし画像認識 Unsupervised Image Denoising in Real-World Scenarios via Self-Collaboration Parallel Generative Adversarial Branches ( http://arxiv.org/abs/2308.06776v1 ) ライセンス: Link先を確認 | Xin Lin, Chao Ren, Xiao Liu, Jie Huang, Yinjie Lei | (参考訳) ディープラーニングの手法は、特に大規模なペアデータセットでトレーニングされた場合、画像の雑音化において顕著なパフォーマンスを示している。
しかし、そのようなペア化されたデータセットを現実のシナリオで取得することは大きな課題となる。
生成的敵ネットワークに基づく教師なしアプローチは、ペア化されたデータセットを使わずにデノナイズするための有望なソリューションを提供するが、既存の構造を著しく変更したり、デノネイザの複雑性を増大させることなく、従来のGANベースのアン教師なしフレームワークのパフォーマンス制限を克服することは困難である。
この問題に対処するために,複数のデノイザに対してsc戦略を提案する。
この戦略は、GANベースのdenoisingフレームワークの推論複雑性を増大させることなく、大幅なパフォーマンス向上を実現することができる。
その基本的な考え方は、フィルタ誘導ノイズ抽出モジュールの以前のより強力なデノイザーを、現在の強力なデノイザーに繰り返し置き換えることである。
このプロセスは、より優れた合成クリーンノイズ画像ペアを生成し、次のイテレーションでより強力なデノイザを生み出す。
このベースラインはトレーニングネットワークの安定性と有効性を保証する。
実験の結果,最先端の教師なし手法よりも優れた手法が得られた。 Deep learning methods have shown remarkable performance in image denoising, particularly when trained on large-scale paired datasets. However, acquiring such paired datasets for real-world scenarios poses a significant challenge. Although unsupervised approaches based on generative adversarial networks offer a promising solution for denoising without paired datasets, they are difficult in surpassing the performance limitations of conventional GAN-based unsupervised frameworks without significantly modifying existing structures or increasing the computational complexity of denoisers. To address this problem, we propose a SC strategy for multiple denoisers. This strategy can achieve significant performance improvement without increasing the inference complexity of the GAN-based denoising framework. Its basic idea is to iteratively replace the previous less powerful denoiser in the filter-guided noise extraction module with the current powerful denoiser. This process generates better synthetic clean-noisy image pairs, leading to a more powerful denoiser for the next iteration. This baseline ensures the stability and effectiveness of the training network. The experimental results demonstrate the superiority of our method over state-of-the-art unsupervised methods. | 翻訳日:2023-08-15 15:25:38 公開日:2023-08-13 |
# ヒト一撃脳組織分画における経時的一般化正規化による二重メタラーニング Dual Meta-Learning with Longitudinally Generalized Regularization for One-Shot Brain Tissue Segmentation Across the Human Lifespan ( http://arxiv.org/abs/2308.06774v1 ) ライセンス: Link先を確認 | Yongheng Sun, Fan Wang, Jun Shu, Haifeng Wang, Li Wang. Deyu Meng, Chunfeng Lian | (参考訳) 脳組織分割は神経科学と臨床研究に不可欠である。
しかし、縦断データのセグメンテーションは、生涯にわたる動的脳変化のために困難である。
従来の研究は主に正規化による自己監督に焦点が当てられ、特定の年齢層での微調整では縦方向の一般化が失われる。
本稿では,縦に一貫した表現を学習し,微調整時に持続するメタラーニングパラダイムを提案する。
具体的には,メタ機能学習による長手一貫性の解剖表現を抽出するプラグアンドプレイ特徴抽出器と,メタ初期化学習による微調整のためのタスクヘッドについて学習する。
また,2つのクラス認識規則化が提案されている。
iSeg2019とADNIデータセットの実験結果から,本手法の有効性が示された。
私たちのコードはhttps://github.com/ladderlab-xjtu/dumetaで利用可能です。 Brain tissue segmentation is essential for neuroscience and clinical studies. However, segmentation on longitudinal data is challenging due to dynamic brain changes across the lifespan. Previous researches mainly focus on self-supervision with regularizations and will lose longitudinal generalization when fine-tuning on a specific age group. In this paper, we propose a dual meta-learning paradigm to learn longitudinally consistent representations and persist when fine-tuning. Specifically, we learn a plug-and-play feature extractor to extract longitudinal-consistent anatomical representations by meta-feature learning and a well-initialized task head for fine-tuning by meta-initialization learning. Besides, two class-aware regularizations are proposed to encourage longitudinal consistency. Experimental results on the iSeg2019 and ADNI datasets demonstrate the effectiveness of our method. Our code is available at https://github.com/ladderlab-xjtu/DuMeta. | 翻訳日:2023-08-15 15:25:20 公開日:2023-08-13 |
# fr\'echet統計に基づく多変量ホークス過程における変化点検出 Fr\'echet Statistics Based Change Point Detection in Multivariate Hawkes Process ( http://arxiv.org/abs/2308.06769v1 ) ライセンス: Link先を確認 | Rui Luo and Vikram Krishnamurthy | (参考訳) 本稿では,Frechet統計を用いた多変量ホークスの因果ネットワークにおける変化点検出手法を提案する。
提案手法では,点過程を重なり合う窓に分割し,各ウィンドウのカーネル行列を推定し,カーネル行列を因果ネットワークの隣接行列として扱うことで符号付きラプラシアンを再構成する。
シミュレーションおよび実世界の暗号データセットを用いた実験により,本手法の有効性を示す。
本手法は,多変量ホークス過程の因果構造の変化を正確に検出し,特徴付けることができ,金融学や神経科学などの分野にも応用できる可能性が示唆された。
提案手法は点プロセス設定におけるFrechet統計に関する以前の研究の拡張であり,多変量点プロセスにおける変化点検出の分野への重要な貢献を示す。 This paper proposes a new approach for change point detection in causal networks of multivariate Hawkes processes using Frechet statistics. Our method splits the point process into overlapping windows, estimates kernel matrices in each window, and reconstructs the signed Laplacians by treating the kernel matrices as the adjacency matrices of the causal network. We demonstrate the effectiveness of our method through experiments on both simulated and real-world cryptocurrency datasets. Our results show that our method is capable of accurately detecting and characterizing changes in the causal structure of multivariate Hawkes processes, and may have potential applications in fields such as finance and neuroscience. The proposed method is an extension of previous work on Frechet statistics in point process settings and represents an important contribution to the field of change point detection in multivariate point processes. | 翻訳日:2023-08-15 15:25:06 公開日:2023-08-13 |
# deep neural network pruning-taxonomy, comparison, analysis, and recommendationsに関する調査 A Survey on Deep Neural Network Pruning-Taxonomy, Comparison, Analysis, and Recommendations ( http://arxiv.org/abs/2308.06767v1 ) ライセンス: Link先を確認 | Hongrong Cheng, Miao Zhang, Javen Qinfeng Shi | (参考訳) 現代のディープニューラルネットワーク、特に最近の大規模言語モデルには、膨大な計算とストレージリソースを必要とする巨大なモデルサイズが伴っている。
資源制約のある環境に現代的なモデルをデプロイし、推論時間を加速するために、研究者はニューラルネットワーク圧縮の一般的な研究方向としてプルーニングテクニックを探求している。
しかし、刈り込みに関する最新の総合的なレビュー論文が数多く出回っている。
この問題に対処するため、本調査では、分類学におけるディープニューラルネットワークプルーニングに関する既存の研究成果を網羅的にレビューする。
1)普遍/特定スピードアップ
2) いつpruneするか。
3)プルーネの仕方、そして
4) 刈り取りと他の圧縮技術との融合。
次に,7組のプルーニング用コントラスト設定(例えば,非構造化/構造化)の徹底的な比較分析を行い,訓練後のプルーニング,プルーニングの異なるレベルの監督,さらには既存の方法の共通性と相違を浮き彫りにするためのより広い応用(例えば,敵対的ロバスト性)など,今後の手法開発の基礎を探究する。
将来の研究を容易にするために、異なるアプリケーション上でデータセット、ネットワーク、評価のキュレーションされたコレクションを構築します。
最後に, 摘採方法の選択と今後の研究方向性について, 有望な提案を行う。
リポジトリはhttps://github.com/hrcheng1066/awesome-pruningで構築します。 Modern deep neural networks, particularly recent large language models, come with massive model sizes that require significant computational and storage resources. To enable the deployment of modern models on resource-constrained environments and accelerate inference time, researchers have increasingly explored pruning techniques as a popular research direction in neural network compression. However, there is a dearth of up-to-date comprehensive review papers on pruning. To address this issue, in this survey, we provide a comprehensive review of existing research works on deep neural network pruning in a taxonomy of 1) universal/specific speedup, 2) when to prune, 3) how to prune, and 4) fusion of pruning and other compression techniques. We then provide a thorough comparative analysis of seven pairs of contrast settings for pruning (e.g., unstructured/structured) and explore emerging topics, including post-training pruning, different levels of supervision for pruning, and broader applications (e.g., adversarial robustness) to shed light on the commonalities and differences of existing methods and lay the foundation for further method development. To facilitate future research, we build a curated collection of datasets, networks, and evaluations on different applications. Finally, we provide some valuable recommendations on selecting pruning methods and prospect promising research directions. We build a repository at https://github.com/hrcheng1066/awesome-pruning. | 翻訳日:2023-08-15 15:24:51 公開日:2023-08-13 |
# 量子カオスにおける局所レベル間隔の統計 Statistics of local level spacings in quantum chaology ( http://arxiv.org/abs/2308.06766v1 ) ライセンス: Link先を確認 | Peng Tian, Roman Riser and Eugene Kanzieper | (参考訳) 局所的レベル間隔の概念を導入し,その統計をランダム行列理論の手法で研究する。
無限次元ランダム行列の極限において、完全カオス性と完全可積分古典力学を持つ量子システムの展開スペクトルを記述する局所空間分布の2つの普遍クラスを同定する。
さらに、Sachdev-Ye-Kitaev (SYK) Hamitonian の正確な対角化により、原スペクトルで計算された平均局所間隔の比率は普遍性を維持しており、量子多体系におけるスペクトル統計を観測するためのフレームワークを提供する。 We introduce a notion of local level spacings and study their statistics within a random-matrix-theory approach. In the limit of infinite-dimensional random matrices, we identify the two universal classes of local spacings distributions which describe unfolded spectra of quantum systems with fully chaotic and completely integrable classical dynamics, respectively. We further argue, and explicitly demonstrate by exact diagonalisation of the Sachdev-Ye-Kitaev (SYK) Hamitonians, that the ratios of averaged local spacings computed for raw spectra maintain their universality thus offering a framework to monitor spectral statistics in quantum many-body systems. | 翻訳日:2023-08-15 15:24:09 公開日:2023-08-13 |
# 授業増分学習についての一考察 Few-shot Class-incremental Learning: A Survey ( http://arxiv.org/abs/2308.06764v1 ) ライセンス: Link先を確認 | Jinghua Zhang and Li Liu and Olli Silven and Matti Pietik\"ainen and Dewen Hu | (参考訳) FSCIL(Few-shot Class-Incremental Learning)は、従来の知識を忘れずに、スパースラベル付きトレーニングサンプルから新しいクラスを継続的に学習する必要があるため、機械学習においてユニークな課題を提示している。
この領域は近年進歩しているが、現在も活発な探検地である。
本稿では,FSCILの総合的かつ体系的なレビューを行うことを目的とする。
本研究は, FSCILの様々な側面を掘り下げ, 問題定義, 信頼性の低い経験的リスク最小化の課題, 安定性・可塑性ジレンマ, 一般的なスキーム, インクリメンタルラーニングと少数ショットラーニングの課題について考察した。
さらに、ベンチマークデータセットと評価指標の概要も提供する。
さらに、データベース、構造ベース、最適化ベースのアプローチによるFSCILの分類手法と、アンカーフリーおよびアンカーベースアプローチによるFSCILのオブジェクト検出手法を紹介する。
このほか、さらなる調査に役立ついくつかの有望な研究方向をFSCIL内で明らかにする。 Few-shot Class-Incremental Learning (FSCIL) presents a unique challenge in machine learning, as it necessitates the continuous learning of new classes from sparse labeled training samples without forgetting previous knowledge. While this field has seen recent progress, it remains an active area of exploration. This paper aims to provide a comprehensive and systematic review of FSCIL. In our in-depth examination, we delve into various facets of FSCIL, encompassing the problem definition, the discussion of primary challenges of unreliable empirical risk minimization and the stability-plasticity dilemma, general schemes, and relevant problems of incremental learning and few-shot learning. Besides, we offer an overview of benchmark datasets and evaluation metrics. Furthermore, we introduce the classification methods in FSCIL from data-based, structure-based, and optimization-based approaches and the object detection methods in FSCIL from anchor-free and anchor-based approaches. Beyond these, we illuminate several promising research directions within FSCIL that merit further investigation. | 翻訳日:2023-08-15 15:23:56 公開日:2023-08-13 |
# アプリオリ・アソシエーション・ルール・マイニング(apriori association rule mining)を用いた回復患者および死亡者からのcovid-19の症状パターンの検出 Discovering the Symptom Patterns of COVID-19 from Recovered and Deceased Patients Using Apriori Association Rule Mining ( http://arxiv.org/abs/2308.06763v1 ) ライセンス: Link先を確認 | Mohammad Dehghani, Zahra Yazdanparast, Mobin Mohammadi | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で壊滅的な影響を及ぼし、数百万人の命が引き起こされ、社会と経済に大きな混乱をもたらした。
意思決定を最適化し、限られた資源を割り当てるためには、新型コロナウイルスの症状を特定し、各症例の重症度を決定することが不可欠である。
機械学習アルゴリズムは、医学分野、特に有用な情報や科学的決定を導くための臨床データセットのマイニングにおいて、強力なツールを提供する。
アソシエーションルールマイニングは、データから隠れたパターンを抽出する機械学習技術である。
本稿では、アソシエーションルールマイニングに基づくAprioriアルゴリズムを用いて、新型コロナウイルス患者の症状パターンを発見する。
2875件の患者記録を用いて、最も一般的な症状は無呼吸(72%)、64%(64%)、発熱(59%)、弱気(18%)、筋痛(14.5%)、喉痛(12%)であった。
提案手法は, 疾患の管理と治療を効果的に支援できる, 臨床医に有用な洞察を与える。 The COVID-19 pandemic has a devastating impact globally, claiming millions of lives and causing significant social and economic disruptions. In order to optimize decision-making and allocate limited resources, it is essential to identify COVID-19 symptoms and determine the severity of each case. Machine learning algorithms offer a potent tool in the medical field, particularly in mining clinical datasets for useful information and guiding scientific decisions. Association rule mining is a machine learning technique for extracting hidden patterns from data. This paper presents an application of association rule mining based Apriori algorithm to discover symptom patterns from COVID-19 patients. The study, using 2875 records of patient, identified the most common symptoms as apnea (72%), cough (64%), fever (59%), weakness (18%), myalgia (14.5%), and sore throat (12%). The proposed method provides clinicians with valuable insight into disease that can assist them in managing and treating it effectively. | 翻訳日:2023-08-15 15:23:37 公開日:2023-08-13 |
# 高品位等方性量の指導による厚スライス胎児脳mrスキャンの組織分割 Tissue Segmentation of Thick-Slice Fetal Brain MR Scans with Guidance from High-Quality Isotropic Volumes ( http://arxiv.org/abs/2308.06762v1 ) ライセンス: Link先を確認 | Shijie Huang, Xukun Zhang, Zhiming Cui, He Zhang, Geng Chen, Dinggang Shen | (参考訳) 厚スライス脳磁気共鳴(MR)スキャンの正確な組織分割は、等方性脳MRIボリュームの再構築と胎児脳の発生の定量化の両方に不可欠である。
しかし、この課題は、臨床的に獲得した胎児脳データに厚いスライススキャンを使用することによって困難である。
この問題に対処するため,我々は,高品位等方性胎児脳mrボリューム(およびそれに対応するアノテーション)を,厚いスライススキャンのセグメンテーションのためのガイダンスとして利用する。
高品質等方性ボリューム(すなわちソースデータ)と厚いスライススキャン(すなわちターゲットデータ)との間に大きな領域ギャップが存在するため、関連する知識伝達を達成するためにドメイン適応技術(高品質<ソース>ボリュームから厚いスライス<ターゲット>スキャン)を用いる。
具体的には, 生後数週間にまたがる高品位等方性胎児脳mrボリュームを登録し, 縦断的に完全なソースデータを構築した。
ドメイン不変情報をキャプチャするために、フーリエ分解を行い、画像の内容とスタイルコードを抽出する。
最後に,高品位等方性体積から得られた知識を効率的に伝達し,厚いスライススキャンの組織分割を精度良く行う新しいサイクル一貫性ドメイン適応ネットワーク(c2da-net)を提案する。
我々のC2DA-Netは、注釈のない厚いスライススキャンで組織分画をガイドするために、注釈付き等方性ボリュームの小さなセットを十分に利用できる。
C2DA-Net は, 372 個の臨床的に取得した高密度MR スキャンの大規模データセットに対する大規模な実験により, 最先端法よりも定量的に, 定性的に, はるかに優れた性能を示した。 Accurate tissue segmentation of thick-slice fetal brain magnetic resonance (MR) scans is crucial for both reconstruction of isotropic brain MR volumes and the quantification of fetal brain development. However, this task is challenging due to the use of thick-slice scans in clinically-acquired fetal brain data. To address this issue, we propose to leverage high-quality isotropic fetal brain MR volumes (and also their corresponding annotations) as guidance for segmentation of thick-slice scans. Due to existence of significant domain gap between high-quality isotropic volume (i.e., source data) and thick-slice scans (i.e., target data), we employ a domain adaptation technique to achieve the associated knowledge transfer (from high-quality <source> volumes to thick-slice <target> scans). Specifically, we first register the available high-quality isotropic fetal brain MR volumes across different gestational weeks to construct longitudinally-complete source data. To capture domain-invariant information, we then perform Fourier decomposition to extract image content and style codes. Finally, we propose a novel Cycle-Consistent Domain Adaptation Network (C2DA-Net) to efficiently transfer the knowledge learned from high-quality isotropic volumes for accurate tissue segmentation of thick-slice scans. Our C2DA-Net can fully utilize a small set of annotated isotropic volumes to guide tissue segmentation on unannotated thick-slice scans. Extensive experiments on a large-scale dataset of 372 clinically acquired thick-slice MR scans demonstrate that our C2DA-Net achieves much better performance than cutting-edge methods quantitatively and qualitatively. | 翻訳日:2023-08-15 15:23:15 公開日:2023-08-13 |
# 大規模言語モデルを用いた実行動作に対するグランドマニピュレータプリミティブタスク Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models ( http://arxiv.org/abs/2308.06810v1 ) ライセンス: Link先を確認 | Yue Cao and C.S. George Lee | (参考訳) 階層構造はロボットシステムで広く使われている。
その多くは、別々のレイヤに計画と実行関数を実装している。
しかしながら、計画層内の高レベルタスクを実行層内の低レベルモーターコマンドに転送する簡単な方法がまだ存在しない。
この課題に取り組むため,我々は,大言語モデル(llm)を用いたロボットの低レベル動作を実現するために,マニピュレータプリミティブタスクを接地する新しい手法を提案する。
我々はタスクフレーム形式に基づくプログラムライクなプロンプトを設計した。
このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
複数の最先端LCMに対する評価が提供される。 Layered architectures have been widely used in robot systems. The majority of them implement planning and execution functions in separate layers. However, there still lacks a straightforward way to transit high-level tasks in the planning layer to the low-level motor commands in the execution layer. In order to tackle this challenge, we propose a novel approach to ground the manipulator primitive tasks to robot low-level actions using large language models (LLMs). We designed a program-like prompt based on the task frame formalism. In this way, we enable LLMs to generate position/force set-points for hybrid control. Evaluations over several state-of-the-art LLMs are provided. | 翻訳日:2023-08-15 15:16:32 公開日:2023-08-13 |
# 量子アニーラプログラミングのためのニューラルネットワーク Neural Networks for Programming Quantum Annealers ( http://arxiv.org/abs/2308.06807v1 ) ライセンス: Link先を確認 | Samuel Bosch, Bobak Kiani, Rui Yang, Adrian Lupascu, and Seth Lloyd | (参考訳) 量子機械学習は、古典的なコンピュータで難解な問題を解くなど、人工知能の進歩を可能にする可能性がある。
量子機械学習の基本的な考え方は、古典的な機械学習におけるカーネルメソッドに似ている。
どちらの処理情報も、その数値を明示的に計算することなく高次元ベクトル空間にマッピングする。
古典的ニューラルネットワークを量子アニーラーに接続したラベル付き古典的データセットの分類を行うための構成について検討する。
ニューラルネットワークは量子アニーラーの制御をプログラムし、したがってアニーラーの初期状態をヒルベルト空間内の新しい状態にマッピングする。
ニューラルネットワークのパラメータは、異なるクラスからの入力に対応する状態の距離を最大化し、同じクラスに対応する量子状態間の距離を最小にするために最適化される。
最近の文献では、「学習」の少なくとも一部は量子アニールラーによるもので、小さな線形ネットワークを量子アニールラーに接続し、それを使って小さくて線形に分離可能なデータセットを学習している。
本研究では、古典的完全束縛ニューラルネットワークが小さな量子アニーラと接続される場合と、類似しているが全く同じではない場合を考える。
このような状況下では、本格的な古典的ニューラルネットワークは、すでに非線形性と学習能力が組み込まれており、分類問題のみを処理できるため、追加の量子層が性能を向上するかどうかを確認したい。
このシステムをシミュレートし、画像や音声の認識など、いくつかの一般的なデータセットを学習する。
我々は、通常の(非線形)古典的ニューラルネットワークを使用するだけでは、小さな量子アニールを追加しても大きなメリットはないと結論付けている。 Quantum machine learning has the potential to enable advances in artificial intelligence, such as solving problems intractable on classical computers. Some fundamental ideas behind quantum machine learning are similar to kernel methods in classical machine learning. Both process information by mapping it into high-dimensional vector spaces without explicitly calculating their numerical values. We explore a setup for performing classification on labeled classical datasets, consisting of a classical neural network connected to a quantum annealer. The neural network programs the quantum annealer's controls and thereby maps the annealer's initial states into new states in the Hilbert space. The neural network's parameters are optimized to maximize the distance of states corresponding to inputs from different classes and minimize the distance between quantum states corresponding to the same class. Recent literature showed that at least some of the "learning" is due to the quantum annealer, connecting a small linear network to a quantum annealer and using it to learn small and linearly inseparable datasets. In this study, we consider a similar but not quite the same case, where a classical fully-fledged neural network is connected with a small quantum annealer. In such a setting, the fully-fledged classical neural-network already has built-in nonlinearity and learning power, and can already handle the classification problem alone, we want to see whether an additional quantum layer could boost its performance. We simulate this system to learn several common datasets, including those for image and sound recognition. We conclude that adding a small quantum annealer does not provide a significant benefit over just using a regular (nonlinear) classical neural network. | 翻訳日:2023-08-15 15:16:22 公開日:2023-08-13 |
# SAILOR: 構造拡張に基づくTailノード表現学習 SAILOR: Structural Augmentation Based Tail Node Representation Learning ( http://arxiv.org/abs/2308.06801v1 ) ライセンス: Link先を確認 | Jie Liao, Jintang Li, Liang Chen, Bingzhe Wu, Yatao Bian, Zibin Zheng | (参考訳) グラフニューラルネットワーク(GNN)は最近,グラフの表現学習において最先端のパフォーマンスを達成した。
しかし, メッセージ伝搬の重要な操作を活かしたGNNの有効性は, トポロジ構造の品質に大きく依存する。
実世界のシナリオにおけるグラフのほとんどは、ノードの次数における長い尾の分布、すなわちグラフ内のノードの大部分は、わずかに連結されたエッジを持つ尾のノードである。
GNNは構造情報を欠いているため、テールノードに対して下位ノード表現を生成する。
尾ノードに対するGNNの表現性を追求するため,構造情報の欠如が尾ノードの性能を悪化させるかを検討するとともに,SAILORと呼ばれる構造拡張に基づくTaIL nOde表現学習フレームワークを提案する。
公開ベンチマークデータセットに関する大規模な実験は、SAILORがテールノード表現を大幅に改善し、最先端のベースラインを上回る性能を発揮することを示した。 Graph Neural Networks (GNNs) have achieved state-of-the-art performance in representation learning for graphs recently. However, the effectiveness of GNNs, which capitalize on the key operation of message propagation, highly depends on the quality of the topology structure. Most of the graphs in real-world scenarios follow a long-tailed distribution on their node degrees, that is, a vast majority of the nodes in the graph are tail nodes with only a few connected edges. GNNs produce inferior node representations for tail nodes since they lack structural information. In the pursuit of promoting the expressiveness of GNNs for tail nodes, we explore how the deficiency of structural information deteriorates the performance of tail nodes and propose a general Structural Augmentation based taIL nOde Representation learning framework, dubbed as SAILOR, which can jointly learn to augment the graph structure and extract more informative representations for tail nodes. Extensive experiments on public benchmark datasets demonstrate that SAILOR can significantly improve the tail node representations and outperform the state-of-the-art baselines. | 翻訳日:2023-08-15 15:15:57 公開日:2023-08-13 |
# 皮膚病変分類のためのトポロジカル画像前処理 Modified Topological Image Preprocessing for Skin Lesion Classifications ( http://arxiv.org/abs/2308.06796v1 ) ライセンス: Link先を確認 | Hong Cheng, Rebekah Leamons, Ahmad Al Shami | (参考訳) 本稿では,皮膚画像の前処理と拡張のためのトポロジカルデータ解析モデルを提案する。
皮膚病変データセットham10000は、画像の関連領域で重要な物体を特定するために使用される。
データセットとプリプロセスデータセットの両方を評価するために、深層畳み込みニューラルネットワークと視覚トランスフォーマモデルを使用して両方のモデルのトレーニングを行った。
実験結果から, 修正トポロジカルデータ解析を用いて事前処理した画像は, 常に良好な性能を示した。 This paper proposes a modified Topological Data Analysis model for skin images preprocessing and enhancements. The skin lesion dataset HAM10000 used with the intention of identifying the important objects in relevant regions of the images. In order to evaluate both the original dataset and the preprocessed dataset, Deep Convolutional Neural Network and Vision Transformer models were utilized to train both models. After training, the experimental results demonstrate that the images preprocessed using the Modified Topological Data Analysis consistently perform better. | 翻訳日:2023-08-15 15:15:40 公開日:2023-08-13 |
# 誰に忠実か?
NLPの解釈可能性に関する質問 Faithful to Whom? Questioning Interpretability Measures in NLP ( http://arxiv.org/abs/2308.06795v1 ) ライセンス: Link先を確認 | Evan Crothers, Herna Viktor, Nathalie Japkowicz | (参考訳) モデル解釈可能性の定量化の一般的なアプローチは、入力トークンを反復的にマスキングし、結果として予測されたラベルがどの程度変化するかを測定することである。
しかし,これらの指標は,マスキング入力に対する応答が高度にモデル固有であるため,異なるニューラルネットワーク分類器の解釈可能性を比較するのにはあまり適さないことを示す。
繰り返しマスキングは,同等のモデル間での忠実度スコアに大きな変動を生じさせ,マスキングされたサンプルがトレーニング中に見られる分布の外側で頻繁に見られることを示す。
さらに, 対人攻撃と対人訓練が忠実度スコアに与える影響について検討し, テキスト対人攻撃における特徴評価のための忠実度尺度の妥当性を実証する。
その結果,現在の忠実度指標の限界に対する新たな洞察と,それらを適切に活用するための重要な考察が得られた。 A common approach to quantifying model interpretability is to calculate faithfulness metrics based on iteratively masking input tokens and measuring how much the predicted label changes as a result. However, we show that such metrics are generally not suitable for comparing the interpretability of different neural text classifiers as the response to masked inputs is highly model-specific. We demonstrate that iterative masking can produce large variation in faithfulness scores between comparable models, and show that masked samples are frequently outside the distribution seen during training. We further investigate the impact of adversarial attacks and adversarial training on faithfulness scores, and demonstrate the relevance of faithfulness measures for analyzing feature salience in text adversarial attacks. Our findings provide new insights into the limitations of current faithfulness metrics and key considerations to utilize them appropriately. | 翻訳日:2023-08-15 15:15:30 公開日:2023-08-13 |
# 強化学習を用いた量子熱エンジンの最適サイクルの検討 Exploring the Optimal Cycle for Quantum Heat Engine using Reinforcement Learning ( http://arxiv.org/abs/2308.06794v1 ) ライセンス: Link先を確認 | Gao-xiang Deng, Haoqiang Ai, Bingcheng Wang, Wei Shao, Yu Liu, Zheng Cui | (参考訳) 新興ナノデバイスにおける量子熱力学的関係は重要であるが、しばしば複雑である。
量子熱力学における機械学習の応用は、新しい展望をもたらした。
本研究は強化学習を用いて量子熱エンジンの最適サイクルを生成する。
具体的には,3レベルコヒーレントな量子熱エンジンのサイクルを最大平均出力で最適化するために,ソフトアクター批判アルゴリズムを採用した。
その結果、コヒーレント三段式熱エンジンの最適平均出力出力は、元のサイクル(定常限界)の1.28倍であることがわかった。
一方、最適サイクルの効率は他の研究者による報告と同様にカーゾン=アルボーンの効率よりも大きい。
特に、この最適サイクルは、圧縮および拡張過程においてボルツマン関数を適用してオットー様サイクルとして適用することができ、この方法の有効性を示している。 Quantum thermodynamic relationships in emerging nanodevices are significant but often complex to deal with. The application of machine learning in quantum thermodynamics has provided a new perspective. This study employs reinforcement learning to output the optimal cycle of quantum heat engine. Specifically, the soft actor-critic algorithm is adopted to optimize the cycle of three-level coherent quantum heat engine with the aim of maximal average power. The results show that the optimal average output power of the coherent three-level heat engine is 1.28 times greater than the original cycle (steady limit). Meanwhile, the efficiency of the optimal cycle is greater than the Curzon-Ahlborn efficiency as well as reporting by other researchers. Notably, this optimal cycle can be fitted as an Otto-like cycle by applying the Boltzmann function during the compression and expansion processes, which illustrates the effectiveness of the method. | 翻訳日:2023-08-15 15:15:15 公開日:2023-08-13 |
# PV-SSD:プロジェクションとボクセルベースダブルブランチ3Dオブジェクト検出器 PV-SSD: A Projection and Voxel-based Double Branch Single-Stage 3D Object Detector ( http://arxiv.org/abs/2308.06791v1 ) ライセンス: Link先を確認 | Yongxin Shao and Aihong Tan and Zhetao Sun and Enhui Zheng and Tianhong Yan | (参考訳) LIDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。
しかし、非常にスパースな3Dデータからリアルタイムに推論することは、恐ろしい挑戦だ。
この問題に対処するために、共通のアプローチは、鳥の目や視点に雲を投影し、効果的に画像のようなデータ形式に変換することである。
しかし、ポイントクラウドデータの過剰な圧縮は、しばしば情報の喪失につながる。
本稿では,情報損失問題に対処するため,voxel と projection double branch feature extract (PV-SSD) に基づく3次元物体検出器を提案する。
プロジェクションによって引き起こされる局所情報損失を低減するため,特徴抽出段階の投影特徴と完全に融合したリッチな局所的意味情報を含むボクセル特徴入力を付加する。
前の作品と比べて良いパフォーマンスが得られます。
また,本稿は以下の貢献をしている。
1) 可変受容場をもつボクセル特徴抽出法を提案する。
2) 重みサンプリングによる特徴点サンプリング手法を用いて,検出課題に対してより分かりやすい特徴点をフィルタリングする。
3)MSSFAモジュールはSSFAモジュールに基づいて提案される。
本手法の有効性を検証するために比較実験を行った。 LIDAR-based 3D object detection and classification is crucial for autonomous driving. However, inference in real-time from extremely sparse 3D data poses a formidable challenge. To address this issue, a common approach is to project point clouds onto a bird's-eye or perspective view, effectively converting them into an image-like data format. However, this excessive compression of point cloud data often leads to the loss of information. This paper proposes a 3D object detector based on voxel and projection double branch feature extraction (PV-SSD) to address the problem of information loss. We add voxel features input containing rich local semantic information, which is fully fused with the projected features in the feature extraction stage to reduce the local information loss caused by projection. A good performance is achieved compared to the previous work. In addition, this paper makes the following contributions: 1) a voxel feature extraction method with variable receptive fields is proposed; 2) a feature point sampling method by weight sampling is used to filter out the feature points that are more conducive to the detection task; 3) the MSSFA module is proposed based on the SSFA module. To verify the effectiveness of our method, we designed comparison experiments. | 翻訳日:2023-08-15 15:15:04 公開日:2023-08-13 |
# ダッシュボードのプロヴァンスをモデル化する Modeling the Dashboard Provenance ( http://arxiv.org/abs/2308.06788v1 ) ライセンス: Link先を確認 | Johne Jarske, Jorge Rady, Lucia V. L. Filgueiras, Leandro M. Velloso, Tania L. Santos | (参考訳) パブリック、プライベート、収益主導、非営利団体、さまざまな産業やセクターのあらゆる種類の組織は、効果的なデータ視覚化のためのダッシュボードに依存しています。
しかし、これらのダッシュボードの信頼性と有効性は、提示するビジュアルとデータの品質に依存する。
調査によれば、ダッシュボードの4分の1未満がソースに関する情報を提供しており、これはプロヴァンスが真剣に検討されているときに期待されているメタデータの1つにすぎない。
プロヴァンス(provance)とは、データやオブジェクトの生成、影響、あるいはデリバリにおいて重要な役割を果たした人々、組織、エンティティ、アクティビティを記述した記録である。
本稿では,ダッシュボードとその視覚的およびデータ的コンポーネントを対象とした,標準化,モデリング,生成,キャプチャ,ビジュアライゼーションを付与する証明表現モデルの提供を目的とする。
提案モデルでは,ダッシュボードに表示される情報の品質,一貫性,信頼性をユーザが評価可能な,必須のプロビデンスメタデータの包括的なセットを提供する。
これにより、特定のダッシュボードが開発されたコンテキストを明確かつ正確に理解することができ、最終的にはよりよい意思決定につながる。 Organizations of all kinds, whether public or private, profit-driven or non-profit, and across various industries and sectors, rely on dashboards for effective data visualization. However, the reliability and efficacy of these dashboards rely on the quality of the visual and data they present. Studies show that less than a quarter of dashboards provide information about their sources, which is just one of the expected metadata when provenance is seriously considered. Provenance is a record that describes people, organizations, entities, and activities that had a role in the production, influence, or delivery of a piece of data or an object. This paper aims to provide a provenance representation model, that entitles standardization, modeling, generation, capture, and visualization, specifically designed for dashboards and its visual and data components. The proposed model will offer a comprehensive set of essential provenance metadata that enables users to evaluate the quality, consistency, and reliability of the information presented on dashboards. This will allow a clear and precise understanding of the context in which a specific dashboard was developed, ultimately leading to better decision-making. | 翻訳日:2023-08-15 15:14:45 公開日:2023-08-13 |
# rmp-loss:スパイクニューラルネットワークの膜電位分布の規則化 RMP-Loss: Regularizing Membrane Potential Distribution for Spiking Neural Networks ( http://arxiv.org/abs/2308.06787v1 ) ライセンス: Link先を確認 | Yufei Guo, Xiaode Liu, Yuanpei Chen, Liwen Zhang, Weihang Peng, Yuhan Zhang, Xuhui Huang, Zhe Ma | (参考訳) 生物学に触発されたモデルの1つとしてスパイキングニューラルネットワーク(SNN)が最近注目を集めている。
実際の膜電位を0/1スパイクに量子化して情報を伝達することにより、ハードウェア上に実装した場合、アクティベーションと重みの乗算を加算に置き換えることができるため、エネルギー消費を大幅に削減することができる。
しかし、この量子化機構は必然的に量子化誤差を導入し、破滅的な情報損失を引き起こす。
量子化誤差問題に対処するために, 量子化誤差に直接関係する分布をスパイクに近い範囲に調整するために, 膜電位損失の正則化(RMP-Loss)を提案する。
我々の手法は実装が非常に簡単で、SNNの訓練も簡単です。
さらに、異なるネットワークアーキテクチャやデータセット上で、従来の最先端メソッドを一貫して上回ることが示されている。 Spiking Neural Networks (SNNs) as one of the biology-inspired models have received much attention recently. It can significantly reduce energy consumption since they quantize the real-valued membrane potentials to 0/1 spikes to transmit information thus the multiplications of activations and weights can be replaced by additions when implemented on hardware. However, this quantization mechanism will inevitably introduce quantization error, thus causing catastrophic information loss. To address the quantization error problem, we propose a regularizing membrane potential loss (RMP-Loss) to adjust the distribution which is directly related to quantization error to a range close to the spikes. Our method is extremely simple to implement and straightforward to train an SNN. Furthermore, it is shown to consistently outperform previous state-of-the-art methods over different network architectures and datasets. | 翻訳日:2023-08-15 15:14:28 公開日:2023-08-13 |
# 脳血管合成のための形状誘導条件付き潜在拡散モデル Shape-guided Conditional Latent Diffusion Models for Synthesising Brain Vasculature ( http://arxiv.org/abs/2308.06781v1 ) ライセンス: Link先を確認 | Yash Deo, Haoran Dou, Nishant Ravikumar, Alejandro F. Frangi, Toni Lassila | (参考訳) ウィリスの円(英: Circle of Willis、略称:CoW)は、脳血管の一部であり、脳に血液を供給している。
CoWの多様な解剖学的変異と構成を理解することは、脳血管疾患の研究を前進させ、臨床介入を洗練させるのに最重要である。
しかしながら、一般的に発生するいくつかの構成が支配的であるため、あまり普及しないCoWの変動に関する包括的な調査は依然として難しい。
本稿では, 形状と解剖学的指導を伴う条件付き潜在拡散モデルを用いて, 異なる表現型を含む現実的な3次元牛セグメンテーションを生成する新しい生成手法を提案する。
我々の条件付き潜伏拡散モデルでは, 容器の連続性を良く保ち, 3D GANおよび3D VAEの条件付き変種を含む他の生成モデルと比較して優れた性能を示す。
提案モデルでは,FID スコアが 53 % の競合モデルに比べて,より現実的で視覚的忠実度の高い CoW 変種が生成されている。 The Circle of Willis (CoW) is the part of cerebral vasculature responsible for delivering blood to the brain. Understanding the diverse anatomical variations and configurations of the CoW is paramount to advance research on cerebrovascular diseases and refine clinical interventions. However, comprehensive investigation of less prevalent CoW variations remains challenging because of the dominance of a few commonly occurring configurations. We propose a novel generative approach utilising a conditional latent diffusion model with shape and anatomical guidance to generate realistic 3D CoW segmentations, including different phenotypical variations. Our conditional latent diffusion model incorporates shape guidance to better preserve vessel continuity and demonstrates superior performance when compared to alternative generative models, including conditional variants of 3D GAN and 3D VAE. We observed that our model generated CoW variants that are more realistic and demonstrate higher visual fidelity than competing approaches with an FID score 53\% better than the best-performing GAN-based model. | 翻訳日:2023-08-15 15:14:14 公開日:2023-08-13 |
# ugc品質評価: 深い機能に基づく品質評価における塩分の影響を探る UGC Quality Assessment: Exploring the Impact of Saliency in Deep Feature-Based Quality Assessment ( http://arxiv.org/abs/2308.06853v1 ) ライセンス: Link先を確認 | Xinyi Wang, Angeliki Katsenou, and David Bull | (参考訳) 近年,ユーザ生成コンテンツ(UGC)の量が増えてきている。
この種のコンテンツの課題は、品質を評価することだ。
これまでのところ、最先端の指標は知覚的品質と非常に高い相関を示していない。
本稿では,自然景観統計とディープニューラルネットワークの特徴を抽出・組み合わせた最先端メトリクスについて検討する。
受入性を向上させるために,サリエンシマップを導入して実験を行った。
私たちは、公開データセット、すなわちYouTube-UGCとKoNViD-1kを使ってモデルをトレーニングし、テストします。
予備的な結果から,深い特徴のみを用いることで高い相関が達成される一方で,サリエンシーの追加が必ずしもパフォーマンスを向上させるとは限らない。
私たちの結果とコードは、研究コミュニティのベンチマークとして公開され、プロジェクトページ(https://github.com/xinyiw915/spie-2023-supplementary.com/)で見ることができる。 The volume of User Generated Content (UGC) has increased in recent years. The challenge with this type of content is assessing its quality. So far, the state-of-the-art metrics are not exhibiting a very high correlation with perceptual quality. In this paper, we explore state-of-the-art metrics that extract/combine natural scene statistics and deep neural network features. We experiment with these by introducing saliency maps to improve perceptibility. We train and test our models using public datasets, namely, YouTube-UGC and KoNViD-1k. Preliminary results indicate that high correlations are achieved by using only deep features while adding saliency is not always boosting the performance. Our results and code will be made publicly available to serve as a benchmark for the research community and can be found on our project page: https://github.com/xinyiW915/SPIE-2023-Supplementary. | 翻訳日:2023-08-15 15:06:45 公開日:2023-08-13 |
# 機械学習を用いたバスケットボール全国大会におけるアグレッシブゲームプランの最適化 Optimizing Offensive Gameplan in the National Basketball Association with Machine Learning ( http://arxiv.org/abs/2308.06851v1 ) ライセンス: Link先を確認 | Eamon Mukhopadhyay | (参考訳) NBAで発生した分析革命を通じて、特定のメトリクスと公式の開発により、チーム、コーチ、プレイヤーにゲームを見る新しい方法が与えられた。
しかし、問題は生まれる - メトリクスをどうやって検証できるのか?
一つの方法は単に眼球近似(様々なゲームプランを試す)と試行錯誤(試行錯誤)であり、見積もりベースでコストがかかるアプローチである。
もう1つのアプローチは、機械学習技術を使用して、独自の機能のセットで既存のメトリクスをモデル化することである。
このアプローチの鍵となるのは、これらの機能を選択すれば、単純なメトリック評価で個々の分析を使うのではなく、これらの機能の組み合わせの有効性を評価できるということです。
正確なモデルがあれば、特にゲームプランの実行の具体性を決定するのに役立ちます。
本稿では,線形回帰モデルとニューラルネットワーク回帰モデルの両方を用いて,異なるnbaプレイタイプとの相関性を示す統計的ortg(offensive rating, dean oliver)が得られた。
モデルの正確さを正当化として、次のステップはモデルのアウトプットをテスト例で最適化することであった。 Throughout the analytical revolution that has occurred in the NBA, the development of specific metrics and formulas has given teams, coaches, and players a new way to see the game. However - the question arises - how can we verify any metrics? One method would simply be eyeball approximation (trying out many different gameplans) and/or trial and error - an estimation-based and costly approach. Another approach is to try to model already existing metrics with a unique set of features using machine learning techniques. The key to this approach is that with these features that are selected, we can try to gauge the effectiveness of these features combined, rather than using individual analysis in simple metric evaluation. If we have an accurate model, it can particularly help us determine the specifics of gameplan execution. In this paper, the statistic ORTG (Offensive Rating, developed by Dean Oliver) was found to have a correlation with different NBA playtypes using both a linear regression model and a neural network regression model, although ultimately, a neural network worked slightly better than linear regression. Using the accuracy of the models as a justification, the next step was to optimize the output of the model with test examples, which would demonstrate the combination of features to best achieve a highly functioning offense. | 翻訳日:2023-08-15 15:06:27 公開日:2023-08-13 |
# monte-carlo dropoutがマルチエクイットを満たす時: fpga上のベイズ型ニューラルネットワークの最適化 When Monte-Carlo Dropout Meets Multi-Exit: Optimizing Bayesian Neural Networks on FPGA ( http://arxiv.org/abs/2308.06849v1 ) ライセンス: Link先を確認 | Hongxiang Fan and Hao Chen and Liam Castelli and Zhiqiang Que and He Li and Kenneth Long and Wayne Luk | (参考訳) Bayesian Neural Networks (BayesNNs)は、医療画像や自律運転などの安全クリティカルなアプリケーションに対して、校正された予測を提供する能力を示した。
しかし、アルゴリズムの複雑さとベイズNNのハードウェア性能の低さは、実際のアプリケーションへの展開を妨げる。
このギャップを埋めるために,本論文では,アルゴリズムの複雑さを低く抑えた,モンテカルロ・ドロップアウト(MCD)ベースのベイズNNを提案する。
ベイズNNを採用する際の障壁をさらに軽減するために,マルチエグジットMCDベースのベイズNNのためのFPGAベースのアクセラレータを生成する変換フレームワークを提案する。
ハードウェア性能を改善するためにいくつかの新しい最適化技術が導入されている。
我々の自動生成アクセラレーターは、CPU、GPU、その他の最先端ハードウェア実装よりも高いエネルギー効率を達成することを実証した。 Bayesian Neural Networks (BayesNNs) have demonstrated their capability of providing calibrated prediction for safety-critical applications such as medical imaging and autonomous driving. However, the high algorithmic complexity and the poor hardware performance of BayesNNs hinder their deployment in real-life applications. To bridge this gap, this paper proposes a novel multi-exit Monte-Carlo Dropout (MCD)-based BayesNN that achieves well-calibrated predictions with low algorithmic complexity. To further reduce the barrier to adopting BayesNNs, we propose a transformation framework that can generate FPGA-based accelerators for multi-exit MCD-based BayesNNs. Several novel optimization techniques are introduced to improve hardware performance. Our experiments demonstrate that our auto-generated accelerator achieves higher energy efficiency than CPU, GPU, and other state-of-the-art hardware implementations. | 翻訳日:2023-08-15 15:06:07 公開日:2023-08-13 |
# 経路付きトポロジカルグラフニューラルネットワークの一般化 Generalizing Topological Graph Neural Networks with Paths ( http://arxiv.org/abs/2308.06838v1 ) ライセンス: Link先を確認 | Quang Truong and Peter Chin | (参考訳) グラフニューラルネットワーク(GNN)は様々な分野で大きな進歩を遂げているが、1-Weisfeiler-Lehmannテストとして知られる理論的な制約によって妨げられている。
高次のGNNの最近の進歩は、この境界を克服することができるが、一般的には、傾きやサイクルのような特定のグラフコンポーネントを中心にしている。
しかし、我々の調査は別のルートで行われます。
すべてのグラフに固有のパスに重点を置いています。
我々はより一般的な位相的視点を構築し、他の位相的領域に関する確立された理論を橋渡しすることができる。
興味深いことに、グラフのサブ構造を仮定せずに、この分野での我々のアプローチは、いくつかのベンチマークで最先端のパフォーマンスを達成している。 While Graph Neural Networks (GNNs) have made significant strides in diverse areas, they are hindered by a theoretical constraint known as the 1-Weisfeiler-Lehmann test. Even though latest advancements in higher-order GNNs can overcome this boundary, they typically center around certain graph components like cliques or cycles. However, our investigation goes a different route. We put emphasis on paths, which are inherent in every graph. We are able to construct a more general topological perspective and form a bridge to certain established theories about other topological domains. Interestingly, without any assumptions on graph sub-structures, our approach surpasses earlier techniques in this field, achieving state-of-the-art performance on several benchmarks. | 翻訳日:2023-08-15 15:05:51 公開日:2023-08-13 |
# 診断的推論は医学における大規模言語モデル解釈の可能性を明らかにする Diagnostic Reasoning Prompts Reveal the Potential for Large Language Model Interpretability in Medicine ( http://arxiv.org/abs/2308.06834v1 ) ライセンス: Link先を確認 | Thomas Savage, Ashwin Nayak, Robert Gallo, Ekanath Rangan, Jonathan H Chen | (参考訳) 医学における大きな言語モデル(LLM)を使用する際の大きな障壁の1つは、臨床医の認知過程と本質的に異なる臨床的決定を行うために、解釈不能な方法を使用するという認識である。
本書では, LLMsが臨床推論を行い, 診断を正確に作成できるかどうかを, 新たな診断推論手法を開発する。
GPT4は診断精度を犠牲にすることなく臨床医の一般的な臨床推論過程を模倣することができる。
これは、臨床推論を用いて解釈可能な理性を提供するLLMが、医師に患者の治療にLLMを信頼できるかどうかを評価する手段を提供するためである。
新しいプロンプト法は、LSMのブラックボックスを露出する可能性があり、医療における安全で効果的な使用に一歩近づいた。 One of the major barriers to using large language models (LLMs) in medicine is the perception they use uninterpretable methods to make clinical decisions that are inherently different from the cognitive processes of clinicians. In this manuscript we develop novel diagnostic reasoning prompts to study whether LLMs can perform clinical reasoning to accurately form a diagnosis. We find that GPT4 can be prompted to mimic the common clinical reasoning processes of clinicians without sacrificing diagnostic accuracy. This is significant because an LLM that can use clinical reasoning to provide an interpretable rationale offers physicians a means to evaluate whether LLMs can be trusted for patient care. Novel prompting methods have the potential to expose the black box of LLMs, bringing them one step closer to safe and effective use in medicine. | 翻訳日:2023-08-15 15:05:39 公開日:2023-08-13 |
# 質問分類へのアンサンブルアプローチ:エレクトラ変換器、GloVe、LSTMの統合 An Ensemble Approach to Question Classification: Integrating Electra Transformer, GloVe, and LSTM ( http://arxiv.org/abs/2308.06828v1 ) ライセンス: Link先を確認 | Sanad Aburass and Osama Dorgham | (参考訳) 本稿では,Electra,GloVe,LSTMといった最先端モデルを用いた質問分類手法を提案する。
提案モデルは,質問分類タスクの確立されたベンチマークであるtrecデータセット上でトレーニングおよび評価を行う。
アンサンブルモデルは、言語理解のためのトランスフォーマーベースのモデルであるElectra、単語表現のためのグローバルベクトルであるGloVe、繰り返しニューラルネットワークの変種であるLSTMの強みを組み合わせて、質問分類のための堅牢で効率的なソリューションを提供する。
提案するアンサンブルアプローチとBERT,RoBERTa,DistilBERTといった他の最先端モデルとの比較実験を行った。
その結果,アンサンブルモデルはすべての評価指標でこれらのモデルよりも優れており,テストセットの精度は0.8。
これらの知見は,質問分類タスクの性能向上におけるアンサンブルアプローチの有効性を強調し,自然言語処理におけるアンサンブル手法のさらなる探求を招いた。 This paper introduces a novel ensemble approach for question classification using state-of-the-art models -- Electra, GloVe, and LSTM. The proposed model is trained and evaluated on the TREC dataset, a well-established benchmark for question classification tasks. The ensemble model combines the strengths of Electra, a transformer-based model for language understanding, GloVe, a global vectors for word representation, and LSTM, a recurrent neural network variant, providing a robust and efficient solution for question classification. Extensive experiments were carried out to compare the performance of the proposed ensemble approach with other cutting-edge models, such as BERT, RoBERTa, and DistilBERT. Our results demonstrate that the ensemble model outperforms these models across all evaluation metrics, achieving an accuracy of 0.8 on the test set. These findings underscore the effectiveness of the ensemble approach in enhancing the performance of question classification tasks, and invite further exploration of ensemble methods in natural language processing. | 翻訳日:2023-08-15 15:05:25 公開日:2023-08-13 |
# 未知クラスタ数による強化グラフクラスタリング Reinforcement Graph Clustering with Unknown Cluster Number ( http://arxiv.org/abs/2308.06827v1 ) ライセンス: Link先を確認 | Yue Liu, Ke Liang, Jun Xia, Xihong Yang, Sihang Zhou, Meng Liu, Xinwang Liu, Stan Z. Li | (参考訳) ニューラルネットワークによってノードを不整合クラスタにグループ化することを目的としたディープグラフクラスタリングは、近年大きな注目を集めている。
パフォーマンスは大幅に改善されているが、既存のメソッドの優れたパフォーマンスは、常に現実のシナリオで利用できるわけではない、正確に定義されたクラスタ番号に大きく依存している。
予め定義されたクラスタ番号のガイダンスを使わずにディープグラフクラスタリングアルゴリズムを動作させるため,新たに強化グラフクラスタリング (rgc) と呼ばれるディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を,強化学習機構により統一的なフレームワークに統合する。
具体的には、識別ノード表現は、まずコントラストプレテキストタスクで学習する。
次に、クラスタリング状態を正確にグラフ内のローカル情報とグローバル情報の両方で捉えるために、ノード状態とクラスタ状態の両方を考慮する。
その後、各状態において、異なるクラスタ番号の品質を品質ネットワークで評価し、そのクラスタ番号を決定するための欲求アクションを実行する。
フィードバック動作を行うために,同一クラスタの凝集性を高め,異なるクラスタを分離するために,クラスタリング指向報酬関数が提案されている。
提案手法の有効性と有効性を示す実験を行った。
RGCのソースコードはhttps://github.com/yueliu1999/RGCで共有され、ディープグラフクラスタリングのコレクション(ペーパー、コード、データセット)はGithubのhttps://github.com/yueliu1999/Awesome-Deep-Graph-Clusteringで共有されている。 Deep graph clustering, which aims to group nodes into disjoint clusters by neural networks in an unsupervised manner, has attracted great attention in recent years. Although the performance has been largely improved, the excellent performance of the existing methods heavily relies on an accurately predefined cluster number, which is not always available in the real-world scenario. To enable the deep graph clustering algorithms to work without the guidance of the predefined cluster number, we propose a new deep graph clustering method termed Reinforcement Graph Clustering (RGC). In our proposed method, cluster number determination and unsupervised representation learning are unified into a uniform framework by the reinforcement learning mechanism. Concretely, the discriminative node representations are first learned with the contrastive pretext task. Then, to capture the clustering state accurately with both local and global information in the graph, both node and cluster states are considered. Subsequently, at each state, the qualities of different cluster numbers are evaluated by the quality network, and the greedy action is executed to determine the cluster number. In order to conduct feedback actions, the clustering-oriented reward function is proposed to enhance the cohesion of the same clusters and separate the different clusters. Extensive experiments demonstrate the effectiveness and efficiency of our proposed method. The source code of RGC is shared at https://github.com/yueliu1999/RGC and a collection (papers, codes and, datasets) of deep graph clustering is shared at https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering on Github. | 翻訳日:2023-08-15 15:05:06 公開日:2023-08-13 |
# フェデレーション学習における近似および重み付きデータ再構成攻撃 Approximate and Weighted Data Reconstruction Attack in Federated Learning ( http://arxiv.org/abs/2308.06822v1 ) ライセンス: Link先を確認 | Ziqi Wang, Yongcun Song, Enrique Zuazua | (参考訳) Federated Learning(FL)は分散学習パラダイムであり、複数のクライアントがプライベートデータを共有せずに機械学習モデルの構築に協力できる。
FLは設計上はプライバシ保護とされているが、最近のデータ再構成攻撃では、FLで共有されるパラメータに基づいて攻撃者がクライアントのトレーニングデータを復元できることが示されている。
しかしながら、既存のほとんどのメソッドは、クライアントが複数のローカルトレーニングステップ後にモデルパラメータを共有する、最も広く使用される水平フェデレーション(FedAvg)シナリオに対処できない。
そこで本研究では,クライアントのローカルトレーニングプロセスの中間モデル更新を発生させることで,fedavgシナリオを攻撃可能にする補間に基づく近似手法を提案する。
次に,データ品質を向上させるために層重み付き損失関数を設計する。
ニューラルネットワークの構造に関する異なるレイヤのモデル更新に異なる重みを割り当て、ベイズ最適化によって重みを調整します。
最後に, 画像データ再構成における評価基準の大幅な改善が示すように, 提案した近似重み付き攻撃法 (AWA) が他の最先端手法よりも優れていることを示す実験結果を得た。 Federated Learning (FL) is a distributed learning paradigm that enables multiple clients to collaborate on building a machine learning model without sharing their private data. Although FL is considered privacy-preserved by design, recent data reconstruction attacks demonstrate that an attacker can recover clients' training data based on the parameters shared in FL. However, most existing methods fail to attack the most widely used horizontal Federated Averaging (FedAvg) scenario, where clients share model parameters after multiple local training steps. To tackle this issue, we propose an interpolation-based approximation method, which makes attacking FedAvg scenarios feasible by generating the intermediate model updates of the clients' local training processes. Then, we design a layer-wise weighted loss function to improve the data quality of reconstruction. We assign different weights to model updates in different layers concerning the neural network structure, with the weights tuned by Bayesian optimization. Finally, experimental results validate the superiority of our proposed approximate and weighted attack (AWA) method over the other state-of-the-art methods, as demonstrated by the substantial improvement in different evaluation metrics for image data reconstructions. | 翻訳日:2023-08-15 15:04:38 公開日:2023-08-13 |
# 脳腫瘍分類の最適化:深層学習モデルにおける伝達学習と不均衡処理の包括的研究 Optimizing Brain Tumor Classification: A Comprehensive Study on Transfer Learning and Imbalance Handling in Deep Learning Models ( http://arxiv.org/abs/2308.06821v1 ) ライセンス: Link先を確認 | Raza Imam, Mohammed Talha Alam | (参考訳) 深層学習は近年の文献において顕著な分野として現れており、脳腫瘍MRI画像の分類における顕著な精度を達成するためにトランスファーラーニングを利用するモデルの導入を示している。
しかしながら、これらの提案の大部分は、実際のシナリオに存在する固有のデータ不均衡を無視して、バランスの取れたデータセットに重点を置いている。
その結果、データ不均衡に対処するだけでなく、脳がんの正確な分類を優先するアプローチの必要性が高まっている。
本研究では,MRIデータを用いた脳腫瘍分類のための新しい深層学習手法であるTransfer Learning-CNNを提案する。
提案モデルでは,事前学習した重みをCNNに転送することで,既存の公開モデルの予測能力を活用する。
脳mriデータセットを利用して、髄膜腫、グリオーマ、下垂体腫瘍など、さまざまな腫瘍を分類するための様々なトランスファー学習モデルを評価した。
データ不均衡問題に対処するために,焦点損失やスモートやアダシンなどのオーバーサンプリングといった異なる損失関数の影響について検討する。
特に、vgg-16とcnnを組み合わせた提案手法は96%という印象的な精度を達成し、代替手法を大きく上回った。 Deep learning has emerged as a prominent field in recent literature, showcasing the introduction of models that utilize transfer learning to achieve remarkable accuracies in the classification of brain tumor MRI images. However, the majority of these proposals primarily focus on balanced datasets, neglecting the inherent data imbalance present in real-world scenarios. Consequently, there is a pressing need for approaches that not only address the data imbalance but also prioritize precise classification of brain cancer. In this work, we present a novel deep learning-based approach, called Transfer Learning-CNN, for brain tumor classification using MRI data. The proposed model leverages the predictive capabilities of existing publicly available models by utilizing their pre-trained weights and transferring those weights to the CNN. By leveraging a publicly available Brain MRI dataset, the experiment evaluated various transfer learning models for classifying different tumor types, including meningioma, glioma, and pituitary tumors. We investigate the impact of different loss functions, including focal loss, and oversampling methods, such as SMOTE and ADASYN, in addressing the data imbalance issue. Notably, the proposed strategy, which combines VGG-16 and CNN, achieved an impressive accuracy rate of 96%, surpassing alternative approaches significantly. | 翻訳日:2023-08-15 15:04:14 公開日:2023-08-13 |
# SoK: 知的ネットワーク侵入検知のための現実的な敵攻撃と防御 SoK: Realistic Adversarial Attacks and Defenses for Intelligent Network Intrusion Detection ( http://arxiv.org/abs/2308.06819v1 ) ライセンス: Link先を確認 | Jo\~ao Vitorino, Isabel Pra\c{c}a, Eva Maia | (参考訳) 機械学習(ML)は異常検出とサイバー攻撃分類の自動化に極めて有用であり、ネットワーク侵入検出(NID)の実行方法を改善する。
しかし、MLモデルの利点にもかかわらず、それらを利用するために特別に作られた敵のサイバー攻撃の例に非常に敏感である。
幅広い敵攻撃が作成され、研究者はMLモデルを保護するための様々な防衛戦略に取り組んでいるが、その多くは通信ネットワークとその通信プロトコルの具体的な制約を意図していないため、NIDドメインにおける非現実的な例につながる可能性がある。
このSoK(Systematization of Knowledge)は、現実的な例を生成でき、実際のML開発や実際のネットワークトラフィックフローによるデプロイメントシナリオで使用できる最先端の逆学習アプローチを統合し、まとめます。
このSoKはまた、NIDドメインにおける敵MLの使用に関するオープンな課題について記述し、敵の例に必要な基本的特性を現実的に定義し、将来の実験が実際の通信ネットワークに適切であることを保証するためのガイドラインを提供する。 Machine Learning (ML) can be incredibly valuable to automate anomaly detection and cyber-attack classification, improving the way that Network Intrusion Detection (NID) is performed. However, despite the benefits of ML models, they are highly susceptible to adversarial cyber-attack examples specifically crafted to exploit them. A wide range of adversarial attacks have been created and researchers have worked on various defense strategies to safeguard ML models, but most were not intended for the specific constraints of a communication network and its communication protocols, so they may lead to unrealistic examples in the NID domain. This Systematization of Knowledge (SoK) consolidates and summarizes the state-of-the-art adversarial learning approaches that can generate realistic examples and could be used in real ML development and deployment scenarios with real network traffic flows. This SoK also describes the open challenges regarding the use of adversarial ML in the NID domain, defines the fundamental properties that are required for an adversarial example to be realistic, and provides guidelines for researchers to ensure that their future experiments are adequate for a real communication network. | 翻訳日:2023-08-15 15:03:52 公開日:2023-08-13 |
# 多面的特徴アグリゲーションによるキャプションスーパービジョンからの顔認識の改善 Improving Face Recognition from Caption Supervision with Multi-Granular Contextual Feature Aggregation ( http://arxiv.org/abs/2308.06866v1 ) ライセンス: Link先を確認 | Md Mahedi Hasan and Nasser Nasrabadi | (参考訳) 商用オフ・ザ・シェルフ(COTS)顔認識(FR)システムの性能向上のための新しいフレームワークとして,キャプション誘導顔認識(CGFR)を導入した。
本研究では, 顔画像とソフトバイオメトリックス(顔のマーク, 性別, 年齢など)を併用するのに対し, 顔検査者が提供した顔記述を補助情報として利用する。
しかし、モダリティの不均一性のため、異なる埋め込み空間にあるため、テキスト的特徴と顔的特徴を直接融合させることによる性能の向上は非常に困難である。
本稿では,細粒度な単語領域相互作用とグローバルな画像キャプチャアソシエーションを効果的に活用して,この問題に対処するコンテキスト特徴集約モジュール(CFAM)を提案する。
具体的には、CFAMは、画像とテキストの特徴間のモダリティ内およびモダリティ間関係を改善するための自己注意と相互注意方式を採用する。
さらに,事前学習したBERTエンコーダのテキスト特徴を,コンテキスト埋め込みを更新することで洗練するテキスト特徴改善モジュール(TFRM)を設計する。
本モジュールは、クロスモーダル投影損失によるテキスト特徴の識別力を高め、視覚的アライメント損失を組み込むことで、単語とキャプションの埋め込みを視覚的特徴と認識する。
提案したCGFRフレームワークを2つの顔認識モデル(ArcFaceとAdaFace)上で実装し,その性能をマルチモーダルCelebA-HQデータセットで評価した。
本フレームワークは,1:1検証プロトコルと1:N識別プロトコルの両方において,ArcFaceの性能を大幅に向上させる。 We introduce caption-guided face recognition (CGFR) as a new framework to improve the performance of commercial-off-the-shelf (COTS) face recognition (FR) systems. In contrast to combining soft biometrics (eg., facial marks, gender, and age) with face images, in this work, we use facial descriptions provided by face examiners as a piece of auxiliary information. However, due to the heterogeneity of the modalities, improving the performance by directly fusing the textual and facial features is very challenging, as both lie in different embedding spaces. In this paper, we propose a contextual feature aggregation module (CFAM) that addresses this issue by effectively exploiting the fine-grained word-region interaction and global image-caption association. Specifically, CFAM adopts a self-attention and a cross-attention scheme for improving the intra-modality and inter-modality relationship between the image and textual features, respectively. Additionally, we design a textual feature refinement module (TFRM) that refines the textual features of the pre-trained BERT encoder by updating the contextual embeddings. This module enhances the discriminative power of textual features with a cross-modal projection loss and realigns the word and caption embeddings with visual features by incorporating a visual-semantic alignment loss. We implemented the proposed CGFR framework on two face recognition models (ArcFace and AdaFace) and evaluated its performance on the Multi-Modal CelebA-HQ dataset. Our framework significantly improves the performance of ArcFace in both 1:1 verification and 1:N identification protocol. | 翻訳日:2023-08-15 14:55:50 公開日:2023-08-13 |
# t-batchingを用いた動的ネットワーク表現学習における損失関数選択の効果 Effect of Choosing Loss Function when Using T-batching for Representation Learning on Dynamic Networks ( http://arxiv.org/abs/2308.06862v1 ) ライセンス: Link先を確認 | Erfan Loghmani, MohammadAmin Fazli | (参考訳) 表現学習法は、離散的なネットワーク構造を連続したドメインに変換することによって、ネットワーク上の機械学習に革命をもたらした。
しかし、時間とともに進化する動的ネットワークは新たな課題をもたらす。
これに対処するために,動的表現学習手法が注目され,時間情報を利用した学習時間の短縮や精度の向上といったメリットが期待されている。
t-batchingは、正確なモデリングのために重要な条件を維持しながらトレーニング時間を短縮する、動的ネットワークモデルのトレーニングに有用なテクニックである。
しかし, t-batchingでは, トレーニング損失関数の制限が認められた。
数学的解析により、これらの問題を克服する2つの代替損失関数を提案し、結果としてトレーニング性能が向上する。
提案する損失関数を合成および実世界の動的ネットワーク上で広範囲に評価する。
その結果,元の損失関数よりも優れた性能を示した。
特に、多様なユーザインタラクション履歴を特徴とする実世界のネットワークでは、提案する損失関数は平均相互ランク(mrr)が26.9%以上向上し、recall@10が11.8%向上した。
これらの結果は動的ネットワークモデリングにおける損失関数の有効性を裏付けるものである。 Representation learning methods have revolutionized machine learning on networks by converting discrete network structures into continuous domains. However, dynamic networks that evolve over time pose new challenges. To address this, dynamic representation learning methods have gained attention, offering benefits like reduced learning time and improved accuracy by utilizing temporal information. T-batching is a valuable technique for training dynamic network models that reduces training time while preserving vital conditions for accurate modeling. However, we have identified a limitation in the training loss function used with t-batching. Through mathematical analysis, we propose two alternative loss functions that overcome these issues, resulting in enhanced training performance. We extensively evaluate the proposed loss functions on synthetic and real-world dynamic networks. The results consistently demonstrate superior performance compared to the original loss function. Notably, in a real-world network characterized by diverse user interaction histories, the proposed loss functions achieved more than 26.9% enhancement in Mean Reciprocal Rank (MRR) and more than 11.8% improvement in Recall@10. These findings underscore the efficacy of the proposed loss functions in dynamic network modeling. | 翻訳日:2023-08-15 14:55:22 公開日:2023-08-13 |
# manifold dividemix: 重篤なラベルノイズに対する半教師付きコントラスト学習フレームワーク Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for Severe Label Noise ( http://arxiv.org/abs/2308.06861v1 ) ライセンス: Link先を確認 | Fahimeh Fooladgar, Minh Nguyen Nhat To, Parvin Mousavi, Purang Abolmaesumi | (参考訳) ディープニューラルネットワークは、クリーンなラベルを持つ大量のデータが利用できる場合、非常に効果的であることが証明されている。
しかし、トレーニングデータにノイズラベルが含まれているとパフォーマンスが低下し、テストセットの一般化が不十分になる。
実世界のデータセットには、他のクラス(配信中)と類似した視覚的意味を持つか、データセット内の任意のクラス(配信外)に意味的関連を持たないノイズのあるラベルサンプルが含まれている。
最先端のほとんどの手法では、IDラベル付きノイズサンプルを半教師付き学習のためのラベル付きデータとして利用するが、OODラベル付きノイズサンプルはデータセット内のどのクラスにも属さないため、この方法では使用できない。
そこで本稿では,自己監督訓練の利点を生かして,すべてのトレーニングデータから情報を取り込む手法を提案する。
本手法はラベルにかかわらず各サンプルに対して有意義で一般化可能な埋め込み空間を抽出することを目的としている。
次に, 簡便かつ有効なk-nearest近傍法を用いて, 分布サンプルの一部を除去する。
これらのサンプルを廃棄することで、クリーンでノイズの多いサンプルを見つけ、半教師ありの方法でモデルをトレーニングするための反復的 "manifold dividemix" アルゴリズムを提案する。
さらに,モデルの入力と最終的な隠れ表現の混合を含む半教師付きステップのための新しいアルゴリズムである"MixEMatch"を提案する。
これにより、入力空間と多様体空間の両方を補間することでより良い表現を抽出する。
複数の合成ノイズ画像ベンチマークと実世界のwebクローラーデータセットに関する広範囲な実験により,提案フレームワークの有効性が示された。
コードはhttps://github.com/Fahim-F/ManifoldDivideMixで入手できる。 Deep neural networks have proven to be highly effective when large amounts of data with clean labels are available. However, their performance degrades when training data contains noisy labels, leading to poor generalization on the test set. Real-world datasets contain noisy label samples that either have similar visual semantics to other classes (in-distribution) or have no semantic relevance to any class (out-of-distribution) in the dataset. Most state-of-the-art methods leverage ID labeled noisy samples as unlabeled data for semi-supervised learning, but OOD labeled noisy samples cannot be used in this way because they do not belong to any class within the dataset. Hence, in this paper, we propose incorporating the information from all the training data by leveraging the benefits of self-supervised training. Our method aims to extract a meaningful and generalizable embedding space for each sample regardless of its label. Then, we employ a simple yet effective K-nearest neighbor method to remove portions of out-of-distribution samples. By discarding these samples, we propose an iterative "Manifold DivideMix" algorithm to find clean and noisy samples, and train our model in a semi-supervised way. In addition, we propose "MixEMatch", a new algorithm for the semi-supervised step that involves mixup augmentation at the input and final hidden representations of the model. This will extract better representations by interpolating both in the input and manifold spaces. Extensive experiments on multiple synthetic-noise image benchmarks and real-world web-crawled datasets demonstrate the effectiveness of our proposed framework. Code is available at https://github.com/Fahim-F/ManifoldDivideMix. | 翻訳日:2023-08-15 14:55:05 公開日:2023-08-13 |
# 量子エンタングルメントとスクイーズを用いたサブSQL電子場センシング Sub-SQL electronic field sensing by simultaneously using quantum entanglements and squeezings ( http://arxiv.org/abs/2308.04136v3 ) ライセンス: Link先を確認 | X. N. Feng, M. Zhang, and L. F. Wei | (参考訳) 量子エンタングルメント(quantum entanglement)と量子スクイージング(quantum squeezing)は、量子メトロロジーにおける感度の高い位相推定の標準量子限界(sql)を打ち負かすための2つの典型的なアプローチである。
それぞれが、トラップされたイオンプラットフォームによる電界センシングの感度を向上させるために、すでに個別に利用されてきたが、実証された感度ゲインの上限は、SQL上の実験的な3dBと理論的な6dBと非常に限られている。
ここで、内部(スピン)外部(オシレータ)状態の絡み合いと発振器のスクイージングを同時に使用して蓄積位相を効果的に増幅し、平均励起フォノン数を圧縮することにより、関連するパラメータを適切に設定できれば、これらの感度向上を効果的に超越することができることを示す。
願わくば、この提案は、所望の電界や他のメトロロギーの繊細なセンシングのためのsqlのより強力なビートに対する新しいアプローチを提供する。 Quantum entanglement and quantum squeezing are two most typical approaches to beat the standard quantum limit (SQL) of the sensitive phase estimations in quantum metrology. Each of them has already been utilized individually to improve the sensitivity of electric field sensing with the trapped ion platform, but the upper bound of the demonstrated sensitivity gain is very limited, i.e., the experimental 3dB and theoretical 6dB, over the SQL. Here, by simultaneously using the internal (spin)-external (oscillator) state entanglements and the oscillator squeezings to effectively amplify the accumulation phase and compress the mean excited phonon number at the same time, we show that these sensitivity gains can be effectively surpassed, once the relevant parameters can be properly set. Hopefully, the proposal provides a novel approach to the stronger beaten of the SQL for the sensitive sensings of the desired electric field and also the other metrologies. | 翻訳日:2023-08-15 10:22:09 公開日:2023-08-13 |
# 真空分岐、ダークエネルギー、ダークマター Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v2 ) ライセンス: Link先を確認 | Don Weingarten | (参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。
本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。
特定のローレンツフレームに関して、低複雑性状態から始まるシステムに対して、分岐は、各分岐が次々に分裂してさらにサブブランチに繰り返し発生し、その分岐に続く実世界がボルン規則に従って選択される。
あるいは、明示的にローレンツの共変定式化(英語版)において、実世界は漸近的に遅く枝の集合から単一のランダムな描画であり、後者は、ミンコフスキー空間の格子上の時間ゲージにおける量子電磁力学に初期定式化を適応させることにより、特定のローレンツフレームにおいて有限時間に復元することができる。
しかし、初期のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることによって単純化されている。
この交換の結果、物理的真空自体が分岐し、非分岐真空よりもわずかに大きなエネルギー密度を持つ分枝が生じると予測される。
真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見えるが、追加の粒子含有量は持たない。 Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. With respect to a particular Lorentz frame, for a system beginning in a state of low complexity, branching occurs repeatedly over time with each branch splitting successively into further sub-branches among which the branch followed by the real world is chosen according to the Born rule. Alternatively, in an explicitly Lorentz covariant formulation, the real world is a single random draw from the set of branches at asymptotically late time, which can then be restored to finite time in a particular Lorentz frame by sequentially retracing the set of branching events implied by the late time choice.In the present article, we adapt the earlier formulation to quantum electrodynamics in temporal gauge on a lattice in Minkowski space. The earlier version, however, here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is predicted to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities but no additional particle content. | 翻訳日:2023-08-15 10:15:01 公開日:2023-08-13 |
# TextPainter: ポスターデザインのための視覚調和とテキスト理解によるマルチモーダルテキスト画像生成 TextPainter: Multimodal Text Image Generation with Visual-harmony and Text-comprehension for Poster Design ( http://arxiv.org/abs/2308.04733v3 ) ライセンス: Link先を確認 | Yifan Gao, Jinpeng Lin, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang | (参考訳) テキストデザインはポスターデザインにおいて最も重要な手順の1つであり、視覚調和とテキスト概念を考慮したテキスト画像を設計するための人間の創造性と専門性に大きく依存している。
本研究は,文脈視覚情報と対応するテキストセマンティクスを利用してテキスト画像を生成する,新しいマルチモーダルアプローチであるtextpainterを紹介する。
具体的には、TextPainterは、グローバルな背景画像をスタイルのヒントとして捉え、テキスト画像生成を視覚調和で導く。
さらに,言語モデルを利用してテキスト理解モジュールを導入し,文レベルと単語レベルの両方のバリエーションを実現する。
さらに,約80Kのポスターに文レベルのバウンディングボックスとテキスト内容を付加したPosterT80Kデータセットを構築した。
このデータセットがマルチモーダルテキスト画像生成に関するさらなる研究の道を開くことを願っている。
広範囲な量的・質的実験により、textpainterはポスターに視覚的・視覚的にハーモニックなテキスト画像を生成できることが示されている。 Text design is one of the most critical procedures in poster design, as it relies heavily on the creativity and expertise of humans to design text images considering the visual harmony and text-semantic. This study introduces TextPainter, a novel multimodal approach that leverages contextual visual information and corresponding text semantics to generate text images. Specifically, TextPainter takes the global-local background image as a hint of style and guides the text image generation with visual harmony. Furthermore, we leverage the language model and introduce a text comprehension module to achieve both sentence-level and word-level style variations. Besides, we construct the PosterT80K dataset, consisting of about 80K posters annotated with sentence-level bounding boxes and text contents. We hope this dataset will pave the way for further research on multimodal text image generation. Extensive quantitative and qualitative experiments demonstrate that TextPainter can generate visually-and-semantically-harmonious text images for posters. | 翻訳日:2023-08-15 10:13:40 公開日:2023-08-13 |