このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230701となっている論文です。

PDF登録状況(公開日: 20230701)

TitleAuthorsAbstract論文公表日・翻訳日
# テスト有効性の観点からのディープニューラルネットワークテストカバレッジの再検討

Revisiting Deep Neural Network Test Coverage from the Test Effectiveness Perspective ( http://arxiv.org/abs/2010.04946v3 )

ライセンス: Link先を確認
Ming Yan, Junjie Chen, Xuejie Cao, Zhuo Wu, Yuning Kang, Zan Wang(参考訳) 構造的カバレッジや非構造的カバレッジを含む、ディープニューラルネットワーク(DNN)テストの有効性を測定するために、多くのテストカバレッジメトリクスが提案されている。 これらのテストカバレッジメトリクスは、テストの有効性と相関する、基本的な仮定に基づいて提案される。 しかし、基本的な仮定は十分かつ合理的に検証されていないため、DNNテストカバレッジの有用性に疑問が呈される。 本稿では,既存のdnnテストカバレッジをテスト有効性の観点から再検討し,基礎的仮定を効果的に検証した。 そこで本研究では,被験者の多様性,評価基準の3つ,典型的および最先端テストカバレッジの指標を慎重に検討した。 既存のdnnテストカバレッジの有用性について否定的な結論を与える既存の研究と異なり、テストの有効性の観点からその有用性に関する肯定的な結論を見出した。 特に, 構造的カバレッジと非構造的カバレッジの相補的な関係を見出した。

Many test coverage metrics have been proposed to measure the Deep Neural Network (DNN) testing effectiveness, including structural coverage and non-structural coverage. These test coverage metrics are proposed based on the fundamental assumption: they are correlated with test effectiveness. However, the fundamental assumption is still not validated sufficiently and reasonably, which brings question on the usefulness of DNN test coverage. This paper conducted a revisiting study on the existing DNN test coverage from the test effectiveness perspective, to effectively validate the fundamental assumption. Here, we carefully considered the diversity of subjects, three test effectiveness criteria, and both typical and state-of-the-art test coverage metrics. Different from all the existing studies that deliver negative conclusions on the usefulness of existing DNN test coverage, we identified some positive conclusions on their usefulness from the test effectiveness perspective. In particular, we found the complementary relationship between structural and non-structural coverage and identified the practical usage scenarios and promising research directions for these existing test coverage metrics.
翻訳日:2023-10-24 16:08:31 公開日:2023-07-01
# beryllium:アルゴリズム実装のためのニューラルネットワーク

Beryllium: Neural Search for Algorithm Implementations ( http://arxiv.org/abs/2305.15690v2 )

ライセンス: Link先を確認
Adithya Kulkarni, Mohna Chakraborty, Yonas Sium, Sai Charishma Valluri, Wei Le, Qi Li(参考訳) 本稿では,コードからアルゴリズムの実装を探索する可能性について検討する。 うまくマッチするコードとアルゴリズムは未知のコードを理解し、参照実装を提供し、学習ベースのプログラム合成のためのデータを自動的に収集する。 この目的を達成するために,p言語と呼ばれる新しい言語を考案し,そのアルゴリズム記述から制御フロー,数学,自然言語情報を自動的に抽出するアルゴリズムと,p言語用の静的アナライザを設定した。 我々は,p言語(p-code)とソースコードの出力を自己教師付き機械学習手法を用いて共通ベクトル空間に埋め込んだ。 ベリリウムというツールを開発しました 擬似コードをクエリとして取り、アルゴリズムクエリにマッチする可能性のあるランク付けされたコードスニペットのリストを返す。 Stony Brook Algorithm Repositoryと人気のあるGitHubプロジェクトに対する我々の評価は、BelylliumがCとJavaの両方で最先端のコード検索ツールを著しく上回ったことを示している。 具体的には、98.5%、93.8%、66.2%のクエリで、アルゴリズムの実装が上位25位、10位、1位にランクインした。 87のアルゴリズムクエリが与えられたので、これまでアルゴリズムを知らなかったgithubプロジェクトで74のアルゴリズムの実装を見つけました。

In this paper, we explore the feasibility of finding algorithm implementations from code. Successfully matching code and algorithms can help understand unknown code, provide reference implementations, and automatically collect data for learning-based program synthesis. To achieve the goal, we designed a new language named p-language to specify the algorithms and a static analyzer for the p-language to automatically extract control flow, math, and natural language information from the algorithm descriptions. We embedded the output of p-language (p-code) and source code in a common vector space using self-supervised machine learning methods to match algorithm with code without any manual annotation. We developed a tool named Beryllium. It takes pseudo code as a query and returns a list of ranked code snippets that likely match the algorithm query. Our evaluation on Stony Brook Algorithm Repository and popular GitHub projects show that Beryllium significantly outperformed the state-of-the-art code search tools in both C and Java. Specifically, for 98.5%, 93.8%, and 66.2% queries, we found the algorithm implementations in the top 25, 10, and 1 ranked list, respectively. Given 87 algorithm queries, we found implementations for 74 algorithms in the GitHub projects where we did not know the algorithms before.
翻訳日:2023-10-24 05:47:22 公開日:2023-07-01
# API知識に基づくディープラーニングフレームワークの自動ユニットテスト生成

Automatic Unit Test Generation for Deep Learning Frameworks based on API Knowledge ( http://arxiv.org/abs/2307.00404v1 )

ライセンス: Link先を確認
Arunkaleeshwaran Narayanan, Nima Shiri harzevili, Junjie Wang, Lin Shi, Moshi Wei, Song Wang(参考訳) プログラム上で高いカバレッジで単体テストケースを生成できる自動単体テスト生成ツールが数多く提案されている。 しかし、ディープラーニングAPIの多くは、特定のAPI知識に従うインプットを期待しているため、これらのツールのほとんどは、ディープラーニング(DL)フレームワークでは効果がない。 このギャップを埋めるために、我々はMUTesterを提案し、対応するAPIドキュメントから抽出したAPI制約とStack Overflow(SO)のコードフラグメントから抽出したAPI使用パターンを活用して、ディープラーニングフレームワークのAPIのユニットテストケースを生成する。 特に,APIドキュメントからAPI制約をマイニングするための18のルールセットを提案する。 次に、頻繁なアイテムセットマイニング技術を用いて、SOから収集された機械学習API関連コードフラグメントの大規模なコーパスからAPI使用パターンをマイニングする。 最後に、上記の2つのAPI知識を使って、ディープラーニングフレームワーク用の既存のテストジェネレータのテスト生成をガイドします。 MUTesterの性能を評価するために、まず広く使われている4つのディープラーニングフレームワーク(Scikit-learn、PyTorch、TensorFlow、CNTK)から1,971のAPIを収集し、それぞれのAPIに対して、APIの知識、すなわちAPI制約とAPI使用量をさらに抽出する。 APIが与えられた後、MUTesterはAPI知識を既存のテストジェネレータ(例えば、検索ベースのテストジェネレータPyEvosuiteとランダムテストジェネレータPyRandoop)と組み合わせて、APIをテストするテストケースを生成する。 実験の結果,MUTesterは対応するテスト生成方法を大幅に改善でき,コードカバレッジは平均15.7%から27.0%向上した。 さらに、既存のテストジェネレータによって生成される無効テストの約19.0%を削減できる。 16人の開発者によるユーザスタディでは、ディープラーニングフレームワークのテストケースの生成におけるMUTesterの実用性をさらに実証している。

Many automatic unit test generation tools that can generate unit test cases with high coverage over a program have been proposed. However, most of these tools are ineffective on deep learning (DL) frameworks due to the fact that many of deep learning APIs expect inputs that follow specific API knowledge. To fill this gap, we propose MUTester to generate unit test cases for APIs of deep learning frameworks by leveraging the API constraints mined from the corresponding API documentation and the API usage patterns mined from code fragments in Stack Overflow (SO). Particularly, we first propose a set of 18 rules for mining API constraints from the API documents. We then use the frequent itemset mining technique to mine the API usage patterns from a large corpus of machine learning API related code fragments collected from SO. Finally, we use the above two types of API knowledge to guide the test generation of existing test generators for deep learning frameworks. To evaluate the performance of MUTester, we first collect 1,971 APIs from four widely-used deep learning frameworks (i.e., Scikit-learn, PyTorch, TensorFlow, and CNTK) and for each API, we further extract its API knowledge, i.e., API constraints and API usage. Given an API, MUTester combines its API knowledge with existing test generators (e.g., search-based test generator PyEvosuite and random test generator PyRandoop) to generate test cases to test the API. Results of our experiment show that MUTester can significantly improve the corresponding test generation methods and the improvement in code coverage is 15.7% to 27.0% on average. In addition, it can help reduce around 19.0% of invalid tests generated by the existing test generators. Our user study with 16 developers further demonstrates the practicality of MUTester in generating test cases for deep learning frameworks.
翻訳日:2023-10-23 18:35:10 公開日:2023-07-01
# 文書分析を用いたモバイルテストツールの比較

Comparing Mobile Testing Tools Using Documentary Analysis ( http://arxiv.org/abs/2307.00355v1 )

ライセンス: Link先を確認
Gustavo da Silva and Ronnie de Souza Santos(参考訳) モバイルアプリケーションの需要が高いため、この種の技術の利用者が急増していることを考えると、テスト専門家はテストツールの研究に時間を費やす必要があることが多い。 さまざまなツールによって、テスト担当者が目標に最も適したものを選択して、作業でサポートすることが難しくなります。 この意味で,モバイルテスト用の5つのオープンソースツール,appium,robotium,espresso,frank,eargreyの比較分析を行った。 文献分析手法を用いて,上記の各ツールの公式文書を探索し,モバイルテスティングツールが持つべき特性に関する文献で報告された技術基準に基づく各種比較を行った。 当社の調査結果は,モバイルテスティングツールのいくつかの側面を理解する上で有効だと思われます。

Due to the high demand for mobile applications, given the exponential growth of users of this type of technology, testing professionals are frequently required to invest time in studying testing tools, in particular, because nowadays, several different tools are available. A variety of tools makes it difficult for testing professionals to choose the one that best fits their goals and supports them in their work. In this sense, we conducted a comparative analysis among five open-source tools for mobile testing: Appium, Robotium, Espresso, Frank, and EarGrey. We used the documentary analysis method to explore the official documentation of each above-cited tool and developed various comparisons based on technical criteria reported in the literature about characteristics that mobile testing tools should have. Our findings are expected to help practitioners understand several aspects of mobile testing tools.
翻訳日:2023-10-23 18:34:27 公開日:2023-07-01
# コード検索のための自己更新クエリ再構成

Self-Supervised Query Reformulation for Code Search ( http://arxiv.org/abs/2307.00267v1 )

ライセンス: Link先を確認
Yuetian Mao, Chengcheng Wan, Yuze Jiang, Xiaodong Gu(参考訳) 自動クエリ再構成は、ユーザ要求を充実させ、コード検索の結果を高めるために広く利用されている技術である。 これは機械翻訳タスクとして概念化することができ、その目的は与えられたクエリをより包括的な代替にリプレースすることである。 有望な結果を示す一方で、そのようなモデルのトレーニングには、通常、オンラインコード検索エンジンによって機密かつ未公開のクエリペア(すなわち、元のクエリと再フォーマットされたクエリ)の大規模な並列コーパスが必要である。 これはソフトウェア開発プロセスにおける実用性を制限する。 本稿では,並列クエリコーパスに依存しない自己教師型クエリ再構成手法であるSSQRを提案する。 事前訓練されたモデルにインスパイアされたSSQRは、クエリの修正を、広範囲の未注釈コーパスで実行されるマスキング言語モデリングタスクとして扱う。 SSQRはT5(Transformerをベースとしたシーケンス・ツー・シーケンス・モデル)を拡張し、完全にクエリ内で単語をランダムにマスキングし、T5にマスクされたコンテンツを予測させる新しいトレーニング対象であるCQCを新たに導入する。 その後、あるクエリを再構成するために、SSQRは拡張の潜在的な場所を特定し、トレーニング済みのT5モデルを利用して、これらのギャップを埋める適切なコンテンツを生成する。 展開の選択は、各候補に関連付けられた情報ゲインに基づいて行われる。 評価の結果,SSQRは教師なしベースラインを著しく上回り,教師付き手法と比較して競争性能が向上することが示された。

Automatic query reformulation is a widely utilized technology for enriching user requirements and enhancing the outcomes of code search. It can be conceptualized as a machine translation task, wherein the objective is to rephrase a given query into a more comprehensive alternative. While showing promising results, training such a model typically requires a large parallel corpus of query pairs (i.e., the original query and a reformulated query) that are confidential and unpublished by online code search engines. This restricts its practicality in software development processes. In this paper, we propose SSQR, a self-supervised query reformulation method that does not rely on any parallel query corpus. Inspired by pre-trained models, SSQR treats query reformulation as a masked language modeling task conducted on an extensive unannotated corpus of queries. SSQR extends T5 (a sequence-to-sequence model based on Transformer) with a new pre-training objective named corrupted query completion (CQC), which randomly masks words within a complete query and trains T5 to predict the masked content. Subsequently, for a given query to be reformulated, SSQR identifies potential locations for expansion and leverages the pre-trained T5 model to generate appropriate content to fill these gaps. The selection of expansions is then based on the information gain associated with each candidate. Evaluation results demonstrate that SSQR outperforms unsupervised baselines significantly and achieves competitive performance compared to supervised methods.
翻訳日:2023-10-23 18:34:13 公開日:2023-07-01
# 小型無人航空機のフィールド運用検証のための要求駆動型プラットフォーム

A Requirements-Driven Platform for Validating Field Operations of Small Uncrewed Aerial Vehicles ( http://arxiv.org/abs/2307.00194v1 )

ライセンス: Link先を確認
Ankit Agrawal, Bohan Zhang, Yashaswini Shivalingaiah, Michael Vierhauser, Jane Cleland-Huang(参考訳) 小型無人航空機(sUAS)の飛行時の故障は人や環境に深刻な影響を及ぼす可能性がある。 したがって、SUASのアプリケーションは、特定の要件に順守し、悪天候、無線干渉、衛星の故障といった現実世界の状況下での安全な行動を保証するために、徹底的に評価され、テストされなければならない。 しかし、SUASを含む現在の自動運転車のシミュレーション環境は、様々な環境環境での動作を検証するための限定的なサポートを提供しており、システムレベルの要件に基づいた構造化テストを容易にするためのテストハーネスが欠如している。 これらの欠点に対処するために、sUASテストおよびシミュレーションプラットフォームに必要な要件を抽出し、指定し、それを開発し、デプロイする。 構築されたプラットフォームであるDroneReqValidator (DRV)は、sUAS開発者が運用コンテキストを定義し、複数のsUASミッション要件を設定し、安全性特性を指定し、高忠実な3D環境に独自のsUASアプリケーションをデプロイすることを可能にする。 DRVモニタリングシステムは、sUASと環境からランタイムデータを収集し、安全特性のコンプライアンスを分析し、違反をキャプチャする。 実世界のsuas展開に先立って,様々な環境条件下でのsuasミッション行動を評価するために,当社のプラットフォームを用いた2つのケーススタディについて報告する。 さらに,開発者を対象に調査を行い,要件駆動テストシナリオの特定と受け入れテスト結果の分析をdrvが簡略化することを発見した。

Flight-time failures of small Uncrewed Aerial Systems (sUAS) can have a severe impact on people or the environment. Therefore, sUAS applications must be thoroughly evaluated and tested to ensure their adherence to specified requirements, and safe behavior under real-world conditions, such as poor weather, wireless interference, and satellite failure. However, current simulation environments for autonomous vehicles, including sUAS, provide limited support for validating their behavior in diverse environmental contexts and moreover, lack a test harness to facilitate structured testing based on system-level requirements. We address these shortcomings by eliciting and specifying requirements for an sUAS testing and simulation platform, and developing and deploying it. The constructed platform, DroneReqValidator (DRV), allows sUAS developers to define the operating context, configure multi-sUAS mission requirements, specify safety properties, and deploy their own custom sUAS applications in a high-fidelity 3D environment. The DRV Monitoring system collects runtime data from sUAS and the environment, analyzes compliance with safety properties, and captures violations. We report on two case studies in which we used our platform prior to real-world sUAS deployments, in order to evaluate sUAS mission behavior in various environmental contexts. Furthermore, we conducted a study with developers and found that DRV simplifies the process of specifying requirements-driven test scenarios and analyzing acceptance test results
翻訳日:2023-10-23 18:33:45 公開日:2023-07-01
# CephGPT-4:視覚的大言語モデルを用いた対話型マルチモーダルケパロメトリ計測・診断システム

CephGPT-4: An Interactive Multimodal Cephalometric Measurement and Diagnostic System with Visual Large Language Model ( http://arxiv.org/abs/2307.07518v1 )

ライセンス: Link先を確認
Lei Ma, Jincong Han, Zhaoxin Wang, Dian Zhang(参考訳) 大規模マルチモーダル言語モデル (LMM) は一般領域において顕著な成功を収めた。 しかし、マルチモーダルな頭部計測データに基づく診断言語モデルの探索は限られている。 本稿では,新しいマルチモーダル脳波解析と診断対話モデルを提案する。 まず、u-netを用いた脳波ランドマークの自動分析と診断レポートの作成により、頭部画像と医師と患者との対話データからなるマルチモーダル矯正医療データセットを構築する。 次に、脳波データセットと生成された診断レポートをMinigpt-4とVisualGLMで別々に微調整する。 その結果,cephgpt-4モデルは優れた性能を示し,矯正的計測や診断に革命をもたらす可能性が示唆された。 これらの革新は矯正学の分野で革命的応用の可能性を持っている。

Large-scale multimodal language models (LMMs) have achieved remarkable success in general domains. However, the exploration of diagnostic language models based on multimodal cephalometric medical data remains limited. In this paper, we propose a novel multimodal cephalometric analysis and diagnostic dialogue model. Firstly, a multimodal orthodontic medical dataset is constructed, comprising cephalometric images and doctor-patient dialogue data, with automatic analysis of cephalometric landmarks using U-net and generation of diagnostic reports. Then, the cephalometric dataset and generated diagnostic reports are separately fine-tuned on Minigpt-4 and VisualGLM. Results demonstrate that the CephGPT-4 model exhibits excellent performance and has the potential to revolutionize orthodontic measurement and diagnostic applications. These innovations hold revolutionary application potential in the field of orthodontics.
翻訳日:2023-07-23 12:28:53 公開日:2023-07-01
# 原因は達成する -- 因果問題に対する解決策

Causing is Achieving -- A solution to the problem of causation ( http://arxiv.org/abs/2307.07517v1 )

ライセンス: Link先を確認
Riichiro Mizoguchi(参考訳) 応用オントロジーの観点から、因果関係の理解とモデル化の問題は近年、因果関係が本物であるという前提で問題視されている。 その結果, 1) 因果関係はシステム関数の概念で理解でき, (2) 因果関係は, Achieves, Prevents, Allows, Disallows の4つのサブファンクションのみを用いて分解できる, 3) 最後の3つのサブファンクションは Achieves 単独で定義できる,という3つの結果が得られた。 因果関係の本質は Achieves という一つの函数にある。 達成関数の性質を解明することは、以前の仕事の一部でしか説明されていない。 本稿では,先述した因果論の根底にある2つの方針について議論し,その上で前論文で得られた結果を要約し,最終的に因果論の問題点に対する完全な解法を与えることの本質を明らかにする。

From the standpoint of applied ontology, the problem of understanding and modeling causation has been recently challenged on the premise that causation is real. As a consequence, the following three results were obtained: (1) causation can be understood via the notion of systemic function; (2) any cause can be decomposed using only four subfunctions, namely Achieves, Prevents, Allows, and Disallows; and (3) the last three subfunctions can be defined in terms of Achieves alone. It follows that the essence of causation lies in a single function, namely Achieves. It remains to elucidate the nature of the Achieves function, which has been elaborated only partially in the previous work. In this paper, we first discuss a couple of underlying policies in the above-mentioned causal theory since these are useful in the discussion, then summarize the results obtained in the former paper, and finally reveal the nature of Achieves giving a complete solution to the problem of what causation is.
翻訳日:2023-07-23 12:28:34 公開日:2023-07-01
# 自動運転車のための信頼できるAIを開発するデザイナとエンジニアの視点の違い

Finding differences in perspectives between designers and engineers to develop trustworthy AI for autonomous cars ( http://arxiv.org/abs/2307.03193v1 )

ライセンス: Link先を確認
Gustav Jonelid, K. R. Larsson(参考訳) 倫理的人工知能(AI)の設計と実装の文脈では、自動運転車のための信頼できるAIの開発に関して様々な視点が存在する。 この研究は視点の違いに光を当て、そのような多様性を最小限に抑えるための推奨を提供する。 多様な視点を探索することで,その差異に寄与する重要な要因を特定し,ギャップを橋渡しするための戦略を提案する。 この研究はトロリーの問題を超えて、信頼できる倫理的AIの複雑な課題を可視化する。 信頼できるaiの3つの柱、透明性、信頼性、安全性が定義されている。 この研究は、自動運転車のための信頼できるAIの分野に貢献し、技術的進歩と倫理的原則の両方を優先するAIシステムの開発を促進するための実践的なレコメンデーションを提供する。

In the context of designing and implementing ethical Artificial Intelligence (AI), varying perspectives exist regarding developing trustworthy AI for autonomous cars. This study sheds light on the differences in perspectives and provides recommendations to minimize such divergences. By exploring the diverse viewpoints, we identify key factors contributing to the differences and propose strategies to bridge the gaps. This study goes beyond the trolley problem to visualize the complex challenges of trustworthy and ethical AI. Three pillars of trustworthy AI have been defined: transparency, reliability, and safety. This research contributes to the field of trustworthy AI for autonomous cars, providing practical recommendations to enhance the development of AI systems that prioritize both technological advancement and ethical principles.
翻訳日:2023-07-16 04:13:01 公開日:2023-07-01
# Q-YOLO:リアルタイム物体検出のための効率的な推論

Q-YOLO: Efficient Inference for Real-time Object Detection ( http://arxiv.org/abs/2307.04816v1 )

ライセンス: Link先を確認
Mingze Wang, Huixin Sun, Jun Shi, Xuhui Liu, Baochang Zhang, Xianbin Cao(参考訳) リアルタイム物体検出は様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たす。 しかし、リソース制約のあるプラットフォームにリアルタイムオブジェクト検出装置をデプロイすることは、高い計算量とメモリ要求のために課題となる。 本稿では,従来の量子化ヨーロモデルにおけるアクティベーション分布の不均衡に起因する性能劣化問題に対して効果的に対処できる,高効率の一段階検出器q-yoloを構築するための低ビット量子化手法について述べる。 Q-YOLOは、一方向ヒストグラム(UH)アクティベーション量子化スキームを備えた完全エンドツーエンドのPTQ(Post-Training Quantization)パイプラインを導入し、平均二乗誤差(MSE)量子化誤差を最小化し、ヒストグラム解析により最大トランケーション値を決定する。 COCOデータセットの大規模な実験では、Q-YOLOの有効性が示され、他のPTQ手法よりも優れ、精度と計算コストのバランスが良好である。 本研究は,資源制限エッジデバイスへのオブジェクト検出モデルの効率的な展開に寄与し,計算およびメモリオーバーヘッドを低減したリアルタイム検出を実現する。

Real-time object detection plays a vital role in various computer vision applications. However, deploying real-time object detectors on resource-constrained platforms poses challenges due to high computational and memory requirements. This paper describes a low-bit quantization method to build a highly efficient one-stage detector, dubbed as Q-YOLO, which can effectively address the performance degradation problem caused by activation distribution imbalance in traditional quantized YOLO models. Q-YOLO introduces a fully end-to-end Post-Training Quantization (PTQ) pipeline with a well-designed Unilateral Histogram-based (UH) activation quantization scheme, which determines the maximum truncation values through histogram analysis by minimizing the Mean Squared Error (MSE) quantization errors. Extensive experiments on the COCO dataset demonstrate the effectiveness of Q-YOLO, outperforming other PTQ methods while achieving a more favorable balance between accuracy and computational cost. This research contributes to advancing the efficient deployment of object detection models on resource-limited edge devices, enabling real-time detection with reduced computational and memory overhead.
翻訳日:2023-07-16 04:04:25 公開日:2023-07-01
# オンラインハーム緩和のための対語理解

Understanding Counterspeech for Online Harm Mitigation ( http://arxiv.org/abs/2307.04761v1 )

ライセンス: Link先を確認
Yi-Ling Chung, Gavin Abercrombie, Florence Enock, Jonathan Bright, Verena Rieser(参考訳) Counterspeechは、憎悪の犯人に挑戦し、虐待の標的への支援を示すことによって、憎悪の言葉に対する直接の反論を提供する。 コンテンツモデレーションやデプラットフォーム化といった、より議論の多い手段の代替手段を提供し、削除によって有害なコンテンツを軽減しようとするよりも、より多くのポジティブなオンラインスピーチに寄与する。 大規模な言語モデルの開発の進展は、カウンター音声を生成するプロセスが、大規模なオンラインキャンペーンを可能にする生成を自動化することで、より効率的にできることを意味している。 しかし, 現在では, ヘイト緩和効果に関するいくつかの重要な要因の体系的理解が欠如している。例えば, どのようなカウンタースピーチが最も効果的か, 実装の最適な条件は何か, ヘイトの効果の具体的な効果は最も改善できるのか, などである。 本稿では,社会科学における反音声研究の体系的見直しと,自動対音声生成における方法論と知見とコンピュータ科学の取り組みとの比較により,このギャップを埋めることを目的とする。 この多分野的な視点から、両分野における将来有望な方向性を特定する。

Counterspeech offers direct rebuttals to hateful speech by challenging perpetrators of hate and showing support to targets of abuse. It provides a promising alternative to more contentious measures, such as content moderation and deplatforming, by contributing a greater amount of positive online speech rather than attempting to mitigate harmful content through removal. Advances in the development of large language models mean that the process of producing counterspeech could be made more efficient by automating its generation, which would enable large-scale online campaigns. However, we currently lack a systematic understanding of several important factors relating to the efficacy of counterspeech for hate mitigation, such as which types of counterspeech are most effective, what are the optimal conditions for implementation, and which specific effects of hate it can best ameliorate. This paper aims to fill this gap by systematically reviewing counterspeech research in the social sciences and comparing methodologies and findings with computer science efforts in automatic counterspeech generation. By taking this multi-disciplinary view, we identify promising future directions in both fields.
翻訳日:2023-07-16 04:03:15 公開日:2023-07-01
# メタマテリアルとマルチスケールシステムのためのデータ駆動設計:レビュー

Data-Driven Design for Metamaterials and Multiscale Systems: A Review ( http://arxiv.org/abs/2307.05506v1 )

ライセンス: Link先を確認
Doksoo Lee, Wei Wayne Chen, Liwei Wang, Yu-Chin Chan, Wei Chen(参考訳) メタマテリアル(Metamaterials)は、自然界にある物質を超える効果的な物質パラメータを示すために設計された人工材料である。 多スケールシステムに組み立てられる設計性に富んだユニットセルで構成されており、例外的でしばしばエキゾチックな機能を持つ次世代デバイスを実現するという大きな期待を持っている。 しかし、広大な設計空間と複雑な構造とプロパティの関係は、設計に重大な課題をもたらす。 メタマテリアルの可能性を最大限に発揮できる魅力的なパラダイムとして、データ駆動設計が登場しています。 本稿では、この急速に発展している分野を概観し、特定のドメインやデプロイメントコンテキストの代わりに一般的な方法論を強調する。 我々は、データ駆動モジュール、データ取得、機械学習に基づくユニットセル設計、データ駆動マルチスケール最適化に関する既存の研究を整理する。 我々はさらに,共有原則に基づいた各モジュール内のアプローチを分類し,強みと適用性を分析し比較し,異なるモジュール間の接続を探索し,オープンリサーチの質問と機会を識別する。

Metamaterials are artificial materials designed to exhibit effective material parameters that go beyond those found in nature. Composed of unit cells with rich designability that are assembled into multiscale systems, they hold great promise for realizing next-generation devices with exceptional, often exotic, functionalities. However, the vast design space and intricate structure-property relationships pose significant challenges in their design. A compelling paradigm that could bring the full potential of metamaterials to fruition is emerging: data-driven design. In this review, we provide a holistic overview of this rapidly evolving field, emphasizing the general methodology instead of specific domains and deployment contexts. We organize existing research into data-driven modules, encompassing data acquisition, machine learning-based unit cell design, and data-driven multiscale optimization. We further categorize the approaches within each module based on shared principles, analyze and compare strengths and applicability, explore connections between different modules, and identify open research questions and opportunities.
翻訳日:2023-07-16 03:35:44 公開日:2023-07-01
# FedCP:条件付き政策による個人化フェデレーション学習のための特徴情報の分離

FedCP: Separating Feature Information for Personalized Federated Learning via Conditional Policy ( http://arxiv.org/abs/2307.01217v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, and Haibing Guan(参考訳) 近年,プライバシ保護や協調学習,病院や携帯電話などのクライアント間の統計的不均一性に対処する手段として,パーソナライズド・フェデレーション・ラーニング(pFL)が注目されている。 既存のpFL手法の多くは、クライアントレベルのモデルパラメータのグローバルな情報とパーソナライズされた情報を活用することに焦点を当てている。 これを解決するために,各サンプルに対して,グローバル情報とパーソナライズされた情報を分離し,それぞれグローバルヘッドとパーソナライズされたヘッドで処理するための条件ポリシーを生成するフェデレーション条件ポリシー(FedCP)手法を提案する。 FedCPは、既存のpFL法よりも、サンプル特異的なパーソナライズを考慮に入れやすい。 コンピュータビジョンと自然言語処理領域における大規模な実験により、FedCPは最先端の11の手法を最大6.69%上回っている。 さらに、FedCPは、あるクライアントが誤ってドロップアウトしたときにその優位性を維持している。 私たちのコードはhttps://github.com/TsingZ0/FedCPで公開されています。

Recently, personalized federated learning (pFL) has attracted increasing attention in privacy protection, collaborative learning, and tackling statistical heterogeneity among clients, e.g., hospitals, mobile smartphones, etc. Most existing pFL methods focus on exploiting the global information and personalized information in the client-level model parameters while neglecting that data is the source of these two kinds of information. To address this, we propose the Federated Conditional Policy (FedCP) method, which generates a conditional policy for each sample to separate the global information and personalized information in its features and then processes them by a global head and a personalized head, respectively. FedCP is more fine-grained to consider personalization in a sample-specific manner than existing pFL methods. Extensive experiments in computer vision and natural language processing domains show that FedCP outperforms eleven state-of-the-art methods by up to 6.69%. Furthermore, FedCP maintains its superiority when some clients accidentally drop out, which frequently happens in mobile settings. Our code is public at https://github.com/TsingZ0/FedCP.
翻訳日:2023-07-06 19:47:05 公開日:2023-07-01
# 科学的文書から定義・方法のパターンの発見

Discovering Patterns of Definitions and Methods from Scientific Documents ( http://arxiv.org/abs/2307.01216v1 )

ライセンス: Link先を確認
Yutian Sun and Hai Zhuge(参考訳) The difficulties of automatic extraction of definitions and methods from scientific documents lie in two aspects: (1) the complexity and diversity of natural language texts, which requests an analysis method to support the discovery of pattern; and, (2) a complete definition or method represented by a scientific paper is usually distributed within text, therefore an effective approach should not only extract single sentence definitions and methods but also integrate the sentences to obtain a complete definition or method. 本稿では,定義と方法のパターンを検出する解析手法を提案し,その手法を用いて定義と方法のパターンを探索する。 意味レベルでのパターンの完全性は、定義とメソッドをそれぞれ識別する意味関係の完全なセットによって保証される。 構文的および語彙的レベルのパターンの完全性は、構文的および語彙的制約によって保証される。 自己構築データセットと2つの公開定義データセットの実験は、発見されたパターンが効果的であることを示している。 このパターンは科学文書から定義やメソッドを抽出するのに使われ、他の用途に合わせて調整したり拡張したりすることができる。

The difficulties of automatic extraction of definitions and methods from scientific documents lie in two aspects: (1) the complexity and diversity of natural language texts, which requests an analysis method to support the discovery of pattern; and, (2) a complete definition or method represented by a scientific paper is usually distributed within text, therefore an effective approach should not only extract single sentence definitions and methods but also integrate the sentences to obtain a complete definition or method. This paper proposes an analysis method for discovering patterns of definition and method and uses the method to discover patterns of definition and method. Completeness of the patterns at the semantic level is guaranteed by a complete set of semantic relations that identify definitions and methods respectively. The completeness of the patterns at the syntactic and lexical levels is guaranteed by syntactic and lexical constraints. Experiments on the self-built dataset and two public definition datasets show that the discovered patterns are effective. The patterns can be used to extract definitions and methods from scientific documents and can be tailored or extended to suit other applications.
翻訳日:2023-07-06 19:46:43 公開日:2023-07-01
# 単語群探索に基づくロバストテキスト分類の自動反事実拡張

Automatic Counterfactual Augmentation for Robust Text Classification Based on Word-Group Search ( http://arxiv.org/abs/2307.01214v1 )

ライセンス: Link先を確認
Rui Song, Fausto Giunchiglia, Yingji Li, Hao Xu(参考訳) 大規模な事前学習型言語モデルがテキスト分類において顕著な成果を上げているにもかかわらず、最近の研究はショートカット学習の課題に対する懸念を提起している。 一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。 逆に、モデルが音響予測を生成するのに役立つ堅牢な因果的特徴に依存している場合、ショートカット学習を緩和することができる。 この目的のために、多くの研究がロバスト性と一般化のための近道と因果的特徴をマイニングするポストホック解釈可能な方法を模索している。 しかし、既存の手法のほとんどは文中の単一の単語のみに焦点を当てており、単語群を考慮しないため、誤った因果的特徴が生じる。 この問題を解決するために,キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する新しいWord-Groupマイニング手法を提案する。 提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図る。 そして,複数の単語群に基づく反実的拡張手法を構築し,適応的な投票機構を用いて予測結果に対する異なる拡張されたサンプルの影響を学習し,効果的な因果的特徴に注意を払ってモデルを強制する。 提案手法の有効性を,8つの情緒的レビューデータセットと4つの有毒言語データセット(クロスドメインテキスト分類,テキスト攻撃,ジェンダーフェアネステストなど)を用いて実証した。

Despite large-scale pre-trained language models have achieved striking results for text classificaion, recent work has raised concerns about the challenge of shortcut learning. In general, a keyword is regarded as a shortcut if it creates a superficial association with the label, resulting in a false prediction. Conversely, shortcut learning can be mitigated if the model relies on robust causal features that help produce sound predictions. To this end, many studies have explored post-hoc interpretable methods to mine shortcuts and causal features for robustness and generalization. However, most existing methods focus only on single word in a sentence and lack consideration of word-group, leading to wrong causal features. To solve this problem, we propose a new Word-Group mining approach, which captures the causal effect of any keyword combination and orders the combinations that most affect the prediction. Our approach bases on effective post-hoc analysis and beam search, which ensures the mining effect and reduces the complexity. Then, we build a counterfactual augmentation method based on the multiple word-groups, and use an adaptive voting mechanism to learn the influence of different augmentated samples on the prediction results, so as to force the model to pay attention to effective causal features. We demonstrate the effectiveness of the proposed method by several tasks on 8 affective review datasets and 4 toxic language datasets, including cross-domain text classificaion, text attack and gender fairness test.
翻訳日:2023-07-06 19:46:31 公開日:2023-07-01
# 時間依存的断熱的マスター方程式に対する量子軌道

Quantum trajectories for time-dependent adiabatic master equations ( http://arxiv.org/abs/1710.03431v2 )

ライセンス: Link先を確認
Ka Wa Yip, Tameem Albash, Daniel A. Lidar(参考訳) 量子断熱マスター方程式をリンドブラッド形式で解くための量子軌道法について述べる。 次元 $n^2$ の複素密度行列の代わりに次元 $n$ の複素状態ベクトルを進化させることで、より大きな系サイズのシミュレーションが実現可能になる。 マスター方程式の進化を回復するために必要となる多くの軌道を実行するコストは、並列に軌道を実行することによって最小化することができ、この方法が高性能な計算クラスタに適している。 一般に、trajectoriesメソッドはマスター方程式を直接解くよりも最大で$n$の利点を与えることができる。 特定の可観測物の期待値のみを求める特別な場合、最大$N^2$の利点が期待できる。 量子アディバティック・マスター方程式の直接解との整合性を8量子量子アニーリングの例で示すことにより,本手法を検証した。 また、量子軌道法を、量子アニーリングにおけるトンネルの役割を示すために最初に導入された16ドルの量子ビットの例に適用する。 量子軌道法は、個々の量子ジャンプ軌道とその統計に関する洞察を与え、マスター方程式を超えたオープンシステム量子断熱進化に光を当てる。

We describe a quantum trajectories technique for the unraveling of the quantum adiabatic master equation in Lindblad form. By evolving a complex state vector of dimension $N$ instead of a complex density matrix of dimension $N^2$, simulations of larger system sizes become feasible. The cost of running many trajectories, which is required to recover the master equation evolution, can be minimized by running the trajectories in parallel, making this method suitable for high performance computing clusters. In general, the trajectories method can provide up to a factor $N$ advantage over directly solving the master equation. In special cases where only the expectation values of certain observables are desired, an advantage of up to a factor $N^2$ is possible. We test the method by demonstrating agreement with direct solution of the quantum adiabatic master equation for $8$-qubit quantum annealing examples. We also apply the quantum trajectories method to a $16$-qubit example originally introduced to demonstrate the role of tunneling in quantum annealing, which is significantly more time consuming to solve directly using the master equation. The quantum trajectories method provides insight into individual quantum jump trajectories and their statistics, thus shedding light on open system quantum adiabatic evolution beyond the master equation.
翻訳日:2023-07-05 18:34:30 公開日:2023-07-01
# 文脈逆最適化:オフラインとオンライン学習

Contextual Inverse Optimization: Offline and Online Learning ( http://arxiv.org/abs/2106.14015v3 )

ライセンス: Link先を確認
Omar Besbes, Yuri Fonseca, Ilan Lobel(参考訳) 我々は、オフラインおよびオンラインの文脈最適化の問題をフィードバック情報で検討し、損失を観察する代わりに、目的関数の完全な知識を持つオラクルが行ったであろう最適なアクションを観察する。 我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。 オフライン設定では、意思決定者は過去の期間から利用可能な情報を持ち、1つの決定を行う必要があるが、オンライン設定では、意思決定者は、各期間における実行可能なアクションとコンテキスト関数の新たなセットに基づいて、時間とともに決定を動的に最適化する。 オフライン設定では、最適なミニマックスポリシーを特徴付け、データによって誘導される情報の基本的な幾何学の関数として達成できる性能を確立する。 オンライン環境では、この幾何学的特徴を利用して累積的後悔を最適化する。 我々は,時間軸の対数的問題に対する最初の後悔を生じさせるアルゴリズムを開発した。 最後に,提案手法が従来の手法よりも優れていることをシミュレーションにより示す。

We study the problems of offline and online contextual optimization with feedback information, where instead of observing the loss, we observe, after-the-fact, the optimal action an oracle with full knowledge of the objective function would have taken. We aim to minimize regret, which is defined as the difference between our losses and the ones incurred by an all-knowing oracle. In the offline setting, the decision-maker has information available from past periods and needs to make one decision, while in the online setting, the decision-maker optimizes decisions dynamically over time based a new set of feasible actions and contextual functions in each period. For the offline setting, we characterize the optimal minimax policy, establishing the performance that can be achieved as a function of the underlying geometry of the information induced by the data. In the online setting, we leverage this geometric characterization to optimize the cumulative regret. We develop an algorithm that yields the first regret bound for this problem that is logarithmic in the time horizon. Finally, we show via simulation that our proposed algorithms outperform previous methods from the literature.
翻訳日:2023-07-05 18:32:04 公開日:2023-07-01
# 相互作用意味論のモデル

A model of interaction semantics ( http://arxiv.org/abs/2007.06258v3 )

ライセンス: Link先を確認
Johannes Reich(参考訳) 目的:本論文の目的は,対話意味論のモデルに基づいて,対話内の交換された文字の「意味」をある程度理解することである。 方法論: システムインタラクションのモデルに基づいて、私は形式言語のセマンティクスに似た相互作用の意味論のモデルを構築します。 こうして私は、後期ルートヴィヒ・ヴィトゲンシュタインの意味で、文字から概念への「メンタル」マッピングなしでできる相互作用意味論のモデルにたどり着きます。 Findings: The key findings are a better understanding of the tight relation between the informatical approach to model interactions and game theory; of the central 'chicken and egg' problem, any natural language has to solve, namely that to interact sensibly, we have to understand each other and to acquire a common understanding, we have to interact with each other, which I call the 'simultaneous interaction and understanding (SIAU)' problem; why ontologies are less 'semantic' then their proponents suggest; and how 'semantic' interoperability is to be achieved. 価値: 提案された相互作用セマンティクスモデルの主な価値は、多くの異なる分野に適用できるため、自然科学と人文科学の科学者の基盤となるだけでなく、エンジニアがセマンティクス、特にサイバー物理システムの出現についてより理解しやすくすることに役立つことである。

Purpose: The purpose of this article is to propose, based on a model of an interaction semantics, a certain understanding of the ''meaning'' of the exchanged characters within an interaction. Methodology: Based on a model of system interaction, I structure the model of interaction semantics similar to the semantics of a formal language: first, I identify adequate variables in my interaction model to assign values to, and second, I identify the interpretation function to provide meaning. Thereby I arrive at a model of interaction semantics which, in the sense of the late Ludwig Wittgenstein, can do without a 'mental' mapping from characters to concepts. Findings: The key findings are a better understanding of the tight relation between the informatical approach to model interactions and game theory; of the central 'chicken and egg' problem, any natural language has to solve, namely that to interact sensibly, we have to understand each other and to acquire a common understanding, we have to interact with each other, which I call the 'simultaneous interaction and understanding (SIAU)' problem; why ontologies are less 'semantic' then their proponents suggest; and how 'semantic' interoperability is to be achieved. Value: The main value of the proposed model of interaction semantics is that it could be applied in many different disciplines and therefore could serve as a basis for scientists of natural sciences and humanities as well as engineers to understand each other more easily talking about semantics, especially with the advent of cyber-physical systems.
翻訳日:2023-07-05 18:31:14 公開日:2023-07-01
# 一般会期計画

General Part Assembly Planning ( http://arxiv.org/abs/2307.00206v1 )

ライセンス: Link先を確認
Yulong Li, Andy Zeng, Shuran Song(参考訳) 自律的なロボット組み立ての成功のほとんどは、単一の目標またはカテゴリーに制限されている。 本稿では,未確認の部品形状を持つ新規なターゲットアセンブリ作成作業である一般部品組み立てについて検討する。 一般部品組立計画に取り組むために,各部品形状が対象形状とどのように対応しているかを推定し,部品ポーズを正確に予測する変圧器ベースモデルアーキテクチャであるgeneral part assembly transformer (gpat)を提案する。 実世界の3次元CADモデルと実世界のスキャンによる実験により,GPATの新規かつ多様なターゲットおよび部品形状への一般化能力を示す。 プロジェクトウェブサイト: https://general-part-assembly.github.io/

Most successes in autonomous robotic assembly have been restricted to single target or category. We propose to investigate general part assembly, the task of creating novel target assemblies with unseen part shapes. To tackle the planning of general part assembly, we present General Part Assembly Transformer (GPAT), a transformer based model architecture that accurately predicts part poses by inferring how each part shape corresponds to the target shape. Our experiments on both 3D CAD models and real-world scans demonstrate GPAT's generalization abilities to novel and diverse target and part shapes. Project website: https://general-part-assembly.github.io/
翻訳日:2023-07-05 17:34:36 公開日:2023-07-01
# 知識駆動型微分フィルタサンプリングによる効率的なCNNのためのフィルタプルーニング

Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler ( http://arxiv.org/abs/2307.00198v1 )

ライセンス: Link先を確認
Shaohui Lin, Wenxuan Huang, Jiao Xie, Baochang Zhang, Yunhang Shen, Zhou Yu, Jungong Han, David Doermann(参考訳) フィルタプルーニングは、同時に計算を加速し、エッジデバイスやクラウドサービスに効果的に適用可能なcnnのメモリオーバーヘッドを削減する。 本稿では,事前学習されたモデルの事前知識と非代替最適化に基づいて,冗長なフィルタをグローバルに生成する,Masked Filter Modeling~(MFM)フレームワークを備えた知識駆動型微分フィルタサンプリング(KDFS)を提案する。 具体的には,学習可能なサンプリングパラメータを持つ微分サンプラーを設計し,各層にバイナリマスクベクトルを構築し,対応するフィルタが冗長かどうかを判定する。 マスクを学習するために,事前学習した教師モデルからの中間的特徴と,サンプリングした特徴を入力として取り入れた学生デコーダの出力を整列させて,PCAのような知識を構築するマスク付きフィルタモデルを導入する。 マスクとサンプリング器は、Gumbel-Softmax Straight-Through Gradient Estimatorによって、グローバルプルーニング制約、MFM再構成誤差、ダークナレッジと組み合わせて、エンドツーエンドで直接最適化される。 大規模な実験は、さまざまなデータセット上でベースモデルを圧縮するKDFSの有効性を示す。 例えば、ImageNet上のpruned ResNet-50は、55.36\%$計算の削減と42.86\%$パラメータの削減を達成し、0.35\%$Top-1の精度を落とし、最先端の手法を著しく上回っている。 コードは \url{https://github.com/osilly/kdfs} で入手できる。

Filter pruning simultaneously accelerates the computation and reduces the memory overhead of CNNs, which can be effectively applied to edge devices and cloud services. In this paper, we propose a novel Knowledge-driven Differential Filter Sampler~(KDFS) with Masked Filter Modeling~(MFM) framework for filter pruning, which globally prunes the redundant filters based on the prior knowledge of a pre-trained model in a differential and non-alternative optimization. Specifically, we design a differential sampler with learnable sampling parameters to build a binary mask vector for each layer, determining whether the corresponding filters are redundant. To learn the mask, we introduce masked filter modeling to construct PCA-like knowledge by aligning the intermediate features from the pre-trained teacher model and the outputs of the student decoder taking sampling features as the input. The mask and sampler are directly optimized by the Gumbel-Softmax Straight-Through Gradient Estimator in an end-to-end manner in combination with global pruning constraint, MFM reconstruction error, and dark knowledge. Extensive experiments demonstrate the proposed KDFS's effectiveness in compressing the base models on various datasets. For instance, the pruned ResNet-50 on ImageNet achieves $55.36\%$ computation reduction, and $42.86\%$ parameter reduction, while only dropping $0.35\%$ Top-1 accuracy, significantly outperforming the state-of-the-art methods. The code is available at \url{https://github.com/Osilly/KDFS}.
翻訳日:2023-07-05 17:34:27 公開日:2023-07-01
# 医療領域における100%最小限のエンティティ認識から言語モデルまでの距離

How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain ( http://arxiv.org/abs/2307.00186v1 )

ライセンス: Link先を確認
Mingchen Li and Rui Zhang(参考訳) 近年の言語モデル(LM)の進歩は、Small LM(例えばT5)やLarge LM(例えばGPT-4)のような強力なモデルの出現につながっている。 これらのモデルは、一般ドメインにおける名前エンティティ認識(NER)など、幅広いタスクにまたがる例外的な機能を示している。 (SLM は T5 や BERT などの GPT-3/3.5/4 などのモデルに比べ,パラメータの少ない事前学習モデルと定義する。) しかし, 医療領域におけるNERの有効性は依然として不明であり, 医療NERの性能は, フィールドの特異性から常に高い精度が必要である。 本研究の目的は,医療領域における 100 % のFew-shot NER から LM がどこまで遠いのか,また,NER の性能向上に寄与する有効なエンティティ認識器を探索することである。 2018年から2023年までの16のnerモデルを用いた広範な実験の結果から,適切な例と適切な論理フレームワークの存在から,llmsがslmを上回っていることが明らかとなった。 医療NERタスクにおけるLLMの全体的な優位性にもかかわらず、誤識別やテンプレート予測の誤りなど、いくつかの課題に直面していることに注意する必要がある。 過去の知見に基づいて,検索者,関連事例,思考者として機能し,ステップ・バイ・ステップの推論プロセスを用いた,シンプルで効果的な方法であるtextsc{RT} (Retrieving and Thinking)を導入する。 実験の結果,提案する \textsc{rt}フレームワークは2つのオープンメディカルベンチマークデータセットの強いオープンベースラインを大きく上回っている。

Recent advancements in language models (LMs) have led to the emergence of powerful models such as Small LMs (e.g., T5) and Large LMs (e.g., GPT-4). These models have demonstrated exceptional capabilities across a wide range of tasks, such as name entity recognition (NER) in the general domain. (We define SLMs as pre-trained models with fewer parameters compared to models like GPT-3/3.5/4, such as T5, BERT, and others.) Nevertheless, their efficacy in the medical section remains uncertain and the performance of medical NER always needs high accuracy because of the particularity of the field. This paper aims to provide a thorough investigation to compare the performance of LMs in medical few-shot NER and answer How far is LMs from 100\% Few-shot NER in Medical Domain, and moreover to explore an effective entity recognizer to help improve the NER performance. Based on our extensive experiments conducted on 16 NER models spanning from 2018 to 2023, our findings clearly indicate that LLMs outperform SLMs in few-shot medical NER tasks, given the presence of suitable examples and appropriate logical frameworks. Despite the overall superiority of LLMs in few-shot medical NER tasks, it is important to note that they still encounter some challenges, such as misidentification, wrong template prediction, etc. Building on previous findings, we introduce a simple and effective method called \textsc{RT} (Retrieving and Thinking), which serves as retrievers, finding relevant examples, and as thinkers, employing a step-by-step reasoning process. Experimental results show that our proposed \textsc{RT} framework significantly outperforms the strong open baselines on the two open medical benchmark datasets
翻訳日:2023-07-05 17:33:57 公開日:2023-07-01
# インクリメンタルランダム重みニューラルネットワークの解釈可能な構成アルゴリズムとその応用

An Interpretable Constructive Algorithm for Incremental Random Weight Neural Networks and Its Application ( http://arxiv.org/abs/2307.00185v1 )

ライセンス: Link先を確認
Jing Nan, Wei Dai, Guan Yuan, and Ping Zhou(参考訳) インクリメンタルランダムウェイトニューラルネットワーク(IRWNN)は、実装の容易さと学習の速さから注目されている。 しかし、irwnnsの重大な欠点は、隠れたパラメータ(ノード)と残差エラー(モデル性能)の間の溶出が解釈が難しいことである。 本稿では,幾何学的情報に制約のある解釈可能構成型アルゴリズム(ica)を提案する。 まず,隠れパラメータと残差誤差との幾何学的関係に基づいて,解釈可能な幾何情報制約を提案し,隠れパラメータをランダムに割り当てる。 一方、ノードプール戦略を用いて、提案した制約を満たす隠れパラメータから収束しやすい隠れパラメータを求める。 さらに、ICAの普遍近似特性が証明される。 最後に、ICAの軽量バージョンが大規模データモデリングタスクのために提示される。 6つのベンチマークデータセットと数値シミュレーションデータセットの実験結果は、icaがモデリング速度、モデル精度、モデルネットワーク構造の観点から他の構成的アルゴリズムよりも優れていることを示している。 また,2つの実用工業応用事例を用いて,ICAの有効性を検証した。

Incremental random weight neural networks (IRWNNs) have gained attention in view of its easy implementation and fast learning. However, a significant drawback of IRWNNs is that the elationship between the hidden parameters (node)and the residual error (model performance) is difficult to be interpreted. To address the above issue, this article proposes an interpretable constructive algorithm (ICA) with geometric information constraint. First, based on the geometric relationship between the hidden parameters and the residual error, an interpretable geometric information constraint is proposed to randomly assign the hidden parameters. Meanwhile, a node pool strategy is employed to obtain hidden parameters that is more conducive to convergence from hidden parameters satisfying the proposed constraint. Furthermore, the universal approximation property of the ICA is proved. Finally, a lightweight version of ICA is presented for large-scale data modeling tasks. Experimental results on six benchmark datasets and a numerical simulation dataset demonstrate that the ICA outperforms other constructive algorithms in terms of modeling speed, model accuracy, and model network structure. Besides, two practical industrial application case are used to validate the effectiveness of ICA in practical applications.
翻訳日:2023-07-05 17:33:25 公開日:2023-07-01
# 大規模言語モデルにおける人格特性

Personality Traits in Large Language Models ( http://arxiv.org/abs/2307.00184v1 )

ライセンス: Link先を確認
Mustafa Safdari, Greg Serapio-Garc\'ia, Cl\'ement Crepy, Stephen Fitz, Peter Romero, Luning Sun, Marwa Abdulhai, Aleksandra Faust, Maja Matari\'c(参考訳) 大規模言語モデル(LLM)の出現は自然言語処理に革命をもたらし、一貫性と文脈に関連のあるテキストの生成を可能にした。 llmが会話エージェントの力を強めるにつれて、大量の人間生成データに対する訓練によって、これらのモデルに埋め込まれた合成されたパーソナリティが注目される。 人格はコミュニケーションの有効性を決定する重要な要因であるので,広く利用されているLLMから生成されたテキストで表される人格の特徴を定量化,分析,形成するための総合的な手法を提案する。 私たちはそれを見つけました 1) LLMの出力にシミュレートされた性格(特定のプロンプト構成の下で)は信頼性が高く有効である。 2 LLM模擬人格の信頼性及び妥当性の証拠は、より大きく細調整されたモデルに強く、かつ、 3) LLM出力のパーソナリティは, 特定のパーソナリティプロファイルを模倣するために, 所望の次元に沿って形成することができる。 また, 計測・形成フレームワークの潜在的な応用と倫理的意義, 特にLCMの責任ある利用について論じる。

The advent of large language models (LLMs) has revolutionized natural language processing, enabling the generation of coherent and contextually relevant text. As LLMs increasingly power conversational agents, the synthesized personality embedded in these models by virtue of their training on large amounts of human-generated data draws attention. Since personality is an important factor determining the effectiveness of communication, we present a comprehensive method for administering validated psychometric tests and quantifying, analyzing, and shaping personality traits exhibited in text generated from widely-used LLMs. We find that: 1) personality simulated in the outputs of some LLMs (under specific prompting configurations) is reliable and valid; 2) evidence of reliability and validity of LLM-simulated personality is stronger for larger and instruction fine-tuned models; and 3) personality in LLM outputs can be shaped along desired dimensions to mimic specific personality profiles. We also discuss potential applications and ethical implications of our measurement and shaping framework, especially regarding responsible use of LLMs.
翻訳日:2023-07-05 17:33:08 公開日:2023-07-01
# 視覚的食品認識のための長期学習

Long-Tailed Continual Learning For Visual Food Recognition ( http://arxiv.org/abs/2307.00183v1 )

ライセンス: Link先を確認
Jiangpeng He and Luotao Lin and Jack Ma and Heather A. Eicher-Miller and Fengqing Zhu(参考訳) 深層学習に基づく食品認識は,食時画像による食種予測において顕著な進歩を遂げている。 しかし、現実のシナリオでのデプロイメントを妨げる大きな障害が2つあります。 第一に、新しい食品が順次残業するにつれて、訓練されたモデルは、既存の食品の知識を忘れることなく、新しいクラスを継続的に学習する必要がある。 第二に、実生活における食品イメージの分布は、少数の人気食品種が他よりも頻繁に消費されるため、個体数によって異なる。 これにより, 食品等級の一般化能力を向上させることにより, クラス不均衡データから食品認識法を学ぶ必要がある。 本研究は,長期にわたる連続学習に焦点を当て,上記の課題に対処することを目的とする。 既存のロングテールフード画像データセットは健常者のみを対象とし,インスリンを摂取しないインスリン摂取者と2型糖尿病者を対象に,vfn-insulin と vfn-t2d という2つのベンチマーク食品画像データセットを導入した。 本稿では,長期連続学習における表現の不適応を回避するために,知識蒸留に新たな予測器を適用することで,破滅的な忘れを効果的に解決する,新たなエンドツーエンドフレームワークを提案する。 また,CAM(class-activation-map)とCutMixを統合した新しいデータ拡張手法を導入する。 提案手法は,既存手法と比較して大きなマージン改善を施した有望な性能を示す。

Deep learning based food recognition has achieved remarkable progress in predicting food types given an eating occasion image. However, there are two major obstacles that hinder deployment in real world scenario. First, as new foods appear sequentially overtime, a trained model needs to learn the new classes continuously without causing catastrophic forgetting for already learned knowledge of existing food types. Second, the distribution of food images in real life is usually long-tailed as a small number of popular food types are consumed more frequently than others, which can vary in different populations. This requires the food recognition method to learn from class-imbalanced data by improving the generalization ability on instance-rare food classes. In this work, we focus on long-tailed continual learning and aim to address both aforementioned challenges. As existing long-tailed food image datasets only consider healthy people population, we introduce two new benchmark food image datasets, VFN-INSULIN and VFN-T2D, which exhibits on the real world food consumption for insulin takers and individuals with type 2 diabetes without taking insulin, respectively. We propose a novel end-to-end framework for long-tailed continual learning, which effectively addresses the catastrophic forgetting by applying an additional predictor for knowledge distillation to avoid misalignment of representation during continual learning. We also introduce a novel data augmentation technique by integrating class-activation-map (CAM) and CutMix, which significantly improves the generalization ability for instance-rare food classes to address the class-imbalance issue. The proposed method show promising performance with large margin improvements compared with existing methods.
翻訳日:2023-07-05 17:32:50 公開日:2023-07-01
# 単段重尾食品分類

Single-Stage Heavy-Tailed Food Classification ( http://arxiv.org/abs/2307.00182v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) 深層学習に基づく食品画像分類は, 食事時の食事の種類を予測することによって, より正確な栄養内容分析を可能にした。 しかし、食品分類を実生活に適用するには2つの大きな障害がある。 第一に、実生活の食品画像は通常重く分布しているため、集団不均衡が深刻になる。 第二に、単一ステージ(すなわちエンドツーエンド)フレームワークをヘビーテールのデータ分散の下でトレーニングすることは困難であり、これは、リッチなインスタンスを持つヘッドクラスへの過大な予測と、稀なインスタンスを持つテールクラスへの過大な予測を引き起こす。 そこで本研究では,新しい単段重尾食品分類フレームワークを導入することで,両課題に対処した。 本手法は,フード101-LTとVFN-LTの2つの重み付き食品ベンチマークデータセットを用いて評価し,上位1の精度で5%以上改善された既存の作業と比較して,最高の性能を実現する。

Deep learning based food image classification has enabled more accurate nutrition content analysis for image-based dietary assessment by predicting the types of food in eating occasion images. However, there are two major obstacles to apply food classification in real life applications. First, real life food images are usually heavy-tailed distributed, resulting in severe class-imbalance issue. Second, it is challenging to train a single-stage (i.e. end-to-end) framework under heavy-tailed data distribution, which cause the over-predictions towards head classes with rich instances and under-predictions towards tail classes with rare instance. In this work, we address both issues by introducing a novel single-stage heavy-tailed food classification framework. Our method is evaluated on two heavy-tailed food benchmark datasets, Food101-LT and VFN-LT, and achieves the best performance compared to existing work with over 5% improvements for top-1 accuracy.
翻訳日:2023-07-05 17:32:24 公開日:2023-07-01
# 教師なし座標系ビデオデノイジング

Unsupervised Coordinate-Based Video Denoising ( http://arxiv.org/abs/2307.00179v1 )

ライセンス: Link先を確認
Mary Damilola Aiyetigbo, Dineshchandar Ravichandran, Reda Chalhoub, Peter Kalivas, Nianyi Li(参考訳) 本稿では,データ不足を軽減し,異なる雑音パターンに対するロバスト性を示し,その幅広い適用性を高めるための,教師なしビデオデノイジング深層学習手法を提案する。 提案手法は,特徴マップを作成する機能生成装置,特徴付きだがややぼやけた参照フレームを生成するdenoise-net,高周波詳細を再現するrefine-netの3つのモジュールからなる。 コーディネートベースのネットワークを利用することで,ネットワーク構造を大幅に単純化し,高周波数のディテールを分断された映像フレームに保存することができる。 本手法は,実世界のカルシウムイメージング映像を,事前のノイズモデルやトレーニング中のデータ拡張の知識を必要とせずに効果的にデノベートできることを示す。

In this paper, we introduce a novel unsupervised video denoising deep learning approach that can help to mitigate data scarcity issues and shows robustness against different noise patterns, enhancing its broad applicability. Our method comprises three modules: a Feature generator creating features maps, a Denoise-Net generating denoised but slightly blurry reference frames, and a Refine-Net re-introducing high-frequency details. By leveraging the coordinate-based network, we can greatly simplify the network structure while preserving high-frequency details in the denoised video frames. Extensive experiments on both simulated and real-captured demonstrate that our method can effectively denoise real-world calcium imaging video sequences without prior knowledge of noise models and data augmentation during training.
翻訳日:2023-07-05 17:32:07 公開日:2023-07-01
# InferTurbo:巨大なグラフ上のグラフニューラルネットワークのフルグラフ推論を促進するスケーラブルシステム

InferTurbo: A Scalable System for Boosting Full-graph Inference of Graph Neural Network over Huge Graphs ( http://arxiv.org/abs/2307.00228v1 )

ライセンス: Link先を確認
Dalong Zhang, Xianzheng Song, Zhiyang Hu, Yang Li, Miao Tao, Binbin Hu, Lin Wang, Zhiqiang Zhang, Jun Zhou(参考訳) GNN推論は、特に巨大なグラフを持つ産業シナリオでは、巨大なグラフ上のフルグラフ推論に適したスケーラビリティ、確率的加速度戦略(サンプリングなど)による不整合、深刻な冗長な計算問題という3つの主要な課題を負う。 以上の課題に対処するため,産業シナリオにおけるGNN推論タスクを強化するために,InferTurboというスケーラブルなシステムを提案する。 GNN推論の計算パラダイムとデータフローを記述するため,GAS(Gather-Apply-Scatter)スキーマである‘think-like-a-vertex’の思想に触発された。 GNNの計算は反復的に表現され、頂点はエッジを介してメッセージを収集し、それらのメッセージと関連するGNNの層を転送して状態情報を更新し、その更新情報を他の頂点に送信する。 スキーマに従って提案されたInferTurboは、代替バックエンド(バッチ処理システムやグラフコンピューティングシステムなど)で構築することができる。 さらにinferturboでは,ロードバランシングを改善するために,シャドウノードや部分ガザといったいくつかの戦略を導入している。 InferTurboでは、サンプリングや冗長な計算をすることなく、全グラフ上でGNN推論を階層的に行うことができる。 実験の結果,多数のエッジを持つハブノードを含むグラフ上でのロバストで効率的な推論が可能となった。 一方、システムは従来の推論パイプラインと比較して顕著なパフォーマンスを得ており、2時間以内に数千億のノードと数十億のエッジを持つグラフ上でGNN推論タスクを終了することができる。

GNN inference is a non-trivial task, especially in industrial scenarios with giant graphs, given three main challenges, i.e., scalability tailored for full-graph inference on huge graphs, inconsistency caused by stochastic acceleration strategies (e.g., sampling), and the serious redundant computation issue. To address the above challenges, we propose a scalable system named InferTurbo to boost the GNN inference tasks in industrial scenarios. Inspired by the philosophy of ``think-like-a-vertex", a GAS-like (Gather-Apply-Scatter) schema is proposed to describe the computation paradigm and data flow of GNN inference. The computation of GNNs is expressed in an iteration manner, in which a vertex would gather messages via in-edges and update its state information by forwarding an associated layer of GNNs with those messages and then send the updated information to other vertexes via out-edges. Following the schema, the proposed InferTurbo can be built with alternative backends (e.g., batch processing system or graph computing system). Moreover, InferTurbo introduces several strategies like shadow-nodes and partial-gather to handle nodes with large degrees for better load balancing. With InferTurbo, GNN inference can be hierarchically conducted over the full graph without sampling and redundant computation. Experimental results demonstrate that our system is robust and efficient for inference tasks over graphs containing some hub nodes with many adjacent edges. Meanwhile, the system gains a remarkable performance compared with the traditional inference pipeline, and it can finish a GNN inference task over a graph with tens of billions of nodes and hundreds of billions of edges within 2 hours.
翻訳日:2023-07-05 17:23:57 公開日:2023-07-01
# マルコフブランケットの交点を利用した因果構造学習

Causal Structure Learning by Using Intersection of Markov Blankets ( http://arxiv.org/abs/2307.00227v1 )

ライセンス: Link先を確認
Yiran Dong and Chuanhou Gao(参考訳) 本稿では,ベイジアンネットワークと構造因果モデル(SCM)の特性を組み合わせた,内因性および外因性マルコフブランケット間断面積(EEMBI)と呼ばれる新しい因果構造学習アルゴリズムを提案する。 さらに,PCアルゴリズムの最後のステップをEEMBIに統合するEEMBI-PCの拡張版を提案する。

In this paper, we introduce a novel causal structure learning algorithm called Endogenous and Exogenous Markov Blankets Intersection (EEMBI), which combines the properties of Bayesian networks and Structural Causal Models (SCM). Furthermore, we propose an extended version of EEMBI, namely EEMBI-PC, which integrates the last step of the PC algorithm into EEMBI.
翻訳日:2023-07-05 17:23:26 公開日:2023-07-01
# S-Omninet: 構造化データ強化ユニバーサルマルチモーダル学習アーキテクチャ

S-Omninet: Structured Data Enhanced Universal Multimodal Learning Architecture ( http://arxiv.org/abs/2307.00226v1 )

ライセンス: Link先を確認
Ye Xue, Diego Klabjan, Jean Utke(参考訳) 近年,マルチモーダルマルチタスク学習への関心が高まっている。 シングルモーダルモデルは急速に進歩し、複数のドメインにわたる様々なタスクで驚くべき結果を得た。 マルチモーダル学習は、複数のモーダルからのデータを統合することで、さらなる改善の機会を提供する。 視覚や言語データなど,特定の種類のマルチモーダルデータを学習するために,多くの手法が提案されている。 いくつかは一度に複数のモダリティやタスクを処理するように設計されている。 本研究では,複数のモダリティとタスクを同時に処理可能なアーキテクチャであるomninetを拡張し,改良する。クロスキャッシュの注意の導入,視覚入力へのパッチ埋め込みの統合,構造化データのサポートなどを行う。 提案するStructured-data-enhanced Omninet (S-Omninet) は,空間的,時間的,構造的特徴間の相互作用を可能とし,非構造的データを用いて多次元構造データから効果的に学習できる普遍モデルである。 また,パッチ埋め込みによる空間キャッシュの空間表現も強化する。 提案したモデルを複数のマルチモーダルデータセット上で評価し,ベースラインであるOmninetよりも大幅に改善したことを示す。

Multimodal multitask learning has attracted an increasing interest in recent years. Singlemodal models have been advancing rapidly and have achieved astonishing results on various tasks across multiple domains. Multimodal learning offers opportunities for further improvements by integrating data from multiple modalities. Many methods are proposed to learn on a specific type of multimodal data, such as vision and language data. A few of them are designed to handle several modalities and tasks at a time. In this work, we extend and improve Omninet, an architecture that is capable of handling multiple modalities and tasks at a time, by introducing cross-cache attention, integrating patch embeddings for vision inputs, and supporting structured data. The proposed Structured-data-enhanced Omninet (S-Omninet) is a universal model that is capable of learning from structured data of various dimensions effectively with unstructured data through cross-cache attention, which enables interactions among spatial, temporal, and structured features. We also enhance spatial representations in a spatial cache with patch embeddings. We evaluate the proposed model on several multimodal datasets and demonstrate a significant improvement over the baseline, Omninet.
翻訳日:2023-07-05 17:23:17 公開日:2023-07-01
# StyleStegan:特徴ステレオグラフィに基づく漏れのないスタイル転送

StyleStegan: Leak-free Style Transfer Based on Feature Steganography ( http://arxiv.org/abs/2307.00225v1 )

ライセンス: Link先を確認
Xiujian Liang, Bingshan Liu, Qichao Ying, Zhenxing Qian and Xinpeng Zhang(参考訳) 現代のソーシャルネットワークでは、既存のスタイル転送手法は深刻なコンテンツリーク問題に悩まされており、連続的で可逆的なスタイリゼーションを実現する能力を損なうため、ソーシャルネットワークにおけるスタイリゼーションされたイメージのさらなる伝播を妨げている。 この問題に対処するために,特徴ステガノグラフィに基づくリークフリースタイル転送手法を提案する。 本手法は,オリジナル画像の芸術的スタイライゼーションを実現するスタイル転送方式と,スタイライゼーション画像にコンテンツの特徴秘密を埋め込む画像ステガノグラフィ方式の2つの主成分からなる。 私たちの仕事の主な貢献は次のとおりです。 1) オリジナル画像とそれに続くスタイリッシュ画像とのコンテンツの不一致から生じるコンテンツリークとその原因を同定し,その原因を説明する。 2) 損失のない, バイアスのないスタイル転送を実現するニューラルフローモデルを設計する。 3)スタイリッシュ画像のコンテンツ特徴情報を隠蔽し,その後の使用権を制御するために,ステガノグラフィを導入する。 4) 公開データセットMS-COCOとWikiartを用いて総合的な実験検証を行う。 その結果、StyleSteganは、シリアルおよび可逆的なスタイル転送タスクにおけるコンテンツ漏洩問題を軽減した。 これらのタスクのSSIMパフォーマンス指標はそれぞれ、最適以下のベースラインモデルと比較して14.98%と7.28%高い。

In modern social networks, existing style transfer methods suffer from a serious content leakage issue, which hampers the ability to achieve serial and reversible stylization, thereby hindering the further propagation of stylized images in social networks. To address this problem, we propose a leak-free style transfer method based on feature steganography. Our method consists of two main components: a style transfer method that accomplishes artistic stylization on the original image and an image steganography method that embeds content feature secrets on the stylized image. The main contributions of our work are as follows: 1) We identify and explain the phenomenon of content leakage and its underlying causes, which arise from content inconsistencies between the original image and its subsequent stylized image. 2) We design a neural flow model for achieving loss-free and biased-free style transfer. 3) We introduce steganography to hide content feature information on the stylized image and control the subsequent usage rights. 4) We conduct comprehensive experimental validation using publicly available datasets MS-COCO and Wikiart. The results demonstrate that StyleStegan successfully mitigates the content leakage issue in serial and reversible style transfer tasks. The SSIM performance metrics for these tasks are 14.98% and 7.28% higher, respectively, compared to a suboptimal baseline model.
翻訳日:2023-07-05 17:22:56 公開日:2023-07-01
# 連続グラフ拡散関数空間における再シンクと再設計グラフニューラルネットワーク

Re-Think and Re-Design Graph Neural Networks in Spaces of Continuous Graph Diffusion Functionals ( http://arxiv.org/abs/2307.00222v1 )

ライセンス: Link先を確認
Tingting Dan and Jiaqi Ding and Ziquan Wei and Shahar Z Kovalsky and Minjeong Kim and Won Hwa Kim and Guorong Wu(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワークや生体システムのようなドメインで広く使われている。 しかし、近隣ノードへの情報交換を制限するGNNの局所性仮定は、グラフ内の長距離依存関係やグローバルパターンをキャプチャする能力を損なう。 そこで本研究では,ブラキストロン問題から着想を得た変分解析に基づく新しい帰納バイアスを提案する。 我々のフレームワークは離散GNNモデルと連続拡散関数のマッピングを確立する。 これにより、連続領域におけるアプリケーション固有の目的関数の設計と、数学的保証を伴う離散的深層モデルの構築が可能になる。 GNNにおけるオーバー・スムース化に取り組むために,既存の層間グラフ埋め込みモデルを分析し,グラフ勾配の l2-ノルム積分関数と等価であることを確認した。 エッジ保存フィルタと同様に,グラフ拡散パターンとグローバルコミュニティトポロジを整合させるために,全変動(total variation,tv)を導入する。 さらに,モデル深度と過平滑化とのトレードオフに対処する選択的なメカニズムを考案し,既存のGNNに容易に組み込めるようにした。 さらに,神経伝達方程式を通じてグラフ内の拡散流を予測する新しい生成的逆ネットワーク(gan)を提案する。 コミュニティ間のフローを最大化しつつ,各コミュニティ内の移動を最小化するための目的機能をカスタマイズする。 我々のGNNモデルは、Cora、Citeseer、Pubmedといった人気のあるグラフ学習ベンチマーク上で、最先端(SOTA)性能を達成する。

Graph neural networks (GNNs) are widely used in domains like social networks and biological systems. However, the locality assumption of GNNs, which limits information exchange to neighboring nodes, hampers their ability to capture long-range dependencies and global patterns in graphs. To address this, we propose a new inductive bias based on variational analysis, drawing inspiration from the Brachistochrone problem. Our framework establishes a mapping between discrete GNN models and continuous diffusion functionals. This enables the design of application-specific objective functions in the continuous domain and the construction of discrete deep models with mathematical guarantees. To tackle over-smoothing in GNNs, we analyze the existing layer-by-layer graph embedding models and identify that they are equivalent to l2-norm integral functionals of graph gradients, which cause over-smoothing. Similar to edge-preserving filters in image denoising, we introduce total variation (TV) to align the graph diffusion pattern with global community topologies. Additionally, we devise a selective mechanism to address the trade-off between model depth and over-smoothing, which can be easily integrated into existing GNNs. Furthermore, we propose a novel generative adversarial network (GAN) that predicts spreading flows in graphs through a neural transport equation. To mitigate vanishing flows, we customize the objective function to minimize transportation within each community while maximizing inter-community flows. Our GNN models achieve state-of-the-art (SOTA) performance on popular graph learning benchmarks such as Cora, Citeseer, and Pubmed.
翻訳日:2023-07-05 17:22:34 公開日:2023-07-01
# ニューラル確率微分方程式による関数実現のための構成的アプローチ

A Constructive Approach to Function Realization by Neural Stochastic Differential Equations ( http://arxiv.org/abs/2307.00215v1 )

ライセンス: Link先を確認
Tanya Veeravalli, Maxim Raginsky(参考訳) 神経力学系による関数近似の問題は、一般にトップダウンの方法でアプローチされてきた: 任意の連続関数は、与えられたアーキテクチャを持つ十分複雑なモデルによって任意の精度に近似することができる。 これはアプリケーションで非現実的な高複雑さ制御につながる可能性がある。 本稿では,システムダイナミクスに様々な構造的制約を課し,そのようなシステムで実現可能な関数のクラスを特徴付けるという,反対の構成的アプローチを取り上げる。 これらのシステムは、ニューラル確率微分方程式(ニューラルSDE)、決定論的力学系、読み出しマップのカスケード相互接続として実装される。 確率的および幾何学的(リー理論)な手法は、そのようなシステムによって実現された関数のクラスを特徴づけるために用いられる。

The problem of function approximation by neural dynamical systems has typically been approached in a top-down manner: Any continuous function can be approximated to an arbitrary accuracy by a sufficiently complex model with a given architecture. This can lead to high-complexity controls which are impractical in applications. In this paper, we take the opposite, constructive approach: We impose various structural restrictions on system dynamics and consequently characterize the class of functions that can be realized by such a system. The systems are implemented as a cascade interconnection of a neural stochastic differential equation (Neural SDE), a deterministic dynamical system, and a readout map. Both probabilistic and geometric (Lie-theoretic) methods are used to characterize the classes of functions realized by such systems.
翻訳日:2023-07-05 17:22:07 公開日:2023-07-01
# 小型畳み込みトランスフォーマーで限られたデータでロバストな医用画像分類が可能に

More for Less: Compact Convolutional Transformers Enable Robust Medical Image Classification with Limited Data ( http://arxiv.org/abs/2307.00213v1 )

ライセンス: Link先を確認
Andrew Kean Gao(参考訳) トランスフォーマーは、テキスト生成から画像キャプションまで、ドメイン横断のさまざまなタスクに対して非常に強力なツールです。 しかし、トランスフォーマーは大量のトレーニングデータを必要とするため、高品質なラベル付きデータが入手しにくい、あるいはコストのかかるバイオメディカルな環境では難しいことが多い。 本研究では,コンパクト畳み込み変換器(CCT)の限られたデータを用いた堅牢な医用画像分類における有効性について検討し,従来のビジョン変換器が直面する重要な課題である大規模データセットの要求に対処する。 変換器と畳み込み層のハイブリッドであるCCTは、適度なサイズのデータセットに対して高い精度を示す。 低解像度(28x28x3ピクセル)のサンプル約2,000個で表される8種類の異なる細胞型の末梢血細胞画像のベンチマークデータセットを用いた。 データセットのサイズは、視覚トランスフォーマーで使われるものよりも小さいが、推奨可能な分類精度は92.49%、マイクロ平均roc aucは0.9935である。 また,CCTは5回経過後,80%以上の検証精度が得られた。 クラスごとの精度,リコール,F1,ROCを解析したところ,細胞タイプ間では高い性能を示した。 バイオメディカルイメージングにおいて,データ不足問題に対する解決法としてのCTの有用性が示唆された。 我々は,データ制約領域におけるCCTの適用性を検証し,CCTのさらなる開発を奨励する。

Transformers are very powerful tools for a variety of tasks across domains, from text generation to image captioning. However, transformers require substantial amounts of training data, which is often a challenge in biomedical settings, where high quality labeled data can be challenging or expensive to obtain. This study investigates the efficacy of Compact Convolutional Transformers (CCT) for robust medical image classification with limited data, addressing a key issue faced by conventional Vision Transformers - their requirement for large datasets. A hybrid of transformers and convolutional layers, CCTs demonstrate high accuracy on modestly sized datasets. We employed a benchmark dataset of peripheral blood cell images of eight distinct cell types, each represented by approximately 2,000 low-resolution (28x28x3 pixel) samples. Despite the dataset size being smaller than those typically used with Vision Transformers, we achieved a commendable classification accuracy of 92.49% and a micro-average ROC AUC of 0.9935. The CCT also learned quickly, exceeding 80% validation accuracy after five epochs. Analysis of per-class precision, recall, F1, and ROC showed that performance was strong across cell types. Our findings underscore the robustness of CCTs, indicating their potential as a solution to data scarcity issues prevalent in biomedical imaging. We substantiate the applicability of CCTs in data-constrained areas and encourage further work on CCTs.
翻訳日:2023-07-05 17:21:54 公開日:2023-07-01
# ガラス表面セグメンテーションにおける内部外境界注意融合

Internal-External Boundary Attention Fusion for Glass Surface Segmentation ( http://arxiv.org/abs/2307.00212v1 )

ライセンス: Link先を確認
Dongshen Han and Seungkyu Lee(参考訳) 透明な物体や鏡のガラス表面は、他の反射面や透過面の視覚的な外観も含むため、その視覚的な外観によって独特で明確に特徴付けられることはない。 単色画像からガラス領域を検出することは難しい課題である。 近年の深層学習では,ガラス表面と非ガラス表面の視認性の遷移が観察されるガラス表面境界の記述に注意が向けられている。 本研究では,ガラス表面の境界がガラスの物体の特徴に与える影響を解析的に検討する。 x線やctスキャンのような難易度の高い画像タイプを持つ先行意味セグメンテーションアプローチに触発されて,ガラス表面の視覚特性を単一色画像から個別に学習し,選択的に統合する内部外境界注意モジュールを提案する。 提案手法は, 有望な結果を示す最新手法と比較し, 6つの公開ベンチマークで評価した。

Glass surfaces of transparent objects and mirrors are not able to be uniquely and explicitly characterized by their visual appearances because they contain the visual appearance of other reflected or transmitted surfaces as well. Detecting glass regions from a single-color image is a challenging task. Recent deep-learning approaches have paid attention to the description of glass surface boundary where the transition of visual appearances between glass and non-glass surfaces are observed. In this work, we analytically investigate how glass surface boundary helps to characterize glass objects. Inspired by prior semantic segmentation approaches with challenging image types such as X-ray or CT scans, we propose separated internal-external boundary attention modules that individually learn and selectively integrate visual characteristics of the inside and outside region of glass surface from a single color image. Our proposed method is evaluated on six public benchmarks comparing with state-of-the-art methods showing promising results.
翻訳日:2023-07-05 17:21:29 公開日:2023-07-01
# AIGCIQA2023:AI生成画像のための大規模画像品質評価データベース:品質、信頼性、対応性の観点から

AIGCIQA2023: A Large-scale Image Quality Assessment Database for AI Generated Images: from the Perspectives of Quality, Authenticity and Correspondence ( http://arxiv.org/abs/2307.00211v1 )

ライセンス: Link先を確認
Jiarui Wang, Huiyu Duan, Jing Liu, Shi Chen, Xiongkuo Min, Guangtao Zhai(参考訳) 本稿では,AIGIの視覚的嗜好をよりよく理解するために,AIGC用の大規模IQAデータベースを構築し,AIGCIQA2023と命名した。 100プロンプトを用いて6つの最先端テキスト画像生成モデルに基づいて2000以上の画像を生成する。 これらの画像に基づいて、品質、信頼性、対応性を含む3つの視点から、画像ごとの人間の視覚的嗜好を評価するために、よく組織化された主観的実験を行う。 最後に、この大規模データベースに基づいて、構築したデータベース上でのいくつかの最先端IQAメトリクスのパフォーマンスを評価するためのベンチマーク実験を行う。

In this paper, in order to get a better understanding of the human visual preferences for AIGIs, a large-scale IQA database for AIGC is established, which is named as AIGCIQA2023. We first generate over 2000 images based on 6 state-of-the-art text-to-image generation models using 100 prompts. Based on these images, a well-organized subjective experiment is conducted to assess the human visual preferences for each image from three perspectives including quality, authenticity and correspondence. Finally, based on this large-scale database, we conduct a benchmark experiment to evaluate the performance of several state-of-the-art IQA metrics on our constructed database.
翻訳日:2023-07-05 17:21:13 公開日:2023-07-01
# Image Matters:マルチモーダルハイパボラ検出のための新しいデータセットと実証的研究

Image Matters: A New Dataset and Empirical Study for Multimodal Hyperbole Detection ( http://arxiv.org/abs/2307.00209v1 )

ライセンス: Link先を確認
Huixuan Zhang, Xiaojun Wan(参考訳) 誇張(Hyperbole)または誇張(exaggeration)は、一般的な言語現象である。 ハイパボールの発見は、人間の表現を理解する重要な部分である。 ハイパボラ検出の研究はいくつかあるが、そのほとんどはテキストのモダリティのみに焦点を当てている。 しかし、ソーシャルメディアの発展によって、テキスト、画像、ビデオなど、さまざまなモダリティを持った双曲表現が作成できるようになる。 本稿では,マルチモーダルハイパーボイル検出に注目する。 マルチモーダル検出データセット\footnote{the datasetはコミュニティにリリースされます。 →weibo(中国のソーシャルメディア)から、いくつかの研究を行ないました。 weiboの一部のテキストと画像を2つのモダリティとして扱い,ハイパーボイル検出におけるテキストと画像の役割について検討する。 このダウンストリームタスクでは、さまざまなプリトレーニングされたマルチモーダルエンコーダも評価され、パフォーマンスを示している。 さらに、このデータセットは5つの異なるトピックから構築されているため、異なるモデルのクロスドメイン性能も評価する。 これらの研究は、ベンチマークとして機能し、マルチモーダルハイパーボイル検出に関するさらなる研究の方向性を指摘することができる。

Hyperbole, or exaggeration, is a common linguistic phenomenon. The detection of hyperbole is an important part of understanding human expression. There have been several studies on hyperbole detection, but most of which focus on text modality only. However, with the development of social media, people can create hyperbolic expressions with various modalities, including text, images, videos, etc. In this paper, we focus on multimodal hyperbole detection. We create a multimodal detection dataset\footnote{The dataset will be released to the community.} from Weibo (a Chinese social media) and carry out some studies on it. We treat the text and image from a piece of weibo as two modalities and explore the role of text and image for hyperbole detection. Different pre-trained multimodal encoders are also evaluated on this downstream task to show their performance. Besides, since this dataset is constructed from five different topics, we also evaluate the cross-domain performance of different models. These studies can serve as a benchmark and point out the direction of further study on multimodal hyperbole detection.
翻訳日:2023-07-05 17:21:01 公開日:2023-07-01
# 医用画像における効率的なサブクラスセグメンテーション

Efficient Subclass Segmentation in Medical Images ( http://arxiv.org/abs/2307.00257v1 )

ライセンス: Link先を確認
Linrui Dai, Wenhui Lei, Xiaofan Zhang(参考訳) 医用画像解析における研究の関心が細粒化していくにつれ、広範な注記のコストも上昇する。 コスト削減の可能な1つの方法は、補体として限定されたきめ細かいアノテーションを使用しながら、粗い粒度のスーパークラスラベルで注釈を付けることである。 このように、きめ細かいデータ学習は、十分な粗いアノテーションによって支援される。 分類タスクの最近の研究はこの手法を採用し、良好な結果を得た。 しかし、セマンティックセグメンテーションタスクにおけるきめ細かいサブクラスを効率的に学習する研究は乏しい。 本稿では,ネットワークアーキテクチャを設計するためにカテゴリの階層構造を利用する新しい手法を提案する。 一方,タスク駆動型データ生成手法が提案され,ネットワークが様々なサブクラスを識別しやすくなった。 具体的には、予測ロジットをスーパークラス分類器から連結することでサブクラスセグメンテーションの信頼性を高めるプリエントコンカニエーションモジュールと、サブクラスセグメンテーションを容易にするためにクラス内のクラス間距離を拡大する分離正規化モジュールと、ラベル付きおよびラベルなし画像から類似のスーパークラス領域のみを融合して、ラベル付きサンプルに対して高品質な擬似ラベルを生成する階層Mixモデルを導入する。 BraTS2021およびACDCデータセットを用いた実験により,本手法は,サブクラスアノテーションに制限のある完全サブクラスアノテーションと十分なスーパークラスアノテーションで訓練されたモデルに匹敵する精度を達成できることを示した。 提案手法は,医用画像の微細なサブクラス分割を効率的に行うための有望なソリューションである。 私たちのコードはここで公開されている。

As research interests in medical image analysis become increasingly fine-grained, the cost for extensive annotation also rises. One feasible way to reduce the cost is to annotate with coarse-grained superclass labels while using limited fine-grained annotations as a complement. In this way, fine-grained data learning is assisted by ample coarse annotations. Recent studies in classification tasks have adopted this method to achieve satisfactory results. However, there is a lack of research on efficient learning of fine-grained subclasses in semantic segmentation tasks. In this paper, we propose a novel approach that leverages the hierarchical structure of categories to design network architecture. Meanwhile, a task-driven data generation method is presented to make it easier for the network to recognize different subclass categories. Specifically, we introduce a Prior Concatenation module that enhances confidence in subclass segmentation by concatenating predicted logits from the superclass classifier, a Separate Normalization module that stretches the intra-class distance within the same superclass to facilitate subclass segmentation, and a HierarchicalMix model that generates high-quality pseudo labels for unlabeled samples by fusing only similar superclass regions from labeled and unlabeled images. Our experiments on the BraTS2021 and ACDC datasets demonstrate that our approach achieves comparable accuracy to a model trained with full subclass annotations, with limited subclass annotations and sufficient superclass annotations. Our approach offers a promising solution for efficient fine-grained subclass segmentation in medical images. Our code is publicly available here.
翻訳日:2023-07-05 17:15:29 公開日:2023-07-01
# 特異点分解に対するMLアプローチ

An ML approach to resolution of singularities ( http://arxiv.org/abs/2307.00252v1 )

ライセンス: Link先を確認
Gergely B\'erczi and Honglu Fan and Mingcong Zeng(参考訳) 多項式方程式系の解集合は典型的には不動点、特異点を含む。 レゾリューションは特異点を滑らかな点に置き換え、残りの解集合を不変に保つ幾何学の基本過程である。 解決法はユニークではなく、それらを記述する通常の方法では、"blowing-up"と呼ばれる基本的な操作を繰り返し実行し、解決の複雑さは特定の選択に大きく依存する。 このプロセスは、いわゆる「広中ゲーム」と呼ばれる2人のプレイヤーの様々なバージョンに翻訳でき、最初のプレイヤーの勝利戦略は、解決問題の解決策を提供する。 本稿では,強化学習エージェントを用いて特異点の最適解を求める,広中ゲームに対する新しいアプローチを提案する。 特定の領域において、トレーニングされたモデルは、実行された多項式加算の総数において最先端の選択ヒューリスティックよりも優れており、近年の機械学習の発展は、シンボリック計算におけるアルゴリズムの性能を向上させる可能性があるという概念実証を提供する。

The solution set of a system of polynomial equations typically contains ill-behaved, singular points. Resolution is a fundamental process in geometry in which we replace singular points with smooth points, while keeping the rest of the solution set unchanged. Resolutions are not unique: the usual way to describe them involves repeatedly performing a fundamental operation known as "blowing-up", and the complexity of the resolution highly depends on certain choices. The process can be translated into various versions of a 2-player game, the so-called Hironaka game, and a winning strategy for the first player provides a solution to the resolution problem. In this paper we introduce a new approach to the Hironaka game that uses reinforcement learning agents to find optimal resolutions of singularities. In certain domains, the trained model outperforms state-of-the-art selection heuristics in total number of polynomial additions performed, which provides a proof-of-concept that recent developments in machine learning have the potential to improve performance of algorithms in symbolic computation.
翻訳日:2023-07-05 17:14:58 公開日:2023-07-01
# THUIR2 - NTCIR-16 Session Search (SS) Task

THUIR2 at NTCIR-16 Session Search (SS) Task ( http://arxiv.org/abs/2307.00250v1 )

ライセンス: Link先を確認
Weihang Su, Xiangsheng Li, Yiqun Liu, Min Zhang, Shaoping Ma(参考訳) 我々のチームは NTCIR-161 Session Search (SS) Task の FOSS サブタスクと POSS サブタスクの両方に参加した。 本稿では,我々のアプローチと結果について述べる。 FOSSサブタスクでは、学習からランク、微調整による事前学習言語モデルを用いて5回の実行を行う。 事前学習した言語モデルをアドホックなデータとセッション情報で微調整し,学習からランクまでの手法で組み立てた。 組み合わされたモデルは、予備評価において、すべての参加者の中で最高のパフォーマンスを達成する。 POSSサブタスクでは,予備評価において最高の性能が得られる組立モデルを用いた。

Our team(THUIR2) participated in both FOSS and POSS subtasks of the NTCIR-161 Session Search (SS) Task. This paper describes our approaches and results. In the FOSS subtask, we submit five runs using learning-to-rank and fine-tuned pre-trained language models. We fine-tuned the pre-trained language model with ad-hoc data and session information and assembled them by a learning-to-rank method. The assembled model achieves the best performance among all participants in the preliminary evaluation. In the POSS subtask, we used an assembled model which also achieves the best performance in the preliminary evaluation.
翻訳日:2023-07-05 17:14:40 公開日:2023-07-01
# 不均衡最適輸送の安全スクリーニング

Safe Screening for Unbalanced Optimal Transport ( http://arxiv.org/abs/2307.00247v1 )

ライセンス: Link先を確認
Xun Su, Zhongxi Fang, Hiroyuki Kasai(参考訳) 本稿では,スパースソリューションにおけるゼロ要素を積極的に識別・排除することにより,セーフスクリーニング技術を用いて不均衡最適輸送(UOT)問題の最適化プロセスを高速化するフレームワークを提案する。 我々は, 解境界の解析を行い, 双対問題の局所的強凸性を考慮することで, $\ell_2$-penalty と kl-penalty の uot 問題に対して安全なスクリーニングを適用する可能性を示す。 指標行列の一般ラッソ問題と比較して, uotの特異な構造特性を考慮に入れ, 新たな近似投影法, 楕円セーフ領域構成法, 2面緩和法を提案する。 これらの拡張はアルゴリズムの複雑さを変えることなく、uotのスクリーニング効率を大幅に向上させた。

This paper introduces a framework that utilizes the Safe Screening technique to accelerate the optimization process of the Unbalanced Optimal Transport (UOT) problem by proactively identifying and eliminating zero elements in the sparse solutions. We demonstrate the feasibility of applying Safe Screening to the UOT problem with $\ell_2$-penalty and KL-penalty by conducting an analysis of the solution's bounds and considering the local strong convexity of the dual problem. Considering the specific structural characteristics of the UOT in comparison to general Lasso problems on the index matrix, we specifically propose a novel approximate projection, an elliptical safe region construction, and a two-hyperplane relaxation method. These enhancements significantly improve the screening efficiency for the UOT's without altering the algorithm's complexity.
翻訳日:2023-07-05 17:14:29 公開日:2023-07-01
# 速度歪関数と最適輸送の関係について

On a Relation Between the Rate-Distortion Function and Optimal Transport ( http://arxiv.org/abs/2307.00246v1 )

ライセンス: Link先を確認
Eric Lei, Hamed Hassani, Shirin Saeedi Bidokhti(参考訳) まず, 速度歪みと最適輸送(OT)理論の関係を考察する。 特に、極端エントロピーOT距離で定義される関数は、速度歪関数と等価であることを示す。 我々は,モンゲ問題とカントロビッチ問題を最適スカラー量子化に結びつける以前の結果と同様に,この結果を数値的に検証する。 そこで我々は,スカラー量子化と速度歪み関数を,それぞれの最適輸送解法を用いて別の方法で統一する。

We discuss a relationship between rate-distortion and optimal transport (OT) theory, even though they seem to be unrelated at first glance. In particular, we show that a function defined via an extremal entropic OT distance is equivalent to the rate-distortion function. We numerically verify this result as well as previous results that connect the Monge and Kantorovich problems to optimal scalar quantization. Thus, we unify solving scalar quantization and rate-distortion functions in an alternative fashion by using their respective optimal transport solvers.
翻訳日:2023-07-05 17:14:16 公開日:2023-07-01
# 深部血管造影 : 網膜血管セグメンテーション

Deep Angiogram: Trivializing Retinal Vessel Segmentation ( http://arxiv.org/abs/2307.00245v1 )

ライセンス: Link先を確認
Dewei Hu, Xing Yao, Jiacheng Wang, Yuankai K. Tao, Ipek Oguz(参考訳) 底部画像から網膜血管を分離する研究の成果の中で、深層学習モデルは一貫して優れた性能を達成している。 しかし、このデータ駆動アプローチはドメインシフトに非常に敏感です。 眼底画像の場合、このようなデータ分布の変化は、照明条件の変化や出血やドリューゼンなどの疾患に関連する特徴の存在によって容易に引き起こされる。 ソースドメインにはすべての可能な病的症例が含まれるわけではないため、未発見のドメイン上の血管をロバストに認識できるモデルは望ましいが、多くの提案されているセグメンテーションネットワークが複雑化しているにもかかわらず、いまだに不明である。 本研究では,無関係な特徴をフィルタリングし,網膜血管のみを表す深部血管造影像を合成する,対照的な変分自動エンコーダを提案する。 次に、深部血管造影を閾値付けすることで、セグメンテーションが容易に実現できる。 合成ネットワークの一般化性は、画像コントラストとノイズの特徴の変動に敏感なモデルを実現するコントラスト損失によって改善される。 ベースラインディープセグメンテーションネットワークと比較して,本モデルは単純なしきい値化により高いセグメンテーション性能を実現する。 実験により,異なる対象領域で安定なアンギオグラムを生成できることを示し,血管の可視化と蛍光血管造影の非侵襲的かつ安全な代替手段を提供する。

Among the research efforts to segment the retinal vasculature from fundus images, deep learning models consistently achieve superior performance. However, this data-driven approach is very sensitive to domain shifts. For fundus images, such data distribution changes can easily be caused by variations in illumination conditions as well as the presence of disease-related features such as hemorrhages and drusen. Since the source domain may not include all possible types of pathological cases, a model that can robustly recognize vessels on unseen domains is desirable but remains elusive, despite many proposed segmentation networks of ever-increasing complexity. In this work, we propose a contrastive variational auto-encoder that can filter out irrelevant features and synthesize a latent image, named deep angiogram, representing only the retinal vessels. Then segmentation can be readily accomplished by thresholding the deep angiogram. The generalizability of the synthetic network is improved by the contrastive loss that makes the model less sensitive to variations of image contrast and noisy features. Compared to baseline deep segmentation networks, our model achieves higher segmentation performance via simple thresholding. Our experiments show that the model can generate stable angiograms on different target domains, providing excellent visualization of vessels and a non-invasive, safe alternative to fluorescein angiography.
翻訳日:2023-07-05 17:14:06 公開日:2023-07-01
# VesselMorph: 形状認識による領域一般化網膜血管分割

VesselMorph: Domain-Generalized Retinal Vessel Segmentation via Shape-Aware Representation ( http://arxiv.org/abs/2307.00240v1 )

ライセンス: Link先を確認
Dewei Hu, Hao Li, Han Liu, Xing Yao, Jiacheng Wang, Ipek Oguz(参考訳) 単一の標準化されたイメージングプロトコルが存在しないため、異なるサイトから取得したデータ間のドメインシフトは医療画像の固有の特性であり、学習ベースアルゴリズムの大規模展開の大きな障害となっている。 網膜血管画像では、ドメインシフトは通常、強度、コントラスト、解像度の変動として現れるが、血管の基本的な管状形状は影響を受けない。 したがって、そのようなドメイン不変な形態的特徴を利用することで、深層モデルの一般化性を大幅に改善することができる。 本研究では,形状認識表現を合成することにより,2次元網膜血管分割タスクを一般化するVesselMorphという手法を提案する。 従来のフラギフィルタや拡散テンソルイメージングの文献に触発されて,形状情報を考慮した血管の形態を記述するため,ヘッセン系バイポーラテンソル場を導入する。 我々は、強度画像とテンソル場を、特徴抽出のために潜在空間にマッピングする。 次に2つの潜在表現を重みバランストリックで融合し、結果をセグメンテーションネットワークに供給する。 各種患者集団の6つの公的データセットとOCTアンギオグラフィー画像について検討した。 VesselMorphは、異なるドメインシフトシナリオの競合メソッドと比較して、優れた一般化性能を実現する。

Due to the absence of a single standardized imaging protocol, domain shift between data acquired from different sites is an inherent property of medical images and has become a major obstacle for large-scale deployment of learning-based algorithms. For retinal vessel images, domain shift usually presents as the variation of intensity, contrast and resolution, while the basic tubular shape of vessels remains unaffected. Thus, taking advantage of such domain-invariant morphological features can greatly improve the generalizability of deep models. In this study, we propose a method named VesselMorph which generalizes the 2D retinal vessel segmentation task by synthesizing a shape-aware representation. Inspired by the traditional Frangi filter and the diffusion tensor imaging literature, we introduce a Hessian-based bipolar tensor field to depict the morphology of the vessels so that the shape information is taken into account. We map the intensity image and the tensor field to a latent space for feature extraction. Then we fuse the two latent representations via a weight-balancing trick and feed the result to a segmentation network. We evaluate on six public datasets of fundus and OCT angiography images from diverse patient populations. VesselMorph achieves superior generalization performance compared with competing methods in different domain shift scenarios.
翻訳日:2023-07-05 17:13:44 公開日:2023-07-01
# 高次元線形回帰のための統一伝達学習モデル

Unified Transfer Learning Models for High-Dimensional Linear Regression ( http://arxiv.org/abs/2307.00238v1 )

ライセンス: Link先を確認
Shuo Shuo Liu(参考訳) トランスファーラーニングは,(1)ターゲットデータが少ないが,ソースデータが十分である,(2)ソースとターゲットデータの分布が不均一である,といった現代データ解析において重要な役割を担っている。 本稿では,トランスファー可能な変数とソースデータの両方を検出可能な,UTransと呼ばれる解釈可能な統合トランスファー学習モデルを開発する。 具体的には、推定誤差境界を確立し、対象データのみを持つものよりも境界が低いことを示す。 また,非変換データを排除するための仮説検証に基づくソース検出アルゴリズムを提案する。 複数の実験において,UTransを既存のアルゴリズムと比較した。 UTransは,解釈可能性を維持しつつ,既存の手法よりもはるかに低い推定誤差と予測誤差が得られることを示す。 最終的に、米国の世代間移動データに適用し、提案したアルゴリズムを従来の機械学習アルゴリズムと比較する。

Transfer learning plays a key role in modern data analysis when: (1) the target data are scarce but the source data are sufficient; (2) the distributions of the source and target data are heterogeneous. This paper develops an interpretable unified transfer learning model, termed as UTrans, which can detect both transferable variables and source data. More specifically, we establish the estimation error bounds and prove that our bounds are lower than those with target data only. Besides, we propose a source detection algorithm based on hypothesis testing to exclude the nontransferable data. We evaluate and compare UTrans to the existing algorithms in multiple experiments. It is shown that UTrans attains much lower estimation and prediction errors than the existing methods, while preserving interpretability. We finally apply it to the US intergenerational mobility data and compare our proposed algorithms to the classical machine learning algorithms.
翻訳日:2023-07-05 17:13:14 公開日:2023-07-01
# ガス使用量推定のための階層型連合学習インセンティブ

Hierarchical Federated Learning Incentivization for Gas Usage Estimation ( http://arxiv.org/abs/2307.00233v1 )

ライセンス: Link先を確認
Has Sun, Xiaoli Tang, Chengyi Yang, Zhenpeng Yu, Xiuli Wang, Qijie Ding, Zengxiang Li, Han Yu(参考訳) 正確なガス使用量の推定は、ガス流通ネットワークの効率的な機能と運用コストの削減に不可欠である。 従来の方法は集中型データ処理に依存しており、プライバシーのリスクを生じさせる。 フェデレーション学習(fl)は、ガス会社や暖房ステーションなど各参加者のローカルデータ処理を可能にすることで、この問題に対する解決策を提供する。 しかし、現地での訓練や通信のオーバーヘッドは、ガス会社や暖房ステーションがFLトレーニングプロセスに積極的に参加することを妨げる可能性がある。 この課題に対処するために,天然ガス・温室効果ガス産業の先駆者の一つであるENNグループで実施されている階層的 FL Incentive Mechanism for Gas Usage Estimation (HI-GAS) を提案する。 ガス会社間の水平FLと、各ガス会社間の垂直FLと、階層的なFLエコシステム内の暖房ステーションをサポートし、FLへの貢献に基づいて参加者に報奨を与えるように設計されている。 また, 階層的flモデル集約手法を提案し, 異なる階層レベルでのモデルを集約することにより, ガス使用量推定性能を向上させる。 このインセンティブ・スキームは、データ品質の評価とモデル貢献を組み合わせる多次元貢献認識報酬分配機能を採用し、公平性を維持しつつ、管内のガス会社と暖房局の両方にインセンティブを与える。 実験の結果,提案手法の有効性が検証された。

Accurately estimating gas usage is essential for the efficient functioning of gas distribution networks and saving operational costs. Traditional methods rely on centralized data processing, which poses privacy risks. Federated learning (FL) offers a solution to this problem by enabling local data processing on each participant, such as gas companies and heating stations. However, local training and communication overhead may discourage gas companies and heating stations from actively participating in the FL training process. To address this challenge, we propose a Hierarchical FL Incentive Mechanism for Gas Usage Estimation (HI-GAS), which has been testbedded in the ENN Group, one of the leading players in the natural gas and green energy industry. It is designed to support horizontal FL among gas companies, and vertical FL among each gas company and heating station within a hierarchical FL ecosystem, rewarding participants based on their contributions to FL. In addition, a hierarchical FL model aggregation approach is also proposed to improve the gas usage estimation performance by aggregating models at different levels of the hierarchy. The incentive scheme employs a multi-dimensional contribution-aware reward distribution function that combines the evaluation of data quality and model contribution to incentivize both gas companies and heating stations within their jurisdiction while maintaining fairness. Results of extensive experiments validate the effectiveness of the proposed mechanism.
翻訳日:2023-07-05 17:12:51 公開日:2023-07-01
# ハイパースペクトル画像分類のためのフォワードフォワードアルゴリズム:予備的検討

Forward-Forward Algorithm for Hyperspectral Image Classification: A Preliminary Study ( http://arxiv.org/abs/2307.00231v1 )

ライセンス: Link先を確認
Sidike Paheding and Abel A. Reyes-Angulo(参考訳) バックプロパゲーションアルゴリズムは、ニューラルネットワーク、特に最先端のディープラーニングモデルにおける重みとバイアスの最適化において、長い間デファクトスタンダードであった。 自然言語処理、コンピュータビジョン、リモートセンシングといった分野で広く採用され、様々なタスクの自動化に革命をもたらした。 バックプロパゲーションの人気は、分類、検出、セグメンテーションといったタスクにおいて優れたパフォーマンスを達成する能力に起因している。 それでも、バックプロパゲーションには制限がなく、初期条件への敏感さ、勾配の消失、過度な適合、計算複雑性が含まれる。 ネットワークパラメータを最適化するために局所的善度関数を計算するフォワードフォワードアルゴリズム(ffa)が最近導入され、実質的な計算資源への依存と、アーキテクチャのスケーリングの必要性を緩和している。 ハイパースペクトル画像分類におけるFFAの適用について検討した。 従来のバックプロパゲーションアルゴリズムを用いて実験結果と比較分析を行った。 予備的な結果は、FFAとその約束の背後にある可能性を示している。

The back-propagation algorithm has long been the de-facto standard in optimizing weights and biases in neural networks, particularly in cutting-edge deep learning models. Its widespread adoption in fields like natural language processing, computer vision, and remote sensing has revolutionized automation in various tasks. The popularity of back-propagation stems from its ability to achieve outstanding performance in tasks such as classification, detection, and segmentation. Nevertheless, back-propagation is not without its limitations, encompassing sensitivity to initial conditions, vanishing gradients, overfitting, and computational complexity. The recent introduction of a forward-forward algorithm (FFA), which computes local goodness functions to optimize network parameters, alleviates the dependence on substantial computational resources and the constant need for architectural scaling. This study investigates the application of FFA for hyperspectral image classification. Experimental results and comparative analysis are provided with the use of the traditional back-propagation algorithm. Preliminary results show the potential behind FFA and its promises.
翻訳日:2023-07-05 17:12:11 公開日:2023-07-01
# Assembled-OpenML: OpenMLによるAutoMLのアンサンブルのための効率的なベンチマーク作成

Assembled-OpenML: Creating Efficient Benchmarks for Ensembles in AutoML with OpenML ( http://arxiv.org/abs/2307.00285v1 )

ライセンス: Link先を確認
Lennart Purucker, Joeran Beel(参考訳) 自動機械学習(AutoML)フレームワークは定期的にアンサンブルを使用する。 開発者はさまざまなアンサンブルテクニックを比較して、多くの潜在的なテクニックからAutoMLフレームワークの適切なテクニックを選択する必要がある。 これまでのところ、アンサンブル手法の比較は計算量的に高価であり、多くのベースモデルは1回または複数回訓練され、評価されなければならない。 そこで我々はAssembled-OpenMLを提案する。 Assembled-OpenMLはPythonツールで、OpenMLを使用してアンサンブルのためのメタデータセットを構築する。 Metataskと呼ばれるメタデータセットは、OpenMLタスクのデータ、タスクのデータセット、タスクのモデル評価からの予測データで構成される。 ベースモデルのトレーニングや評価の代わりにメタタスクに格納された予測を用いて,アンサンブル手法の比較を計算的に安価に行うことができる。 Assembled-OpenMLを導入するために、ツールの最初のバージョンについて説明する。 さらに,Assembled-OpenMLを用いて一連のアンサンブル手法を比較する例を示す。 この例では,Assembled-OpenMLを用いたベンチマークを構築し,入力としてベースモデルの代わりに予測を期待するアンサンブル手法を実装した。 サンプル比較では,11ドルのデータセットを対象とした1523ドルのベースモデルの予測データを収集した。 Assembled-OpenMLを使用して、すべてのベースモデルの予測データを取得するには、合計で1時間かかる。 比較して、最も計算コストのかかるデータセット上で、トレーニングと評価によって予測データを取得するには、${\sim} 37$ minutesが必要だった。

Automated Machine Learning (AutoML) frameworks regularly use ensembles. Developers need to compare different ensemble techniques to select appropriate techniques for an AutoML framework from the many potential techniques. So far, the comparison of ensemble techniques is often computationally expensive, because many base models must be trained and evaluated one or multiple times. Therefore, we present Assembled-OpenML. Assembled-OpenML is a Python tool, which builds meta-datasets for ensembles using OpenML. A meta-dataset, called Metatask, consists of the data of an OpenML task, the task's dataset, and prediction data from model evaluations for the task. We can make the comparison of ensemble techniques computationally cheaper by using the predictions stored in a metatask instead of training and evaluating base models. To introduce Assembled-OpenML, we describe the first version of our tool. Moreover, we present an example of using Assembled-OpenML to compare a set of ensemble techniques. For this example comparison, we built a benchmark using Assembled-OpenML and implemented ensemble techniques expecting predictions instead of base models as input. In our example comparison, we gathered the prediction data of $1523$ base models for $31$ datasets. Obtaining the prediction data for all base models using Assembled-OpenML took ${\sim} 1$ hour in total. In comparison, obtaining the prediction data by training and evaluating just one base model on the most computationally expensive dataset took ${\sim} 37$ minutes.
翻訳日:2023-07-05 17:05:21 公開日:2023-07-01
# SysNoise: トレーニングデプロイメントシステムの一貫性の探索とベンチマーク

SysNoise: Exploring and Benchmarking Training-Deployment System Inconsistency ( http://arxiv.org/abs/2307.00280v1 )

ライセンス: Link先を確認
Yan Wang, Yuhang Li, Ruihao Gong, Aishan Liu, Yanfei Wang, Jian Hu, Yongqiang Yao, Yunchen Zhang, Tianzi Xiao, Fengwei Yu, Xianglong Liu(参考訳) 大規模な研究により、ディープラーニングモデルは敵対的および自然なノイズに弱いことが示されているが、異なるシステム実装によるノイズに対するモデルロバスト性についてはほとんど分かっていない。 本稿では,ディープラーニングのトレーニング・デプロイサイクルにおいて頻繁に発生するが見過ごされるノイズであるsysnoiseを初めて紹介する。 特にsysnoiseは、さまざまな小さなシステムミスマッチが無視できない違いをもたらすデプロイメントにおいて、ソーストレーニングシステムが異なるターゲットシステムに切り替えるときに発生する。 まず、推論段階に基づいてSysNoiseを3つのカテゴリに分類し、次に、20以上のモデルに対するSysNoiseの影響を定量的に測定する総合的なベンチマークを構築し、画像分類、オブジェクト検出、インスタンスセグメンテーション、自然言語処理タスクを解釈する。 我々の広範な実験により、SysNoiseはさまざまなタスクにわたるモデルロバスト性に一定の影響をもたらし、データ強化や逆行訓練のような一般的な緩和効果は、その影響を限定していることがわかった。 この研究が,モデル性能を考慮した深層学習展開システムに対する研究の注目度を高めることを願っている。 ベンチマークとフレームワークはhttps://modeltc.github.io/systemnoise_webでオープンソース化しました。

Extensive studies have shown that deep learning models are vulnerable to adversarial and natural noises, yet little is known about model robustness on noises caused by different system implementations. In this paper, we for the first time introduce SysNoise, a frequently occurred but often overlooked noise in the deep learning training-deployment cycle. In particular, SysNoise happens when the source training system switches to a disparate target system in deployments, where various tiny system mismatch adds up to a non-negligible difference. We first identify and classify SysNoise into three categories based on the inference stage; we then build a holistic benchmark to quantitatively measure the impact of SysNoise on 20+ models, comprehending image classification, object detection, instance segmentation and natural language processing tasks. Our extensive experiments revealed that SysNoise could bring certain impacts on model robustness across different tasks and common mitigations like data augmentation and adversarial training show limited effects on it. Together, our findings open a new research topic and we hope this work will raise research attention to deep learning deployment systems accounting for model performance. We have open-sourced the benchmark and framework at https://modeltc.github.io/systemnoise_web.
翻訳日:2023-07-05 17:04:56 公開日:2023-07-01
# 教育する: 言語モデルに対するフィードバックの教育的基礎

Let Me Teach You: Pedagogical Foundations of Feedback for Language Models ( http://arxiv.org/abs/2307.00279v1 )

ライセンス: Link先を確認
Beatriz Borges, Niket Tandon, Tanja K\"aser, Antoine Bosselut(参考訳) 自然言語フィードバック(NLF)は、Large Language Models(LLM)を人間の好みに合わせる手段として、ますます人気が高まっている。 伝達できる情報の豊かさと多様性にもかかわらず、nlfは手作りで任意であることが多い。 別の世界では、教育研究は長い間、いくつかの効果的なフィードバックモデルを確立してきた。 本稿では,フィードバック空間の諸特性を概説するllmsのフィードバックフレームワークであるフェルトを,これらの変数に基づいたフィードバック内容分類法として,教育学のアイデアをコンパイルして紹介する。 我々の分類学は、フィードバック空間の一般的なマッピングと、教育によって確立された個別カテゴリの両方を提供し、異なるフィードバックタイプが更新世代に与える影響を実証的に示す。 既存のNLF設計の合理化に加えて、FELTはNLFの研究のための新しい未調査の方向性も提供する。 分類をコミュニティに提供し、分類を将来のリソースにマッピングするためのガイドと例を提供します。

Natural Language Feedback (NLF) is an increasingly popular avenue to align Large Language Models (LLMs) to human preferences. Despite the richness and diversity of the information it can convey, NLF is often hand-designed and arbitrary. In a different world, research in pedagogy has long established several effective feedback models. In this opinion piece, we compile ideas from pedagogy to introduce FELT, a feedback framework for LLMs that outlines the various characteristics of the feedback space, and a feedback content taxonomy based on these variables. Our taxonomy offers both a general mapping of the feedback space, as well as pedagogy-established discrete categories, allowing us to empirically demonstrate the impact of different feedback types on revised generations. In addition to streamlining existing NLF designs, FELT also brings out new, unexplored directions for research in NLF. We make our taxonomy available to the community, providing guides and examples for mapping our categorizations to future resources.
翻訳日:2023-07-05 17:04:32 公開日:2023-07-01
# 転置可能な実例生成のための共通知識学習

Common Knowledge Learning for Generating Transferable Adversarial Examples ( http://arxiv.org/abs/2307.00274v1 )

ライセンス: Link先を確認
Ruijie Yang, Yuanfang Guo, Junfu Wang, Jiantao Zhou and Yunhong Wang(参考訳) 本稿では,代用(ソース)モデルを用いて敵のサンプルを生成し,その情報を知らずに標的モデルの攻撃に利用する,移動型敵攻撃(transfer-based adversarial attack)という重要なタイプのブラックボックス攻撃に焦点を当てる。 既存の手法では、ソースモデルとターゲットモデルが異なるタイプのDNNアーキテクチャ(ResNet-18やSwin Transformerなど)のものである場合、不満足な逆転が生じる傾向がある。 本稿では,上記の現象が出力不整合問題によって引き起こされるのを観察する。 既存のDNNモデルを効果的に活用しながらこの問題を軽減するために,ネットワークの重み付けを改善するための共通知識学習(CKL)フレームワークを提案する。 具体的には, モデル固有の特徴を低減し, より良い出力分布を得るために, 異なる教師アーキテクチャから1つの学生ネットワークへ知識を蒸留するマルチ教師フレームワークを構築した。 入力の勾配は、通常、生成した対向例に利用されることを考慮し、生徒と教師モデルの勾配に制約を課し、出力の不一致問題を緩和し、対向伝達可能性を高める。 広範な実験により,提案手法が逆移動性を大幅に改善できることが証明された。

This paper focuses on an important type of black-box attacks, i.e., transfer-based adversarial attacks, where the adversary generates adversarial examples by a substitute (source) model and utilize them to attack an unseen target model, without knowing its information. Existing methods tend to give unsatisfactory adversarial transferability when the source and target models are from different types of DNN architectures (e.g. ResNet-18 and Swin Transformer). In this paper, we observe that the above phenomenon is induced by the output inconsistency problem. To alleviate this problem while effectively utilizing the existing DNN models, we propose a common knowledge learning (CKL) framework to learn better network weights to generate adversarial examples with better transferability, under fixed network architectures. Specifically, to reduce the model-specific features and obtain better output distributions, we construct a multi-teacher framework, where the knowledge is distilled from different teacher architectures into one student network. By considering that the gradient of input is usually utilized to generated adversarial examples, we impose constraints on the gradients between the student and teacher models, to further alleviate the output inconsistency problem and enhance the adversarial transferability. Extensive experiments demonstrate that our proposed work can significantly improve the adversarial transferability.
翻訳日:2023-07-05 17:04:17 公開日:2023-07-01
# HrSegNet : クラックセグメンテーションのための意味誘導型リアルタイム高分解能ニューラルネットワーク

HrSegNet : Real-time High-Resolution Neural Network with Semantic Guidance for Crack Segmentation ( http://arxiv.org/abs/2307.00270v1 )

ライセンス: Link先を確認
Yongshang Li, Ronggui Ma, Han Liu and Gaoli Cheng(参考訳) 近年のディープラーニングの広範な研究とその建設への応用を通じて、クラック検出は画像レベルの粗い検出とパッチレベルからピクセルレベルでのきめ細かい検出へと急速に進化し、この分野の性質に合致している。 既成のディープラーニングモデルを利用したり、強化したりする研究は数多くあるが、現実のアプリケーションでは、これらのモデルは必ずしも効果的でも効率的でもない。 このギャップを埋めるために,HrSegNetと呼ばれるリアルタイムき裂分割のためのセマンティックガイダンスを用いた高分解能モデルを提案する。 本モデルは,高分解能特徴から高分解能特徴への回復とは対照的に,プロセス全体を通して高分解能を維持し,ひび割れの保存を最大化する。 さらに、文脈情報を強化するために、高解像度特徴の再構築を導くために、低解像度意味特徴を用いる。 アルゴリズムの効率性を確保するため,高分解能チャネルの容量を制御し,モデル全体の計算コストを極めて高いスケーラビリティで制御する簡易かつ効率的な手法を設計する。 大規模定量的および定性的な評価により,提案するHrSegNetは例外的なひび割れセグメンテーション能力を有し,高分解能とセマンティックガイダンスの維持が最終予測に不可欠であることが示された。 最先端セグメンテーションモデルと比較して、HrSegNetは効率と有効性の間の最良のトレードオフを達成する。 具体的には、クラックデータセットCrackSeg9kにおいて、我々の最速モデルHrSegNet-B16は78.43% mIoUで182 FPS、最も正確なモデルHrSegNet-B48は140.32% mIoU、推論速度は140.3 FPSである。

Through extensive research on deep learning in recent years and its application in construction, crack detection has evolved rapidly from rough detection at the image-level and patch-level to fine-grained detection at the pixel-level, which better suits the nature of this field. Despite numerous existing studies utilizing off-the-shelf deep learning models or enhancing them, these models are not always effective or efficient in real-world applications. In order to bridge this gap, we propose a High-resolution model with Semantic guidance, specifically designed for real-time crack segmentation, referred to as HrSegNet. Our model maintains high resolution throughout the entire process, as opposed to recovering from low-resolution features to high-resolution ones, thereby maximizing the preservation of crack details. Moreover, to enhance the context information, we use low-resolution semantic features to guide the reconstruction of high-resolution features. To ensure the efficiency of the algorithm, we design a simple yet effective method to control the computation cost of the entire model by controlling the capacity of high-resolution channels, while providing the model with extremely strong scalability. Extensive quantitative and qualitative evaluations demonstrate that our proposed HrSegNet has exceptional crack segmentation capabilities, and that maintaining high resolution and semantic guidance are crucial to the final prediction. Compared to state-of-the-art segmentation models, HrSegNet achieves the best trade-off between efficiency and effectiveness. Specifically, on the crack dataset CrackSeg9k, our fastest model HrSegNet-B16 achieves a speed of 182 FPS with 78.43% mIoU, while our most accurate model HrSegNet-B48 achieves 80.32% mIoU with an inference speed of 140.3 FPS.
翻訳日:2023-07-05 17:03:55 公開日:2023-07-01
# AE-RED:Deep AutoencoderによるハイパースペクトルアンミックスフレームワークとDenoisingによる正規化

AE-RED: A Hyperspectral Unmixing Framework Powered by Deep Autoencoder and Regularization by Denoising ( http://arxiv.org/abs/2307.00269v1 )

ライセンス: Link先を確認
Min Zhao, Jie Chen, Nicolas Dobigeon(参考訳) スペクトルアンミキシングは様々な方法で広く研究され、多くの用途で利用されている。 近年,深層学習手法を用いたデータ駆動技術は,構造情報を自動学習する優れた学習能力のためにスペクトルアンミックスに大きな注目を集めている。 特に、オートエンコーダに基づくアーキテクチャは、ブラインドアンミックスと複雑な非線形混合をモデル化するために精巧に設計されている。 しかしながら、これらの手法はブラックボックスとして未混合タスクを実行し、解釈性がない。 一方,従来のアンミキシング手法では,pnp(plug-and-play)戦略などのアルゴリズムがオフ・ザ・セット・デノイザーを用いて強力なプリエントを接続する,明示的な情報付加のための正規化器を慎重に設計している。 本稿では、オートエンコーダネットワークを正規化(RED)により統合する汎用的アンミックスフレームワークAE-REDを提案する。 より具体的には、未混合最適化問題を2つのサブプロブレムに分解する。 1つ目はディープオートエンコーダを用いて計算を暗黙的に正規化し、混合機構をモデル化する。 2つめはデノイザーを利用して明示的な情報を取り込みます。 このようにして、deep autoencoderベースのunmixingメソッドとdenoisersが提供するpremierの特性を、よく設計されたフレームワークにマージし、unmixingパフォーマンスを高めます。 合成データと実データの両方を用いた実験結果から, 現状の未混合手法と比較して, 提案手法の優位性を示した。

Spectral unmixing has been extensively studied with a variety of methods and used in many applications. Recently, data-driven techniques with deep learning methods have obtained great attention to spectral unmixing for its superior learning ability to automatically learn the structure information. In particular, autoencoder based architectures are elaborately designed to solve blind unmixing and model complex nonlinear mixtures. Nevertheless, these methods perform unmixing task as blackboxes and lack of interpretability. On the other hand, conventional unmixing methods carefully design the regularizer to add explicit information, in which algorithms such as plug-and-play (PnP) strategies utilize off-the-shelf denoisers to plug powerful priors. In this paper, we propose a generic unmixing framework to integrate the autoencoder network with regularization by denoising (RED), named AE-RED. More specially, we decompose the unmixing optimized problem into two subproblems. The first one is solved using deep autoencoders to implicitly regularize the estimates and model the mixture mechanism. The second one leverages the denoiser to bring in the explicit information. In this way, both the characteristics of the deep autoencoder based unmixing methods and priors provided by denoisers are merged into our well-designed framework to enhance the unmixing performance. Experiment results on both synthetic and real data sets show the superiority of our proposed framework compared with state-of-the-art unmixing approaches.
翻訳日:2023-07-05 17:03:18 公開日:2023-07-01
# 曖昧な視野に隠れる:多エージェント強化学習における回避回復型局所中毒攻撃に対する差分プライバシーノイズのエクスプロイジョン

Hiding in Plain Sight: Differential Privacy Noise Exploitation for Evasion-resilient Localized Poisoning Attacks in Multiagent Reinforcement Learning ( http://arxiv.org/abs/2307.00268v1 )

ライセンス: Link先を確認
Md Tamjid Hossain, Hung La(参考訳) 近年,協調型マルチエージェント強化学習(CMARL)において,知識共有における対立的推論に対するエージェントのプライバシ保護のために,差分プライバシー(DP)が導入されている。 とはいえ,DP機構がもたらす騒音は,特にCMARLにおける個人知識共有の文脈において,新たな毒殺の脅威を必然的に引き起こす可能性があると論じる。 そこで本研究では,dpノイズを回避し,異常検出システムを回避し,cmarlモデルの最適収束を阻害する適応型,プライバシエクスロイト型,回避型局所中毒攻撃(pelpa)を提案する。 提案するペルパ攻撃を様々な環境において厳密に評価し,非敵と複数敵のコンテキストを包含する。 その結果,中規模環境では攻撃者の比率が20%,攻撃者の比率が40%のPeLPA攻撃が50.69%,目標の64.41%の増加につながることがわかった。 さらに、同様の条件下では、pelpaは最適報酬達成率の1.4倍と1.6倍の計算時間増加と、攻撃者比率の20%と40%の収束率の1.18倍と1.38倍の低下をもたらす。

Lately, differential privacy (DP) has been introduced in cooperative multiagent reinforcement learning (CMARL) to safeguard the agents' privacy against adversarial inference during knowledge sharing. Nevertheless, we argue that the noise introduced by DP mechanisms may inadvertently give rise to a novel poisoning threat, specifically in the context of private knowledge sharing during CMARL, which remains unexplored in the literature. To address this shortcoming, we present an adaptive, privacy-exploiting, and evasion-resilient localized poisoning attack (PeLPA) that capitalizes on the inherent DP-noise to circumvent anomaly detection systems and hinder the optimal convergence of the CMARL model. We rigorously evaluate our proposed PeLPA attack in diverse environments, encompassing both non-adversarial and multiple-adversarial contexts. Our findings reveal that, in a medium-scale environment, the PeLPA attack with attacker ratios of 20% and 40% can lead to an increase in average steps to goal by 50.69% and 64.41%, respectively. Furthermore, under similar conditions, PeLPA can result in a 1.4x and 1.6x computational time increase in optimal reward attainment and a 1.18x and 1.38x slower convergence for attacker ratios of 20% and 40%, respectively.
翻訳日:2023-07-05 17:02:50 公開日:2023-07-01
# バイオメディカルエンベディングのための階層的プレトレーニング

Hierarchical Pretraining for Biomedical Term Embeddings ( http://arxiv.org/abs/2307.00266v1 )

ライセンス: Link先を確認
Bryan Cai, Sihang Zeng, Yucong Lin, Zheng Yuan, Doudou Zhou, and Lu Tian(参考訳) 電子健康記録(EHR)には、患者の医療状況と管理に関する詳細な記述が記載されている。 臨床ノートの自然言語処理(nlp)は、臨床用語の観察頻度を、臨床意思決定や患者の軌跡予測のような下流応用の予測特徴として用いることができる。 しかし, 非常に類似した臨床概念が多数存在することから, より効果的なモデリング戦略は, 表現学習による意味的埋め込みとして臨床用語を表現し, 低次元埋め込みを特徴ベクトルとして, 予測モデルとして用いることである。 効率的な表現を実現するために、バイオメディカル知識グラフを用いた微調整済み言語モデルでは、標準言語モデル単独のモデルよりも、バイオメディカル用語の埋め込み性が向上する可能性がある。 これらの埋め込みは、無関係な同義対を効果的に識別することができる。 しかし、それらはしばしば、自然に階層的な概念の異なる類似性や関連性を捉えることができない。 この限界を克服するために,様々な生物医学用語の階層構造を含む追加補完データに基づく新しい生物医学用語表現モデルhiprbertを提案する。 これらの階層から情報を抽出するために既存のコントラスト損失関数を変更する。 数値実験により,HiPrBERTは階層情報からペアワイド距離を効果的に学習し,さらにバイオメディカルな応用に着目する可能性が示唆された。

Electronic health records (EHR) contain narrative notes that provide extensive details on the medical condition and management of patients. Natural language processing (NLP) of clinical notes can use observed frequencies of clinical terms as predictive features for downstream applications such as clinical decision making and patient trajectory prediction. However, due to the vast number of highly similar and related clinical concepts, a more effective modeling strategy is to represent clinical terms as semantic embeddings via representation learning and use the low dimensional embeddings as feature vectors for predictive modeling. To achieve efficient representation, fine-tuning pretrained language models with biomedical knowledge graphs may generate better embeddings for biomedical terms than those from standard language models alone. These embeddings can effectively discriminate synonymous pairs of from those that are unrelated. However, they often fail to capture different degrees of similarity or relatedness for concepts that are hierarchical in nature. To overcome this limitation, we propose HiPrBERT, a novel biomedical term representation model trained on additionally complied data that contains hierarchical structures for various biomedical terms. We modify an existing contrastive loss function to extract information from these hierarchies. Our numerical experiments demonstrate that HiPrBERT effectively learns the pair-wise distance from hierarchical information, resulting in a substantially more informative embeddings for further biomedical applications
翻訳日:2023-07-05 17:02:23 公開日:2023-07-01
# クロスバリデーション推定値のブートストラップ

Bootstrapping the Cross-Validation Estimate ( http://arxiv.org/abs/2307.00260v1 )

ライセンス: Link先を確認
Bryan Cai, Fabio Pellegrini, Menglan Pang, Carl de Moor, Changyu Shen, Vivek Charu, and Lu Tian(参考訳) クロスバリデーションは予測モデルの性能を評価するために広く用いられている手法である。 これは、複雑な統計的学習アルゴリズムを用いて構築されたモデルにとって重要な誤差推定における楽観的バイアスを避けるのに役立つ。 しかし、クロスバリデーション推定は観測データに依存するランダム値であるため、推定に係わる不確実性を正確に定量化することが不可欠である。 これは、誤差推定の違いが確率変動の結果であるかどうかを判断する必要があるため、クロスバリデーションを用いて2つのモデルの性能を比較する際に特に重要である。 本稿では,クロスバリデーション推定の標準誤差を迅速に推定し,平均モデル性能を測定する集団パラメータに対して有効な信頼区間を生成する高速ブートストラップ法を提案する。 本手法は,ランダム効果モデル内の分散成分を推定することにより,クロスバリデーション推定のブートストラップに固有の計算課題を克服する。 クロスバリデーション手順そのものと同じくらい柔軟です。 提案手法の有効性を示すために,3つの多様なアプリケーションにわたる総合シミュレーションと実データ分析を行った。

Cross-validation is a widely used technique for evaluating the performance of prediction models. It helps avoid the optimism bias in error estimates, which can be significant for models built using complex statistical learning algorithms. However, since the cross-validation estimate is a random value dependent on observed data, it is essential to accurately quantify the uncertainty associated with the estimate. This is especially important when comparing the performance of two models using cross-validation, as one must determine whether differences in error estimates are a result of chance fluctuations. Although various methods have been developed for making inferences on cross-validation estimates, they often have many limitations, such as stringent model assumptions This paper proposes a fast bootstrap method that quickly estimates the standard error of the cross-validation estimate and produces valid confidence intervals for a population parameter measuring average model performance. Our method overcomes the computational challenge inherent in bootstrapping the cross-validation estimate by estimating the variance component within a random effects model. It is just as flexible as the cross-validation procedure itself. To showcase the effectiveness of our approach, we employ comprehensive simulations and real data analysis across three diverse applications.
翻訳日:2023-07-05 17:02:00 公開日:2023-07-01
# Instructeval: 指導選択法の体系的評価

InstructEval: Systematic Evaluation of Instruction Selection Methods ( http://arxiv.org/abs/2307.00259v1 )

ライセンス: Link先を確認
Anirudh Ajith, Chris Pan, Mengzhou Xia, Ameet Deshpande, Karthik Narasimhan(参考訳) In-context Learning (ICL) は、命令を使って大きな言語モデル(LLM)とデモと呼ばれる注釈付き例の小さなセットを誘導することでタスクを実行する。 近年の研究では、入力の精度が命令選択アルゴリズムをインセンティブとしたICLに大きく影響していることが示されている。 しかし、命令チョイスの効果は極めて過小評価されており、既存の分析はモデルやタスクの浅い部分集合に限定されており、洞察の一般化性が制限されている。 我々は,これらの手法の徹底的な評価を行うためのicl評価スイートを開発した。 このスイートには、4つの異なるモデルファミリからさまざまなスケールの13のオープンソースLLMが含まれ、9つの異なるタスクをカバーし、3つのカテゴリにわたるタスクタイプの範囲を表している。 そこで本研究では,ICLに関連する5つのデシラタに対するベンチマークを用いて,7つの一般的な命令選択手法の相対的性能を評価する。 タスク固有の記述を伴わない手作業による命令と単純な命令を用いると,命令インダクション手法よりもicl性能が優れていることが分かり,その一般化可能性の欠如が指摘された。 我々は,提案手法をベンチマークするための評価スイートをリリースし,より厳密で一般化可能な手法を求めている。

In-context learning (ICL) performs tasks by prompting a large language model (LLM) using an instruction and a small set of annotated examples called demonstrations. Recent work has shown that the precise details of the inputs used in the prompt significantly impacts ICL, which has incentivized instruction selection algorithms. The effect of instruction-choice however is severely underexplored, with existing analyses being restricted to shallow subsets of models and tasks, which limits the generalizability of their insights. We develop an ICL evaluation suite to conduct a thorough assessment of these techniques. The suite includes 13 open-sourced LLMs of varying scales from 4 distinct model families and covers 9 different tasks, representing a range of task types across 3 categories. In this work, we evaluate the relative performance of 7 popular instruction selection methods using our benchmark over five desiderata relevant to ICL. We discover that using curated manually-written instructions and simple instructions without any task-specific descriptions often elicits superior ICL performance than that of automatic instruction-induction methods, pointing to a lack of generalizability among the latter. We release our evaluation suite for benchmarking instruction selection approaches, and call for more rigorous and generalizable methods in this space.
翻訳日:2023-07-05 17:01:43 公開日:2023-07-01
# 低エネルギー多体スピン環境による電子スピン量子ビットの量子非破壊測定

Quantum non-demolition measurement of an electron spin qubit through its low-energy many-body spin environment ( http://arxiv.org/abs/2307.00308v1 )

ライセンス: Link先を確認
Harry E. Dyte, George Gillard, Santanu Manna, Saimon F. Covre da Silva, Armando Rastelli, Evgeny A. Chekhovich(参考訳) 測定問題は量子力学の夜明けまでさかのぼる。 ここでは、数千個の冗長な核スピンアンシラエとの共振結合を通じて量子ドット電子スピン量子ビットを測定する。 量子ダーウィン主義(Quantum Darwinism)の概念に則って、量子から古典へのリンクは「波動関数の崩壊」なしにできることを示す。 大きなアンシラ冗長性は、高い忠実度を持つシングルショットの読み出しを可能にする。 繰り返し測定することで、クォービットの初期化と平衡電子スピンダイナミクスの探索が可能になる。 量子ジャンプは観測され、熱人口フォノン浴におけるバーストのようなゆらぎによって引き起こされる。

The measurement problem dates back to the dawn of quantum mechanics. Here, we measure a quantum dot electron spin qubit through off-resonant coupling with thousands of redundant nuclear spin ancillae. We show that the link from quantum to classical can be made without any "wavefunction collapse", in agreement with the Quantum Darwinism concept. Large ancilla redundancy allows for single-shot readout with high fidelity $\approx99.85\%$. Repeated measurements enable heralded initialization of the qubit and probing of the equilibrium electron spin dynamics. Quantum jumps are observed and attributed to burst-like fluctuations in a thermally populated phonon bath.
翻訳日:2023-07-05 16:56:14 公開日:2023-07-01
# SyMFM6D:Multi-View 6D Object Pose Estimationのための対称性を考慮した多方向核融合

SyMFM6D: Symmetry-aware Multi-directional Fusion for Multi-View 6D Object Pose Estimation ( http://arxiv.org/abs/2307.00306v1 )

ライセンス: Link先を確認
Fabian Duffhauss, Sebastian Koch, Hanna Ziesche, Ngo Anh Vien and Gerhard Neumann(参考訳) オブジェクトの検出と6Dポーズの推定は、自動化されたシステムが環境と安全に対話するために不可欠である。 しかし、ほとんどの6dポーズ推定器は単一のカメラフレームに依存しており、物体の対称性のために閉塞や曖昧さに苦しんでいる。 我々はSyMFM6Dと呼ばれる新しい対称性を考慮したマルチビュー6Dポーズ推定器を提案することでこの問題を克服する。 提案手法は,深層多方向融合ネットワークにおける複数視点からRGB-Dフレームを効率よく融合させ,シーン内のすべてのオブジェクトに対する事前定義されたキーポイントを同時に予測する。 キーポイントとインスタンスのセマンティクスセグメンテーションに基づいて,最小二乗法で6dポーズを効率的に計算する。 対称オブジェクトの曖昧性問題に対処するために,新しい目的関数を含む対称対応キーポイント検出のための新しい訓練手順を提案する。 我々のSyMFM6Dネットワークは、シングルビューとマルチビューの両方で最先端の6Dポーズ推定を著しく上回っている。 さらに,本手法の有効性を示すとともに,不正確なカメラキャリブレーションや動的カメラ設定に対して頑健な手法であることを実証する。

Detecting objects and estimating their 6D poses is essential for automated systems to interact safely with the environment. Most 6D pose estimators, however, rely on a single camera frame and suffer from occlusions and ambiguities due to object symmetries. We overcome this issue by presenting a novel symmetry-aware multi-view 6D pose estimator called SyMFM6D. Our approach efficiently fuses the RGB-D frames from multiple perspectives in a deep multi-directional fusion network and predicts predefined keypoints for all objects in the scene simultaneously. Based on the keypoints and an instance semantic segmentation, we efficiently compute the 6D poses by least-squares fitting. To address the ambiguity issues for symmetric objects, we propose a novel training procedure for symmetry-aware keypoint detection including a new objective function. Our SyMFM6D network significantly outperforms the state-of-the-art in both single-view and multi-view 6D pose estimation. We furthermore show the effectiveness of our symmetry-aware training procedure and demonstrate that our approach is robust towards inaccurate camera calibration and dynamic camera setups.
翻訳日:2023-07-05 16:55:58 公開日:2023-07-01
# ベイズ構造健康モニタリングの適用:傾斜計データ異常検出と予測

Applied Bayesian Structural Health Monitoring: inclinometer data anomaly detection and forecasting ( http://arxiv.org/abs/2307.00305v1 )

ライセンス: Link先を確認
David K. E. Green, Adam Jaspan(参考訳) 傾斜計プローブ(inlinometer probe)は、土木斜面内の変形を測定する装置である。 本稿では,実世界の傾斜計データにベイズ的手法を適用し,異常検出と予測の両方を提供する。 具体的には,イギリスの鉄道網全体の傾斜計データから収集したデータの解析について述べる。 監視データを処理する場合、実践者は効果的に2つの目標を持つ。 ひとつは異常あるいは危険な動きを識別すること、もうひとつは予測によって潜在的な有害なシナリオを予測すること。 本稿では,傾斜計データの異常検出と予測にベイズ的手法を適用し,不確実性定量化(UQ)手法を適用する。 その後、適切な不確実性を定量化し評価することで、コストとリスクを最小化することができる。 このフレームワークは、強化された意思決定とリスク分析のイネーブラとして機能する。 インクリメータデータは,測定値から得られる潜在自己相関マルコフ過程によって記述できることを示す。 これは非線形ベイズフィルタの遷移モデルとして用いることができる。 これによりシステム状態の予測が可能になる。 この学習潜在性モデルはまた、異常の検出を可能にする: 期待値から遠くない観察は、学習潜在性モデルで表されるモデルエンコーディングに対する高い情報コンテンツを持つ'high surprisal'であると見なされる。 予測および異常検出手法を計算効率よく大規模実世界のデータセットに適用することに成功した。 本稿では,特に傾斜計について検討するが,その技術は工学的UQと構造健康モニタリング(SHM)のあらゆる分野に適用可能である。

Inclinometer probes are devices that can be used to measure deformations within earthwork slopes. This paper demonstrates a novel application of Bayesian techniques to real-world inclinometer data, providing both anomaly detection and forecasting. Specifically, this paper details an analysis of data collected from inclinometer data across the entire UK rail network. Practitioners have effectively two goals when processing monitoring data. The first is to identify any anomalous or dangerous movements, and the second is to predict potential future adverse scenarios by forecasting. In this paper we apply Uncertainty Quantification (UQ) techniques by implementing a Bayesian approach to anomaly detection and forecasting for inclinometer data. Subsequently, both costs and risks may be minimised by quantifying and evaluating the appropriate uncertainties. This framework may then act as an enabler for enhanced decision making and risk analysis. We show that inclinometer data can be described by a latent autocorrelated Markov process derived from measurements. This can be used as the transition model of a non-linear Bayesian filter. This allows for the prediction of system states. This learnt latent model also allows for the detection of anomalies: observations that are far from their expected value may be considered to have `high surprisal', that is they have a high information content relative to the model encoding represented by the learnt latent model. We successfully apply the forecasting and anomaly detection techniques to a large real-world data set in a computationally efficient manner. Although this paper studies inclinometers in particular, the techniques are broadly applicable to all areas of engineering UQ and Structural Health Monitoring (SHM).
翻訳日:2023-07-05 16:55:37 公開日:2023-07-01
# SUPERスキームによる量子ドットからの温度非依存性ほぼ完全光子絡み合い

Temperature-independent almost perfect photon entanglement from quantum dots via the SUPER scheme ( http://arxiv.org/abs/2307.00304v1 )

ライセンス: Link先を確認
Thomas K. Bracht, Moritz Cygorek, Tim Seidelmann, Vollrath Martin Axt, Doris E. Reiter(参考訳) 絡み合った光子対は量子通信技術に不可欠である。 半導体量子ドットによってオンデマンドで生成できるが、絡み合いの程度を減少させるいくつかのメカニズムが知られている。 有限微細構造分割のような障害は、現在までに克服できるが、励起スキーム自体が絡み合いの忠実さを損なう可能性がある。 ここでは,量子ドットに適用した量子エミッタ集団(super)のスイングアップにより,ほぼ完全に絡み合った光子が得られることを示す。 エンタングルメント度は、励起過程と放出過程の分離により、高温でもフォノンの影響に強いままである。 この達成により、量子ドットはエンタングルされた光子対源として、80\,$kの温度まで高いエンタングルメントを必要とするアプリケーションで使用される準備ができています。

Entangled photon pairs are essential for quantum communication technology. They can be generated on-demand by semiconductor quantum dots, but several mechanisms are known to reduce the degree of entanglement. While some obstacles like the finite fine-structure splitting can be overcome by now, the excitation scheme itself can impair the entanglement fidelity. Here, we demonstrate that the swing-up of quantum emitter population (SUPER) scheme applied to a quantum dot in a cavity yields almost perfectly entangled photons. The entanglement degree remains robust against phonon influences even at elevated temperatures, due to decoupling of the excitation and emission process. With this achievement, quantum dots are ready to be used as entangled photon pair sources in applications requiring high degrees of entanglement up to temperatures of about $80\,$K.
翻訳日:2023-07-05 16:55:16 公開日:2023-07-01
# dreamidentity: 効率的な顔認証保存画像生成のための編集性の向上

DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation ( http://arxiv.org/abs/2307.00300v1 )

ライセンス: Link先を確認
Zhuowei Chen, Shancheng Fang, Wei Liu, Qian He, Mengqi Huang, Yongdong Zhang, Zhendong Mao(参考訳) 大規模事前学習されたテキストから画像へのモデルでは、多様で高品質な人間中心の画像を合成できるが、条件付き顔画像に対する顔認証の保存が難しい。 既存の手法では、顔認証ごとに時間を要する最適化を必要とするか、モデルの編集性を損なうことなく効率的なエンコーダを学習する必要がある。 本稿では,テキスト対画像モデルの編集性を維持しつつ,各顔識別のための最適化フリー手法を提案する。 具体的には,人間の顔の正確な表現を学習する新しい顔識別エンコーダを提案し,マルチスケールな顔特徴とマルチエンベディングプロジェクタを用いてテキスト埋め込み空間で擬似単語を直接生成する。 また,セレブ名を用いた対生成顔画像および編集顔画像を構築し,有名人顔の既製テキスト対画像モデルの成熟度を未認識顔に移すことにより,モデルの編集性を高めるために,自己提示型編集性学習を提案する。 大規模な実験により,異なるシーン下でより高速にアイデンティティ保存画像を生成できることが判明した。

While large-scale pre-trained text-to-image models can synthesize diverse and high-quality human-centric images, an intractable problem is how to preserve the face identity for conditioned face images. Existing methods either require time-consuming optimization for each face-identity or learning an efficient encoder at the cost of harming the editability of models. In this work, we present an optimization-free method for each face identity, meanwhile keeping the editability for text-to-image models. Specifically, we propose a novel face-identity encoder to learn an accurate representation of human faces, which applies multi-scale face features followed by a multi-embedding projector to directly generate the pseudo words in the text embedding space. Besides, we propose self-augmented editability learning to enhance the editability of models, which is achieved by constructing paired generated face and edited face images using celebrity names, aiming at transferring mature ability of off-the-shelf text-to-image models in celebrity faces to unseen faces. Extensive experiments show that our methods can generate identity-preserved images under different scenes at a much faster speed.
翻訳日:2023-07-05 16:55:02 公開日:2023-07-01
# 非スムース最適制御問題に対する拡大ステップサイズと演算子学習を用いた高速化原始双対法

Accelerated primal-dual methods with enlarged step sizes and operator learning for nonsmooth optimal control problems ( http://arxiv.org/abs/2307.00296v1 )

ライセンス: Link先を確認
Yongcun Song, Xiaoming Yuan, Hangrui Yue(参考訳) 偏微分方程式(PDE)制約を伴う非滑らかな最適制御問題の一般的なクラスを考える。 そこで本研究では,異なる種類の変数を個別に扱うことができ,各イテレーションにおける主計算は2つのPDEを解くことしか必要としない。 我々の目標は、より大きなステップサイズまたは演算子学習技術で原始双対法を加速することである。 ステップサイズが大きい加速原始双対法では、その収束性は単純で普遍的な方法で元の原始双対法を数値的に加速しながら厳密に証明することができる。 オペレータ・ラーニング・アクセラレーションのために,深層ニューラルネットワークによるpdesモデルを構築した。 ニューラルネットワークが学習されると、PDEの解法はニューラルネットワークの前方通過のみを必要とし、計算コストは大幅に削減される。 オペレーター学習による高速化プライマル・デュアル法はメッシュフリーで数値効率が良く,異なるタイプのpdesにスケーラブルである。 これらの2つの手法の加速効果は、いくつかの予備的な数値結果によって有望に検証される。

We consider a general class of nonsmooth optimal control problems with partial differential equation (PDE) constraints, which are very challenging due to its nonsmooth objective functionals and the resulting high-dimensional and ill-conditioned systems after discretization. We focus on the application of a primal-dual method, with which different types of variables can be treated individually and thus its main computation at each iteration only requires solving two PDEs. Our target is to accelerate the primal-dual method with either larger step sizes or operator learning techniques. For the accelerated primal-dual method with larger step sizes, its convergence can be still proved rigorously while it numerically accelerates the original primal-dual method in a simple and universal way. For the operator learning acceleration, we construct deep neural network surrogate models for the involved PDEs. Once a neural operator is learned, solving a PDE requires only a forward pass of the neural network, and the computational cost is thus substantially reduced. The accelerated primal-dual method with operator learning is mesh-free, numerically efficient, and scalable to different types of PDEs. The acceleration effectiveness of these two techniques is promisingly validated by some preliminary numerical results.
翻訳日:2023-07-05 16:54:40 公開日:2023-07-01
# autost: スパイキングトランスフォーマーのトレーニングフリーニューラルネットワーク検索

AutoST: Training-free Neural Architecture Search for Spiking Transformers ( http://arxiv.org/abs/2307.00293v1 )

ライセンス: Link先を確認
Ziqing Wang, Qidong Zhao, Jinku Cui, Xu Liu, Dongkuan Xu(参考訳) スパイキングトランスフォーマーはスパイキングニューラルネットワーク(snn)のエネルギー効率とトランスフォーマーの高容量の両方を達成するため、かなりの注目を集めている。 しかし、既存のSpyking TransformerアーキテクチャはANNから派生したもので、アーキテクチャ上の差が顕著であり、ANNのアーキテクチャに比べて性能が劣る。 最適なアーキテクチャを発見する伝統的なアプローチは、主に時間を要する手作業と、通常メモリフットプリントと計算時間の観点から高価なneural architecture search(nas)メソッドに依存している。 これらの制約に対処するため,高速かつ省エネなスパイキングトランスフォーマーアーキテクチャを高速に識別するために,スパイキングトランスフォーマーのトレーニング不要なNAS方式であるAutoSTを導入する。 SNNに固有の非微分可能性と高空間性に苦しむ既存のトレーニングフリーNAS法とは違って,モデル計算やトレーニングダイナミクスとは独立に,Floating-Point Operations (FLOPs) を性能指標として活用することを提案する。 さらに,エネルギー効率の高いアーキテクチャの探索を可能にするために,初期化時の活性化パターンを利用して,スパイキング変圧器のエネルギー消費量を推定する。 我々の広範な実験により、AutoSTモデルは静的およびニューロモルフィックなデータセット上で手動または自動設計されたSNNアーキテクチャよりも優れ、エネルギー消費量は大幅に減少することが示された。

Spiking Transformers have gained considerable attention because they achieve both the energy efficiency of Spiking Neural Networks (SNNs) and the high capacity of Transformers. However, the existing Spiking Transformer architectures, derived from ANNs, exhibit a notable architectural gap, resulting in suboptimal performance compared to their ANN counterparts. Traditional approaches to discovering optimal architectures primarily rely on either manual procedures, which are time-consuming, or Neural Architecture Search (NAS) methods, which are usually expensive in terms of memory footprints and computation time. To address these limitations, we introduce AutoST, a training-free NAS method for Spiking Transformers, to rapidly identify high-performance and energy-efficient Spiking Transformer architectures. Unlike existing training-free NAS methods, which struggle with the non-differentiability and high sparsity inherent in SNNs, we propose to utilize Floating-Point Operations (FLOPs) as a performance metric, which is independent of model computations and training dynamics, leading to a stronger correlation with performance. Moreover, to enable the search for energy-efficient architectures, we leverage activation patterns during initialization to estimate the energy consumption of Spiking Transformers. Our extensive experiments show that AutoST models outperform state-of-the-art manually or automatically designed SNN architectures on static and neuromorphic datasets, while significantly reducing energy consumption.
翻訳日:2023-07-05 16:54:19 公開日:2023-07-01
# su(1,1)干渉計によるシフト推定

Estimating IF shifts based on SU(1,1) interferometer ( http://arxiv.org/abs/2307.00291v1 )

ライセンス: Link先を確認
Chen Yuetao, Chen Gaiqing, Luo MengMeng, Chang Shoukang and Gao Shaoyan(参考訳) IF(Imbert--Fedorov)シフトは、2つの媒体間の界面で発生する逆マイクロ変位を指す。 このような微小変位の推定は、光間相互作用のより深い理解を可能にする。 本稿では,SU(1,1)干渉計にSPRセンサを導入することにより,IFシフトと入射角感度を推定する理論的手法を提案する。 SU(1,1)干渉計に2つのコヒーレント状態を注入することにより、ホモダイン検出に基づいてIFシフトと入射角の感度を得る。 その結果,最大IFシフトと最適IFシフトを同時に得ることが可能であることが示唆された。 一方、ラゲール・ガウス(lg)ビームによって運ばれる軌道角運動量はifシフト感度を改善するには不利である。 さらに, 本手法における入射角の感度について検討し, 感度限界である$(6\times 10^{-6}){{}^\circ}$を超えることを見出した。 これにより、IFシフト検出に使用される従来の弱い測定法よりも精度の高いIFシフト感度が得られ、通常は0.04${{}^\circ}$ [Journal of Optics, 19(10), 105611] の回転精度限界を持つ。 さらに重要なことに、ifシフトの感度と入射角の両方が(ショットノイズ制限)snlを突破する可能性があり、入射角$\theta =43.6208{{}^\circ}$ と$\theta =43.6407{{}^\circ}$ で cram\'{e}r-rao bound (qcrb) に近づくことさえある。 また,コヒーレント振幅の増加はIFシフトと入射角の両方の感度を向上させる上で有益であることがわかった。 そこで本研究では,SPRセンサの微小変位測定手法を提案する。 これらの結果は、より精密な量子ベースのセンサーの開発に役立てることができる。

IF (Imbert--Fedorov) shifts which refers to a transverse micro-displacement occurs at the interface between two media. The estimation of such micro-displacement enables a deeper understanding of light-matter interactions. In this paper, we propose a theoretical scheme to investigate the IF shifts and incident angle sensitivity by introducing SPR sensor into the SU(1,1) interferometer. By injecting two coherent states in the SU(1,1) interferometer, we obtain the sensitivity of the IF shifts and incident angle based on the homodyne detection. Our results demonstrate that it is possible to get the maximal IF shift and the optimal IF shifts sensitivity simultaneously. Meanwhile, the orbit angular momentum carried by Laguerre-Gauss (LG) beam is unfavorable for improving the IF shift sensitivity. Furthermore, we have investigated the sensitivity of the incident angle in our scheme and found that it is capable of surpassing the sensitivity limit of $(6\times 10^{-6}){{}^\circ}$. This allows us to achieve a more precise IF shifts sensitivity than the traditional weak measurement method used for IF shift detection, which typically has a rotation precision limit of 0.04${{}^\circ}$ [Journal of Optics, 19(10), 105611]. More importantly, both the sensitivity of IF shifts and incident angle can breakthrough the (shot noise limit) SNL, even approaching the Cram\'{e}r-Rao bound (QCRB) at the incident angle $\theta =43.6208{{}^\circ}$ and $\theta =43.6407{{}^\circ}$. We also discover that increasing the coherent amplitude is beneficial for improving the sensitivity of both the IF shifts and incident angle. Our findings shall offer a novel scheme for measuring micro-displacement in SPR sensor. These results can be helpful in the development of more precise quantum-based sensors for studying light-matter interactions.
翻訳日:2023-07-05 16:53:52 公開日:2023-07-01
# All-in-SAM: Prompt-based Finetuningによる弱アノテーションから画素単位のヌクレイセグメンテーションへ

All-in-SAM: from Weak Annotation to Pixel-wise Nuclei Segmentation with Prompt-based Finetuning ( http://arxiv.org/abs/2307.00290v1 )

ライセンス: Link先を確認
Can Cui, Ruining Deng, Quan Liu, Tianyuan Yao, Shunxing Bao, Lucas W. Remedios, Yucheng Tang, Yuankai Huo(参考訳) segment anything model (sam) は、汎用ゼロショットセグメンテーションアプローチで最近提案されたプロンプトベースのセグメンテーションモデルである。 SAMはゼロショットのセグメンテーション能力により、様々なセグメンテーションタスクにおいて優れた柔軟性と精度を達成した。 しかし、現在のパイプラインでは推論段階で手動プロンプトが必要である。 本稿では、推論段階でプロンプトを使用する代わりに、推論段階で手動のプロンプトを必要とせず、(アノテーション生成からモデル微調整まで)AI開発ワークフロー全体を通して、オールインSAMと呼ばれるSAMを利用するパイプラインを導入する。 具体的には、SAMはまず弱いプロンプト(例えば点、バウンディングボックス)からピクセルレベルのアノテーションを生成するために使用される。 次に、ピクセルレベルのアノテーションを使用して、スクラッチからトレーニングするのではなくSAMセグメンテーションモデルを微調整する。 実験の結果,2つの重要な知見が得られた。 1)公開monusegデータセット上の核セグメンテーションタスクにおいて,提案パイプラインは最先端(sota)メソッドを上回っている。 2) SAMファインタニングにおける弱いアノテーションと少ないアノテーションの利用は, 強い画素ワイドアノテートデータを用いた場合と比較して, 競争性能が向上する。

The Segment Anything Model (SAM) is a recently proposed prompt-based segmentation model in a generic zero-shot segmentation approach. With the zero-shot segmentation capacity, SAM achieved impressive flexibility and precision on various segmentation tasks. However, the current pipeline requires manual prompts during the inference stage, which is still resource intensive for biomedical image segmentation. In this paper, instead of using prompts during the inference stage, we introduce a pipeline that utilizes the SAM, called all-in-SAM, through the entire AI development workflow (from annotation generation to model finetuning) without requiring manual prompts during the inference stage. Specifically, SAM is first employed to generate pixel-level annotations from weak prompts (e.g., points, bounding box). Then, the pixel-level annotations are used to finetune the SAM segmentation model rather than training from scratch. Our experimental results reveal two key findings: 1) the proposed pipeline surpasses the state-of-the-art (SOTA) methods in a nuclei segmentation task on the public Monuseg dataset, and 2) the utilization of weak and few annotations for SAM finetuning achieves competitive performance compared to using strong pixel-wise annotated data.
翻訳日:2023-07-05 16:53:18 公開日:2023-07-01
# AutoMLにおけるポストホック実装のためのCMA-ES - 大きな成功と救える失敗

CMA-ES for Post Hoc Ensembling in AutoML: A Great Success and Salvageable Failure ( http://arxiv.org/abs/2307.00286v1 )

ライセンス: Link先を確認
Lennart Purucker, Joeran Beel(参考訳) 多くの最先端の自動機械学習(AutoML)システムは、Caruana et al. (2004)のgreedy ensemble selection (GES) を用いて、モデル選択後ホックで見つかったモデルをアンサンブルする。 これにより予測性能が向上し、Auto-Sklearn 1の洞察に従えば、スタック化や勾配なしの数値最適化といった代替案が過度に適合するということになる。 auto-sklearn 1のオーバーフィットは、post hoc ensemblingに低品質のバリデーションデータのみを使用するため、他のautomlシステムよりもずっと可能性が高い。 そこで我々は,高品質のバリデーションデータを持つシステムにおいて,auto-sklearn 1の洞察が真であるか否かを分析する動機づけられた。 その結果,オートグルーオンのautomlベンチマークから71分類データセットのgesと比較し,共分散行列適応進化戦略(cma-es)の性能について検討した。 我々はAuto-Sklearnの洞察が選択された計量に依存することを発見した。 ROC AUCでは、CMA-ESは大幅にオーバーフィットし、統計学的には多クラス分類においてGESよりも優れています。 計量平衡精度では、CMA-ESは過度に適合せず、GESを著しく上回る。 バランスの取れた精度にCMA-ESをうまく応用することで、我々はCMA-ESがROC AUCのオーバーフィットを防ぐ方法を探った。 本稿では, CMA-ES の過剰適合を回避し, ROC AUC の GES よりも CMA-ES の性能を向上する, GES にインスパイアされた CMA-ES の重量正規化手法を提案する。

Many state-of-the-art automated machine learning (AutoML) systems use greedy ensemble selection (GES) by Caruana et al. (2004) to ensemble models found during model selection post hoc. Thereby, boosting predictive performance and likely following Auto-Sklearn 1's insight that alternatives, like stacking or gradient-free numerical optimization, overfit. Overfitting in Auto-Sklearn 1 is much more likely than in other AutoML systems because it uses only low-quality validation data for post hoc ensembling. Therefore, we were motivated to analyze whether Auto-Sklearn 1's insight holds true for systems with higher-quality validation data. Consequently, we compared the performance of covariance matrix adaptation evolution strategy (CMA-ES), state-of-the-art gradient-free numerical optimization, to GES on the 71 classification datasets from the AutoML benchmark for AutoGluon. We found that Auto-Sklearn's insight depends on the chosen metric. For the metric ROC AUC, CMA-ES overfits drastically and is outperformed by GES -- statistically significantly for multi-class classification. For the metric balanced accuracy, CMA-ES does not overfit and outperforms GES significantly. Motivated by the successful application of CMA-ES for balanced accuracy, we explored methods to stop CMA-ES from overfitting for ROC AUC. We propose a method to normalize the weights produced by CMA-ES, inspired by GES, that avoids overfitting for CMA-ES and makes CMA-ES perform better than or similar to GES for ROC AUC.
翻訳日:2023-07-05 16:52:57 公開日:2023-07-01
# DoReMi:計画実行ミスソーシングの検出と復元による接地言語モデル

DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment ( http://arxiv.org/abs/2307.00329v1 )

ライセンス: Link先を確認
Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Zheyuan Jiang, Jianyu Chen(参考訳) 大きな言語モデルは膨大な量の意味知識をエンコードし、顕著な理解と推論能力を持っている。 従来の研究では、言語モデルによって生成されたシーケンスが論理的に正しいことと現実的に実行可能であることを保証するために、ロボットタスクで言語モデルを構築する方法が検討されてきた。 しかし、環境変動や不完全なコントローラ設計のため、低レベルの実行は高レベルの計画から逸脱する可能性がある。 本稿では,計画と実行の間の不一致を即時に検出し,リカバリするための新しい言語モデル基盤フレームワークであるdoremiを提案する。 具体的には,低レベルのスキル実行中は,視覚質問応答(VQA)モデルを用いて定期的に計画実行ミスアライメントを検出する。 もしある誤認識が発生した場合、我々の手法は、誤認識から回復するために言語モデルを呼び出す。 ロボットアームやヒューマノイドロボットを含む様々な複雑なタスクの実験により、より高いタスク成功率とより短いタスク完了時間をもたらすことが示されている。 DoReMiのビデオはhttps://sites.google.com/view/doremi-paperで見ることができる。

Large language models encode a vast amount of semantic knowledge and possess remarkable understanding and reasoning capabilities. Previous research has explored how to ground language models in robotic tasks to ensure that the sequences generated by the language model are both logically correct and practically executable. However, low-level execution may deviate from the high-level plan due to environmental perturbations or imperfect controller design. In this paper, we propose DoReMi, a novel language model grounding framework that enables immediate Detection and Recovery from Misalignments between plan and execution. Specifically, during low-level skill execution, we use a vision question answering (VQA) model to regularly detect plan-execution misalignments. If certain misalignment occurs, our method will call the language model to re-plan in order to recover from misalignments. Experiments on various complex tasks including robot arms and humanoid robots demonstrate that our method can lead to higher task success rates and shorter task completion times. Videos of DoReMi are available at https://sites.google.com/view/doremi-paper.
翻訳日:2023-07-05 16:45:15 公開日:2023-07-01
# SDRCNN:パンシャーピングのための単一スケール高密度高密度コネクテッド畳み込みニューラルネットワーク

SDRCNN: A single-scale dense residual connected convolutional neural network for pansharpening ( http://arxiv.org/abs/2307.00327v1 )

ライセンス: Link先を確認
Yuan Fang, Yuanzhi Cai, and Lei Fan(参考訳) パンシャープニング(pansharpening)は、高分解能のパンクロマティック画像と低分解能のマルチスペクトル画像を融合して高分解能のマルチスペクトル画像を生成するプロセスである。 本研究では,SDRCNNと呼ばれる,単一ブランチで単一スケールの軽量畳み込みニューラルネットワークを開発した。 SDRCNNは、新しい高密度残差連結構造と畳み込みブロックを用いることで、精度と効率のトレードオフを良くした。 SDRCNNの性能は、WorldView-3、WorldView-2、QuickBirdの4つのデータセットを用いてテストされた。 比較手法には従来の8つの手法(GS, GSA, PRACS, BDSD, SFIM, GLP-CBD, CDIF, LRTCFPan)と5つの軽量ディープラーニング手法(PNN, PanNet, BayesianNet, DMDNet, FusionNet)が含まれる。 SDRCNNは、作成したパンシャーペン画像とそれに伴う絶対残差マップの視覚的検査に基づいて、検討対象のすべての方法の中で、空間的詳細のぼやけやスペクトル歪みが最小であった。 定量的評価指標の値はsdrcnn使用時の理想値に最も近い値であった。 SDRCNNの処理時間もテストされた全ての手法の中で最短であった。 最後に, SDRCNNの各成分の有効性をアブレーション実験で実証した。 これらはすべてSDRCNNの優位性が確認された。

Pansharpening is a process of fusing a high spatial resolution panchromatic image and a low spatial resolution multispectral image to create a high-resolution multispectral image. A novel single-branch, single-scale lightweight convolutional neural network, named SDRCNN, is developed in this study. By using a novel dense residual connected structure and convolution block, SDRCNN achieved a better trade-off between accuracy and efficiency. The performance of SDRCNN was tested using four datasets from the WorldView-3, WorldView-2 and QuickBird satellites. The compared methods include eight traditional methods (i.e., GS, GSA, PRACS, BDSD, SFIM, GLP-CBD, CDIF and LRTCFPan) and five lightweight deep learning methods (i.e., PNN, PanNet, BayesianNet, DMDNet and FusionNet). Based on a visual inspection of the pansharpened images created and the associated absolute residual maps, SDRCNN exhibited least spatial detail blurring and spectral distortion, amongst all the methods considered. The values of the quantitative evaluation metrics were closest to their ideal values when SDRCNN was used. The processing time of SDRCNN was also the shortest among all methods tested. Finally, the effectiveness of each component in the SDRCNN was demonstrated in ablation experiments. All of these confirmed the superiority of SDRCNN.
翻訳日:2023-07-05 16:44:47 公開日:2023-07-01
# DeepMediX: スペクトル全体にわたるディープラーニング駆動型リソース効率の診断

DeepMediX: A Deep Learning-Driven Resource-Efficient Medical Diagnosis Across the Spectrum ( http://arxiv.org/abs/2307.00324v1 )

ライセンス: Link先を確認
Kishore Babu Nampalle, Pradeep Singh, Uppala Vivek Narayan, Balasubramanian Raman(参考訳) 医療画像診断の急速な進歩の中で、計算効率を保ちながら高い精度を達成することは、依然として困難な課題である。 これは画期的なリソース効率のよいモデルで、この課題を大幅に解決します。 MobileNetV2アーキテクチャ上に構築されたDeepMediXは、脳MRIスキャンと皮膚がん画像の分類に優れ、バイナリとマルチクラスの皮膚がんデータセットの両方で優れたパフォーマンスを示す。 これは、労働集約的な手動プロセス、大規模なデータセットの必要性、画像プロパティに関連する複雑さに対するソリューションを提供する。 deepmedixの設計には、データプライバシを損なうことなく協調学習アプローチを可能にする、連合学習の概念も含まれている。 このアプローチにより、多様な医療機関が、直接的なデータアクセスを必要とせずに共有学習体験の恩恵を受け、機密性の高い患者のデータのプライバシーと整合性を保ちながら、モデルの予測能力を高めることができる。 計算フットプリントが低いため、DeepMediXはハンドヘルドデバイスへのデプロイに適している。 皮膚科学研究のためのISIC2018を含む、標準的なデータセットの厳格なテストを通じて、DeepMediXは例外的な診断能力を示し、ほとんどすべてのタスクで既存のモデルのパフォーマンスにマッチし、場合によってはそれよりも優れています。 本研究の成果は、医療画像におけるAIベースのツールの開発と展開、およびポイント・オブ・ケア・セッティングへの統合に重要な意味を持つ。 ソースコードと生成されたモデルはhttps://github.com/kishorebabun/DeepMediXでリリースされる。

In the rapidly evolving landscape of medical imaging diagnostics, achieving high accuracy while preserving computational efficiency remains a formidable challenge. This work presents \texttt{DeepMediX}, a groundbreaking, resource-efficient model that significantly addresses this challenge. Built on top of the MobileNetV2 architecture, DeepMediX excels in classifying brain MRI scans and skin cancer images, with superior performance demonstrated on both binary and multiclass skin cancer datasets. It provides a solution to labor-intensive manual processes, the need for large datasets, and complexities related to image properties. DeepMediX's design also includes the concept of Federated Learning, enabling a collaborative learning approach without compromising data privacy. This approach allows diverse healthcare institutions to benefit from shared learning experiences without the necessity of direct data access, enhancing the model's predictive power while preserving the privacy and integrity of sensitive patient data. Its low computational footprint makes DeepMediX suitable for deployment on handheld devices, offering potential for real-time diagnostic support. Through rigorous testing on standard datasets, including the ISIC2018 for dermatological research, DeepMediX demonstrates exceptional diagnostic capabilities, matching the performance of existing models on almost all tasks and even outperforming them in some cases. The findings of this study underline significant implications for the development and deployment of AI-based tools in medical imaging and their integration into point-of-care settings. The source code and models generated would be released at https://github.com/kishorebabun/DeepMediX.
翻訳日:2023-07-05 16:44:08 公開日:2023-07-01
# RUI: Google Maps APIを利用したWebベースの道路更新情報システム

RUI: A Web-based Road Updates Information System using Google Maps API ( http://arxiv.org/abs/2307.00323v1 )

ライセンス: Link先を確認
Benzar Glen S. Grepon, JC P. Margallo, Jonathan B. Maserin, Rio Al-Di A. Dompol(参考訳) 地域の道路の現在の状況を知ることは、まだ予測が難しい。 通勤者、乗客、およびドライバーは、地元の通信社からの道路状況に依存しており、車両事故、公道および橋梁計画、その他の関連する道路障害などの道路更新について十分な情報を得て更新される。 道路更新に関するソリューションを提供するために、google maps apiを使用して、特定の地域の道路状況のリアルタイム更新を閲覧し、通知するwebベースの道路更新情報システムを開発した。 本稿では,システムのサブシステムとモジュール,アジャイルモデルである研究アプローチと方法論,道路情報の普及とその現状など,システムの主要な機能について述べる。 このプロジェクトはISO 25010を用いて評価されている。 評価結果に基づき、プロジェクトは4.21に格付けされ、likertスケール記述解釈による質的記述に基づく優れたパフォーマンスを示している。 このプロジェクトは、世界規模のWeb上で運営され、ホストされ、元の国から世界の他の地域までカバー範囲を広げる予定である。 調査の最初の結果から, 開発したWebシステムは機能的であり, 通勤者, 乗客, 旅行者にとって大きな助けになる,と回答した。 システム全体の有効性と性能はISO/IEC 25010の基準に基づいて評価された。 将来の開発では、フィリピン列島全体を含む道路の更新範囲を拡大することが推奨されており、長距離の通勤者やドライバーは、道路の更新に関してより更新される。 また、よりユーザフレンドリーなデザインとインタラクションにモバイルアプリケーションを使うこともできる。

Knowing the current situation on every road in an area is still difficult to anticipate. Commuters, riders, and drivers are still dependent on road situations from a local news agency to be well informed and be updated on possible road updates such as vehicular accidents, government road and bridge projects/construction, and other related road obstructions. To give solutions regarding road updates, a web-based roads update information system has been developed that uses Google Maps API allowing people to view and be notified of the real-time updates of the road situation of a specific area. This paper discusses the main system functionalities, including sub-systems and modules of the system, the research approach and methodology, which is the Agile Model, and its impact on disseminating road information and its status. The project has been evaluated using ISO 25010. Based on the evaluation result, the project has been rated 4.21, signifying an excellent performance based on qualitative description through a Likert scale descriptive interpretation. The project has been running and hosted on the world wide web and is expected to expand its coverage area from its origin country to the rest of the world. Based on the initial findings of the study, the respondents agreed that the developed web system was functional and a massive help to commuters, riders, and people who travel a lot. The system's overall effectiveness and performance were excellent based on the criteria set by ISO/IEC 25010. It is recommended for future development to expand the coverage of the road updates, if possible, including the entire Philippine archipelago for long-drive commuters and drivers to be more updated in terms of road updates. Also, include the use of mobile applications for more user-friendly design and interactions.
翻訳日:2023-07-05 16:43:39 公開日:2023-07-01
# ローラン多項式方程式系のための自動解法生成器

Automatic Solver Generator for Systems of Laurent Polynomial Equations ( http://arxiv.org/abs/2307.00320v1 )

ライセンス: Link先を確認
Evgeniy Martyushev, Snehal Bhayani, Tomas Pajdla(参考訳) コンピュータビジョンの応用において、以下の問題がしばしば生じている: 同じ単項構造を持つ(ローラン)多項式系の族が様々な係数を持つと、任意のファミリーメンバーの解をできるだけ早く計算する解法を見つける。 適切な一般性仮定の下では、各多項式イデアルの次元と次数は、同じ族の各特定の系に対して変わらない。 このような問題を解決するための最先端のアプローチは、初期多項式から作用行列を構成するために必要な多項式への変換を符号化する係数(マクロ行列)である除去テンプレートに基づいている。 作用行列を知れば、系の解はその固有ベクトルから計算される。 削除テンプレートの重要な特性は、族内のすべての多項式系に適用できる点である。 本稿では,ローラン多項式の与えられた集合が削除テンプレートを構築するのに十分かどうかをチェックする新しい実用的アルゴリズムを提案する。 このアルゴリズムに基づき,ローラン多項式方程式系に対する自動解法生成器を提案する。 新しいジェネレータは単純で高速であり、正次元成分を持つイデアルに適用できる。 我々は、主に幾何学的コンピュータビジョンにおいて、様々な最小限の問題でジェネレータをテストする。 生成したソルバの速度は、ほとんどの場合最先端を超える。 特に, 3次元三角測量の最適解法, 半一般化ハイブリッドポーズ推定法, 最小時間分割法を提案する。 合成シーンにおける実験により,我々の解法は数値的に正確であり,最先端の解法と同等か極めて高速であることが示された。

In computer vision applications, the following problem often arises: Given a family of (Laurent) polynomial systems with the same monomial structure but varying coefficients, find a solver that computes solutions for any family member as fast as possible. Under appropriate genericity assumptions, the dimension and degree of the respective polynomial ideal remain unchanged for each particular system in the same family. The state-of-the-art approach to solving such problems is based on elimination templates, which are the coefficient (Macaulay) matrices that encode the transformation from the initial polynomials to the polynomials needed to construct the action matrix. Knowing an action matrix, the solutions of the system are computed from its eigenvectors. The important property of an elimination template is that it applies to all polynomial systems in the family. In this paper, we propose a new practical algorithm that checks whether a given set of Laurent polynomials is sufficient to construct an elimination template. Based on this algorithm, we propose an automatic solver generator for systems of Laurent polynomial equations. The new generator is simple and fast; it applies to ideals with positive-dimensional components; it allows one to uncover partial $p$-fold symmetries automatically. We test our generator on various minimal problems, mostly in geometric computer vision. The speed of the generated solvers exceeds the state-of-the-art in most cases. In particular, we propose the solvers for the following problems: optimal 3-view triangulation, semi-generalized hybrid pose estimation and minimal time-of-arrival self-calibration. The experiments on synthetic scenes show that our solvers are numerically accurate and either comparable to or significantly faster than the state-of-the-art solvers.
翻訳日:2023-07-05 16:43:15 公開日:2023-07-01
# SHARCS: 説明可能なマルチモーダル学習のための共有概念空間

SHARCS: Shared Concept Space for Explainable Multimodal Learning ( http://arxiv.org/abs/2307.00316v1 )

ライセンス: Link先を確認
Gabriele Dominici, Pietro Barbiero, Lucie Charlotte Magister, Pietro Li\`o, Nikola Simidjievski(参考訳) マルチモーダル学習は、個々のデータモダリティが通常、与えられたモデリングタスクを正確に解くのに不十分である複雑な実世界の問題に対処する上で不可欠なパラダイムである。 様々なディープラーニングアプローチがこれらの課題にうまく取り組んできたが、それらの推論プロセスはしばしば不透明であり、原則として説明可能なクロスモーダル分析とドメイン-専門家の介入の能力を制限する。 本稿では,マルチモーダル学習のための新しい概念ベースアプローチであるsharcs (shared concept space)を提案する。 SHARCSは、異なる異種モダリティから解釈可能な概念を単一の統一概念多様体に学習し、マッピングし、意味論的に類似したクロスモーダル概念を直感的に投影する。 このようなアプローチが,本質的に説明可能なタスク予測につながると同時に,下流の予測性能も向上できることを実証する。 さらに, 欠落したモダリティの検索やクロスモーダルな説明など, 実質的に重要なシナリオにおいて, シャールが他のアプローチをはるかに上回ることを示した。 我々のアプローチはモデルに依存しず、異なるタイプのモダリティ(および数)に適用しやすく、効果的で解釈可能で信頼性の高いマルチモーダルアプローチの開発を進める。

Multimodal learning is an essential paradigm for addressing complex real-world problems, where individual data modalities are typically insufficient to accurately solve a given modelling task. While various deep learning approaches have successfully addressed these challenges, their reasoning process is often opaque; limiting the capabilities for a principled explainable cross-modal analysis and any domain-expert intervention. In this paper, we introduce SHARCS (SHARed Concept Space) -- a novel concept-based approach for explainable multimodal learning. SHARCS learns and maps interpretable concepts from different heterogeneous modalities into a single unified concept-manifold, which leads to an intuitive projection of semantically similar cross-modal concepts. We demonstrate that such an approach can lead to inherently explainable task predictions while also improving downstream predictive performance. Moreover, we show that SHARCS can operate and significantly outperform other approaches in practically significant scenarios, such as retrieval of missing modalities and cross-modal explanations. Our approach is model-agnostic and easily applicable to different types (and number) of modalities, thus advancing the development of effective, interpretable, and trustworthy multimodal approaches.
翻訳日:2023-07-05 16:42:50 公開日:2023-07-01
# マルチスペクトル画像を用いた他の高鉱物量領域の存在下での砂採掘用河川砂岩の検出

Detection of River Sandbank for Sand Mining with the Presence of Other High Mineral Content Regions Using Multi-spectral Images ( http://arxiv.org/abs/2307.00314v1 )

ライセンス: Link先を確認
Jit Mukherjee(参考訳) 砂の採掘はブーム産業だ。 サンドバンク川は砂の採掘の主要源の1つである。 砂採掘のための潜在的河川砂岩地域の検出は、経済、社会、環境に直接影響を及ぼす。 かつては、砂の採掘を含む鉱業地域を検出するために、半監督的・監督的な技術が用いられてきた。 いくつかのテクニックでは、マルチスペクトルイメージング、合成開口レーダ(\emph{sar})イメージング、空中画像、ポイントクラウドデータなどの異なるモダリティを組み合わせたマルチモーダル分析を採用している。 しかし,河川砂原地域の識別スペクトル特性は未だ十分に検討されていない。 本報告では, 砂質地中の砂質地を, 季節ごとのラベル付きデータのないマルチスペクトル画像を用いて検出する手法を提案する。 河川の流れとミネラルの豊富さとの関係は、そのような地域で最も顕著な特徴である。 提案研究はこれらの特徴を,他の高鉱物量地域に対して頑健な河川砂岩地域のスペクトル特性を決定するために利用した。 2段階のアプローチで、第1に、潜在的に高い鉱物領域が検出され、次に、川流の存在によって分離される。 提案手法は、ラベル付きデータセットを使わずにランドサット8号の画像からそれぞれ90.75%、85.47%、73.5%の平均精度、精度、リコールを提供する。

Sand mining is a booming industry. The river sandbank is one of the primary sources of sand mining. Detection of potential river sandbank regions for sand mining directly impacts the economy, society, and environment. In the past, semi-supervised and supervised techniques have been used to detect mining regions including sand mining. A few techniques employ multi-modal analysis combining different modalities such as multi-spectral imaging, synthetic aperture radar (\emph{SAR}) imaging, aerial images, and point cloud data. However, the distinguishing spectral characteristics of river sandbank regions are yet to be fully explored. This paper provides a novel method to detect river sandbank regions for sand mining using multi-spectral images without any labeled data over the seasons. Association with a river stream and the abundance of minerals are the most prominent features of such a region. The proposed work uses these distinguishing features to determine the spectral signature of a river sandbank region, which is robust to other high mineral abundance regions. It follows a two-step approach, where first, potential high mineral regions are detected and next, they are segregated using the presence of a river stream. The proposed technique provides average accuracy, precision, and recall of 90.75%, 85.47%, and 73.5%, respectively over the seasons from Landsat 8 images without using any labeled dataset.
翻訳日:2023-07-05 16:42:29 公開日:2023-07-01
# pm-detr:トランスフォーマーを用いた物体検出のためのドメイン適応型プロンプトメモリ

PM-DETR: Domain Adaptive Prompt Memory for Object Detection with Transformers ( http://arxiv.org/abs/2307.00313v1 )

ライセンス: Link先を確認
Peidong Jia, Jiaming Liu, Senqiao Yang, Jiarui Wu, Xiaodong Xie, Shanghang Zhang(参考訳) トランスフォーマーベースの検出器(DETR)は、エンドツーエンドのオブジェクト検出に顕著な性能を示した。 しかし、DETRを異なるデータ分散に転送すると、性能が著しく低下する可能性がある。 既存の適応手法は、機能アライメントを活用して異なるドメイン間の分散シフトを狭めるモデルベースのアプローチに焦点を当てている。 本研究では,検出トランスを異なる分布に適応させるための階層型プロンプトドメインメモリ(pdm)を提案する。 pdmはプロンプトメモリを総合的に活用してドメイン固有の知識を抽出し、データ分散のための長期記憶空間を明示的に構築する。 具体的には、各プロンプトと対応する分布値をメモリ空間にペアリングし、トップM分布類似プロンプトをDETRの入力およびマルチレベル埋め込みに注入する。 さらに、プロンプトメモリアライメント(PMA)を導入し、プロンプトドメインメモリから抽出したドメイン固有の知識を十分に活用することにより、ソースとターゲットドメインの相違を低減する。 本手法は,現場,合成から現実,気象順応の3つのベンチマークにおいて,最先端領域適応オブジェクト検出法より優れていることを示す。 コードはリリースされる。

The Transformer-based detectors (i.e., DETR) have demonstrated impressive performance on end-to-end object detection. However, transferring DETR to different data distributions may lead to a significant performance degradation. Existing adaptation techniques focus on model-based approaches, which aim to leverage feature alignment to narrow the distribution shift between different domains. In this study, we propose a hierarchical Prompt Domain Memory (PDM) for adapting detection transformers to different distributions. PDM comprehensively leverages the prompt memory to extract domain-specific knowledge and explicitly constructs a long-term memory space for the data distribution, which represents better domain diversity compared to existing methods. Specifically, each prompt and its corresponding distribution value are paired in the memory space, and we inject top M distribution-similar prompts into the input and multi-level embeddings of DETR. Additionally, we introduce the Prompt Memory Alignment (PMA) to reduce the discrepancy between the source and target domains by fully leveraging the domain-specific knowledge extracted from the prompt domain memory. Extensive experiments demonstrate that our method outperforms state-of-the-art domain adaptive object detection methods on three benchmarks, including scene, synthetic to real, and weather adaptation. Codes will be released.
翻訳日:2023-07-05 16:42:07 公開日:2023-07-01
# DP-SGDでは感度が過大評価される

Gradients Look Alike: Sensitivity is Often Overestimated in DP-SGD ( http://arxiv.org/abs/2307.00310v1 )

ライセンス: Link先を確認
Anvith Thudi, Hengrui Jia, Casey Meehan, Ilia Shumailov, Nicolas Papernot(参考訳) differentially private stochastic gradient descent (dp-sgd) は、民間ディープラーニングの標準アルゴリズムである。 そのプライバシ解析は最悪のケースでは厳しいことが知られているが、いくつかの実験結果から、一般的なベンチマークデータセットでトレーニングすると、多くのデータポイントのプライバシが大幅に低下したことが示されている。 本稿では,DP-SGDの新しい分析法を開発し,データセットの類似した隣人がアウトリージよりもプライバシーを享受できることを示す。 形式的には、DP-SGDのステップごとのプライバシー分析を変更して、トレーニングデータセットから計算されたモデル更新の分布に依存するようにする。 さらに,新しい構成定理を考案し,この新しい1ステップ分析を,トレーニング実行全体の推論に有効活用する。 まとめると、この新たなDP-SGD分析により、DP-SGDのリークが多くのデータポイントのプライバシーを著しく低下させることを示すことができる。 特に、正しく分類されたポイントは、誤分類されたポイントよりも優れたプライバシー保証が得られることを観察する。

Differentially private stochastic gradient descent (DP-SGD) is the canonical algorithm for private deep learning. While it is known that its privacy analysis is tight in the worst-case, several empirical results suggest that when training on common benchmark datasets, the models obtained leak significantly less privacy for many datapoints. In this paper, we develop a new analysis for DP-SGD that captures the intuition that points with similar neighbors in the dataset enjoy better privacy than outliers. Formally, this is done by modifying the per-step privacy analysis of DP-SGD to introduce a dependence on the distribution of model updates computed from a training dataset. We further develop a new composition theorem to effectively use this new per-step analysis to reason about an entire training run. Put all together, our evaluation shows that this novel DP-SGD analysis allows us to now formally show that DP-SGD leaks significantly less privacy for many datapoints. In particular, we observe that correctly classified points obtain better privacy guarantees than misclassified points.
翻訳日:2023-07-05 16:41:47 公開日:2023-07-01
# 3Dポイントクラウド分類における敵攻撃と防御:サーベイ

Adversarial Attacks and Defenses on 3D Point Cloud Classification: A Survey ( http://arxiv.org/abs/2307.00309v1 )

ライセンス: Link先を確認
Hanieh Naderi and Ivan V. Baji\'c(参考訳) ディープラーニングは、支配的なAI技術として、2Dビジョンにおける幅広いタスクをうまく解決した。 近年、3dポイントクラウドでのディープラーニングは、この分野のさまざまなタスクに対処するために人気が高まっている。 顕著な成果にもかかわらず、ディープラーニングアルゴリズムは敵の攻撃に対して脆弱である。 これらの攻撃は人間の目には知覚できないが、テストや展開の段階ではディープニューラルネットワークを簡単に騙すことができる。 今後の研究を促進するため、この調査は、ポイントクラウド分類における敵攻撃と防御技術の現状をまとめたものである。 本稿では,先ず敵の攻撃の原理と特性を紹介し,近年の敵の事例生成手法を要約し,分析する。 さらに、防御戦略を入力変換、データ最適化、深層モデル修正として分類する。 最後に、この分野におけるいくつかの課題と今後の研究の方向性を示す。

Deep learning has successfully solved a wide range of tasks in 2D vision as a dominant AI technique. Recently, deep learning on 3D point clouds is becoming increasingly popular for addressing various tasks in this field. Despite remarkable achievements, deep learning algorithms are vulnerable to adversarial attacks. These attacks are imperceptible to the human eye but can easily fool deep neural networks in the testing and deployment stage. To encourage future research, this survey summarizes the current progress on adversarial attack and defense techniques on point cloud classification. This paper first introduces the principles and characteristics of adversarial attacks and summarizes and analyzes the adversarial example generation methods in recent years. Besides, it classifies defense strategies as input transformation, data optimization, and deep model modification. Finally, it presents several challenging issues and future research directions in this domain.
翻訳日:2023-07-05 16:41:26 公開日:2023-07-01
# 産業環境における異常検出のための機械学習アルゴリズムの比較研究:性能と環境影響

A Comparative Study of Machine Learning Algorithms for Anomaly Detection in Industrial Environments: Performance and Environmental Impact ( http://arxiv.org/abs/2307.00361v1 )

ライセンス: Link先を確認
\'Alvaro Huertas-Garc\'ia and Carlos Mart\'i-Gonz\'alez and Rub\'en Garc\'ia Maezo and Alejandro Echeverr\'ia Rey(参考訳) 産業4.0の文脈では、異常検出における人工知能(AI)と機械学習の使用は、高い計算要求と関連する環境効果によって妨げられている。 本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に対処し,「グリーンAI」の新たな話題に寄与する。 様々な多層パーセプトロン(mlp)構成が組み合わされた多彩な機械学習アルゴリズムを細心の注意を払って評価した。 調査では,精度,エリアアンダー・ザ・カーブ(AUC),リコール,精度,F1スコア,カッパ統計,マシューズ相関係数(MCC),F1マクロなどの総合的な評価指標をカプセル化した。 同時に、これらのモデルの環境フットプリントは、トレーニング、クロスバリデーション、推論フェーズにおける時間、CO2等価性、エネルギー消費を考慮して測定された。 Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。 しかし, 資源消費の累積増加にもかかわらず, MLP構成の最適化により, 優れた結果が得られた。 この研究は、モデルの性能と環境への影響の間のトレードオフを強調するために、パレートの最適性原則を誘発する多目的最適化アプローチを取り入れた。 この洞察は、モデルのパフォーマンス、複雑さ、環境影響のバランスを取ることの意義を基礎として、産業応用のための環境に配慮した機械学習モデルの開発において、将来の研究に有用な方向を与えている。

In the context of Industry 4.0, the use of artificial intelligence (AI) and machine learning for anomaly detection is being hampered by high computational requirements and associated environmental effects. This study seeks to address the demands of high-performance machine learning models with environmental sustainability, contributing to the emerging discourse on 'Green AI.' An extensive variety of machine learning algorithms, coupled with various Multilayer Perceptron (MLP) configurations, were meticulously evaluated. Our investigation encapsulated a comprehensive suite of evaluation metrics, comprising Accuracy, Area Under the Curve (AUC), Recall, Precision, F1 Score, Kappa Statistic, Matthews Correlation Coefficient (MCC), and F1 Macro. Simultaneously, the environmental footprint of these models was gauged through considerations of time duration, CO2 equivalent, and energy consumption during the training, cross-validation, and inference phases. Traditional machine learning algorithms, such as Decision Trees and Random Forests, demonstrate robust efficiency and performance. However, superior outcomes were obtained with optimised MLP configurations, albeit with a commensurate increase in resource consumption. The study incorporated a multi-objective optimisation approach, invoking Pareto optimality principles, to highlight the trade-offs between a model's performance and its environmental impact. The insights derived underscore the imperative of striking a balance between model performance, complexity, and environmental implications, thus offering valuable directions for future work in the development of environmentally conscious machine learning models for industrial applications.
翻訳日:2023-07-05 16:36:06 公開日:2023-07-01
# BatGPT: 生成型事前学習型変圧器による双方向自動補聴器

BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained Transformer ( http://arxiv.org/abs/2307.00360v1 )

ライセンス: Link先を確認
Zuchao Li, Shitou Zhang, Hai Zhao, Yifei Yang, Dongjie Yang(参考訳) BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。 テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。 モデリングレベルでは、モデルが自然言語の複雑な依存関係を効率的に捉えることができ、言語生成、対話システム、質問応答といったタスクに非常に効果的である双方向の自己回帰アーキテクチャを採用しています。 さらに、双方向自己回帰モデリングは、左から右へだけでなく、右から左へも動作し、固定メモリ効果を効果的に低減し、モデル幻覚を緩和する。 学習面では、より小さなモデルの事前学習を活用し、モデルのアライメント性能を向上させることを目的とした、aiと人間のフィードバックからの強化学習を活用できる新しいパラメータ拡張手法を提案する。 全体として、これらのアプローチはBatGPTの有効性を大幅に改善し、そのモデルは幅広い自然言語アプリケーションに利用することができる。

BatGPT is a large-scale language model designed and trained jointly by Wuhan University and Shanghai Jiao Tong University. It is capable of generating highly natural and fluent text in response to various types of input, including text prompts, images, and audio. In the modeling level, we employ a bidirectional autoregressive architecture that allows the model to efficiently capture the complex dependencies of natural language, making it highly effective in tasks such as language generation, dialog systems, and question answering. Moreover, the bidirectional autoregressive modeling not only operates from left to right but also from right to left, effectively reducing fixed memory effects and alleviating model hallucinations. In the training aspect, we propose a novel parameter expansion method for leveraging the pre-training of smaller models and employ reinforcement learning from both AI and human feedback, aimed at improving the model's alignment performance. Overall, these approaches significantly improve the effectiveness of BatGPT, and the model can be utilized for a wide range of natural language applications.
翻訳日:2023-07-05 16:35:32 公開日:2023-07-01
# 合成データメット制御のとき

When Synthetic Data Met Regulation ( http://arxiv.org/abs/2307.00359v1 )

ライセンス: Link先を確認
Georgi Ganev(参考訳) 本稿では、微分プライベート生成モデルによって生成された合成データは十分な匿名化が可能であり、従って匿名データと規制に準拠する。

In this paper, we argue that synthetic data produced by Differentially Private generative models can be sufficiently anonymized and, therefore, anonymous data and regulatory compliant.
翻訳日:2023-07-05 16:35:15 公開日:2023-07-01
# Fedward: 非IIDデータによるフレキシブルなフェデレーションバックドアディフェンスフレームワーク

Fedward: Flexible Federated Backdoor Defense Framework with Non-IID Data ( http://arxiv.org/abs/2307.00356v1 )

ライセンス: Link先を確認
Zekai Chen, Fuyi Wang, Zhiwei Zheng, Ximeng Liu, Yujie Lin(参考訳) federated learning(fl)は、機密性の高いローカルデータセットのプライバシを考慮しながら、複数のクライアントが共同でディープラーニングモデルをトレーニング可能にする。 しかし、敵はフェデレーションバックドアアタック(fba)のトリガーを注入することでデータセットを操作し、モデルをアップロードすることができる。 既存のFBAに対する防衛戦略では、特定の攻撃モデルと限定的な攻撃モデルが考慮されており、FBAを除去するよりも、十分な量のノイズが注入される。 これらの欠陥に対処するために、敵のバックドアの排除を保証するフレキシブル・フェデレーション・バックドア・ディフェンス・フレームワーク(Fedward)を導入する。 我々は、FBAを様々な攻撃に分解し、各攻撃に対応するために、AmGrad(Am Grad)と適応OPTICSクラスタリング(AutoOPTICS)を設計する。 一方、Fedwardは、境界上の制約として良性群のサンプル数についてアダプティブクリッピング法を用いる。 これにより、Fedwardは非IIDシナリオのパフォーマンスを維持できる。 3つのベンチマークデータセットを実験的に評価し,それを最先端の研究と比較した。 その結果,feedwardが有望な防御性能を示し,クラスタリング防御法で33%$\sim$ 75,非iidで96.98%,90.74%,89.8%,mnist,fmnist,cifar10に対して平均的なfba成功率が最も低い値となった。

Federated learning (FL) enables multiple clients to collaboratively train deep learning models while considering sensitive local datasets' privacy. However, adversaries can manipulate datasets and upload models by injecting triggers for federated backdoor attacks (FBA). Existing defense strategies against FBA consider specific and limited attacker models, and a sufficient amount of noise to be injected only mitigates rather than eliminates FBA. To address these deficiencies, we introduce a Flexible Federated Backdoor Defense Framework (Fedward) to ensure the elimination of adversarial backdoors. We decompose FBA into various attacks, and design amplified magnitude sparsification (AmGrad) and adaptive OPTICS clustering (AutoOPTICS) to address each attack. Meanwhile, Fedward uses the adaptive clipping method by regarding the number of samples in the benign group as constraints on the boundary. This ensures that Fedward can maintain the performance for the Non-IID scenario. We conduct experimental evaluations over three benchmark datasets and thoroughly compare them to state-of-the-art studies. The results demonstrate the promising defense performance from Fedward, moderately improved by 33% $\sim$ 75 in clustering defense methods, and 96.98%, 90.74%, and 89.8% for Non-IID to the utmost extent for the average FBA success rate over MNIST, FMNIST, and CIFAR10, respectively.
翻訳日:2023-07-05 16:35:11 公開日:2023-07-01
# 空間時間エンハンストランスによるマルチフレーム3次元物体検出

Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object Detection ( http://arxiv.org/abs/2307.00347v1 )

ライセンス: Link先を確認
Yifan Zhang, Zhiyu Zhu, and Junhui Hou(参考訳) 検出変換器(DETR)はCNNベースのオブジェクト検出システムの設計に革命をもたらし、優れた性能を示している。 しかし、マルチフレーム3dオブジェクト検出領域におけるその可能性はほとんど未解明のままである。 本稿では,detrライクなパラダイムに基づくマルチフレーム3dオブジェクト検出のための新しいエンドツーエンドフレームワークstemdを提案する。 提案手法では,マルチフレーム3次元物体検出をシーケンスからシーケンスへのタスクとして扱い,特徴量とクエリレベルの両方において空間-時間依存を効果的に捉える。 オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、時空間グラフ注意ネットワークを導入する。 このネットワークはクエリをグラフ内のノードとして表現し、ソーシャルコンテキスト内のオブジェクトインタラクションの効果的なモデリングを可能にする。 また、現在のフレームで提案されているエンコーダの出力において、ハードケースを欠くという問題を解決するために、前フレームの出力を組み込んでデコーダのクエリ入力を初期化する。 さらに,モデルが類似クエリから重複する多数のボックスを生成する冗長検出結果の問題にも対処する。 これを軽減するために、損失関数にIoU正規化項を導入する。 この用語は、接地ボックスにマッチしたクエリと、リファインメントプロセス中に類似するが一致しないクエリを区別するのに役立ち、冗長性の低減とより正確な検出に繋がる。 大規模な実験を通じて,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。 コードは \url{https://github.com/Eaphan/STEMD} で入手できる。

The Detection Transformer (DETR) has revolutionized the design of CNN-based object detection systems, showcasing impressive performance. However, its potential in the domain of multi-frame 3D object detection remains largely unexplored. In this paper, we present STEMD, a novel end-to-end framework for multi-frame 3D object detection based on the DETR-like paradigm. Our approach treats multi-frame 3D object detection as a sequence-to-sequence task and effectively captures spatial-temporal dependencies at both the feature and query levels. To model the inter-object spatial interaction and complex temporal dependencies, we introduce the spatial-temporal graph attention network. This network represents queries as nodes in a graph and enables effective modeling of object interactions within a social context. In addition, to solve the problem of missing hard cases in the proposed output of the encoder in the current frame, we incorporate the output of the previous frame to initialize the query input of the decoder. Moreover, we tackle the issue of redundant detection results, where the model generates numerous overlapping boxes from similar queries. To mitigate this, we introduce an IoU regularization term in the loss function. This term aids in distinguishing between queries matched with the ground-truth box and queries that are similar but unmatched during the refinement process, leading to reduced redundancy and more accurate detections. Through extensive experiments, we demonstrate the effectiveness of our approach in handling challenging scenarios, while incurring only a minor additional computational overhead. The code will be available at \url{https://github.com/Eaphan/STEMD}.
翻訳日:2023-07-05 16:34:41 公開日:2023-07-01
# Group Concave正則化を用いたスパース入力ニューラルネットワーク

Sparse-Input Neural Network using Group Concave Regularization ( http://arxiv.org/abs/2307.00344v1 )

ライセンス: Link先を確認
Bin Luo and Susan Halabi(参考訳) 特に、モデルで利用可能なサンプルサイズを超える変数の数が高次元設定では、同時特徴選択と非線形関数推定が困難である。 本稿では,ニューラルネットワークにおける特徴選択の問題について検討する。 LASSO群はニューラルネットワークで学習する変数の選択に利用されてきたが、過収縮を補うためにモデルに重要でない変数を選択する傾向がある。 この制限を克服するために,低次元と高次元の両方で特徴選択を行うグループ凹凸正規化を用いたスパースインプットニューラルネットワークのフレームワークを提案する。 主なアイデアは、各入力ノードのすべての接続からの重みの$l_2$ノルムに適切な凹型ペナルティを適用することで、元の変数の小さなサブセットのみを使用するニューラルネットワークを得ることである。 さらに,複雑な最適化ランドスケープの課題に対処するため,後方経路最適化に基づく効率的な解経路生成アルゴリズムを開発した。 提案手法は,連続的,二分的,イベント間の結果をモデル化するための特徴選択と予測において,提案手法を満足できる有限サンプル性能を示す。

Simultaneous feature selection and non-linear function estimation are challenging, especially in high-dimensional settings where the number of variables exceeds the available sample size in modeling. In this article, we investigate the problem of feature selection in neural networks. Although the group LASSO has been utilized to select variables for learning with neural networks, it tends to select unimportant variables into the model to compensate for its over-shrinkage. To overcome this limitation, we propose a framework of sparse-input neural networks using group concave regularization for feature selection in both low-dimensional and high-dimensional settings. The main idea is to apply a proper concave penalty to the $l_2$ norm of weights from all outgoing connections of each input node, and thus obtain a neural net that only uses a small subset of the original variables. In addition, we develop an effective algorithm based on backward path-wise optimization to yield stable solution paths, in order to tackle the challenge of complex optimization landscapes. Our extensive simulation studies and real data examples demonstrate satisfactory finite sample performances of the proposed estimator, in feature selection and prediction for modeling continuous, binary, and time-to-event outcomes.
翻訳日:2023-07-05 16:34:15 公開日:2023-07-01
# タスクスペシャライゼーションの促進によるマルチタスク検索の改善

Improving Multitask Retrieval by Promoting Task Specialization ( http://arxiv.org/abs/2307.00342v1 )

ライセンス: Link先を確認
Wenzheng Zhang, Chenyan Xiong, Karl Stratos, Arnold Overwijk(参考訳) マルチタスク検索では、単一のレトリバーが複数のタスクに関連するコンテキストを取得するように訓練される。 現実的な魅力にもかかわらず、タスク固有の検索に遅れが生じ、各タスクに対して個別の検索者が訓練される。 タスクの特殊化を促進させることで,タスク固有のレトリバーを上回るマルチタスクレトリバーを訓練できることを示す。 主な構成要素は、(1)事前学習されたモデル(マルチタスクに明示的に最適化されたモデル)のより良い選択、(2)特定のタスクにおいて各パラメータに特化するように促す新しい適応学習方法である。 得られたマルチタスクレトリバーはKILTベンチマークで高い性能を発揮する。 分析の結果,本モデルでは,学習の促進や適応化を伴わずに,従来のマルチタスクよりもタスク特化度の高いパラメータを学習することがわかった。

In multitask retrieval, a single retriever is trained to retrieve relevant contexts for multiple tasks. Despite its practical appeal, naive multitask retrieval lags behind task-specific retrieval in which a separate retriever is trained for each task. We show that it is possible to train a multitask retriever that outperforms task-specific retrievers by promoting task specialization. The main ingredients are: (1) a better choice of pretrained model (one that is explicitly optimized for multitasking) along with compatible prompting, and (2) a novel adaptive learning method that encourages each parameter to specialize in a particular task. The resulting multitask retriever is highly performant on the KILT benchmark. Upon analysis, we find that the model indeed learns parameters that are more task-specialized compared to naive multitasking without prompting or adaptive learning.
翻訳日:2023-07-05 16:33:54 公開日:2023-07-01
# 再帰的アルゴリズム推論

Recursive Algorithmic Reasoning ( http://arxiv.org/abs/2307.00337v1 )

ライセンス: Link先を確認
Dulhan Jayalath, Jonas J\"ur{\ss}, Petar Veli\v{c}kovi\'c(参考訳) アルゴリズムを実行する学習モデルは、ディープラーニングにおける重要な問題に対処することができる。 しかし、ニューラルネットワークは現在、状態の保存とリコールに任意に大きなメモリを持たないため、再帰的アルゴリズムを実行できない。 これを解決するために,(1)グラフニューラルネットワーク(GNN)をスタックで拡張する方法を提案し,(2)従来の手法よりもアルゴリズムと再帰的アルゴリズムとの整合性を改善する中間アルゴリズムトラジェクトリを捕捉する手法を開発した。 このスタックにより、ネットワークは、再帰アルゴリズムにおけるコールスタックの動作に類似した、ネットワークの状態の一部を特定の時間に格納し、リコールすることを学ぶことができる。 この拡張により、ネットワークは再帰的に推論できる。 提案手法は,deep-first search (DFS) の先行研究よりも,より大きな入力グラフへの一般化が著しく向上することを示す。

Learning models that execute algorithms can enable us to address a key problem in deep learning: generalizing to out-of-distribution data. However, neural networks are currently unable to execute recursive algorithms because they do not have arbitrarily large memory to store and recall state. To address this, we (1) propose a way to augment graph neural networks (GNNs) with a stack, and (2) develop an approach for capturing intermediate algorithm trajectories that improves algorithmic alignment with recursive algorithms over previous methods. The stack allows the network to learn to store and recall a portion of the state of the network at a particular time, analogous to the action of a call stack in a recursive algorithm. This augmentation permits the network to reason recursively. We empirically demonstrate that our proposals significantly improve generalization to larger input graphs over prior work on depth-first search (DFS).
翻訳日:2023-07-05 16:33:39 公開日:2023-07-01
# マルチホップQAのための推論グラフ上の単一シーケンス予測

Single Sequence Prediction over Reasoning Graphs for Multi-hop QA ( http://arxiv.org/abs/2307.00335v1 )

ライセンス: Link先を確認
Gowtham Ramesh and Makesh Sreedhar and Junjie Hu(参考訳) 近年,Multi-hop question answering (QA) における生成的アプローチとして,fusion-in-decoder 法~\cite{izacard-grave-2021-leveraging} を用いて最終回答とそれに到達するための推論経路を含む単一シーケンス出力を生成する。 このようなモデルは解釈可能性の向上と量的スコアの向上につながるが、文脈のキーエンティティに対応するパスを正確に識別することは困難であり、誤った通過ホップと推論経路における忠実性の欠如をもたらす。 これに対処するために、我々は、各質問に対する各コンテキストパスのキーエンティティと関連する後続の文を接続するグラフ構造を統合する、ローカル推論グラフ (\model)\footnote{code/models) 上の単一シーケンス予測手法を \url{https://github.com/gowtham 1997/seqgraph}} でリリースする。 このグラフ構造をエンコードするためにグラフニューラルネットワークを使用し、その結果の表現をモデルのエンティティ表現に融合します。 実験の結果,HotpotQAデータセットの推論経路における解答精度とグラウンドディングの忠実度は有意に向上し,モデルパラメータの最大4倍の増加しか得られなかった。

Recent generative approaches for multi-hop question answering (QA) utilize the fusion-in-decoder method~\cite{izacard-grave-2021-leveraging} to generate a single sequence output which includes both a final answer and a reasoning path taken to arrive at that answer, such as passage titles and key facts from those passages. While such models can lead to better interpretability and high quantitative scores, they often have difficulty accurately identifying the passages corresponding to key entities in the context, resulting in incorrect passage hops and a lack of faithfulness in the reasoning path. To address this, we propose a single-sequence prediction method over a local reasoning graph (\model)\footnote{Code/Models will be released at \url{https://github.com/gowtham1997/SeqGraph}} that integrates a graph structure connecting key entities in each context passage to relevant subsequent passages for each question. We use a graph neural network to encode this graph structure and fuse the resulting representations into the entity representations of the model. Our experiments show significant improvements in answer exact-match/F1 scores and faithfulness of grounding in the reasoning path on the HotpotQA dataset and achieve state-of-the-art numbers on the Musique dataset with only up to a 4\% increase in model parameters.
翻訳日:2023-07-05 16:33:23 公開日:2023-07-01
# 変分認識型視覚変換器量子化

Variation-aware Vision Transformer Quantization ( http://arxiv.org/abs/2307.00331v1 )

ライセンス: Link先を確認
Xijie Huang, Zhiqiang Shen, Kwang-Ting Cheng(参考訳) 視覚タスクにおける視覚変換器(ViT)の顕著な性能にもかかわらず、ViTの計算とモデルサイズの拡大により、トレーニングや推論における効率向上への需要が高まっている。 重い計算とパラメータの欠点に対処するため、量子化はコミュニティにおいて代表モデル圧縮技術として頻繁に研究され、CNNで広く利用されている。 しかし、CNN と ViT のユニークな性質のため、ViT 上の量子化の応用は限定的であり、未探索である。 本稿では,従来のCNNアーキテクチャと異なり,その特異な変動挙動におけるViT量子化の難しさを明らかにする。 変動はパラメータのゆらぎの大きさを示し、異常条件も測定できる。 さらに、変動挙動は各モジュールの量子化に様々な感度を反映する。 量子化感度分析とCNNとの比較は、変動の根底にある違いを見つけるのに役立ちます。 また、ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことも見出した。 そこで本研究では,効率的な知識蒸留に基づく変分量化手法を用いて変分問題を解く。 マルチクロップ知識蒸留方式は, 学習を加速・安定化し, qatにおける変動の影響を緩和することができる。 また,重みの振動を抑制するため,モジュール依存量子化方式と変分対応正規化項も提案した。 ImageNet-1Kでは、2ビットのSwin-Tの超低ビットシナリオで77.66%のTop-1精度が得られる。

Despite the remarkable performance of Vision Transformers (ViTs) in various visual tasks, the expanding computation and model size of ViTs have increased the demand for improved efficiency during training and inference. To address the heavy computation and parameter drawbacks, quantization is frequently studied in the community as a representative model compression technique and has seen extensive use on CNNs. However, due to the unique properties of CNNs and ViTs, the quantization applications on ViTs are still limited and underexplored. In this paper, we identify the difficulty of ViT quantization on its unique variation behaviors, which differ from traditional CNN architectures. The variations indicate the magnitude of the parameter fluctuations and can also measure outlier conditions. Moreover, the variation behaviors reflect the various sensitivities to the quantization of each module. The quantization sensitivity analysis and comparison of ViTs with CNNs help us locate the underlying differences in variations. We also find that the variations in ViTs cause training oscillations, bringing instability during quantization-aware training (QAT). Correspondingly, we solve the variation problem with an efficient knowledge-distillation-based variation-aware quantization method. The multi-crop knowledge distillation scheme can accelerate and stabilize the training and alleviate the variation's influence during QAT. We also proposed a module-dependent quantization scheme and a variation-aware regularization term to suppress the oscillation of weights. On ImageNet-1K, we obtain a 77.66% Top-1 accuracy on the extremely low-bit scenario of 2-bit Swin-T, outperforming the previous state-of-the-art quantized model by 3.35%.
翻訳日:2023-07-05 16:32:54 公開日:2023-07-01
# CasTGAN:リアルなタブラルデータ合成のためのカスケード生成逆ネットワーク

CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular Data Synthesis ( http://arxiv.org/abs/2307.00384v1 )

ライセンス: Link先を確認
Abdallah Alshantti, Damiano Varagnolo, Adil Rasheed, Aria Rahmati and Frank Westad(参考訳) 近年,複数の目的に利用できる合成データの生成能力が証明されているため,GAN(Generative Adversarial Network)が注目されている。 ganは、オリジナルのデータセットのダイナミクスを再現する合成データサンプルの作成に多大な成功を収めているが、合成データの妥当性と基礎となるプライバシ上の懸念は、十分に対処されていない大きな課題を表している。 本研究では,出力の妥当性に焦点を絞った現実的な表データを生成するためのカスケード付きganフレームワーク(castgan)を設計する。 この文脈では、妥当性とは、実際のデータに見られる特徴間の依存関係を指すが、通常は伝統的な生成モデルによって誤解される。 私たちのキーとなるアイデアは、専用のジェネレータが各特徴をサンプリングするカスケードアーキテクチャを利用することで、合成出力が実際のデータより代表的になるということです。 実験の結果,本モデルは実データ,特に高次元データセットの特徴間の制約と相関をよく捉えていることがわかった。 さらに,本モデルに対するホワイトボックス・プライバシ攻撃のリスクを評価した結果,CasTGANの補助学習者に対する摂動がターゲット攻撃に対するモデル全体の堅牢性を高めることを示した。

Generative adversarial networks (GANs) have drawn considerable attention in recent years for their proven capability in generating synthetic data which can be utilized for multiple purposes. While GANs have demonstrated tremendous successes in producing synthetic data samples that replicate the dynamics of the original datasets, the validity of the synthetic data and the underlying privacy concerns represent major challenges which are not sufficiently addressed. In this work, we design a cascaded tabular GAN framework (CasTGAN) for generating realistic tabular data with a specific focus on the validity of the output. In this context, validity refers to the the dependency between features that can be found in the real data, but is typically misrepresented by traditional generative models. Our key idea entails that employing a cascaded architecture in which a dedicated generator samples each feature, the synthetic output becomes more representative of the real data. Our experimental results demonstrate that our model well captures the constraints and the correlations between the features of the real data, especially the high dimensional datasets. Furthermore, we evaluate the risk of white-box privacy attacks on our model and subsequently show that applying some perturbations to the auxiliary learners in CasTGAN increases the overall robustness of our model against targeted attacks.
翻訳日:2023-07-05 16:25:30 公開日:2023-07-01
# ナイジェリアピジンの低リソースクロスリンガル適応訓練

Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin ( http://arxiv.org/abs/2307.00382v1 )

ライセンス: Link先を確認
Pin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel Scholman(参考訳) 低リソース言語のための効果的な音声言語処理システムの開発には、並列データの欠如や微調整モデルのリソース不足など、いくつかの課題がある。 本研究では,ナイジェリアのピジン (Naija) のテキスト分類と翻訳の改善を,大規模並列な英語-ピジンコーパスを収集することで目標とし,また,低リソース言語に基礎となる事前学習モデルを適用するために,継続学習とタスク適応トレーニングの両方を含む言語間適応トレーニングの枠組みを提案する。 本研究は,英語の事前学習言語モデルが,最大2.38 BLEUの改善を伴って,英語-Pidgin のタスクにおいて,多言語言語モデルよりも強い役割を担っていることを示す。

Developing effective spoken language processing systems for low-resource languages poses several challenges due to the lack of parallel data and limited resources for fine-tuning models. In this work, we target on improving upon both text classification and translation of Nigerian Pidgin (Naija) by collecting a large-scale parallel English-Pidgin corpus and further propose a framework of cross-lingual adaptive training that includes both continual and task adaptive training so as to adapt a base pre-trained model to low-resource languages. Our studies show that English pre-trained language models serve as a stronger prior than multilingual language models on English-Pidgin tasks with up to 2.38 BLEU improvements; and demonstrate that augmenting orthographic data and using task adaptive training with back-translation can have a significant impact on model performance.
翻訳日:2023-07-05 16:25:05 公開日:2023-07-01
# エンティティ抽出と神経再ランキングを用いた患者と臨床試験の効果的なマッチング

Effective Matching of Patients to Clinical Trials using Entity Extraction and Neural Re-ranking ( http://arxiv.org/abs/2307.00381v1 )

ライセンス: Link先を確認
Wojciech Kusa, \'Oscar E. Mendoza, Petr Knoth, Gabriella Pasi, Allan Hanbury(参考訳) 臨床試験(cts)はしばしば不適切な患者採用のために失敗する。 本稿では,ct検索の課題に対処し,患者対審パラダイムに取り組むアプローチを提案する。 私たちのアプローチには、パイプラインベースのモデルにおける2つの重要なコンポーネントがあります。 (i)第1の検索段階における問合せと文書の双方を強化するためのデータエンリッチメント技術 (II)CT文書の構造を活用して,このタスクに適合した設定でトランスフォーマーネットワークを利用する新しい再ランクスキーマ。 我々は,患者の記述とCTの適性セクションの両方において,名前付き実体認識と否定検出を用いる。 我々はさらに、患者の説明とCTの適性基準を現在の、過去、家族の医療状況に分類する。 この抽出された情報は、語彙検索のためのクエリとインデックスの両方において、疾患や薬物の言及の重要性を高めるために使用される。 さらに,語彙検索の結果を並べ替えるのに使用されるTransformerネットワークのための2段階のトレーニングスキーマを提案する。 第1段階は、患者の情報と臨床試験の記述セクションとの整合性に焦点を当て、第2段階は、患者情報と基準セクションとの整合性を決定することを目的としている。 以上の結果から,CTの包含基準部は語彙モデルの関連性スコアに大きな影響を与え,クエリや文書のリッチ化技術は関連する治験の検索を改善することが示唆された。 トレーニングスキーマに基づく再評価戦略は,CT検索を継続的に強化し,適格な治験の精度を15倍に向上させる。 実験の結果,抽出された実体を利用するメリットが示唆された。 さらに,提案する再ランキングスキーマは,限られたトレーニングデータであっても,より大きなニューラルモデルと比較して有望な効果を示す。

Clinical trials (CTs) often fail due to inadequate patient recruitment. This paper tackles the challenges of CT retrieval by presenting an approach that addresses the patient-to-trials paradigm. Our approach involves two key components in a pipeline-based model: (i) a data enrichment technique for enhancing both queries and documents during the first retrieval stage, and (ii) a novel re-ranking schema that uses a Transformer network in a setup adapted to this task by leveraging the structure of the CT documents. We use named entity recognition and negation detection in both patient description and the eligibility section of CTs. We further classify patient descriptions and CT eligibility criteria into current, past, and family medical conditions. This extracted information is used to boost the importance of disease and drug mentions in both query and index for lexical retrieval. Furthermore, we propose a two-step training schema for the Transformer network used to re-rank the results from the lexical retrieval. The first step focuses on matching patient information with the descriptive sections of trials, while the second step aims to determine eligibility by matching patient information with the criteria section. Our findings indicate that the inclusion criteria section of the CT has a great influence on the relevance score in lexical models, and that the enrichment techniques for queries and documents improve the retrieval of relevant trials. The re-ranking strategy, based on our training schema, consistently enhances CT retrieval and shows improved performance by 15\% in terms of precision at retrieving eligible trials. The results of our experiments suggest the benefit of making use of extracted entities. Moreover, our proposed re-ranking schema shows promising effectiveness compared to larger neural models, even with limited training data.
翻訳日:2023-07-05 16:24:48 公開日:2023-07-01
# PINNにおける残留注意と情報ボトルネック理論との関係

Residual-based attention and connection to information bottleneck theory in PINNs ( http://arxiv.org/abs/2307.00379v1 )

ライセンス: Link先を確認
Sokratis J. Anagnostopoulos, Juan Diego Toscano, Nikolaos Stergiopulos, George Em Karniadakis(参考訳) 物理モデルとデータのより効率的でシームレスな統合の必要性によって、物理学インフォームドニューラルネットワーク(PINN)は近年、注目を集めている。 しかし、その収束と正確さの信頼性を確保することは依然として課題である。 本研究では,動的システムや静的システムの収束を高速化する,PINNの効率的な勾配なし重み付け手法を提案する。 このシンプルで効果的な注意機構は、累積残差の進化の関数であり、計算コストや逆学習を伴わない問題領域を最適化者に認識させることを目的としている。 この一般的な手法は、文献の典型的なベンチマークケースの標準オプティマイザを用いて、L^{2}$10^{-5}$の相対誤差を一貫して達成する。 さらに,学習中の重みの進化を調べることにより,情報ボトルネック(ib)理論によって提案された適合相と拡散相を想起する2つの異なる学習相を同定する。 その後の勾配解析は、高信号対雑音比(SNR)からの遷移を、採用重量の適合状態から拡散状態への遷移と整合させることで、この仮説を支持する。 この新しいPINNとIB理論の相関は、PINNのトレーニングと安定性の背後にあるメカニズムや、より広くは神経オペレーターを理解するための将来の可能性を開く可能性がある。

Driven by the need for more efficient and seamless integration of physical models and data, physics-informed neural networks (PINNs) have seen a surge of interest in recent years. However, ensuring the reliability of their convergence and accuracy remains a challenge. In this work, we propose an efficient, gradient-less weighting scheme for PINNs, that accelerates the convergence of dynamic or static systems. This simple yet effective attention mechanism is a function of the evolving cumulative residuals and aims to make the optimizer aware of problematic regions at no extra computational cost or adversarial learning. We illustrate that this general method consistently achieves a relative $L^{2}$ error of the order of $10^{-5}$ using standard optimizers on typical benchmark cases of the literature. Furthermore, by investigating the evolution of weights during training, we identify two distinct learning phases reminiscent of the fitting and diffusion phases proposed by the information bottleneck (IB) theory. Subsequent gradient analysis supports this hypothesis by aligning the transition from high to low signal-to-noise ratio (SNR) with the transition from fitting to diffusion regimes of the adopted weights. This novel correlation between PINNs and IB theory could open future possibilities for understanding the underlying mechanisms behind the training and stability of PINNs and, more broadly, of neural operators.
翻訳日:2023-07-05 16:24:22 公開日:2023-07-01
# 自然言語理解におけるサンプルサイズ決定の再検討

Revisiting Sample Size Determination in Natural Language Understanding ( http://arxiv.org/abs/2307.00374v1 )

ライセンス: Link先を確認
Ernie Chang, Muhammad Hassan Rashid, Pin-Jie Lin, Changsheng Zhao, Vera Demberg, Yangyang Shi, Vikas Chandra(参考訳) あるモデルのパフォーマンスを達成するためにどれだけのデータポイントをラベル付けする必要があるかを正確に知ることは、アノテーションの全体的な予算を減らすための非常に有益なステップです。 アクティブラーニングと従来のデータアノテーションの両方に関係しており、特に低リソースシナリオに有益である。 それにもかかわらず、NLPにおける研究のほとんど未調査領域である。 そこで本研究では,目標性能値を達成するために必要なトレーニングサンプルサイズを推定するための様々な手法について検討した。 データ品質とサンプルサイズ決定のためのデータアノテーションの初期段階の指標として,少量のトレーニングサンプルに基づいて,最大到達可能なモデルパフォーマンスを予測するための,単純かつ効果的なアプローチを考案した。 4つの言語理解課題に対するアブレーション研究を行い、提案手法により、平均絶対誤差(約0.9%)の範囲内で、10%のデータでモデル性能を予測できることを示した。

Knowing exactly how many data points need to be labeled to achieve a certain model performance is a hugely beneficial step towards reducing the overall budgets for annotation. It pertains to both active learning and traditional data annotation, and is particularly beneficial for low resource scenarios. Nevertheless, it remains a largely under-explored area of research in NLP. We therefore explored various techniques for estimating the training sample size necessary to achieve a targeted performance value. We derived a simple yet effective approach to predict the maximum achievable model performance based on small amount of training samples - which serves as an early indicator during data annotation for data quality and sample size determination. We performed ablation studies on four language understanding tasks, and showed that the proposed approach allows us to forecast model performance within a small margin of mean absolute error (~ 0.9%) with only 10% data.
翻訳日:2023-07-05 16:23:59 公開日:2023-07-01
# ドメイン一般化都市-シーンセグメンテーションのための学習コンテンツエンハンスドマスクトランス

Learning Content-enhanced Mask Transformer for Domain Generalized Urban-Scene Segmentation ( http://arxiv.org/abs/2307.00371v1 )

ライセンス: Link先を確認
Qi Bi, Shaodi You, Theo Gevers(参考訳) ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。 ドメインギャップの課題とは異なり、usssは、意味的なカテゴリが異なる都市シーンでよく似ているのに対して、都市景観の変化、気象条件、照明、その他の要因によりスタイルが著しく異なる点が特徴である。 既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。 本稿では、ドメイン一般化USSSのためのコンテンツ強化Mask TransFormer(CMFormer)を提案する。 主な考え方は、コンテンツ情報に対するトランスフォーマーセグメンテーションモデルにおける基本的なコンポーネントであるマスアテンション機構の焦点を強化することである。 そこで本研究では,新しいマスキング機構を提案する。 低解像度の画像機能は、通常より堅牢なコンテンツ情報を含み、スタイルのバリエーションに敏感でないため、イメージ機能とダウンサンプルの両方からマスククエリを学習する。 これらの機能はTransformerデコーダに融合され、マルチ解像度のコンテンツ強調学習スキームに統合される。 様々な領域一般化都市・シーンセグメンテーションデータセットを用いて行った大規模な実験により、提案したCMFormerは、ドメイン一般化セグメンテーションの既存のCNN手法を著しく上回っており、mIoUの点において最大14.00\%の改善が達成されている。 CMFormerのソースコードは、この \href{https://github.com/BiQiWHU/ domain- generalized-urban-scene-spository} で入手できる。

Domain-generalized urban-scene semantic segmentation (USSS) aims to learn generalized semantic predictions across diverse urban-scene styles. Unlike domain gap challenges, USSS is unique in that the semantic categories are often similar in different urban scenes, while the styles can vary significantly due to changes in urban landscapes, weather conditions, lighting, and other factors. Existing approaches typically rely on convolutional neural networks (CNNs) to learn the content of urban scenes. In this paper, we propose a Content-enhanced Mask TransFormer (CMFormer) for domain-generalized USSS. The main idea is to enhance the focus of the fundamental component, the mask attention mechanism, in Transformer segmentation models on content information. To achieve this, we introduce a novel content-enhanced mask attention mechanism. It learns mask queries from both the image feature and its down-sampled counterpart, as lower-resolution image features usually contain more robust content information and are less sensitive to style variations. These features are fused into a Transformer decoder and integrated into a multi-resolution content-enhanced mask attention learning scheme. Extensive experiments conducted on various domain-generalized urban-scene segmentation datasets demonstrate that the proposed CMFormer significantly outperforms existing CNN-based methods for domain-generalized semantic segmentation, achieving improvements of up to 14.00\% in terms of mIoU (mean intersection over union). The source code for CMFormer will be made available at this \href{https://github.com/BiQiWHU/domain-generalized-urban-scene-segmentation}{repository}.
翻訳日:2023-07-05 16:23:46 公開日:2023-07-01
# 合理的かつインターベンブルで高速なエンティティベース関連モデルによるEコマース検索におけるテキストマッチングの改善

Improving Text Matching in E-Commerce Search with A Rationalizable, Intervenable and Fast Entity-Based Relevance Model ( http://arxiv.org/abs/2307.00370v1 )

ライセンス: Link先を確認
Jiong Cai, Yong Jiang, Yue Zhang, Chenyue Jiang, Ke Yu, Jianhui Ji, Rong Xiao, Haihong Tang, Tao Wang, Zhongqiang Huang, Pengjun Xie, Fei Huang, Kewei Tu(参考訳) 大量のアイテムのリポジトリからユーザクエリの意図したアイテムを発見することは,eコマース検索システムの主要な目標のひとつだ。 関連性予測は性能向上に役立つため,検索システムにとって不可欠である。 オンラインで関連モデルを提供する場合、モデルは高速で正確な推論を行う必要がある。 現在、ビエンコーダやクロスエンコーダなどの広く使われているモデルは、それぞれ精度や推論速度に制限がある。 本研究では,Entity-Based Relevance Model (EBRM) と呼ばれる新しいモデルを提案する。 項目に含まれるエンティティを識別し、QI関連問題を複数のQE関連問題に分解し、その結果を集約し、ソフトロジックの定式化を用いてQI予測を作成する。 この分解により、高速なオンライン推論のためのキャッシュQE予測だけでなく、高精度にクロスエンコーダQE関連モジュールを使用できる。 ソフトロジックを利用すると、予測手順は解釈可能で解釈可能である。 また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。 提案手法はeコマースウェブサイトのラベル付きデータに基づいて評価する。 実験結果から,計算効率の向上が期待できることがわかった。

Discovering the intended items of user queries from a massive repository of items is one of the main goals of an e-commerce search system. Relevance prediction is essential to the search system since it helps improve performance. When online serving a relevance model, the model is required to perform fast and accurate inference. Currently, the widely used models such as Bi-encoder and Cross-encoder have their limitations in accuracy or inference speed respectively. In this work, we propose a novel model called the Entity-Based Relevance Model (EBRM). We identify the entities contained in an item and decompose the QI (query-item) relevance problem into multiple QE (query-entity) relevance problems; we then aggregate their results to form the QI prediction using a soft logic formulation. The decomposition allows us to use a Cross-encoder QE relevance module for high accuracy as well as cache QE predictions for fast online inference. Utilizing soft logic makes the prediction procedure interpretable and intervenable. We also show that pretraining the QE module with auto-generated QE data from user logs can further improve the overall performance. The proposed method is evaluated on labeled data from e-commerce websites. Empirical results show that it achieves promising improvements with computation efficiency.
翻訳日:2023-07-05 16:23:18 公開日:2023-07-01
# エネルギー意識学習によるディープラーニングモデルのエネルギー消費最小化

Minimizing Energy Consumption of Deep Learning Models by Energy-Aware Training ( http://arxiv.org/abs/2307.00368v1 )

ライセンス: Link先を確認
Dario Lazzaro, Antonio Emanuele Cin\`a, Maura Pintor, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) ディープラーニングモデルは、所有するパラメータ数を大幅に増加させ、推論中により多くの操作を実行することになる。 この拡張はエネルギー消費の増加と予測遅延に大きく貢献する。 本研究では,モデル学習におけるエネルギー消費削減を目的とした勾配に基づくアルゴリズムであるEATを提案する。 この目的のために、$\ell_0$ノルムの微分可能な近似を利用し、トレーニング損失に対するスパースペナルティとして使用する。 3つのデータセットと2つの深層ニューラルネットワークを用いた実験分析により,本研究のエネルギアウェアトレーニングアルゴリズムeatは,分類性能とエネルギ効率のトレードオフによりネットワークを訓練できることを実証した。

Deep learning models undergo a significant increase in the number of parameters they possess, leading to the execution of a larger number of operations during inference. This expansion significantly contributes to higher energy consumption and prediction latency. In this work, we propose EAT, a gradient-based algorithm that aims to reduce energy consumption during model training. To this end, we leverage a differentiable approximation of the $\ell_0$ norm, and use it as a sparse penalty over the training loss. Through our experimental analysis conducted on three datasets and two deep neural networks, we demonstrate that our energy-aware training algorithm EAT is able to train networks with a better trade-off between classification performance and energy efficiency.
翻訳日:2023-07-05 16:22:55 公開日:2023-07-01
# 分子動力学の集団変数同定のための最近のディープラーニング技術理解

Understanding recent deep-learning techniques for identifying collective variables of molecular dynamics ( http://arxiv.org/abs/2307.00365v1 )

ライセンス: Link先を確認
Wei Zhang, Christof Sch\"utte(参考訳) 高次元準安定分子系のダイナミクスは、しばしば系のいくつかの特徴、すなわち集団変数(cvs)によって特徴づけられる。 機械学習の分野での急速な進歩により、様々な深層学習に基づくCV識別技術が近年開発され、複雑な分子系の正確なモデリングと効率的なシミュレーションを可能にしている。 本稿では,無限小ジェネレータの固有関数の計算や,基礎となるダイナミクスに関連付けられた転送演算子,あるいは再構成誤差の最小化によるオートエンコーダの学習など,CVを見つけるための2つの異なるカテゴリについて検討する。 この2つのアプローチの背後にある数学の簡潔な概観を示し、これらの2つのアプローチを例題として比較数値的研究を行う。

The dynamics of a high-dimensional metastable molecular system can often be characterised by a few features of the system, i.e. collective variables (CVs). Thanks to the rapid advance in the area of machine learning, various deep learning-based CV identification techniques have been developed in recent years, allowing accurate modelling and efficient simulation of complex molecular systems. In this paper, we look at two different categories of deep learning-based approaches for finding CVs, either by computing leading eigenfunctions of infinitesimal generator or transfer operator associated to the underlying dynamics, or by learning an autoencoder via minimisation of reconstruction error. We present a concise overview of the mathematics behind these two approaches and conduct a comparative numerical study of these two approaches on illustrative examples.
翻訳日:2023-07-05 16:22:44 公開日:2023-07-01
# 人中心型eXplainable Artificial Intelligence(XAI)の未来は、ポストホックな説明ではない

The future of human-centric eXplainable Artificial Intelligence (XAI) is not post-hoc explanations ( http://arxiv.org/abs/2307.00364v1 )

ライセンス: Link先を確認
Vinitra Swamy, Jibril Frej, Tanja K\"aser(参考訳) 説明可能な人工知能(XAI)は、ディープラーニングシステムに対する人間の理解と信頼を可能にする上で重要な役割を果たす。 モデルがより大きく、よりユビキタスになり、日常生活の側面に広まるにつれて、モデルミスの悪影響を回避または最小化するために説明可能性が必要である。 残念ながら、人間中心のxaiの現在のアプローチ(医療、教育、パーソナライズされた広告の予測タスクなど)は、単一の説明者に依存する傾向がある。 これは、最近の研究で同じ点と下層のブラックボックスモデルに適用された場合、説明可能性法における体系的な不一致が特定された場合の傾向に特に関係している。 そこで本稿では,現状技術解説者の限界に対処するための行動を呼びかける。 本稿では,人間中心・高影響アプリケーションにおける近似手法から脱却する,解釈可能なニューラルネットワークアーキテクチャの設計へのポストホックな説明可能性への移行を提案する。 人間中心のxai(リアルタイム、正確、動作可能、人間解釈可能、一貫性)の5つのニーズを特定し、ニューラルネットワークワークフロー(解釈可能な条件付き計算のための適応ルーティングと反復モデル学習のための診断ベンチマーク)の2つのスキームを提案する。 我々は、人間中心のXAIの未来はブラックボックスの説明や従来の解釈可能なモデルへの回帰ではなく、本質的に解釈可能なニューラルネットワークにあると仮定する。

Explainable Artificial Intelligence (XAI) plays a crucial role in enabling human understanding and trust in deep learning systems, often defined as determining which features are most important to a model's prediction. As models get larger, more ubiquitous, and pervasive in aspects of daily life, explainability is necessary to avoid or minimize adverse effects of model mistakes. Unfortunately, current approaches in human-centric XAI (e.g. predictive tasks in healthcare, education, or personalized ads) tend to rely on a single explainer. This is a particularly concerning trend when considering that recent work has identified systematic disagreement in explainability methods when applied to the same points and underlying black-box models. In this paper, we therefore present a call for action to address the limitations of current state-of-the-art explainers. We propose to shift from post-hoc explainability to designing interpretable neural network architectures; moving away from approximation techniques in human-centric and high impact applications. We identify five needs of human-centric XAI (real-time, accurate, actionable, human-interpretable, and consistent) and propose two schemes for interpretable-by-design neural network workflows (adaptive routing for interpretable conditional computation and diagnostic benchmarks for iterative model learning). We postulate that the future of human-centric XAI is neither in explaining black-boxes nor in reverting to traditional, interpretable models, but in neural networks that are intrinsically interpretable.
翻訳日:2023-07-05 16:22:29 公開日:2023-07-01
# Relaxed Pareto Set Identificationのための適応アルゴリズム

Adaptive Algorithms for Relaxed Pareto Set Identification ( http://arxiv.org/abs/2307.00424v1 )

ライセンス: Link先を確認
Cyrille Kone, Emilie Kaufmann, Laura Richert(参考訳) 本稿では,多目的多目的バンディットモデルにおけるパレート最適集合の固定信頼度同定を再考する。 正確なパレート集合を同定するサンプルの複雑さは非常に大きいため、さらなる準最適腕を出力できる緩和法が研究されている。 この研究では、代わりにパレート集合の関連する部分集合を特定できる代替緩和にも取り組みます。 特に,pareto集合同定問題の異なる緩和を考慮に入れるために,異なる停止規則とともに使用できる適応パレート探索と呼ばれる単一サンプリング戦略を提案する。 これらの組み合わせのサンプルの複雑さを分析し、特にパレートの最適アームを最大$kで識別しようとすると生じるサンプルの複雑さの減少を定量化する。 複数の免疫原性基準を考慮に入れた場合に最適なものを見つけるために、Covid-19に対するいくつかの予防接種戦略を適応的に探求する現実のシナリオにおいて、Adaptive Pareto Explorationの優れた実用性能を示す。

In this paper we revisit the fixed-confidence identification of the Pareto optimal set in a multi-objective multi-armed bandit model. As the sample complexity to identify the exact Pareto set can be very large, a relaxation allowing to output some additional near-optimal arms has been studied. In this work we also tackle alternative relaxations that allow instead to identify a relevant subset of the Pareto set. Notably, we propose a single sampling strategy, called Adaptive Pareto Exploration, that can be used in conjunction with different stopping rules to take into account different relaxations of the Pareto Set Identification problem. We analyze the sample complexity of these different combinations, quantifying in particular the reduction in sample complexity that occurs when one seeks to identify at most $k$ Pareto optimal arms. We showcase the good practical performance of Adaptive Pareto Exploration on a real-world scenario, in which we adaptively explore several vaccination strategies against Covid-19 in order to find the optimal ones when multiple immunogenicity criteria are taken into account.
翻訳日:2023-07-05 16:17:02 公開日:2023-07-01
# joinboost: sqlだけで正規化されたデータ上に木を育てる

JoinBoost: Grow Trees Over Normalized Data Using Only SQL ( http://arxiv.org/abs/2307.00422v1 )

ライセンス: Link先を確認
Zezhou Huang, Rathijit Sen, Jiaxiang Liu, Eugene Wu(参考訳) 表形式のデータでは支配的であるが、正規化されたデータベース(LightGBM、XGBoostなど)上でツリーモデルをトレーニングするMLライブラリは、データを単一のテーブルとして非正規化し、実体化し、エクスポートする必要がある。 このプロセスはスケーラブルではなく、遅く、セキュリティリスクを引き起こす。 In-DB MLはDBMS内のモデルをトレーニングし、データの動きを避け、データガバナンスを提供する。 In-DB MLをサポートするためにDBMSを変更するのではなく、特殊なMLライブラリに競合するツリートレーニングパフォーマンスを提供することができますか? JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリです。 任意のDBMSに移植可能で、特殊なMLライブラリと競合するパフォーマンスを提供し、基盤となるDBMS機能とスケールする。 JoinBoostは、アルゴリズムとシステムの両方の観点から、以前の作業を拡張している。 アルゴリズムでは、非物質化結合結果の残余に対して$Y$変数を更新することにより、分解勾配向上をサポートする。 このビュー更新問題は一般に曖昧であるが、最も広く使われている基準であるrmseをサポートするための分散セミリングの重要な性質である加算対多重保存を同定する。 システム面では,残差更新をパフォーマンスボトルネックとして認識する。 このようなオーバーヘッドは、新しい残値列を作成して投影として追加することで、カラム型dbms上でネイティブに最小化することができる。 これをduckdbの2つの実装で検証し、移植性のために内部を変更または最小限変更しました。 実験の結果,JoinBoostはLightGBMに比べて3倍 (1.1x) 高速であり,最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。 さらにjoinboostは、#機能、dbサイズ(tpc-ds sf=1000)、およびジョイングラフ複雑性(galaxyスキーマ)の観点から、lightgbmをはるかに越えています。

Although dominant for tabular data, ML libraries that train tree models over normalized databases (e.g., LightGBM, XGBoost) require the data to be denormalized as a single table, materialized, and exported. This process is not scalable, slow, and poses security risks. In-DB ML aims to train models within DBMSes to avoid data movement and provide data governance. Rather than modify a DBMS to support In-DB ML, is it possible to offer competitive tree training performance to specialized ML libraries...with only SQL? We present JoinBoost, a Python library that rewrites tree training algorithms over normalized databases into pure SQL. It is portable to any DBMS, offers performance competitive with specialized ML libraries, and scales with the underlying DBMS capabilities. JoinBoost extends prior work from both algorithmic and systems perspectives. Algorithmically, we support factorized gradient boosting, by updating the $Y$ variable to the residual in the non-materialized join result. Although this view update problem is generally ambiguous, we identify addition-to-multiplication preserving, the key property of variance semi-ring to support rmse, the most widely used criterion. System-wise, we identify residual updates as a performance bottleneck. Such overhead can be natively minimized on columnar DBMSes by creating a new column of residual values and adding it as a projection. We validate this with two implementations on DuckDB, with no or minimal modifications to its internals for portability. Our experiment shows that JoinBoost is 3x (1.1x) faster for random forests (gradient boosting) compared to LightGBM, and over an order magnitude faster than state-of-the-art In-DB ML systems. Further, JoinBoost scales well beyond LightGBM in terms of the # features, DB size (TPC-DS SF=1000), and join graph complexity (galaxy schemas).
翻訳日:2023-07-05 16:16:45 公開日:2023-07-01
# 輝度制限型逆アタックパッチ

Brightness-Restricted Adversarial Attack Patch ( http://arxiv.org/abs/2307.00421v1 )

ライセンス: Link先を確認
Mingzhen Shao(参考訳) 物理世界のシナリオにおける現実的な適用性から、敵の攻撃パッチが注目されている。 しかし、攻撃パッチで使用される明るい色は、人間の観察者によって容易に識別できるため、大きな欠点である。 さらに、これらの攻撃はターゲットネットワークの無効化に成功しているが、攻撃パッチの特定の特徴がその成功に寄与するかどうかは不明だ。 本稿では,光特性を用いた輝度制限パッチ(BrPatch)を導入し,画像独立性を保ちながら顕著さを効果的に低減する。 また,様々な画像特徴(色,テクスチャ,ノイズ,サイズなど)が,物理的世界展開における攻撃パッチの効果に与える影響について分析を行った。 実験の結果,攻撃パッチは輝度に強い冗長性を示し,色移動やノイズに耐性を示すことがわかった。 そこで本研究では,BrPatchの顕著さをさらに低減するための追加手法を提案する。 また, 物理的シナリオにおける攻撃パッチの堅牢性についても考察した。

Adversarial attack patches have gained increasing attention due to their practical applicability in physical-world scenarios. However, the bright colors used in attack patches represent a significant drawback, as they can be easily identified by human observers. Moreover, even though these attacks have been highly successful in deceiving target networks, which specific features of the attack patch contribute to its success are still unknown. Our paper introduces a brightness-restricted patch (BrPatch) that uses optical characteristics to effectively reduce conspicuousness while preserving image independence. We also conducted an analysis of the impact of various image features (such as color, texture, noise, and size) on the effectiveness of an attack patch in physical-world deployment. Our experiments show that attack patches exhibit strong redundancy to brightness and are resistant to color transfer and noise. Based on our findings, we propose some additional methods to further reduce the conspicuousness of BrPatch. Our findings also explain the robustness of attack patches observed in physical-world scenarios.
翻訳日:2023-07-05 16:16:12 公開日:2023-07-01
# 二元類似性と距離測度の応用

Applications of Binary Similarity and Distance Measures ( http://arxiv.org/abs/2307.00411v1 )

ライセンス: Link先を確認
Manoj Muniswamaiah, Tilak Agerwala and Charles C. Tappert(参考訳) 近年では、指紋、手書き文字検出、虹彩画像認識などの生体認証問題を解決するために二元類似性が適用されている。 関連する測定の応用により、より正確なデータ分析がもたらされた。 本稿では,様々な分野における二元類似性と距離尺度の適用性について検討する。

In the recent past, binary similarity measures have been applied in solving biometric identification problems, including fingerprint, handwritten character detection, and in iris image recognition. The application of the relevant measurements has also resulted in more accurate data analysis. This paper surveys the applicability of binary similarity and distance measures in various fields.
翻訳日:2023-07-05 16:15:57 公開日:2023-07-01
# WavePaint: 自己監督型ペンパインティングのための資源効率の良いトケンミキサー

WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting ( http://arxiv.org/abs/2307.00407v1 )

ライセンス: Link先を確認
Pranav Jeevan, Dharshan Sampath Kumar, Amit Sethi(参考訳) 画像の欠落した領域の合成を意味する画像の塗装は、隠蔽された領域や劣化した領域の復元を助け、また自己監督の先駆的なタスクとして機能する。 現在の画像インパインティングの最先端モデルは、対向的あるいは拡散的設定でトレーニングされたトランスフォーマーまたはCNNバックボーンに基づいているため、計算的に重い。 本稿では,計算効率の高いwavemixベースの完全畳み込みアーキテクチャであるwavepaintを用いて,視覚トランスフォーマーを分離する。 2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間および多解像度トークン混合を行う。 提案モデルは, 画像の再現性向上のための現状モデルよりも優れており, パラメータ数の半分以下と, かなり低いトレーニング, 評価時間を用いている。 我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。 我々の研究は、トランスフォーマーに匹敵する一般化を達成するために、自然画像に先立ってモデル化されたニューラルネットワークは、パラメータや計算を少なくする必要があることを示唆している。

Image inpainting, which refers to the synthesis of missing regions in an image, can help restore occluded or degraded areas and also serve as a precursor task for self-supervision. The current state-of-the-art models for image inpainting are computationally heavy as they are based on transformer or CNN backbones that are trained in adversarial or diffusion settings. This paper diverges from vision transformers by using a computationally-efficient WaveMix-based fully convolutional architecture -- WavePaint. It uses a 2D-discrete wavelet transform (DWT) for spatial and multi-resolution token-mixing along with convolutional layers. The proposed model outperforms the current state-of-the-art models for image inpainting on reconstruction quality while also using less than half the parameter count and considerably lower training and evaluation times. Our model even outperforms current GAN-based architectures in CelebA-HQ dataset without using an adversarially trainable discriminator. Our work suggests that neural architectures that are modeled after natural image priors require fewer parameters and computations to achieve generalization comparable to transformers.
翻訳日:2023-07-05 16:15:53 公開日:2023-07-01
# 予測状態表現の学習に有効なUCB型アルゴリズム

Provably Efficient UCB-type Algorithms For Learning Predictive State Representations ( http://arxiv.org/abs/2307.00405v1 )

ライセンス: Link先を確認
Ruiquan Huang, Yingbin Liang, Jing Yang(参考訳) マルコフ決定プロセス(MDP)と部分的に観察可能なMDP(PMMDP)を特別に含む一般的なシーケンシャルな意思決定問題は、時間とともに観察と行動の歴史に基づいて一連の意思決定を行うことで累積報酬を最大化することである。 近年の研究では、予測状態表現(psr)によってモデル化された低ランク構造を認める場合、逐次的意思決定問題は統計的に学習可能であることが示されている。 これらの進歩にもかかわらず、既存のアプローチは通常、計算的に効率的でないオラクルやステップを含む。 一方,楽観的なボーナスデザインの難しさから,盗賊やMDPの計算効率向上に成功している上位信頼境界(UCB)に基づくアプローチは,より一般的なPSRでは研究されていない。 本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 さらに,オンラインPSRとオフラインPSRの両方に設計したUPB型アルゴリズムの複雑さ境界を特徴付ける。 従来のPSRのアプローチとは対照的に,UCB型アルゴリズムでは計算効率が向上し,最終段階の近似ポリシが保証され,モデル精度が保証された。

The general sequential decision-making problem, which includes Markov decision processes (MDPs) and partially observable MDPs (POMDPs) as special cases, aims at maximizing a cumulative reward by making a sequence of decisions based on a history of observations and actions over time. Recent studies have shown that the sequential decision-making problem is statistically learnable if it admits a low-rank structure modeled by predictive state representations (PSRs). Despite these advancements, existing approaches typically involve oracles or steps that are not computationally efficient. On the other hand, the upper confidence bound (UCB) based approaches, which have served successfully as computationally efficient methods in bandits and MDPs, have not been investigated for more general PSRs, due to the difficulty of optimistic bonus design in these more challenging settings. This paper proposes the first known UCB-type approach for PSRs, featuring a novel bonus term that upper bounds the total variation distance between the estimated and true models. We further characterize the sample complexity bounds for our designed UCB-type algorithms for both online and offline PSRs. In contrast to existing approaches for PSRs, our UCB-type algorithms enjoy computational efficiency, last-iterate guaranteed near-optimal policy, and guaranteed model accuracy.
翻訳日:2023-07-05 16:15:30 公開日:2023-07-01
# probvlm:vison言語モデルに対する確率的アダプタ

ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models ( http://arxiv.org/abs/2307.00398v1 )

ライセンス: Link先を確認
Uddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata(参考訳) CLIPのような大規模視覚言語モデル(VLM)は、画像とテキストの対応を見つけることに成功した。 標準決定論的マッピングプロセスにより、埋め込み空間内の1つのベクトルに画像またはテキストサンプルをマッピングする。 複数のサンプル(画像やテキスト)が物理世界で同じ概念を抽象化できるため、決定論的埋め込みは埋め込み空間に固有の曖昧さを反映しない。 本稿では,大規模データセットや計算を必要とせず,時間外アライメントによる事前学習VLMの埋め込みの確率分布を推定する確率的アダプタProbVLMを提案する。 我々は,COCO,Flickr,CUB,オックスフォードフラワーの4つの挑戦的データセットにおいて,CLIPとBLIPの2つのVLMに対するマルチモーダル埋め込み不確かさを推定し,検索タスクにおける埋め込み不確かさのキャリブレーションを定量化し,ProbVLMが他の手法より優れていることを示す。 さらに,VLMにおける2つの実世界の下流タスクとして,能動的学習とモデル選択を提案する。 最後に,大規模な事前学習潜在拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。

Large-scale vision-language models (VLMs) like CLIP successfully find correspondences between images and text. Through the standard deterministic mapping process, an image or a text sample is mapped to a single vector in the embedding space. This is problematic: as multiple samples (images or text) can abstract the same concept in the physical world, deterministic embeddings do not reflect the inherent ambiguity in the embedding space. We propose ProbVLM, a probabilistic adapter that estimates probability distributions for the embeddings of pre-trained VLMs via inter/intra-modal alignment in a post-hoc manner without needing large-scale datasets or computing. On four challenging datasets, i.e., COCO, Flickr, CUB, and Oxford-flowers, we estimate the multi-modal embedding uncertainties for two VLMs, i.e., CLIP and BLIP, quantify the calibration of embedding uncertainties in retrieval tasks and show that ProbVLM outperforms other methods. Furthermore, we propose active learning and model selection as two real-world downstream tasks for VLMs and show that the estimated uncertainty aids both tasks. Lastly, we present a novel technique for visualizing the embedding distributions using a large-scale pre-trained latent diffusion model.
翻訳日:2023-07-05 16:15:06 公開日:2023-07-01
# スコア正規化を用いたCNNに基づく人物再識別の改善

Improving CNN-based Person Re-identification using score Normalization ( http://arxiv.org/abs/2307.00397v1 )

ライセンス: Link先を確認
Ammar Chouchane, Abdelmalik Ouamane, Yassine Himeur, Wathiq Mansoor, Shadi Atalla, Afaf Benzaibak and Chahrazed Boudellal(参考訳) 個人再識別(PRe-ID)は、セキュリティ、監視、小売分析において重要な課題であり、複数のカメラやビューにまたがる個人を特定することである。 しかし、照明・背景・視点の変化により困難な課題となっている。 PRe-IDシステムの成功には,効率的な特徴抽出とメートル法学習アルゴリズムが不可欠である。 本稿では,畳み込みニューラルネットワーク(cnn)に基づく特徴抽出法と,xqda(cross-view quadratic discriminant analysis)を併用した,メトリック学習のための新しい手法を提案する。 また、マハラノビス距離とスコア正規化処理を用いてカメラスコア間の不整合に対処するマッチングアルゴリズムを実装した。 提案手法は, VIPeR, GRID, CUHK01, PRID450Sの4つの挑戦的データセットで検証し, 有望な結果を得た。 例えば、GRID、CUHK01、VIPeR、PRID450Sデータセットのランク-20の精度は61.92%、83.90%、92.03%、96.22%であったが、スコア正規化後にそれぞれ64.64%、89.30%、92.78%、98.76%に増加した。 したがって、4つの挑戦的データセットの有望な結果は、提案手法の有効性を示している。

Person re-identification (PRe-ID) is a crucial task in security, surveillance, and retail analysis, which involves identifying an individual across multiple cameras and views. However, it is a challenging task due to changes in illumination, background, and viewpoint. Efficient feature extraction and metric learning algorithms are essential for a successful PRe-ID system. This paper proposes a novel approach for PRe-ID, which combines a Convolutional Neural Network (CNN) based feature extraction method with Cross-view Quadratic Discriminant Analysis (XQDA) for metric learning. Additionally, a matching algorithm that employs Mahalanobis distance and a score normalization process to address inconsistencies between camera scores is implemented. The proposed approach is tested on four challenging datasets, including VIPeR, GRID, CUHK01, and PRID450S, and promising results are obtained. For example, without normalization, the rank-20 rate accuracies of the GRID, CUHK01, VIPeR and PRID450S datasets were 61.92%, 83.90%, 92.03%, 96.22%; however, after score normalization, they have increased to 64.64%, 89.30%, 92.78%, and 98.76%, respectively. Accordingly, the promising results on four challenging datasets indicate the effectiveness of the proposed approach.
翻訳日:2023-07-05 16:14:44 公開日:2023-07-01
# MobileViG: モバイルビジョンアプリケーションのためのグラフベースのスパースアテンション

MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications ( http://arxiv.org/abs/2307.00395v1 )

ライセンス: Link先を確認
Mustafa Munir, William Avery, Radu Marculescu(参考訳) 従来、畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマー(vit)がコンピュータビジョンを支配してきた。 しかし、最近提案されたビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。 残念ながら、モバイルアプリケーションでは、画像をグラフ構造として表現するオーバーヘッドのため、ViGは計算コストがかかる。 そこで本研究では,モバイル端末で動作するViG向けに設計された,グラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。 さらに,モバイル端末における視覚タスクのためのCNN-GNNアーキテクチャとして,SVGAを用いたMobileViGを提案する。 大規模な実験により、MobileViGは既存のViGモデルと既存のモバイルCNNおよびViTアーキテクチャを画像分類、オブジェクト検出、インスタンスセグメンテーションタスクの精度および/または速度で上回っていることがわかった。 当社の最速モデルであるMobileViG-Tiは、ImageNet-1Kで75.7%の精度で、iPhone 13 Mini NPU(CoreMLでコンパイルされた)では0.78msの推論遅延を実現しています。 我々の最大のモデルであるMobileViG-Bは2.30ミリ秒のレイテンシで82.6%のトップ1の精度を得ており、同様のサイズのEfficientFormer-L3モデル(2.77ミリ秒、82.4%)よりも高速で精度が高い。 我々の研究は、よく設計されたハイブリッドCNN-GNNアーキテクチャが、モバイルデバイス上で極めて高速で正確なモデルを設計するための新たな道のりであることを証明している。 私たちのコードはhttps://github.com/SLDGroup/MobileViG.comで公開されています。

Traditionally, convolutional neural networks (CNN) and vision transformers (ViT) have dominated computer vision. However, recently proposed vision graph neural networks (ViG) provide a new avenue for exploration. Unfortunately, for mobile applications, ViGs are computationally expensive due to the overhead of representing images as graph structures. In this work, we propose a new graph-based sparse attention mechanism, Sparse Vision Graph Attention (SVGA), that is designed for ViGs running on mobile devices. Additionally, we propose the first hybrid CNN-GNN architecture for vision tasks on mobile devices, MobileViG, which uses SVGA. Extensive experiments show that MobileViG beats existing ViG models and existing mobile CNN and ViT architectures in terms of accuracy and/or speed on image classification, object detection, and instance segmentation tasks. Our fastest model, MobileViG-Ti, achieves 75.7% top-1 accuracy on ImageNet-1K with 0.78 ms inference latency on iPhone 13 Mini NPU (compiled with CoreML), which is faster than MobileNetV2x1.4 (1.02 ms, 74.7% top-1) and MobileNetV2x1.0 (0.81 ms, 71.8% top-1). Our largest model, MobileViG-B obtains 82.6% top-1 accuracy with only 2.30 ms latency, which is faster and more accurate than the similarly sized EfficientFormer-L3 model (2.77 ms, 82.4%). Our work proves that well designed hybrid CNN-GNN architectures can be a new avenue of exploration for designing models that are extremely fast and accurate on mobile devices. Our code is publicly available at https://github.com/SLDGroup/MobileViG.
翻訳日:2023-07-05 16:14:19 公開日:2023-07-01
# 流れ問題に対するハイブリッド量子アルゴリズム

Hybrid quantum algorithms for flow problems ( http://arxiv.org/abs/2307.00391v1 )

ライセンス: Link先を確認
Sachin S. Bharadwaj and Katepalli R. Sreenivasan(参考訳) 量子コンピューティング(QC)が事実上必要不可欠な計算ツールとして登場するためには、エクイジェンシとは、エンドツーエンドの実用アプリケーションを備えた量子プロトコル(この場合、流体力学)である。 これを実現するために,我々は,qcを用いた流体流動シミュレーション用に設計された \textit{qflows} (quantum flow simulator) という高性能量子シミュレータを開発した。 QC による非線形フローの解法は一般に、線形埋め込みの結果、等価な無限次元線型系を解くことによって進行する。 そこで,我々はまず,qフローを用いた2つのよく知られた線形非定常流れをシミュレートし,それらの流れをシミュレートするハイブリッド・高精度量子線形システムアルゴリズム (qlsa) の,それまで認識されていなかった完全ゲートレベル実装を実演する。 このシミュレータの有用性は、シミュレーション行列の条件数$\kappa$に$t_{0}$(ハミルトンシミュレーションに不可欠なパラメータ)を関連付けた誤差推定とパワーロースケーリングを抽出し、正確な固有値推定に最適なスケーリングパラメータの予測を可能にすることで示される。 さらに、スピードアップ保存アルゴリズムを2つ追加する。 (a)機能形態又は疎量子状態の準備及び (b) {\textit{in situ}} 量子後処理により速度場の非線形関数、すなわち粘性散逸率を計算すると、終端から終端までの複雑性は$\mathcal{o}(\text{poly~log} (n/\epsilon)\kappa/\epsilon_{qpp})$となり、ここで $n$ は方程式の線形系の大きさ、$\epsilon$ は解の精度、$\epsilon_{qpp}$ は後処理の精度となる。 本研究は,流体の量子シミュレーションへの可能性を示し,qcのゲートレベル実装において必要となる特別な考察を強調する。

For quantum computing (QC) to emerge as a practically indispensable computational tool, the exigency is for quantum protocols with an end-to-end practical applications -- in this instance, fluid dynamics. To facilitate this, we debut here a high performance quantum simulator which we term \textit{QFlowS} (Quantum Flow Simulator), designed for fluid flow simulations using QC. Solving nonlinear flows by QC generally proceeds by solving an equivalent infinite dimensional linear system as a result of linear embedding. Thus, we first choose to simulate two well known linear, unsteady flows using QFlowS and demonstrate a previously unseen, full gate-level implementation of a hybrid and high precision Quantum Linear Systems Algorithms (QLSA) for simulating such flows. The utility of this simulator is shown by extracting error estimates and a power law scaling that relates $T_{0}$ (a parameter crucial to Hamiltonian simulations) to the condition number $\kappa$ of the simulations matrix, and allows the prediction of an optimal scaling parameter for accurate eigenvalue estimation. Further, we append two speedup preserving algorithms for (a) the functional form or sparse quantum state preparation and (b) {\textit{in situ}} quantum post-processing to compute a nonlinear function of the velocity field, namely the the viscous dissipation rate, resulting in an end-to-end complexity of $\mathcal{O}(\text{poly~log} (N/\epsilon)\kappa/\epsilon_{QPP})$, where $N$ is the size of the linear system of equations, $\epsilon$ is the accuracy of the solution and $\epsilon_{QPP}$ is the accuracy of post processing. This work demonstrates a possible way towards quantum simulation of fluid flows, and highlights the special considerations needed at the gate level implementation of QC.
翻訳日:2023-07-05 16:13:48 公開日:2023-07-01
# 移動行動量損失介入における個人化金融インセンティブへの適応的最適化手法

An Adaptive Optimization Approach to Personalized Financial Incentives in Mobile Behavioral Weight Loss Interventions ( http://arxiv.org/abs/2307.00444v1 )

ライセンス: Link先を確認
Qiaomei Li, Yonatan Mintz, Kara Gavin, Corrine Voils(参考訳) 肥満は米国に影響を及ぼす重要な医療問題である。 肥満に対する最もリスクの少ない治療は、食事や運動を促進する行動介入である。 これらの介入は、しばしば、介入者が参加者のレベルデータを収集し、参加者に長期的な行動変化を促進するインセンティブと目標を与えるモバイルコンポーネントを含む。 近年,行動変化を促進するために直接金融インセンティブの利用が注目されている。 しかし、各参加者は異なるインセンティブ構造や量に異なる反応をし、研究者はパーソナライズされた介入を検討する。 パーソナライゼーションの鍵となる課題は、臨床医が参加者にインセンティブを施す最善の方法を事前に知らないこと、費用のかかるリソースを効率的に払い出すための有限の介入予算を与えることである。 本稿では,予算内に留まらず,直接的な金銭的インセンティブを用いて体重減少を動機づける,パーソナライズされた減量介入をデザインする課題について考察する。 私たちは、行動介入のコンテキスト内で、個人が異なるインセンティブスケジュールにどう反応するかを予測する機械学習アプローチを作成します。 この予測モデルを適応型フレームワークで使用し、介入の過程で参加者に支払いを行い、研究予算内に留まるインセンティブを計算します。 モデル化と最適化のアプローチに関する理論的保証と,その性能をシミュレーションによる減量実験で実証する。 以上の結果から,重量減少に対するパーソナライズした介入設計のコスト効率と有効性が浮き彫りになった。

Obesity is a critical healthcare issue affecting the United States. The least risky treatments available for obesity are behavioral interventions meant to promote diet and exercise. Often these interventions contain a mobile component that allows interventionists to collect participants level data and provide participants with incentives and goals to promote long term behavioral change. Recently, there has been interest in using direct financial incentives to promote behavior change. However, adherence is challenging in these interventions, as each participant will react differently to different incentive structure and amounts, leading researchers to consider personalized interventions. The key challenge for personalization, is that the clinicians do not know a priori how best to administer incentives to participants, and given finite intervention budgets how to disburse costly resources efficiently. In this paper, we consider this challenge of designing personalized weight loss interventions that use direct financial incentives to motivate weight loss while remaining within a budget. We create a machine learning approach that is able to predict how individuals may react to different incentive schedules within the context of a behavioral intervention. We use this predictive model in an adaptive framework that over the course of the intervention computes what incentives to disburse to participants and remain within the study budget. We provide both theoretical guarantees for our modeling and optimization approaches as well as demonstrate their performance in a simulated weight loss study. Our results highlight the cost efficiency and effectiveness of our personalized intervention design for weight loss.
翻訳日:2023-07-05 16:03:48 公開日:2023-07-01
# ポアソン雑音下での重み付き異方性-異方性全変動

Weighted Anisotropic-Isotropic Total Variation for Poisson Denoising ( http://arxiv.org/abs/2307.00439v1 )

ライセンス: Link先を確認
Kevin Bui, Yifei Lou, Fredrick Park, Jack Xin(参考訳) ポアソンノイズ(poisson noise)は、天文学や医学などの光子制限型イメージングシステムによって撮影された画像で一般的に発生する。 ポアソンノイズの分布は画素強度値に依存するため、ノイズレベルは画素によって異なる。 したがって、重要な詳細を保存しながら、ポアソン崩壊したイメージを飾ることは困難である。 本稿では,重み付き異方性-等方性全変動(AITV)を正規化として組み込んだPoisson denoisingモデルを提案する。 次に,効率の良い実装のために,近位演算子を組み合わせた乗算器の交互方向法を開発した。 最後に, 数値実験により, 画像品質と計算効率の点で, ポアソン除算法に勝ることを示す。

Poisson noise commonly occurs in images captured by photon-limited imaging systems such as in astronomy and medicine. As the distribution of Poisson noise depends on the pixel intensity value, noise levels vary from pixels to pixels. Hence, denoising a Poisson-corrupted image while preserving important details can be challenging. In this paper, we propose a Poisson denoising model by incorporating the weighted anisotropic-isotropic total variation (AITV) as a regularization. We then develop an alternating direction method of multipliers with a combination of a proximal operator for an efficient implementation. Lastly, numerical experiments demonstrate that our algorithm outperforms other Poisson denoising methods in terms of image quality and computational efficiency.
翻訳日:2023-07-05 16:03:23 公開日:2023-07-01
# 医用画像データの大規模ストリーミングにはリソース効率が良い

One Copy Is All You Need: Resource-Efficient Streaming of Medical Imaging Data at Scale ( http://arxiv.org/abs/2307.00438v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Eliot Siegel, Paul H. Yi, Vishwa S. Parekh(参考訳) 大規模医療画像データセットは、臨床診断支援のための人工知能ツールの開発を加速している。 しかし、これらのデータセットの大きなサイズは、ストレージと帯域幅に制限のあるユーザにとってボトルネックとなる。 AIモデルは低解像度の画像でしばしば訓練されるため、多くのユーザはそのような大規模なデータセットを必要としないかもしれない。 もしユーザーが望む解像度で直接ダウンロードできれば、ストレージと帯域幅の要件は大幅に減少する。 しかし、すべてのユーザの要求を予想することは不可能であり、複数の解像度でデータを保存できない。 画像を単一の解像度で保存し、異なる解像度で送信できるとしたらどうだろう? 医用画像のプログレッシブ解像度を高解像度コピーで複数解像度で操作するオープンソースのフレームワークであるMISTを提案する。 MISTは、深層学習アプリケーションの診断品質を維持しつつ、医療画像のホスティングとストリーミングのインフラストラクチャ非効率を90%以上削減できることを示した。

Large-scale medical imaging datasets have accelerated development of artificial intelligence tools for clinical decision support. However, the large size of these datasets is a bottleneck for users with limited storage and bandwidth. Many users may not even require such large datasets as AI models are often trained on lower resolution images. If users could directly download at their desired resolution, storage and bandwidth requirements would significantly decrease. However, it is impossible to anticipate every users' requirements and impractical to store the data at multiple resolutions. What if we could store images at a single resolution but send them at different ones? We propose MIST, an open-source framework to operationalize progressive resolution for streaming medical images at multiple resolutions from a single high-resolution copy. We demonstrate that MIST can dramatically reduce imaging infrastructure inefficiencies for hosting and streaming medical images by >90%, while maintaining diagnostic quality for deep learning applications.
翻訳日:2023-07-05 16:03:11 公開日:2023-07-01
# WaveMixSR:超高解像度画像のための資源効率ニューラルネットワーク

WaveMixSR: A Resource-efficient Neural Network for Image Super-resolution ( http://arxiv.org/abs/2307.00430v1 )

ライセンス: Link先を確認
Pranav Jeevan, Akella Srinidhi, Pasunuri Prathiba, Amit Sethi(参考訳) 画像の超解像の研究は、最近、cnnよりも高い計算資源を必要とするトランスフォーマーモデルに支配されている。 本稿では2次元離散ウェーブレット変換を空間トークン混合に用いるWaveMixアーキテクチャに基づく画像超解像のための新しいニューラルネットワークWaveMixSRを提案する。 トランスフォーマーベースのモデルとは異なり、wavemixsrは画像をピクセル/パッチのシーケンスとして展開しない。 畳み込みの帰納バイアスとウェーブレット変換の損失のないトークン混合特性を用いて、少ないリソースとトレーニングデータを必要としながら高い性能を達成する。 我々は,画像超解像のための他の最先端手法と比較した。 実験により、WaveMixSRは全てのデータセットで競合性能を達成し、複数の超解像タスクにおいてBSD100データセットで最先端のパフォーマンスに達することが示された。 本モデルでは,現在のモデルと比較して高いパラメータ効率を維持しつつ,少ないトレーニングデータと計算資源を用いて,この性能を実現することができる。

Image super-resolution research recently been dominated by transformer models which need higher computational resources than CNNs due to the quadratic complexity of self-attention. We propose a new neural network -- WaveMixSR -- for image super-resolution based on WaveMix architecture which uses a 2D-discrete wavelet transform for spatial token-mixing. Unlike transformer-based models, WaveMixSR does not unroll the image as a sequence of pixels/patches. It uses the inductive bias of convolutions along with the lossless token-mixing property of wavelet transform to achieve higher performance while requiring fewer resources and training data. We compare the performance of our network with other state-of-the-art methods for image super-resolution. Our experiments show that WaveMixSR achieves competitive performance in all datasets and reaches state-of-the-art performance in the BSD100 dataset on multiple super-resolution tasks. Our model is able to achieve this performance using less training data and computational resources while maintaining high parameter efficiency compared to current state-of-the-art models.
翻訳日:2023-07-05 16:02:57 公開日:2023-07-01
# 深部ニューラルネットワークの空間認識一般化理論

Sparsity aware generalization theory for deep neural networks ( http://arxiv.org/abs/2307.00426v1 )

ライセンス: Link先を確認
Ramchandran Muthukumar, Jeremias Sulam(参考訳) 深層人工ニューラルネットワークは、未理解のままの驚くべき一般化能力を達成する。 本稿では,隠れ層アクティベーションにおいて達成される疎度を生かしたディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。 各入力サンプルの有効なモデルサイズを削減したフレームワークを開発することで、スパーシティと一般化の間の根本的なトレードオフを示すことができる。 重要なことは、この結果がモデルによって達成される疎度について強い仮定をしていないことであり、近年のノルムベースのアプローチよりも改善されている。 過度にパラメータ化されたモデルであっても、特定の設定においてデータ依存の先行値と組み合わせて非空き境界を示す。

Deep artificial neural networks achieve surprising generalization abilities that remain poorly understood. In this paper, we present a new approach to analyzing generalization for deep feed-forward ReLU networks that takes advantage of the degree of sparsity that is achieved in the hidden layer activations. By developing a framework that accounts for this reduced effective model size for each input sample, we are able to show fundamental trade-offs between sparsity and generalization. Importantly, our results make no strong assumptions about the degree of sparsity achieved by the model, and it improves over recent norm-based approaches. We illustrate our results numerically, demonstrating non-vacuous bounds when coupled with data-dependent priors in specific settings, even in over-parametrized models.
翻訳日:2023-07-05 16:02:41 公開日:2023-07-01
# 認証削除を伴うデバイス非依存の暗号化

Composably secure device-independent encryption with certified deletion ( http://arxiv.org/abs/2011.12704v3 )

ライセンス: Link先を確認
Srijita Kundu and Ernest Y.-Z. Tan(参考訳) 我々はBroadbent and Islamic (2020) が導入した認証削除(ECD)による暗号処理について研究するが、デバイスに依存しない環境では、正直な当事者が彼らの量子デバイスを信頼していない場合でも、この処理を実現できることを示す。 さらに,構成可能な方法でECDタスクのセキュリティを定義し,構成可能なセキュリティにつながる条件を満たすことを示す。 本プロトコルはデバイス非依存量子鍵分布(DIQKD)に基づいており,特に Jain, Miller, Shi (2020) のマジック正方形非局所ゲームに基づく並列DIQKDプロトコルである。 認定削除を達成するために、fu and miller (2018) が観察したマジックスクエアゲームの性質、すなわち、このゲームの2ラウンド変種を使用して、1つのランダムビットの削除を証明できる。 この性質から任意の長さのメッセージに対する認証削除セキュリティを実現するために、独立した関心を持つ2ラウンド非局所ゲームに対する並列反復定理を証明している。

We study the task of encryption with certified deletion (ECD) introduced by Broadbent and Islam (2020), but in a device-independent setting: we show that it is possible to achieve this task even when the honest parties do not trust their quantum devices. Moreover, we define security for the ECD task in a composable manner and show that our ECD protocol satisfies conditions that lead to composable security. Our protocol is based on device-independent quantum key distribution (DIQKD), and in particular the parallel DIQKD protocol based on the magic square non-local game, given by Jain, Miller and Shi (2020). To achieve certified deletion, we use a property of the magic square game observed by Fu and Miller (2018), namely that a two-round variant of the game can be used to certify deletion of a single random bit. In order to achieve certified deletion security for arbitrarily long messages from this property, we prove a parallel repetition theorem for two-round non-local games, which may be of independent interest.
翻訳日:2023-07-04 16:43:24 公開日:2023-07-01
# 肝移植手術における動脈圧波形は,受容器の容積を反映する形態の変動と短期予後を予測する

Arterial blood pressure waveform in liver transplant surgery possesses variability of morphology reflecting recipients' acuity and predicting short term outcomes ( http://arxiv.org/abs/2109.10258v2 )

ライセンス: Link先を確認
Shen-Chih Wang, Chien-Kun Ting, Cheng-Yen Chen, Chin-Su Liu, Niang-Cheng Lin, Che-Chuan Loon, Hau-Tieng Wu, Yu-Ting Lin(参考訳) 背景:動脈血圧(abp)波形形態のbeat-to-beatゆらぎ下での臨床情報を検討した。 形態の変動を定量化するために動的拡散マップアルゴリズム(ddmap)を提案した。 基礎となる生理学は、心臓血管系を調節する様々な生理的メカニズムの間の複雑な相互作用を含む補償機構である可能性がある。 肝移植手術は, 異なる期間を含むため, 異なる手術段階における臨床行動について検討した。 方法: 教師なし多様体学習に基づくddmapアルゴリズムを用いて, 形態素のbeat-to-beat変動の定量的指標を得た。 エンドステージ肝疾患(MELD)スコア,術後検査データ,早期移植不全(EAF)スコアの4点において,ABP形態の変動と疾患の重症度との関連について検討した。 結果: 85例中, 術前段階で得られた形態の変動はMELD-Naスコアと最も相関していた。 新生肝相変動はeafスコア, 術後ビリルビン値, 国際正規化比, アスパラギン酸アミノトランスフェラーゼ値, 血小板数と相関した。 さらに, 形態学の多様性は, 一般的なBP測定値とBP変動指標よりも, 以上の臨床症状との関連性が高い。 結語: 術前段階で得られた形態の変動は患者の明度を示すが, 新肝期の変化は短期手術の結果を示す。

Background: We investigated clinical information underneath the beat-to-beat fluctuation of the arterial blood pressure (ABP) waveform morphology. We proposed the Dynamical Diffusion Map algorithm (DDMap) to quantify the variability of morphology. The underlying physiology could be the compensatory mechanisms involving complex interactions between various physiological mechanisms to regulate the cardiovascular system. As a liver transplant surgery contains distinct periods, we investigated its clinical behavior in different surgical steps. Methods: Our study used DDmap algorithm, based on unsupervised manifold learning, to obtain a quantitative index for the beat-to-beat variability of morphology. We examined the correlation between the variability of ABP morphology and disease acuity as indicated by Model for End-Stage Liver Disease (MELD) scores, the postoperative laboratory data, and 4 early allograft failure (EAF) scores. Results: Among the 85 enrolled patients, the variability of morphology obtained during the presurgical phase was best correlated with MELD-Na scores. The neohepatic phase variability of morphology was associated with EAF scores as well as postoperative bilirubin levels, international normalized ratio, aspartate aminotransferase levels, and platelet count. Furthermore, variability of morphology presents more associations with the above clinical conditions than the common BP measures and their BP variability indices. Conclusions: The variability of morphology obtained during the presurgical phase is indicative of patient acuity, whereas those during the neohepatic phase are indicative of short-term surgical outcomes.
翻訳日:2023-07-04 16:37:29 公開日:2023-07-01
# 群衆からのシーケンスラベルの真理発見

Truth Discovery in Sequence Labels from Crowds ( http://arxiv.org/abs/2109.04470v2 )

ライセンス: Link先を確認
Nasim Sabetpour, Adithya Kulkarni, Sihong Xie, Qi Li(参考訳) アノテーションの品質と量は、自然言語処理における重要な課題であるシーケンスラベリングの学習性能に肯定的な影響を及ぼす。 ドメインの専門家を雇ってコーパスに注釈をつけるのは非常にコストがかかる。 Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。 しかし、この方法で収集されたアノテーションは、群衆労働者の専門知識の欠如により、ヒューマンエラーを起こしやすい。 アノテーションアグリゲーションの既存の文献では、アノテーションは独立であり、複雑な依存関係を持つシーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面している。 課題を克服するために,作業者のアノテーションを逐次ラベリングタスクに使用して,真理ラベルを推定する最適化手法を提案する。 群集(aggslc$)からの逐次ラベルの集約手法は,逐次ラベル付けタスク,作業者の信頼性,高度な機械学習技術の特徴を共同で検討する。 アルゴリズムの収束に関する理論的解析により、提案された$AggSLC$は有限個の反復の後に停止することを示した。 バイオメディカル(PICO)における名前付きエンティティ認識(NER)タスクと情報抽出タスク、およびシミュレーションデータセットについて、さまざまなクラウドソースデータセットに対して$AggSLC$を評価する。 その結果,提案手法は最先端の集約手法よりも優れていることがわかった。 この枠組みに関する知見を得るために, アブレーション研究を通じて, $aggslc$ 成分の有効性について検討した。

Annotation quality and quantity positively affect the learning performance of sequence labeling, a vital task in Natural Language Processing. Hiring domain experts to annotate a corpus is very costly in terms of money and time. Crowdsourcing platforms, such as Amazon Mechanical Turk (AMT), have been deployed to assist in this purpose. However, the annotations collected this way are prone to human errors due to the lack of expertise of the crowd workers. Existing literature in annotation aggregation assumes that annotations are independent and thus faces challenges when handling the sequential label aggregation tasks with complex dependencies. To conquer the challenges, we propose an optimization-based method that infers the ground truth labels using annotations provided by workers for sequential labeling tasks. The proposed Aggregation method for Sequential Labels from Crowds ($AggSLC$) jointly considers the characteristics of sequential labeling tasks, workers' reliabilities, and advanced machine learning techniques. Theoretical analysis on the algorithm's convergence further demonstrates that the proposed $AggSLC$ halts after a finite number of iterations. We evaluate $AggSLC$ on different crowdsourced datasets for Named Entity Recognition (NER) tasks and Information Extraction tasks in biomedical (PICO), as well as a simulated dataset. Our results show that the proposed method outperforms the state-of-the-art aggregation methods. To achieve insights into the framework, we study the effectiveness of $AggSLC$'s components through ablation studies.
翻訳日:2023-07-04 16:36:47 公開日:2023-07-01
# タスクに条件付けられた明示的ハイパーパラメータ予測関数の学習

Learning an Explicit Hyperparameter Prediction Function Conditioned on Tasks ( http://arxiv.org/abs/2107.02378v3 )

ライセンス: Link先を確認
Jun Shu, Deyu Meng, Zongben Xu(参考訳) メタ学習は最近、機械学習コミュニティで注目を集めている。 新しいクエリデータのためのラベルを予測するために固有の予測ルールを学習する従来の機械学習とは対照的に、メタ学習は、観察したタスクから機械学習の学習方法論を学習することを目的としており、メタ学習学習手法を利用して新しいクエリタスクを一般化する。 本研究では,すべての学習タスクで共有される明示的なハイパーパラメータ予測関数の学習として,学習方法論を解釈する。 具体的には、この関数はメタラーナーと呼ばれるパラメータ化関数として表現され、トレーニング/テストタスクから適切なハイパーパラメータ設定にマッピングされる。 このような設定により、メタ学習学習手法は、現在の多くのメタ学習手法によって固定されたハイパーパラメータを得る代わりに、様々なクエリタスクを柔軟に適合させることができる。 このようなメタ学習の理解は、一般的な損失/タスク/モデルで一般化境界を分析する従来の学習理論から容易に成功する。 この理論は自然に、抽出されたメタリーナーの品質を改善するための実現可能な制御戦略を導いており、少数ショット回帰、少数ショット分類、ドメイン一般化など、いくつかの典型的なメタ学習アプリケーションにおいて、その一般化能力を微妙に改善できることが証明されている。

Meta learning has attracted much attention recently in machine learning community. Contrary to conventional machine learning aiming to learn inherent prediction rules to predict labels for new query data, meta learning aims to learn the learning methodology for machine learning from observed tasks, so as to generalize to new query tasks by leveraging the meta-learned learning methodology. In this study, we interpret such learning methodology as learning an explicit hyper-parameter prediction function shared by all training tasks. Specifically, this function is represented as a parameterized function called meta-learner, mapping from a training/test task to its suitable hyper-parameter setting, extracted from a pre-specified function set called meta learning machine. Such setting guarantees that the meta-learned learning methodology is able to flexibly fit diverse query tasks, instead of only obtaining fixed hyper-parameters by many current meta learning methods, with less adaptability to query task's variations. Such understanding of meta learning also makes it easily succeed from traditional learning theory for analyzing its generalization bounds with general losses/tasks/models. The theory naturally leads to some feasible controlling strategies for ameliorating the quality of the extracted meta-learner, verified to be able to finely ameliorate its generalization capability in some typical meta learning applications, including few-shot regression, few-shot classification and domain generalization.
翻訳日:2023-07-04 16:36:22 公開日:2023-07-01
# cptam:構成型パースツリーアグリゲーション方法

CPTAM: Constituency Parse Tree Aggregation Method ( http://arxiv.org/abs/2201.07905v2 )

ライセンス: Link先を確認
Adithya Kulkarni, Nasim Sabetpour, Alexey Markin, Oliver Eulenstein, Qi Li(参考訳) 自然言語処理タスクは、句構造文法に従って文の構文構造を理解するために、構成構文解析を用いる。 多くの最先端の選挙区パーサーが提案されているが、同じ文に対して異なる結果が得られるかもしれない。 本論文は, 真理の欠如による信頼性を推定することにより, 異なるパーサから選択構文木を集約する真理発見の考え方を採用する。 私たちの目標は、一貫して高品質な集計構成構文解析木を得ることです。 本稿では,構造集約と構成ラベル集約という2つのステップで,構成解析木集約問題を定式化する。 具体的には,二つの木の間の古典的な対称距離であるrobinson-foulds距離(rf)の重み付き和を最小化することにより,木構造に対する最初の真理発見法を提案する。 さまざまな言語やドメインのベンチマークデータセットで広範な実験が行われている。 実験の結果,CPTAM法は最先端の集約ベースラインよりも優れていた。 また, cptamが推定する重み付けは, 基底真理を欠いた構成パーサを適切に評価できることを実証する。

Diverse Natural Language Processing tasks employ constituency parsing to understand the syntactic structure of a sentence according to a phrase structure grammar. Many state-of-the-art constituency parsers are proposed, but they may provide different results for the same sentences, especially for corpora outside their training domains. This paper adopts the truth discovery idea to aggregate constituency parse trees from different parsers by estimating their reliability in the absence of ground truth. Our goal is to consistently obtain high-quality aggregated constituency parse trees. We formulate the constituency parse tree aggregation problem in two steps, structure aggregation and constituent label aggregation. Specifically, we propose the first truth discovery solution for tree structures by minimizing the weighted sum of Robinson-Foulds (RF) distances, a classic symmetric distance metric between two trees. Extensive experiments are conducted on benchmark datasets in different languages and domains. The experimental results show that our method, CPTAM, outperforms the state-of-the-art aggregation baselines. We also demonstrate that the weights estimated by CPTAM can adequately evaluate constituency parsers in the absence of ground truth.
翻訳日:2023-07-04 16:28:07 公開日:2023-07-01
# ブラックボックスNLP分類器攻撃器

A Black-box NLP Classifier Attacker ( http://arxiv.org/abs/2112.11660v3 )

ライセンス: Link先を確認
Yueyang Liu, Hunmin Lee, Zhipeng Cai(参考訳) ディープニューラルネットワークは、様々な現実世界のタスクを解くための幅広い応用があり、コンピュータビジョン、画像分類、自然言語処理などの領域で満足な結果を得た。 一方で、ニューラルネットワークのセキュリティと堅牢性は、さまざまな研究がニューラルネットワークの脆弱な側面を示しているため、必須となっている。 この場合、自然言語処理タスクでは、ニューラルネットワークは注意的に修正されたテキストによって騙される可能性がある。 前回の研究では、ほとんどの研究は画像領域に焦点を当てており、画像敵対攻撃とは異なり、テキストは離散シーケンスで表現されるが、従来の画像攻撃法はNLPフィールドには適用されない。 本稿では,自己認識機構に基づく単語選択法と,単語置換のための欲求探索アルゴリズムを含む,単語レベルのNLP感情分類器攻撃モデルを提案する。 我々は,IMDBデータセット上でGRUと1D-CNNの被害者モデルを攻撃し,攻撃モデルを実験した。 実験の結果, 単語選択アルゴリズムの効率が向上し, 単語置換数が最小化され, 攻撃成功率が高く, 従来手法よりも効率的であることが判明した。 また、我々のモデルは転送可能であり、いくつかの変更を加えて画像領域で使用することができる。

Deep neural networks have a wide range of applications in solving various real-world tasks and have achieved satisfactory results, in domains such as computer vision, image classification, and natural language processing. Meanwhile, the security and robustness of neural networks have become imperative, as diverse researches have shown the vulnerable aspects of neural networks. Case in point, in Natural language processing tasks, the neural network may be fooled by an attentively modified text, which has a high similarity to the original one. As per previous research, most of the studies are focused on the image domain; Different from image adversarial attacks, the text is represented in a discrete sequence, traditional image attack methods are not applicable in the NLP field. In this paper, we propose a word-level NLP sentiment classifier attack model, which includes a self-attention mechanism-based word selection method and a greedy search algorithm for word substitution. We experiment with our attack model by attacking GRU and 1D-CNN victim models on IMDB datasets. Experimental results demonstrate that our model achieves a higher attack success rate and more efficient than previous methods due to the efficient word selection algorithms are employed and minimized the word substitute number. Also, our model is transferable, which can be used in the image domain with several modifications.
翻訳日:2023-07-04 16:26:52 公開日:2023-07-01
# GaTector: Gazeオブジェクト予測のための統一フレームワーク

GaTector: A Unified Framework for Gaze Object Prediction ( http://arxiv.org/abs/2112.03549v3 )

ライセンス: Link先を確認
Binglu Wang, Tao Hu, Baoshan Li, Xiaojuan Chen, Zhijie Zhang(参考訳) 迷路オブジェクト予測は、人間が見つめている物体を発見することを目的とした、新しく提案されたタスクである。 これは非常に重要なアプリケーションだが、統一されたソリューションフレームワークが欠けている。 直感的な解決策は、既存の視線予測手法にオブジェクト検出分岐を組み込むことである。 しかし、従来の視線予測手法では、通常、シーンイメージとヘッドイメージから特徴を抽出するために2つの異なるネットワークを使用する。 本稿では,視線オブジェクト予測問題に統一的に取り組むために,GaTectorという新しいフレームワークを構築した。 特に、シーン画像とヘッド画像の両方の一般的な特徴を抽出するために共有バックボーンを利用するために、特定汎用特徴抽出器(SGS)が最初に提案されている。 入力とタスクの特異性を検討するため、sgsは共有バックボーンの前に2つの入力固有のブロック、共有バックボーンの後に3つのタスク固有のブロックを導入する。 特に、新しいデフォーカス層は、情報や余分な計算を必要とすることなく、オブジェクト検出タスクのオブジェクト特有の特徴を生成するように設計されている。 さらに、アイズヒートマップをスターボックスに集中させるために、エネルギー集約損失を導入する。 最後に,重なり合う領域を共有できない場合でも,ボックス間の差異を明らかにする新しいwUoCメトリックを提案する。 GOOデータセットの大規模実験により, 対象検出, 視線推定, 視線予測の3トラックすべてにおいて, 提案手法の優位性が検証された。

Gaze object prediction is a newly proposed task that aims to discover the objects being stared at by humans. It is of great application significance but still lacks a unified solution framework. An intuitive solution is to incorporate an object detection branch into an existing gaze prediction method. However, previous gaze prediction methods usually use two different networks to extract features from scene image and head image, which would lead to heavy network architecture and prevent each branch from joint optimization. In this paper, we build a novel framework named GaTector to tackle the gaze object prediction problem in a unified way. Particularly, a specific-general-specific (SGS) feature extractor is firstly proposed to utilize a shared backbone to extract general features for both scene and head images. To better consider the specificity of inputs and tasks, SGS introduces two input-specific blocks before the shared backbone and three task-specific blocks after the shared backbone. Specifically, a novel Defocus layer is designed to generate object-specific features for the object detection task without losing information or requiring extra computations. Moreover, the energy aggregation loss is introduced to guide the gaze heatmap to concentrate on the stared box. In the end, we propose a novel wUoC metric that can reveal the difference between boxes even when they share no overlapping area. Extensive experiments on the GOO dataset verify the superiority of our method in all three tracks, i.e. object detection, gaze estimation, and gaze object prediction.
翻訳日:2023-07-04 16:26:31 公開日:2023-07-01
# TND-NAS:進歩的微分可能なNASフレームワークにおける非微分可能な目的に向けて

TND-NAS: Towards Non-differentiable Objectives in Progressive Differentiable NAS Framework ( http://arxiv.org/abs/2111.03892v4 )

ライセンス: Link先を確認
Bo Lyu, Shiping Wen(参考訳) 差別化可能なアーキテクチャ検索は、ニューラルネットワーク検索(nas)の分野で、初期のnas法と比較して高い効率性のために、徐々に主要な研究テーマとなっている。 最近の差別化可能なNASは、検索性能の向上とGPUメモリ消費の削減も目指している。 しかし、これらの手法は、例えばエネルギー、資源制約された効率、その他のメトリクスなど、自然に微分不可能な目的に対処することができない。 多目的nasフィールドの研究は、これをターゲットとしているが、各候補アーキテクチャの唯一の最適化のために、膨大な計算リソースを必要とする。 この違いを踏まえて,多目的nasにおける微分可能nasフレームワークの高効率性と非微分可能メトリック間の互換性のメリットであるtnd-nasを提案する。 微分可能なnasフレームワークの下では、探索空間の連続的な緩和により、tnd-nasはアーキテクチャパラメータが離散空間で最適化されながら、アーキテクチャパラメータによって縮小されるプログレッシブ探索空間に頼る。 例えば、cifar10 (1.09m/3.3%, 2.4m/2.95%, 9.57m/2.54%) と cifar100 (2.46m/18.3%, 5.46/16.73%, 12.88/15.20%) のデータセット上で、高性能なコンパクトアーキテクチャを実現する。 他のマルチオブジェクトNAS法と比較して、TND-NASは時間(NVIDIA 1080Tiでは1.3GPU日、NSGA-Netでは1/6GPU日)が少なく、実世界のNASシナリオ(リソース制約、プラットフォーム特化)に便利に適応できる。

Differentiable architecture search has gradually become the mainstream research topic in the field of Neural Architecture Search (NAS) for its high efficiency compared with the early NAS methods. Recent differentiable NAS also aims at further improving the search performance and reducing the GPU-memory consumption. However, these methods are no longer naturally capable of tackling the non-differentiable objectives, e.g., energy, resource-constrained efficiency, and other metrics, let alone the multi-objective search demands. Researches in the multi-objective NAS field target this but requires vast computational resources cause of the sole optimization of each candidate architecture. In light of this discrepancy, we propose the TND-NAS, which is with the merits of the high efficiency in differentiable NAS framework and the compatibility among non-differentiable metrics in Multi-objective NAS. Under the differentiable NAS framework, with the continuous relaxation of the search space, TND-NAS has the architecture parameters been optimized in discrete space, while resorting to the progressive search space shrinking by architecture parameters. Our representative experiment takes two objectives (Parameters, Accuracy) as an example, we achieve a series of high-performance compact architectures on CIFAR10 (1.09M/3.3%, 2.4M/2.95%, 9.57M/2.54%) and CIFAR100 (2.46M/18.3%, 5.46/16.73%, 12.88/15.20%) datasets. Favorably, compared with other multi-objective NAS methods, TND-NAS is less time-consuming (1.3 GPU-days on NVIDIA 1080Ti, 1/6 of that in NSGA-Net), and can be conveniently adapted to real-world NAS scenarios (resource-constrained, platform-specialized).
翻訳日:2023-07-04 16:25:51 公開日:2023-07-01
# 時系列解析におけるトランスフォーマー:チュートリアル

Transformers in Time-series Analysis: A Tutorial ( http://arxiv.org/abs/2205.01138v2 )

ライセンス: Link先を確認
Sabeen Ahmed, Ian E. Nielsen, Aakash Tripathi, Shamoon Siddiqui, Ghulam Rasool, Ravi P. Ramachandran(参考訳) トランスフォーマーアーキテクチャは、特に自然言語処理やコンピュータビジョンにおいて広く応用されている。 近年, 時系列解析にトランスフォーマーが採用されている。 本チュートリアルでは、Transformerアーキテクチャ、その応用の概要と、時系列解析における最近の研究論文の例を紹介する。 本稿では,トランスフォーマーのコアコンポーネントとして,自己保持機構,位置符号化,マルチヘッド,エンコーダ/デコーダなどについて解説する。 最初のTransformerアーキテクチャのいくつかの拡張は、時系列タスクに取り組むために強調されている。 チュートリアルはまた、時系列分析のためにTransformerを効果的にトレーニングする課題を克服するためのベストプラクティスとテクニックも提供している。

Transformer architecture has widespread applications, particularly in Natural Language Processing and computer vision. Recently Transformers have been employed in various aspects of time-series analysis. This tutorial provides an overview of the Transformer architecture, its applications, and a collection of examples from recent research papers in time-series analysis. We delve into an explanation of the core components of the Transformer, including the self-attention mechanism, positional encoding, multi-head, and encoder/decoder. Several enhancements to the initial, Transformer architecture are highlighted to tackle time-series tasks. The tutorial also provides best practices and techniques to overcome the challenge of effectively training Transformers for time-series analysis.
翻訳日:2023-07-04 16:19:10 公開日:2023-07-01
# FCNet:任意長露光推定のための畳み込みニューラルネットワーク

FCNet: A Convolutional Neural Network for Arbitrary-Length Exposure Estimation ( http://arxiv.org/abs/2203.03624v3 )

ライセンス: Link先を確認
Jin Liang, Yuchen Yang, Anran Zhang, Jun Xu, Hui Li, Xiantong Zhen(参考訳) デジタルカメラで撮影された写真は、通常、露出不足や露出不足に苦しむ。 画像露光エンハンスメントでは,単一露光補正(sec)と複数露光融合(mef)の課題が画像処理コミュニティで広く研究されている。 しかし、現在のSECまたはMEF法は、異なるモチベーションの下で開発されており、SECとMEFの内部相関を無視しているため、不適切な露出で任意の長さのシーケンスを処理するのが困難である。 加えて、MEF法は通常、露出不足または露出過剰な画像のみを含むシーケンスの露出を推定できない。 これらの問題を緩和するために,不適切な露光を伴う任意の長さ(うち1つを含む)の画像列に対処する新しいFCNetを開発した。 これは、ラプラシアンピラミッド(LP)画像分解による画像シーケンスの融合と補正によって達成される。 各lpレベルにおいて、入力画像シーケンスの低周波ベース成分を、代替露光融合および補正により実装された連続露光推定のための連続露光ブロックと補正ブロックとに順次供給する。 現在のLPレベルの露光補正画像は、次のLPレベルの入力画像シーケンスの高周波詳細成分とアップサンプリングして融合し、次のLPレベルのFusionおよびCorrectionブロックのベースコンポーネントを出力する。 ベンチマークデータセットの実験では、当社のFCNetはSECとMEFを含む任意の長さの露光推定に有効であることが示された。

The photographs captured by digital cameras usually suffer from over or under exposure problems. For image exposure enhancement, the tasks of Single-Exposure Correction (SEC) and Multi-Exposure Fusion (MEF) are widely studied in the image processing community. However, current SEC or MEF methods are developed under different motivations and thus ignore the internal correlation between SEC and MEF, making it difficult to process arbitrary-length sequences with improper exposures. Besides, the MEF methods usually fail at estimating the exposure of a sequence containing only under-exposed or over-exposed images. To alleviate these problems, in this paper, we develop a novel Fusion-Correction Network (FCNet) to tackle an arbitrary-length (including one) image sequence with improper exposures. This is achieved by fusing and correcting an image sequence by Laplacian Pyramid (LP) image decomposition. In each LP level, the low-frequency base component of the input image sequence is fed into a Fusion block and a Correction block sequentially for consecutive exposure estimation, implemented by alternative exposure fusion and correction. The exposure-corrected image in current LP level is upsampled and fused with the high-frequency detail components of the input image sequence in the next LP level, to output the base component for the Fusion and Correction blocks in next LP level. Experiments on the benchmark dataset demonstrate that our FCNet is effective on arbitrary-length exposure estimation, including both SEC and MEF.
翻訳日:2023-07-04 16:16:34 公開日:2023-07-01
# 確率勾配に基づくサンプリングにおけるCLT構造の利用 : 解析と高速アルゴリズムの改良

Utilising the CLT Structure in Stochastic Gradient based Sampling : Improved Analysis and Faster Algorithms ( http://arxiv.org/abs/2206.03792v5 )

ライセンス: Link先を確認
Aniket Das, Dheeraj Nagaraj and Anant Raj(参考訳) 本稿では,SGLD(Stochastic Gradient Langevin Dynamics)やIPD(Interacting Particle Dynamcs)のためのRBM(Random Batch Method)などのサンプリングアルゴリズムの確率近似について考察する。 確率近似によって生じる雑音は、中央極限定理(CLT)によりほぼガウス的であり、ブラウン運動はまさにガウス的である。 この構造を利用して拡散過程内の確率近似誤差を吸収し、これらのアルゴリズムに対する収束保証を改善する。 SGLDの場合、ターゲット密度が対数ソボレフ不等式を満たすことを前提として、均一な温暖開始を必要としないKL分散の最初の安定収束速度を証明した。 以上の結果から, 先行研究と比較して, 比較的軽度な仮定の下で, 第一次オラクル複雑性が優れていることが示唆された。 また, H\"{o}lder smoothness や Poincare inequality といった,より弱い条件下でのSGLDの保証も証明し, LMC と SGLD の最先端保証とのギャップを埋める。 本解析は, 拡散強度の再スケーリングにより, 確率近似により生じる付加ノイズを補正する共分散補正と呼ばれる新しいアルゴリズムを動機付ける。 最後に,本手法をrbm分析に適用し,最小限の仮定の下で,先行研究(地平線上の指数依存の除去など)における保証を大幅に改善した。

We consider stochastic approximations of sampling algorithms, such as Stochastic Gradient Langevin Dynamics (SGLD) and the Random Batch Method (RBM) for Interacting Particle Dynamcs (IPD). We observe that the noise introduced by the stochastic approximation is nearly Gaussian due to the Central Limit Theorem (CLT) while the driving Brownian motion is exactly Gaussian. We harness this structure to absorb the stochastic approximation error inside the diffusion process, and obtain improved convergence guarantees for these algorithms. For SGLD, we prove the first stable convergence rate in KL divergence without requiring uniform warm start, assuming the target density satisfies a Log-Sobolev Inequality. Our result implies superior first-order oracle complexity compared to prior works, under significantly milder assumptions. We also prove the first guarantees for SGLD under even weaker conditions such as H\"{o}lder smoothness and Poincare Inequality, thus bridging the gap between the state-of-the-art guarantees for LMC and SGLD. Our analysis motivates a new algorithm called covariance correction, which corrects for the additional noise introduced by the stochastic approximation by rescaling the strength of the diffusion. Finally, we apply our techniques to analyze RBM, and significantly improve upon the guarantees in prior works (such as removing exponential dependence on horizon), under minimal assumptions.
翻訳日:2023-07-04 16:07:53 公開日:2023-07-01
# NIPQ:ノイズプロキシに基づく擬似量子化

NIPQ: Noise proxy-based Integrated Pseudo-Quantization ( http://arxiv.org/abs/2206.00820v2 )

ライセンス: Link先を確認
Juncheol Shin, Junhyuk So, Sein Park, Seungyeop Kang, Sungjoo Yoo and Eunhyeok Park(参考訳) 近似による微分不可能関数上の勾配流を可能にするストレートスルー推定器(STE)は、量子化認識トレーニング(QAT)に関する研究で好まれている。 しかし、STEはQAT中に不安定な収束を引き起こし、低い精度で顕著な品質劣化をもたらす。 近年,steの代わりに疑似量子化雑音を用いて学習可能なパラメータを更新するための代替手法として疑似量子化トレーニングが提案されている。 本研究では,擬似量子化フレームワークにトランケーションの考え方を統合することで,アクティベーションとウェイトの両方において擬似量子化の統一的なサポートを可能にする新しいノイズプロキシベース統合擬似量子化(NIPQ)を提案する。 NIPQは、すべての量子化パラメータ(ビット幅とトランケーション境界など)と、STE不安定性のない勾配降下によるネットワークパラメータを更新する。 我々の広範な実験によると、NIPQは様々なビジョンや言語アプリケーションにおける既存の量子化アルゴリズムよりも大きなマージンで優れている。

Straight-through estimator (STE), which enables the gradient flow over the non-differentiable function via approximation, has been favored in studies related to quantization-aware training (QAT). However, STE incurs unstable convergence during QAT, resulting in notable quality degradation in low precision. Recently, pseudoquantization training has been proposed as an alternative approach to updating the learnable parameters using the pseudo-quantization noise instead of STE. In this study, we propose a novel noise proxy-based integrated pseudoquantization (NIPQ) that enables unified support of pseudoquantization for both activation and weight by integrating the idea of truncation on the pseudo-quantization framework. NIPQ updates all of the quantization parameters (e.g., bit-width and truncation boundary) as well as the network parameters via gradient descent without STE instability. According to our extensive experiments, NIPQ outperforms existing quantization algorithms in various vision and language applications by a large margin.
翻訳日:2023-07-04 16:07:26 公開日:2023-07-01
# 真理集合代数:不定義性を証明する新しい方法

Truth Set Algebra: A New Way to Prove Undefinability ( http://arxiv.org/abs/2208.04422v2 )

ライセンス: Link先を確認
Sophia Knight, Pavel Naumov, Qi Shi and Vigasan Suntharraj(参考訳) 本稿では,論理接続の非定義性を証明する新しい手法を提案し,その手法をいくつかの例で示す。 得られた結果のいくつかは既存の定理の新しい証明であり、その他はこの研究の原点である。

The article proposes a new technique for proving the undefinability of logical connectives through each other and illustrates the technique with several examples. Some of the obtained results are new proofs of the existing theorems, others are original to this work.
翻訳日:2023-07-04 15:59:51 公開日:2023-07-01
# 圧力分布解析による幼児運動分類

Infant movement classification through pressure distribution analysis ( http://arxiv.org/abs/2208.00884v3 )

ライセンス: Link先を確認
Tomas Kulvicius, Dajie Zhang, Karin Nielsen-Saines, Sven B\"olte, Marc Kraft, Christa Einspieler, Luise Poustka, Florentin W\"org\"otter, Peter B Marschik(参考訳) 脳性麻痺などの神経運動障害を早期に客観的に検出することを目的として,乳児一般運動分類装置(gms)を用いた非侵襲的アプローチを提案した。 そこで本研究では,「フィジティ期」の典型的なgmパターンを「プレフィジティ期」と「プレフィジティ期」を区別するために,圧力データを用いた場合の可能性について検討した。 典型的には発達する乳児コホートから参加者 (N = 45) を採取した。 1024個のセンサーを備えた32×32グリッド圧センサマットの圧力データを含むマルチモーダルセンサデータを,2週間に1回,4~16週の生後7回の実験室で前向きに記録した。 概念実証のため,運動分類には2つの対象年齢から1776個の圧力データスニペット(長さ5s)を用いた。 各スニペットは、人間の評価者による対応する同期映像データに基づいて、Fidgety Present (FM+) またはFolt (FM-) として事前に注釈付けされた。 複数のニューラルネットワークアーキテクチャをテストして、サポートベクタマシン(SVM)、フィードフォワードネットワーク(FFN)、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワークなど、FM+とFM-クラスを区別した。 CNN はクラス FM+ 対 FM- の平均分類精度 (81.4%) を達成した。 GMAの自動化を目的とした他の手法の長所と短所を圧力センサアプローチと比較した結果,圧力センサアプローチは大規模な動きデータ取得と共有を効率的に行う上で大きな可能性を秘めていることがわかった。 これにより、乳児の神経運動機能を評価するための日々の臨床応用にスケーラブルなアプローチの改善が可能になるだろう。

Aiming at objective early detection of neuromotor disorders such as cerebral palsy, we proposed an innovative non-intrusive approach using a pressure sensing device to classify infant general movements (GMs). Here, we tested the feasibility of using pressure data to differentiate typical GM patterns of the ''fidgety period'' (i.e., fidgety movements) vs. the ''pre-fidgety period'' (i.e., writhing movements). Participants (N = 45) were sampled from a typically-developing infant cohort. Multi-modal sensor data, including pressure data from a 32x32-grid pressure sensing mat with 1024 sensors, were prospectively recorded for each infant in seven succeeding laboratory sessions in biweekly intervals from 4-16 weeks of post-term age. For proof-of-concept, 1776 pressure data snippets, each 5s long, from the two targeted age periods were taken for movement classification. Each snippet was pre-annotated based on corresponding synchronised video data by human assessors as either fidgety present (FM+) or absent (FM-). Multiple neural network architectures were tested to distinguish the FM+ vs. FM- classes, including support vector machines (SVM), feed-forward networks (FFNs), convolutional neural networks (CNNs), and long short-term memory (LSTM) networks. The CNN achieved the highest average classification accuracy (81.4%) for classes FM+ vs. FM-. Comparing the pros and cons of other methods aiming at automated GMA to the pressure sensing approach, we concluded that the pressure sensing approach has great potential for efficient large-scale motion data acquisition and sharing. This will in return enable improvement of the approach that may prove scalable for daily clinical application for evaluating infant neuromotor functions.
翻訳日:2023-07-04 15:59:46 公開日:2023-07-01
# PASTA: 物語の参加者状態モデリングのためのデータセット

PASTA: A Dataset for Modeling Participant States in Narratives ( http://arxiv.org/abs/2208.00329v2 )

ライセンス: Link先を確認
Sayontan Ghosh, Mahnaz Koupaee, Isabella Chen, Francis Ferraro, Nathanael Chambers, Niranjan Balasubramanian(参考訳) 物語の中の出来事は、参加者の基盤となる状態を通じて、一貫性のある全体として理解される。 しばしば、これらの参加者状態は明示的に言及されず、読者によって推測される。 物語を理解するモデルも同様にこれらの暗黙の状態を推測し、これらの状態の変化が物語に与える影響を推論するべきである。 この目標を達成するために、新たにクラウドソーシングされた英語のParticipant StatesデータセットであるPASTAを導入する。 このデータセットには、推測可能な参加者状態、各状態に対する反事実的摂動、反事実が真であれば必要となるストーリーの変更が含まれている。 本稿では,ある状態がいつ物語に関連付けられているかを推測し,その状態が反実的な状態に規定されたストーリーを改訂し,また,修正されたストーリーに与えられた最も可能性の高い状態変化を説明するための3つの状態ベース推論タスクを紹介する。 実験の結果、今日のLLMはある程度の状態を推論できるが、特に様々な種類の知識(例えば、物理的、数値的、事実)で推論するアクセスと能力を必要とする問題において、改善の余地は大きい。

The events in a narrative are understood as a coherent whole via the underlying states of their participants. Often, these participant states are not explicitly mentioned, instead left to be inferred by the reader. A model that understands narratives should likewise infer these implicit states, and even reason about the impact of changes to these states on the narrative. To facilitate this goal, we introduce a new crowdsourced English-language, Participant States dataset, PASTA. This dataset contains inferable participant states; a counterfactual perturbation to each state; and the changes to the story that would be necessary if the counterfactual were true. We introduce three state-based reasoning tasks that test for the ability to infer when a state is entailed by a story, to revise a story conditioned on a counterfactual state, and to explain the most likely state change given a revised story. Experiments show that today's LLMs can reason about states to some degree, but there is large room for improvement, especially in problems requiring access and ability to reason with diverse types of knowledge (e.g. physical, numerical, factual).
翻訳日:2023-07-04 15:59:06 公開日:2023-07-01
# 多モード音響共振器における相関周波数雑音

Correlated frequency noise in a multimode acoustic resonator ( http://arxiv.org/abs/2208.13410v2 )

ライセンス: Link先を確認
Nuttamas Tubsrinuan and Jared H. Cole and Per Delsing and Gustav Andersson(参考訳) 周波数不安定性は量子デバイスにおけるエラーの主な原因である。 本研究では、14個のsawモードの反射係数を7時間以上同時に測定する弾性表面波共振器の周波数ゆらぎについて検討する。 2つの異なるノイズ特性を報告する。 2レベルシステム(TLS)欠陥との相互作用によるマルチモード周波数ノイズは、デチューニングの増加に伴って減少する有意な相関関係を示す。 この発見は、量子デバイスにおける支配的なノイズ源の1つである寄生TLS挙動の現在の理解と一致する。 TLSによるノイズに加えて、遅い反相関ダイナミクスを持つ強い異常周波数変動を観測する。 これらのノイズバーストは超伝導量子系で観測された宇宙放射の符号に似ている。

Frequency instabilities are a major source of errors in quantum devices. This study investigates frequency fluctuations in a surface acoustic wave (SAW) resonator, where reflection coefficients of 14 SAW modes are measured simultaneously for more than seven hours. We report two distinct noise characteristics. Multimode frequency noise caused by interactions with two-level system (TLS) defects shows significant degrees of correlations that diminish with increased detuning. This finding agrees with the current understanding of the parasitic TLS behavior as one of the dominant noise sources in quantum devices. In addition to the TLS-induced noise, we observe strong anomalous frequency fluctuations with slow, anti-correlated dynamics. These noise bursts resemble signatures of cosmic radiation observed in superconducting quantum systems.
翻訳日:2023-07-04 15:49:14 公開日:2023-07-01
# ハイパーグラフSBMにおけるコミュニティ検出:類似行列を考慮した最適回復

Community Detection in the Hypergraph SBM: Optimal Recovery Given the Similarity Matrix ( http://arxiv.org/abs/2208.12227v2 )

ライセンス: Link先を確認
Julia Gaudio, Nirmit Joshi(参考訳) コミュニティ検出はネットワーク科学における根本的な問題である。 本稿では,hypergraph$$$stochastic$ $block$$model$ (hsbm) を用いたハイパーグラフにおけるコミュニティ検出について考察する。 我々は$similarity$$matrix$$W$で動作する多項式時間アルゴリズムの性能を調査し、$W_{ij}$は$i$と$j$の両方を含むハイパーエッジの数を報告する。 この情報モデルの下で、Kim、Bandeira、Goemansは対数次数レジームの正確な回復のための情報理論しきい値を決定し、最適であると仮定した半定値プログラミング緩和を提案した。 本稿では,この予想を確認する。 また、ほぼ線形な実行時間を持つ単純かつ高効率なスペクトルアルゴリズムを設計し、情報理論しきい値を達成することを示す。 さらに、スペクトルアルゴリズムはより高密度な状態でも成功し、従来の手法よりもかなり効率的であり、選択方法として確立されている。 スペクトルアルゴリズムの解析は、$W$の固有ベクトルの強い$entrywise$境界に決定的に依存する。 我々の境界は、abbe、fan、wang、zhongの業績に触発され、彼は独立なエントリを持つ対称行列の固有ベクトルのエントリワイズ境界を開発した。 類似度行列の複雑な依存性構造にもかかわらず、類似のエントリワイズ保証が証明される。

Community detection is a fundamental problem in network science. In this paper, we consider community detection in hypergraphs drawn from the $hypergraph$ $stochastic$ $block$ $model$ (HSBM), with a focus on exact community recovery. We study the performance of polynomial-time algorithms which operate on the $similarity$ $matrix$ $W$, where $W_{ij}$ reports the number of hyperedges containing both $i$ and $j$. Under this information model, Kim, Bandeira, and Goemans determined the information-theoretic threshold for exact recovery in the logarithmic degree regime, and proposed a semidefinite programming relaxation which they conjectured to be optimal. In this paper, we confirm this conjecture. We also design a simple and highly efficient spectral algorithm with nearly linear runtime and show that it achieves the information-theoretic threshold. Moreover, the spectral algorithm also succeeds in denser regimes and is considerably more efficient than previous approaches, establishing it as the method of choice. Our analysis of the spectral algorithm crucially relies on strong $entrywise$ bounds on the eigenvectors of $W$. Our bounds are inspired by the work of Abbe, Fan, Wang, and Zhong, who developed entrywise bounds for eigenvectors of symmetric matrices with independent entries. Despite the complex dependency structure in similarity matrices, we prove similar entrywise guarantees.
翻訳日:2023-07-04 15:48:33 公開日:2023-07-01
# 弱識別関数の強識別関数の推論

Inference on Strongly Identified Functionals of Weakly Identified Functions ( http://arxiv.org/abs/2208.08291v3 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Xiaojie Mao, Whitney Newey, Vasilis Syrgkanis, Masatoshi Uehara(参考訳) 非パラメトリックインスツルメンタル変数(NPIV)分析、未測定の共起下での近因性推論、シャドー変数による非ランダムデータ不足など、様々な応用において、条件付きモーメント制約によって定義されるニュアンス関数(NPIV回帰など)の連続線型関数(例えば平均因性効果)への推論に興味がある。 これらの迷惑関数は一般に弱く識別され、条件付きモーメント制限は重度に不適切であり、複数の解を許容できる。 これは、函数を機能的可能な速度で推定できることを示す強い条件を課すことによって解決される。 本稿では,ニュアンス関数が存在しない場合でも,関数を強く識別する新しい条件について検討する。つまり,関数は,$\sqrt{n}$-ratesで漸近的に正規推定できる。 この条件は、偏りニュアンス関数の存在を示唆し、偏りニュアンス関数と偏りニュアンス関数の両方に対するペナル化ミニマックス推定器を提案する。 提案するニュアサンス推定器はフレキシブルな関数クラスに対応でき、ヌアザンスの識別性によらずペナリゼーションによって決定される固定限界に収束することができる。 我々は、ペナルティ化されたニュアサンス推定器を用いて、関心関数のデバイアス推定器を形成し、その漸近正規性が一般的な高水準条件下で証明され、漸近的に妥当な信頼区間を与える。 また,本手法は,新しい部分線形近位因果推論問題と部分線形インストゥルメンタル変数回帰問題にも応用できることを示した。

In a variety of applications, including nonparametric instrumental variable (NPIV) analysis, proximal causal inference under unmeasured confounding, and missing-not-at-random data with shadow variables, we are interested in inference on a continuous linear functional (e.g., average causal effects) of nuisance function (e.g., NPIV regression) defined by conditional moment restrictions. These nuisance functions are generally weakly identified, in that the conditional moment restrictions can be severely ill-posed as well as admit multiple solutions. This is sometimes resolved by imposing strong conditions that imply the function can be estimated at rates that make inference on the functional possible. In this paper, we study a novel condition for the functional to be strongly identified even when the nuisance function is not; that is, the functional is amenable to asymptotically-normal estimation at $\sqrt{n}$-rates. The condition implies the existence of debiasing nuisance functions, and we propose penalized minimax estimators for both the primary and debiasing nuisance functions. The proposed nuisance estimators can accommodate flexible function classes, and importantly they can converge to fixed limits determined by the penalization regardless of the identifiability of the nuisances. We use the penalized nuisance estimators to form a debiased estimator for the functional of interest and prove its asymptotic normality under generic high-level conditions, which provide for asymptotically valid confidence intervals. We also illustrate our method in a novel partially linear proximal causal inference problem and a partially linear instrumental variable regression problem.
翻訳日:2023-07-04 15:48:08 公開日:2023-07-01
# フェルミオンと反フェルミオンの自由落下について

On free fall of fermions and antifermions ( http://arxiv.org/abs/2210.07103v2 )

ライセンス: Link先を確認
Viacheslav A. Emelyanov(参考訳) 量子場理論の枠組みにおいて,曲面時空中のスピンハーフ量子粒子を記述するモデルを提案する。 このモデルはアインシュタインの同値原理と量子粒子状態の定義における一般共分散を具体化するものである。 このモデルでは、重力場中のスピンハーフ量子粒子を特徴づけるいくつかの観測量を計算する。 特に、ねじれがなくても、スピンは通常のフェルミフレームにあることが分かる。 この効果は、スピンレス量子粒子について最近報告した自由落下非ユニバーサリティと相補的なものと思われる。 さらに、量子粒子の重力ポテンシャルエネルギーは、量子論における自由落下の非普遍性の原因となる地球の重力場に広がる波束に影響を受けないことがわかった。 この理論的な結果は、重力スペクトロメータを用いて量子粒子モデルの実験的な研究のための別のチャネルを提供する。 最後に、(元素的な)フェルミオンと反フェルミオンは重力では区別できない。

We propose a model describing spin-half quantum particles in curved spacetime in the framework of quantum field theory. Our model is based on embodying Einstein's equivalence principle and general covariance in the definition of quantum-particle states. With this model at hand, we compute several observables which characterise spin-half quantum particles in a gravitational field. In particular, we find that spin precesses in a normal Fermi frame, even in the absence of torsion. The effect appears to be complementary to free-fall non-universality we have recently reported about for spinless quantum particles. Furthermore, we find that quantum-particle gravitational-potential energy is insensitive to wave-packet spreading in the Earth's gravitational field, that is responsible for the non-universality of free fall in quantum theory. This theoretical result provides another channel for the experimental study of our quantum-particle model by using gravitational spectrometers. Finally, we also find that (elementary) fermions and antifermions are indistinguishable in gravity.
翻訳日:2023-07-04 15:41:15 公開日:2023-07-01
# 効果的なオンライン広告のための垂直セミフェデレーション学習

Vertical Semi-Federated Learning for Efficient Online Advertising ( http://arxiv.org/abs/2209.15635v2 )

ライセンス: Link先を確認
Wenjie Li, Qiaolin Xia, Hao Cheng, Kouyin Xue, Shu-Tao Xia(参考訳) 従来の垂直連合型学習スキーマは2つの主な問題に悩まされている。 1)重複試料に対する適用範囲の制限及び 2)リアルタイムフェデレートサービングのハイシステムチャレンジは,広告システムへの適用を制限している。 そこで我々は,これらの課題に取り組むために,新たな学習環境であるSemi-VFL(Vertical Semi-Federated Learning)を提案する。 単一パーティモデルよりも優れたフェデレーション対応ローカルモデルを学習し、一方、ローカルサービスの有用性を維持することで、VFLの実践的な産業的応用を実現するために、セミVFLを提案する。 そこで我々は,JPL(Joint Privileged Learning framework)を慎重に設計した。 一 受動的当事者の特徴の欠如を緩和し、かつ、 二 サンプル空間全体に適応すること。 具体的には、サンプル空間全体に適用可能な推論効率の高いシングルパーティの学生モデルを構築し、その一方で、フェデレーション機能拡張の利点を保ちます。 オーバーラップデータと非オーバーラップデータの両方に対するクロスパーティ特徴相関を抽出するために,新しい表現蒸留法が考案された。 実世界の広告データセットについて広範な実験を行った。 その結果,本手法はベースライン法よりも優れた性能を達成し,セミVFL設定におけるその優位性を検証した。

The traditional vertical federated learning schema suffers from two main issues: 1) restricted applicable scope to overlapped samples and 2) high system challenge of real-time federated serving, which limits its application to advertising systems. To this end, we advocate a new learning setting Semi-VFL (Vertical Semi-Federated Learning) to tackle these challenge. Semi-VFL is proposed to achieve a practical industry application fashion for VFL, by learning a federation-aware local model which performs better than single-party models and meanwhile maintain the convenience of local-serving. For this purpose, we propose the carefully designed Joint Privileged Learning framework (JPL) to i) alleviate the absence of the passive party's feature and ii) adapt to the whole sample space. Specifically, we build an inference-efficient single-party student model applicable to the whole sample space and meanwhile maintain the advantage of the federated feature extension. New representation distillation methods are designed to extract cross-party feature correlations for both the overlapped and non-overlapped data. We conducted extensive experiments on real-world advertising datasets. The results show that our method achieves the best performance over baseline methods and validate its superiority in the Semi-VFL setting.
翻訳日:2023-07-04 15:39:29 公開日:2023-07-01
# フェデレーションクラスタの機械学習

Machine Unlearning of Federated Clusters ( http://arxiv.org/abs/2210.16424v2 )

ライセンス: Link先を確認
Chao Pan, Jin Sima, Saurav Prakash, Vishal Rana, Olgica Milenkovic(参考訳) フェデレートクラスタリング(FC)は、パーソナライズされたレコメンデータや医療システムなど、多くの実践的なアプリケーションで発生する教師なしの学習問題である。 近年の「忘れられる権利」を保障する法律の採用により、FC法における機械学習の課題が重要になっている。 本稿では,FCにおける機械学習の課題を初めて紹介し,カスタマイズされたセキュアなFCフレームワークのための効率的な学習機構を提案する。 我々のFCフレームワークは、未学習に適した特別な初期化手順を利用する。 クライアントデータプライバシを保護するために,より一般的な問題だけでなく,クラスタリング中に発生するsparse secure federated learning(fl)問題に対処するセキュア圧縮マルチセットアグリゲーション(scma)フレームワークを開発した。 低通信複雑性と秘密共有プロトコルを同時に実現するため、SCMAパイプラインに特殊評価点とリードソロモン符号化を統合し、クライアント通信コストがベクトル次元で対数であることを証明する。 さらに, 完全再学習よりも学習の非学習機構の利点を実証するため, 提案手法の非学習性能に関する理論的解析を行った。 シミュレーションの結果,新しいFCフレームワークは,クラスタサイズが極めて不均衡な場合に,これまでに報告したFCベースラインよりも優れたクラスタリング性能を示すことがわかった。 削除要求毎にK-means++を完全にローカルかつグローバルに再トレーニングするのに比べ、我々の未学習手順は7つのデータセットで平均84倍のスピードアップを提供する。 提案手法の実装はhttps://github.com/thupchnsky/mufcで利用可能である。

Federated clustering (FC) is an unsupervised learning problem that arises in a number of practical applications, including personalized recommender and healthcare systems. With the adoption of recent laws ensuring the "right to be forgotten", the problem of machine unlearning for FC methods has become of significant importance. We introduce, for the first time, the problem of machine unlearning for FC, and propose an efficient unlearning mechanism for a customized secure FC framework. Our FC framework utilizes special initialization procedures that we show are well-suited for unlearning. To protect client data privacy, we develop the secure compressed multiset aggregation (SCMA) framework that addresses sparse secure federated learning (FL) problems encountered during clustering as well as more general problems. To simultaneously facilitate low communication complexity and secret sharing protocols, we integrate Reed-Solomon encoding with special evaluation points into our SCMA pipeline, and prove that the client communication cost is logarithmic in the vector dimension. Additionally, to demonstrate the benefits of our unlearning mechanism over complete retraining, we provide a theoretical analysis for the unlearning performance of our approach. Simulation results show that the new FC framework exhibits superior clustering performance compared to previously reported FC baselines when the cluster sizes are highly imbalanced. Compared to completely retraining K-means++ locally and globally for each removal request, our unlearning procedure offers an average speed-up of roughly 84x across seven datasets. Our implementation for the proposed method is available at https://github.com/thupchnsky/mufc.
翻訳日:2023-07-04 15:31:17 公開日:2023-07-01
# 視覚言語モデルを用いた指導強化によるロボットスキル獲得

Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models ( http://arxiv.org/abs/2211.11736v3 )

ライセンス: Link先を確認
Ted Xiao and Harris Chan and Pierre Sermanet and Ayzaan Wahid and Anthony Brohan and Karol Hausman and Sergey Levine and Jonathan Tompson(参考訳) 近年、自然言語の指示に従うロボット操作ポリシーの学習において、多くの進歩がなされている。 このような手法は通常、特定のタスクを念頭に置いて収集されたロボット言語データのコーパスから学習する。 近年,CLIP や ViLD のような大規模事前学習型視覚言語モデル (VLM) がロボット工学に応用されている。 これらの事前訓練されたモデルは、ロボットデータの自動ラベラーとして機能し、インターネット規模の知識を既存のデータセットに効果的にインポートして、基礎的真理のアノテーションに反映されていないタスクにも役立てることができるだろうか? そこで本稿では,CLIPのセマンティック理解を活用して知識を大規模データセット上に伝播させ,拡張されたデータセット上で言語条件のポリシーを訓練する半教師付き言語ラベルを用いて,言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)を提案する。 この方法では、高価なヒトラベルに比べて有用な言語記述を安価に取得でき、大規模データセットのラベルカバレッジをより効率的にすることができる。 実世界のロボット操作領域では8万のデモのうち96.5%がクラウドソースの言語アノテーションを含まない。 DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。

In recent years, much progress has been made in learning robotic manipulation policies that follow natural language instructions. Such methods typically learn from corpora of robot-language data that was either collected with specific tasks in mind or expensively re-labelled by humans with rich language descriptions in hindsight. Recently, large-scale pretrained vision-language models (VLMs) like CLIP or ViLD have been applied to robotics for learning representations and scene descriptors. Can these pretrained models serve as automatic labelers for robot data, effectively importing Internet-scale knowledge into existing datasets to make them useful even for tasks that are not reflected in their ground truth annotations? To accomplish this, we introduce Data-driven Instruction Augmentation for Language-conditioned control (DIAL): we utilize semi-supervised language labels leveraging the semantic understanding of CLIP to propagate knowledge onto large datasets of unlabelled demonstration data and then train language-conditioned policies on the augmented datasets. This method enables cheaper acquisition of useful language descriptions compared to expensive human labels, allowing for more efficient label coverage of large-scale datasets. We apply DIAL to a challenging real-world robotic manipulation domain where 96.5% of the 80,000 demonstrations do not contain crowd-sourced language annotations. DIAL enables imitation learning policies to acquire new capabilities and generalize to 60 novel instructions unseen in the original dataset.
翻訳日:2023-07-04 15:22:08 公開日:2023-07-01
# 限られたデータリソースを持つ未学習グラフ分類器

Unlearning Graph Classifiers with Limited Data Resources ( http://arxiv.org/abs/2211.03216v2 )

ライセンス: Link先を確認
Chao Pan, Eli Chien, Olgica Milenkovic(参考訳) ユーザのプライバシの需要が増大するにつれて、ソーシャルネットワークやレコメンダシステムといったデータに敏感なWebアプリケーションのための機械学習モデルにおいて、制御されたデータ削除(マシンアンラーニング)が重要な機能になりつつある。 しかしながら、現時点でグラフニューラルネットワーク(GNN)の効率的なマシンアンラーニングの実行方法はほとんど不明であり、特にトレーニングサンプルの数が少ない場合には、未学習がモデルの性能を著しく損なう可能性がある。 この問題に対処するため,グラフ散乱変換(GST)の学習を開始する。これは,特徴やグラフトポロジの摂動下で効率よく安定し,GNNに匹敵するグラフ分類性能を提供する数学的フレームワークである。 我々の主な貢献は GST に基づく非線形近似グラフアンラーニング法である。 第2の貢献は,深層ニューラルネットワークでは再現が難しい未学習機構の計算複雑性の理論的解析である。 第3のコントリビューションは、削除要求後のGNNの完全再トレーニングと比較して、GSTベースのアプローチでは、平均10.38倍のスピードアップが提供され、IMDBデータセットから100のトレーニンググラフのうち90点(トレーニング比率10%)をアンラーニングする際に、テスト精度が2.6%向上することを示す、広範なシミュレーション結果である。 実装はhttps://doi.org/10.5281/zenodo.7613150で利用可能です。

As the demand for user privacy grows, controlled data removal (machine unlearning) is becoming an important feature of machine learning models for data-sensitive Web applications such as social networks and recommender systems. Nevertheless, at this point it is still largely unknown how to perform efficient machine unlearning of graph neural networks (GNNs); this is especially the case when the number of training samples is small, in which case unlearning can seriously compromise the performance of the model. To address this issue, we initiate the study of unlearning the Graph Scattering Transform (GST), a mathematical framework that is efficient, provably stable under feature or graph topology perturbations, and offers graph classification performance comparable to that of GNNs. Our main contribution is the first known nonlinear approximate graph unlearning method based on GSTs. Our second contribution is a theoretical analysis of the computational complexity of the proposed unlearning mechanism, which is hard to replicate for deep neural networks. Our third contribution are extensive simulation results which show that, compared to complete retraining of GNNs after each removal request, the new GST-based approach offers, on average, a 10.38x speed-up and leads to a 2.6% increase in test accuracy during unlearning of 90 out of 100 training graphs from the IMDB dataset (10% training ratio). Our implementation is available online at https://doi.org/10.5281/zenodo.7613150.
翻訳日:2023-07-04 15:20:30 公開日:2023-07-01
# CC-FedAvg: 計算によってカスタマイズされたフェデレーション平均化

CC-FedAvg: Computationally Customized Federated Averaging ( http://arxiv.org/abs/2212.13679v3 )

ライセンス: Link先を確認
Hao Zhang, Tingting Wu, Siyao Cheng, Jie Liu(参考訳) フェデレーション学習(federated learning, fl)は,iot(internet of things)デバイスからの分散データをトレーニングする,新たなパラダイムだ。 本来は参加者に均一な能力を与える。 しかし、エネルギー予算の相違や並列無関係なタスクの実行といった異なる条件のため、参加者は実際に様々な計算資源を持っている。 計算予算が不十分な参加者は、制限された計算リソースの使用を適切に計画しなければならない。 そこで本研究では,計算集約的な反復を伴わない局所モデル推定手法を提案する。 そこで本研究では,従来のローカルトレーニングを行うか,あるいは現在の計算予算に基づいて各ラウンドでモデル推定を行うかを決定することのできる,CC-FedAvg(Computationally Customized Federated Averaging)を提案する。 理論解析と徹底的な実験は、CC-FedAvgがリソース制約なしでFedAvgと同じ収束率と同等の性能を持つことを示している。 さらに、cc-fedavgはfedavgの計算効率の高いバージョンと見なすことができ、モデル性能を維持しつつ計算オーバーヘッドを大幅に削減することができる。

Federated learning (FL) is an emerging paradigm to train model with distributed data from numerous Internet of Things (IoT) devices. It inherently assumes a uniform capacity among participants. However, due to different conditions such as differing energy budgets or executing parallel unrelated tasks, participants have diverse computational resources in practice. Participants with insufficient computation budgets must plan for the use of restricted computational resources appropriately, otherwise they would be unable to complete the entire training procedure, resulting in model performance decline. To address this issue, we propose a strategy for estimating local models without computationally intensive iterations. Based on it, we propose Computationally Customized Federated Averaging (CC-FedAvg), which allows participants to determine whether to perform traditional local training or model estimation in each round based on their current computational budgets. Both theoretical analysis and exhaustive experiments indicate that CC-FedAvg has the same convergence rate and comparable performance as FedAvg without resource constraints. Furthermore, CC-FedAvg can be viewed as a computation-efficient version of FedAvg that retains model performance while considerably lowering computation overhead.
翻訳日:2023-07-04 15:02:09 公開日:2023-07-01
# 3次元LiDARの効率よい凸ハル型車両電位推定法

An Efficient Convex Hull-based Vehicle Pose Estimation Method for 3D LiDAR ( http://arxiv.org/abs/2302.01034v2 )

ライセンス: Link先を確認
Ningning Ding(参考訳) lidarによる車両ポーズ推定は、自動運転の知覚技術において不可欠である。 しかし,LiDAR点雲の不完全観測と空間性のため,既存のポーズ推定手法を用いて3次元LiDARに基づく良好なポーズ抽出を実現することは困難である。 さらに、リアルタイム性能要求により、ポーズ推定タスクの難易度がさらに向上する。 本稿では,新しい凸殻型車両ポーズ推定法を提案する。 抽出した3dクラスタを凸殻に縮小し、計算負荷を低減し、輪郭情報を保持する。 そして、探索に基づくアルゴリズムに対して、最小閉塞面積に基づく新しい基準を開発し、正確なポーズ推定を実現する。 この基準により、提案アルゴリズムは特に障害物回避に適している。 提案アルゴリズムは,工業団地で取得したKITTIデータセットと手動ラベル付きデータセットで検証される。 その結果,提案手法は実時間速度を維持しつつ,最先端のポーズ推定手法よりも精度が良いことがわかった。

Vehicle pose estimation with LiDAR is essential in the perception technology of autonomous driving. However, due to incomplete observation measurements and sparsity of the LiDAR point cloud, it is challenging to achieve satisfactory pose extraction based on 3D LiDAR by using the existing pose estimation methods. In addition, the requirement for real-time performance further increases the difficulty of the pose estimation task. In this paper, we proposed a novel convex hull-based vehicle pose estimation method. The extracted 3D cluster is reduced to the convex hull, reducing the computation burden and retaining contour information. Then a novel criterion based on the minimum occlusion area is developed for the search-based algorithm, which can achieve accurate pose estimation. This criterion also makes the proposed algorithm especially suitable for obstacle avoidance. The proposed algorithm is validated on the KITTI dataset and a manually labeled dataset acquired at an industrial park. The results show that our proposed method can achieve better accuracy than the state-of-the-art pose estimation method while maintaining real-time speed.
翻訳日:2023-07-04 14:51:10 公開日:2023-07-01
# 潜時宇宙ベイズ最適化における探索の強化

Enhancing Exploration in Latent Space Bayesian Optimization ( http://arxiv.org/abs/2302.02399v3 )

ライセンス: Link先を確認
Onur Boyar and Ichiro Takeuchi(参考訳) ラテント・スペース・ベイズ最適化(LSBO)は、典型的な変分オートエンコーダ(VAE)とベイズ最適化(BO)を組み合わせた生成モデルである。 しかし、LSBOは、BOとVAEの目的とのミスマッチにより、外挿能力の低下により課題に直面している。 本稿では,LSBO効率の向上と課題克服のための新しいコントリビューションを提案する。 まず、LSBOにおける遅延一貫性/一貫性の概念を、BO-VAEミスマッチから生じる重要な問題として紹介する。 そこで我々はLSBOにおける一貫した領域を利用するLCA-AF(Latent Consistent Aware-Acquisition Function)を提案する。 さらに,一貫した点を持つ潜在空間を生成し,BOの補間能力を向上する新しいVAE法であるLCA-VAEを提案する。 LCA-VAEとLCA-AFを組み合わせたLCA-LSBOを開発した。 LCA-LSBOの画像生成およびデノボ化学設計におけるLCA-LSBOの性能向上を実験的に評価し,LSBOの補間性能の向上を実証した。 本手法は,LSBOにおける潜時整合性に対処し,LCA-VAEを活用することの重要性を強調し,高い試料効率と有効探索を実現する。

Latent Space Bayesian Optimization (LSBO) combines generative models, typically Variational Autoencoders (VAE), with Bayesian Optimization (BO) to generate de novo objects of interest. However, LSBO faces challenges due to the mismatch between the objectives of BO and VAE, resulting in poor extrapolation capabilities. In this paper, we propose novel contributions to enhance LSBO efficiency and overcome this challenge. We first introduce the concept of latent consistency/inconsistency as a crucial problem in LSBO, arising from the BO-VAE mismatch. To address this, we propose the Latent Consistent Aware-Acquisition Function (LCA-AF) that leverages consistent regions in LSBO. Additionally, we present LCA-VAE, a novel VAE method that generates a latent space with increased consistent points, improving BO's extrapolation capabilities. Combining LCA-VAE and LCA-AF, we develop LCA-LSBO. Experimental evaluations validate the improved performance of LCA-LSBO in image generation and de-novo chemical design tasks, showcasing its enhanced extrapolation capabilities in LSBO. Our approach achieves high sample-efficiency and effective exploration, emphasizing the significance of addressing latent consistency and leveraging LCA-VAE in LSBO.
翻訳日:2023-07-04 14:40:25 公開日:2023-07-01
# redがディープニューラルネットワークと機能合成ツールで提携

Red Teaming Deep Neural Networks with Feature Synthesis Tools ( http://arxiv.org/abs/2302.10894v2 )

ライセンス: Link先を確認
Stephen Casper, Yuxiao Li, Jiawei Li, Tong Bu, Kevin Zhang, Kaivalya Hariharan, Dylan Hadfield-Menell(参考訳) 解釈可能なaiツールは、しばしばood(out-of-distribution)コンテキストにおけるモデルの振る舞いを理解するという目標によって動機づけられる。 この研究領域が注目されているにもかかわらず、これらのツールがモデルで新しく、以前は未知のバグを特定できたケースは比較的少ない。 これは、ある特定のデータセットを使用してモデルの振る舞いを分析し、説明する、多くの解釈可能性メソッドの共通の特徴によるものである、と我々は主張する。 これは便利だが、こうしたツールはユーザーが事前にサンプリングしたり特定したりできる機能によって引き起こされる行動のみを分析することができる。 これに対処するために、データ集合に依存しない特徴合成法を用いてモデルを解釈する研究が増えている。 本稿では,解釈ツールを評価するためのベンチマークについて述べる。 私たちの重要な洞察は、特定のトリガー(例えば、画像に挿入された特定のパッチ)に対して特定の出力(すなわちラベル)で応答するモデルをトレーニングし、人間がトリガーを特定するのに役立つかどうかに基づいて解釈可能性ツールを評価することです。 我々は4つの貢献をした。 1)解釈ツールの評価タスクとしてトロイの木馬の発見を提案し,3種類のトロイの木馬12種によるトロイの木馬発見ベンチマークを提案する。 2) 本ベンチマークの難易度を,16の機能帰属/提供ツールの予備評価で示す。 トロイの木馬のトリガーでデータにアクセスする場合でも、これらのメソッドは定期的にバグを識別できない。 (3)7種類の特徴合成法をベンチマークで評価した。 (4) これまでの評価から, ベストパフォーマンス手法の2つの変種を紹介し, 評価する。

Interpretable AI tools are often motivated by the goal of understanding model behavior in out-of-distribution (OOD) contexts. Despite the attention this area of study receives, there are comparatively few cases where these tools have identified novel, previously unknown, bugs in models. We argue that this is due, in part, to a common feature of many interpretability methods: they analyze and explain the behavior of a model using a particular dataset. While this is useful, such tools can only analyze behaviors induced by features that the user can sample or identify in advance. To address this, a growing body of research involves interpreting models using feature synthesis methods which do not depend on a dataset. In this paper, our primary contribution is a benchmark to evaluate interpretability tools. Our key insight is that we can train models that respond to specific triggers (e.g., a specific patch inserted into an image) with specific outputs (i.e. a label) and then evaluate interpretability tools based on whether they help humans identify these triggers. We make four contributions. (1) We propose trojan discovery as an evaluation task for interpretability tools and introduce a trojan-discovery benchmark with 12 trojans of 3 different types. (2) We demonstrate the difficulty of this benchmark with a preliminary evaluation of 16 feature attribution/saliency tools. Even with access to data with a trojan's trigger, these methods regularly fail to identify bugs. (3) We evaluate 7 feature-synthesis methods on our benchmark. (4) We introduce and evaluate 2 variants of the best-performing method from the previous evaluation.
翻訳日:2023-07-04 14:31:16 公開日:2023-07-01
# トポロジカルな特徴選択

Topological Feature Selection ( http://arxiv.org/abs/2302.09543v3 )

ライセンス: Link先を確認
Antonio Briola and Tomaso Aste(参考訳) 本稿では,位相的に制約されたネットワーク表現のパワーを生かした,教師なしグラフベースのフィルタ特徴選択手法を提案する。 我々は,和声グラフ群(重み付き最大フィルタ付きグラフ)を用いて特徴間の依存関係構造をモデル化し,ネットワーク内の相対的位置を調べることにより,特徴の関連性を最大化する。 このようなアプローチは、その代替案と比較して特に満足できる3つの側面を示します。 (i) 高度に調整可能で、入力データの性質に容易に適応することができる。 (ii)完全に説明可能であり、同時に、驚くほどの単純さを維持している。 (iii)代替品に比べて計算上安価である。 提案アルゴリズムは,異種評価条件下での現在の最先端技術よりも優れているか,あるいは一致していることを示す,異なる適用領域の16のベンチマークデータセットで検証する。

In this paper, we introduce a novel unsupervised, graph-based filter feature selection technique which exploits the power of topologically constrained network representations. We model dependency structures among features using a family of chordal graphs (the Triangulated Maximally Filtered Graph), and we maximise the likelihood of features' relevance by studying their relative position inside the network. Such an approach presents three aspects that are particularly satisfactory compared to its alternatives: (i) it is highly tunable and easily adaptable to the nature of input data; (ii) it is fully explainable, maintaining, at the same time, a remarkable level of simplicity; (iii) it is computationally cheaper compared to its alternatives. We test our algorithm on 16 benchmark datasets from different applicative domains showing that it outperforms or matches the current state-of-the-art under heterogeneous evaluation conditions.
翻訳日:2023-07-04 14:29:42 公開日:2023-07-01
# 交通状態推定のための物理インフォームド深層学習--調査と展望

Physics-Informed Deep Learning For Traffic State Estimation: A Survey and the Outlook ( http://arxiv.org/abs/2303.02063v2 )

ライセンス: Link先を確認
Xuan Di, Rongye Shi, Zhaobin Mo, Yongjie Fu(参考訳) その堅牢な予測能力(純粋な物理ベースのモデルに比較)とサンプル効率のよいトレーニング(純粋なディープラーニングモデルに比較)のために、物理ベースのモデルとディープニューラルネットワーク(dnn)をハイブリッド化するパラダイムである、 physics-informed deep learning(pidl)が科学と工学の分野で急成長している。 PIDLを様々な領域や問題に適用する上で重要な課題のひとつは、物理とDNNを統合する計算グラフの設計にある。 言い換えれば、物理がどのようにDNNにエンコードされ、物理とデータコンポーネントがどのように表現されるかである。 本稿では,pidl計算グラフの多種多様なアーキテクチャ設計と,輸送工学の中心的問題である交通状態推定(traffic state estimation, tse)へのカスタマイズについて述べる。 観測データ,問題タイプ,目標が変化すると,PIDL計算グラフの潜在的なアーキテクチャを実証し,これらを実世界のデータセットを用いて比較する。

For its robust predictive power (compared to pure physics-based models) and sample-efficient training (compared to pure deep learning models), physics-informed deep learning (PIDL), a paradigm hybridizing physics-based models and deep neural networks (DNN), has been booming in science and engineering fields. One key challenge of applying PIDL to various domains and problems lies in the design of a computational graph that integrates physics and DNNs. In other words, how physics are encoded into DNNs and how the physics and data components are represented. In this paper, we provide a variety of architecture designs of PIDL computational graphs and how these structures are customized to traffic state estimation (TSE), a central problem in transportation engineering. When observation data, problem type, and goal vary, we demonstrate potential architectures of PIDL computational graphs and compare these variants using the same real-world dataset.
翻訳日:2023-07-04 14:23:36 公開日:2023-07-01
# Incoherent Strategiesを用いた量子チャネル認証

Quantum Channel Certification with Incoherent Strategies ( http://arxiv.org/abs/2303.01188v2 )

ライセンス: Link先を確認
Omar Fawzi, Nicolas Flammarion, Aur\'elien Garivier and Aadil Oufkir(参考訳) 量子チャネル認証の問題では、量子プロセスへのブラックボックスアクセスがあり、このプロセスが事前定義された仕様に適合するか、あるいはこの仕様から$\varepsilon$-farであるかを判断したい。 目的は、ブラックボックスの使用回数を最小化しながら、このタスクを達成することである。 ここでは,チャネル認証の極端な2つのケースに対して,最適な非一貫性戦略に着目する。 1つ目は、事前定義された仕様がユニタリチャネル、例えば量子回路のゲートである場合である。 この場合、ブラックボックスが固定ユニタリ作用素によって次元$d$または$\varepsilon$-farで記述されるかどうかをテストするには、ブラックボックスの使用には$\Theta(d/\varepsilon^2)$が必要である。 2つ目の設定は、事前定義された仕様が入力ディメンション$d_{\text{in}}$と出力ディメンション$d_{\text{out}}$で完全に非分極化チャネルである場合です。 この場合、非適応的な設定において、$\tilde{\Theta}(d_{\text{in}}^2d_{\text{out}}^{1.5}/\varepsilon^2) チャネルの使用は、ダイヤモンドノルムの脱分極チャネルと等しいか、あるいはそれから$\varepsilon$-far であるかどうかを検証するのに十分である。 最後に、適応的な設定でこの問題に対して$\Omega(d_{\text{in}}^2d_{\text{out}}/\varepsilon^2)の低い境界を証明します。 特別の場合 $d_{\text{in}} = 1$ はよく研究された量子状態認証問題に対応している。

In the problem of quantum channel certification, we have black box access to a quantum process and would like to decide if this process matches some predefined specification or is $\varepsilon$-far from this specification. The objective is to achieve this task while minimizing the number of times the black box is used. Here, we focus on optimal incoherent strategies for two relevant extreme cases of channel certification. The first one is when the predefined specification is a unitary channel, e.g., a gate in a quantum circuit. In this case, we show that testing whether the black box is described by a fixed unitary operator in dimension $d$ or $\varepsilon$-far from it in the trace norm requires $\Theta(d/\varepsilon^2)$ uses of the black box. The second setting we consider is when the predefined specification is a completely depolarizing channel with input dimension $d_{\text{in}}$ and output dimension $d_{\text{out}}$. In this case, we prove that, in the non-adaptive setting, $\tilde{\Theta}(d_{\text{in}}^2d_{\text{out}}^{1.5}/\varepsilon^2)$ uses of the channel are necessary and sufficient to verify whether it is equal to the depolarizing channel or $\varepsilon$-far from it in the diamond norm. Finally, we prove a lower bound of $\Omega(d_{\text{in}}^2d_{\text{out}}/\varepsilon^2)$ for this problem in the adaptive setting. Note that the special case $d_{\text{in}} = 1$ corresponds to the well-studied quantum state certification problem.
翻訳日:2023-07-04 14:23:17 公開日:2023-07-01
# 学習可能および最適多項式ベースを有するグラフニューラルネットワーク

Graph Neural Networks with Learnable and Optimal Polynomial Bases ( http://arxiv.org/abs/2302.12432v2 )

ライセンス: Link先を確認
Yuhe Guo and Zhewei Wei(参考訳) グラフニューラルネットワークの一種である多項式フィルタは、通常、所定の多項式ベースを使用して、トレーニングデータから係数を学習する。 モデルの有効性は多項式基底の性質に大きく依存していることが観察されている。 トレーニングデータから適切な多項式基底を学習できるか? 与えられたグラフとノードの特徴の最適多項式基底を決定できるのか? 本稿では,上記の質問に対する肯定的な回答を提供する2つのスペクトルGNNモデルを提案する。 まず、ファバードの定理に着想を得て、すべての正則基底の空間から多項式基底を学習するファバードGNNモデルを提案する。 第二に,Wang & Zhang (2022) による最適多項式基底の解決不可能な定義を検証し,与えられたグラフ構造とグラフ信号の最適基底を計算する単純なモデル OptBasisGNN を提案する。 提案モデルの有効性を示すため, 大規模な実験を行った。 私たちのコードはhttps://github.com/yuziguo/faroptbasisで利用可能です。

Polynomial filters, a kind of Graph Neural Networks, typically use a predetermined polynomial basis and learn the coefficients from the training data. It has been observed that the effectiveness of the model is highly dependent on the property of the polynomial basis. Consequently, two natural and fundamental questions arise: Can we learn a suitable polynomial basis from the training data? Can we determine the optimal polynomial basis for a given graph and node features? In this paper, we propose two spectral GNN models that provide positive answers to the questions posed above. First, inspired by Favard's Theorem, we propose the FavardGNN model, which learns a polynomial basis from the space of all possible orthonormal bases. Second, we examine the supposedly unsolvable definition of optimal polynomial basis from Wang & Zhang (2022) and propose a simple model, OptBasisGNN, which computes the optimal basis for a given graph structure and graph signal. Extensive experiments are conducted to demonstrate the effectiveness of our proposed models. Our code is available at https://github.com/yuziGuo/FarOptBasis.
翻訳日:2023-07-04 14:20:56 公開日:2023-07-01
# ExoplANNET:放射速度データにおける惑星信号の検出と識別のためのディープラーニングアルゴリズム

ExoplANNET: A deep learning algorithm to detect and identify planetary signals in radial velocity data ( http://arxiv.org/abs/2303.09335v2 )

ライセンス: Link先を確認
L. A. Nieto, R. F. D\'iaz(参考訳) 放射速度法による太陽系外惑星の検出は、未発見の恒星間伴星による恒星の速度の変化を検出することを含む。 インスツルメンタルエラー、不規則な時間サンプリング、恒星の内在的な変動に起因する異なるノイズ源は、データの解釈を妨げ、さらに急激な検出にも繋がる。 最近では、機械学習アルゴリズムを使用する太陽系外惑星の分野に研究が出現し始め、その分野の伝統的な技術で得られた成果を超えるものも現れた。 本研究では、放射速度法におけるニューラルネットワークのスコープ、特に恒星起源の相関ノイズの存在下での太陽系外惑星検出について探究する。 本研究では、放射速度法で検出された信号の意義の計算を置換し、惑星の起源として分類するニューラルネットワークを提案する。 このアルゴリズムは惑星の伴星を持たないシステムの合成データを用いて訓練される。 恒星活動の挙動に関する過去の研究に基づいて,シミュレーションにおいて現実的な相関ノイズを注入した。 ネットワークの性能は、null仮説の重要度テストに基づく従来の手法と比較される。 ネットワークの偽陽性率は28%減少している。 この改良は、主に低質量惑星に関連する小振幅信号の検出で観察される。 さらに、実行時間は従来の方法よりも5桁高速である。 アルゴリズムが示す優れた性能は、これまでシミュレーションされたラジアル速度データでのみテストされてきた。 原則として、リアルタイムシリーズでの使用に適応するのは簡単であるべきだが、その性能を徹底的にテストする必要がある。 今後は、太陽系外惑星検出のための貴重なツールとして採用される可能性を評価する必要がある。

The detection of exoplanets with the radial velocity method consists in detecting variations of the stellar velocity caused by an unseen sub-stellar companion. Instrumental errors, irregular time sampling, and different noise sources originating in the intrinsic variability of the star can hinder the interpretation of the data, and even lead to spurious detections. In recent times, work began to emerge in the field of extrasolar planets that use Machine Learning algorithms, some with results that exceed those obtained with the traditional techniques in the field. We seek to explore the scope of the neural networks in the radial velocity method, in particular for exoplanet detection in the presence of correlated noise of stellar origin. In this work, a neural network is proposed to replace the computation of the significance of the signal detected with the radial velocity method and to classify it as of planetary origin or not. The algorithm is trained using synthetic data of systems with and without planetary companions. We injected realistic correlated noise in the simulations, based on previous studies of the behaviour of stellar activity. The performance of the network is compared to the traditional method based on null hypothesis significance testing. The network achieves 28 % fewer false positives. The improvement is observed mainly in the detection of small-amplitude signals associated with low-mass planets. In addition, its execution time is five orders of magnitude faster than the traditional method. The superior performance exhibited by the algorithm has only been tested on simulated radial velocity data so far. Although in principle it should be straightforward to adapt it for use in real time series, its performance has to be tested thoroughly. Future work should permit evaluating its potential for adoption as a valuable tool for exoplanet detection.
翻訳日:2023-07-04 14:12:49 公開日:2023-07-01
# TMHOI:人間と物体の相互作用検出のための翻訳モデル

TMHOI: Translational Model for Human-Object Interaction Detection ( http://arxiv.org/abs/2303.04253v3 )

ライセンス: Link先を確認
Lijing Zhu, Qizhen Lan, Alvaro Velasquez, Houbing Song, Acharya Kamal, Qing Tian, Shuteng Niu(参考訳) 人間と物体の相互作用(HOI)を検出することは、コンピュータビジョンの分野における複雑な課題である。 既存のHOI検出法は外見に基づく特徴に大きく依存しているが、正確な検出に必要なすべての重要な特徴を十分に捉えているわけではない。 これらの課題を克服するために、TMGHOI (Translational Model for Human-Object Interaction Detection) と呼ばれる革新的なグラフベースのアプローチを提案する。 本手法は,空間的知識と意味的知識を統合することで,HOIの感情表現を効果的に捉える。 HOIをグラフとして表現することで、相互作用コンポーネントはノードとして機能し、空間関係はエッジとして機能する。 重要な空間的・意味的な情報を抽出するために、TMGHOIは別個の空間的・意味的エンコーダを用いる。 その後、これらのエンコーディングを組み合わせて知識グラフを構築し、HOIの感情表現を効果的にキャプチャする。 さらに、事前知識を組み込む能力は相互作用の理解を深め、検出精度をさらに向上させる。 広範に利用されているHICO-DETデータセットについて広範な評価を行い,TMGHOIの有効性を実証した。 提案手法は,既存のグラフベース手法を有意差で上回り,hoi検出の優れたソリューションとしての可能性を示した。 我々はTMGHOIがHOI検出の精度と効率を大幅に向上させる可能性があると確信している。 空間的・意味的知識と計算効率と実用性の統合は、コンピュータビジョンコミュニティの研究者や実践者にとって貴重なツールとなっている。 いずれの研究においても,提案手法の汎用性と堅牢性を確立するために,様々なデータセットのさらなる探索と評価の重要性を認めている。

Detecting human-object interactions (HOIs) is an intricate challenge in the field of computer vision. Existing methods for HOI detection heavily rely on appearance-based features, but these may not fully capture all the essential characteristics necessary for accurate detection. To overcome these challenges, we propose an innovative graph-based approach called TMGHOI (Translational Model for Human-Object Interaction Detection). Our method effectively captures the sentiment representation of HOIs by integrating both spatial and semantic knowledge. By representing HOIs as a graph, where the interaction components serve as nodes and their spatial relationships as edges. To extract crucial spatial and semantic information, TMGHOI employs separate spatial and semantic encoders. Subsequently, these encodings are combined to construct a knowledge graph that effectively captures the sentiment representation of HOIs. Additionally, the ability to incorporate prior knowledge enhances the understanding of interactions, further boosting detection accuracy. We conducted extensive evaluations on the widely-used HICO-DET datasets to demonstrate the effectiveness of TMGHOI. Our approach outperformed existing state-of-the-art graph-based methods by a significant margin, showcasing its potential as a superior solution for HOI detection. We are confident that TMGHOI has the potential to significantly improve the accuracy and efficiency of HOI detection. Its integration of spatial and semantic knowledge, along with its computational efficiency and practicality, makes it a valuable tool for researchers and practitioners in the computer vision community. As with any research, we acknowledge the importance of further exploration and evaluation on various datasets to establish the generalizability and robustness of our proposed method.
翻訳日:2023-07-04 14:10:37 公開日:2023-07-01
# a juridicidade e a regulamenta\c{c}\~ao dos dark pattern

A Juridicidade e a Regulamenta\c{c}\~ao dos Dark Patterns ( http://arxiv.org/abs/2303.03888v2 )

ライセンス: Link先を確認
Heitor Ferreira Gonzaga(参考訳) The evolution of audiovisual computer interfaces was an important milestone for the popularization of the internet without which it is impossible to conceive the use of this technology in modern society However the progress of these interfaces has not taken exclusively beneficial paths for humanity From the beginning of the 21st century onwards an increase in interface design patterns was observed that instead of facilitating navigation harmed users or restricted their decisionmaking capabilities earning them the name of Dark Patterns In view of this the present work aims to address whether Dark Patterns are legal or illegal in the face of Brazilian data protection and consumer law verifying in the absence of specific norms on Dark Patterns the best way to regulate them The research method employed is qualitative analyzing research court cases norms and national and foreign documents on Dark Patterns After addressing its effects its legal development and establishing a definition compatible with Brazilian law it was concluded that although some implementations are capable of producing damage and violating rights in some cases the mere declaration of the illegality of these techniques is an insufficient solution requiring further investigations regarding the hypotheses in which their negative impacts are less apparent or when they are used for beneficial purposes among other unsolved problems Therefore it is suggested that the regulation of Dark Patterns should occur through a system composed of formal laws and regulations of public administration bodies through a multidisciplinary approach that is adaptable to new findings and technologies

The evolution of audiovisual computer interfaces was an important milestone for the popularization of the internet without which it is impossible to conceive the use of this technology in modern society However the progress of these interfaces has not taken exclusively beneficial paths for humanity From the beginning of the 21st century onwards an increase in interface design patterns was observed that instead of facilitating navigation harmed users or restricted their decisionmaking capabilities earning them the name of Dark Patterns In view of this the present work aims to address whether Dark Patterns are legal or illegal in the face of Brazilian data protection and consumer law verifying in the absence of specific norms on Dark Patterns the best way to regulate them The research method employed is qualitative analyzing research court cases norms and national and foreign documents on Dark Patterns After addressing its effects its legal development and establishing a definition compatible with Brazilian law it was concluded that although some implementations are capable of producing damage and violating rights in some cases the mere declaration of the illegality of these techniques is an insufficient solution requiring further investigations regarding the hypotheses in which their negative impacts are less apparent or when they are used for beneficial purposes among other unsolved problems Therefore it is suggested that the regulation of Dark Patterns should occur through a system composed of formal laws and regulations of public administration bodies through a multidisciplinary approach that is adaptable to new findings and technologies
翻訳日:2023-07-04 14:10:12 公開日:2023-07-01
# 情報回復駆動型深層不完全なマルチビュークラスタリングネットワーク

Information Recovery-Driven Deep Incomplete Multiview Clustering Network ( http://arxiv.org/abs/2304.00429v3 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Zhihao Wu, Xiaoling Luo, Chao Huang, Yong Xu(参考訳) 不完全なマルチビュークラスタリングはホットで新興のトピックである。 避けられないデータ不完全性が多視点データの有効情報を著しく弱めることはよく知られている。 これまで、既存の不完全なマルチビュークラスタリング手法は、通常、未使用のビューを、事前の欠落情報に従ってバイパスする。 不足した情報を回復しようとする他の方法は、主に特定の2ビューデータセットに適用できる。 本稿では,これらの問題に対処するために,recformerと呼ばれる,情報回復駆動型ディープ不完全マルチビュークラスタリングネットワークを提案する。 具体的には、複数のビューの高レベルなセマンティック表現を同期的に抽出し、欠落したデータを復元するために、自己アテンション構造を持つ2段階のオートエンコーダネットワークを構築する。 さらに,復元されたビューを巧みに活用し,表現学習とさらなるデータ再構成を促進するリカレントグラフ再構成機構を開発した。 回復結果の可視化を行い、十分な実験結果から、RecFormerは他のトップメソッドよりも明らかな利点があることが確認されます。

Incomplete multi-view clustering is a hot and emerging topic. It is well known that unavoidable data incompleteness greatly weakens the effective information of multi-view data. To date, existing incomplete multi-view clustering methods usually bypass unavailable views according to prior missing information, which is considered as a second-best scheme based on evasion. Other methods that attempt to recover missing information are mostly applicable to specific two-view datasets. To handle these problems, in this paper, we propose an information recovery-driven deep incomplete multi-view clustering network, termed as RecFormer. Concretely, a two-stage autoencoder network with the self-attention structure is built to synchronously extract high-level semantic representations of multiple views and recover the missing data. Besides, we develop a recurrent graph reconstruction mechanism that cleverly leverages the restored views to promote the representation learning and the further data reconstruction. Visualization of recovery results are given and sufficient experimental results confirm that our RecFormer has obvious advantages over other top methods.
翻訳日:2023-07-04 14:03:41 公開日:2023-07-01
# 教師付き学習における量子アドバンテージと量子計算アドバンテージの関係

Relation between quantum advantage in supervised learning and quantum computational advantage ( http://arxiv.org/abs/2304.06687v2 )

ライセンス: Link先を確認
Jordi P\'erez-Guijarro, Alba Pag\`es-Zamora and Javier R. Fonollosa(参考訳) 機械学習の広範にわたる利用は、量子計算の利点と比較して教師あり学習に対する量子超越性の問題を提起している。 実際、最近の研究では、計算と学習のアドバンテージは一般に同等ではなく、トレーニングセットによって提供される追加情報によって、いくつかの問題の難易度が低下することを示している。 本稿では,どの条件が等価であるか,少なくとも関連性が高いかを検討する。 トレーニングセットを生成するための効率的なアルゴリズムの存在は、そのような条件の基盤として現れる。 これらの結果は、この問題の古典的難易度を仮定して、素因数分解問題に基づく学習タスクの量子スピードアップが存在することを示すために応用される。

The widespread use of machine learning has raised the question of quantum supremacy for supervised learning as compared to quantum computational advantage. In fact, a recent work shows that computational and learning advantage are, in general, not equivalent, i.e., the additional information provided by a training set can reduce the hardness of some problems. This paper investigates under which conditions they are found to be equivalent or, at least, highly related. The existence of efficient algorithms to generate training sets emerges as the cornerstone of such conditions. These results are applied to prove that there is a quantum speed-up for some learning tasks based on the prime factorization problem, assuming the classical intractability of this problem.
翻訳日:2023-07-04 13:52:32 公開日:2023-07-01
# imagenet-hard:画像分類におけるズームのパワーと空間バイアスの研究から残る最も難しい画像

ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of Zoom and Spatial Biases in Image Classification ( http://arxiv.org/abs/2304.05538v3 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Giang Nguyen, Sarra Habchi, Cor-Paul Bezemer, Anh Nguyen(参考訳) 画像分類器は設計によって情報を捨てる機械である。 しかし、これらのモデルが情報を捨てる方法はまだ謎のままだ。 画像分類器が高い精度に達するための1つの方法は、まず画像の最も識別性の高い領域にズームし、そこから特徴を抽出して画像ラベルを予測し、残りの部分を捨てることである。 alexnetからclipまで6つの人気ネットワークを調べた結果、入力画像の適切なフレーミングがimagenetイメージの98.91%の正しい分類につながることがわかった。 さらに、様々なデータセットにおける位置バイアス、特にImageNet-AとObjectNetの2つの一般的なデータセットにおける強力な中心バイアスを明らかにする。 最後に,ズーム処理の可能性に関する知見を活かし,モデルに予測を行う前にズームイン操作を明示的に行なわせることによって,分類精度を向上させるtta(test-time augmentation)手法を提案する。 我々の手法は、最先端(SOTA)TTA法であるMEMOよりも解釈可能で正確で高速である。 我々は、最適なズームが許された場合でも、大きな視覚言語モデルを含むSOTA分類器に挑戦する新しいベンチマークであるImageNet-Hardを紹介する。

Image classifiers are information-discarding machines, by design. Yet, how these models discard information remains mysterious. We hypothesize that one way for image classifiers to reach high accuracy is to first zoom to the most discriminative region in the image and then extract features from there to predict image labels, discarding the rest of the image. Studying six popular networks ranging from AlexNet to CLIP, we find that proper framing of the input image can lead to the correct classification of 98.91% of ImageNet images. Furthermore, we uncover positional biases in various datasets, especially a strong center bias in two popular datasets: ImageNet-A and ObjectNet. Finally, leveraging our insights into the potential of zooming, we propose a test-time augmentation (TTA) technique that improves classification accuracy by forcing models to explicitly perform zoom-in operations before making predictions. Our method is more interpretable, accurate, and faster than MEMO, a state-of-the-art (SOTA) TTA method. We introduce ImageNet-Hard, a new benchmark that challenges SOTA classifiers including large vision-language models even when optimal zooming is allowed.
翻訳日:2023-07-04 13:51:36 公開日:2023-07-01
# $\tilde{\mathcal{o}}$:漸近的に優れているが、実用的でない量子分散アルゴリズム

Mind the $\tilde{\mathcal{O}}$: Asymptotically Better, but Still Impractical, Quantum Distributed Algorithms ( http://arxiv.org/abs/2304.02825v4 )

ライセンス: Link先を確認
Phillip A. Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel(参考訳) CONGESTとCONGEST-CLIQUEモデルは、ネットワーク内のプロセッサ間の通信帯域幅が著しく制限されている状況を表現するために慎重に研究されている。 O(log(n))$ビットの情報のみのメッセージは、各ラウンドのプロセッサ間で送信することができる。 これらのモデルの量子バージョンにより、プロセッサは同じ帯域制限下で量子ビットと通信し、計算することができる。 古典量子モデルよりもこれらの量子モデルでより効率的に解くことができる問題は何か? 既存の作業に基づいて、私たちはこの質問に2つの方法で貢献します。 まず, 分散計算の量子連続格子モデルにおいて, ほぼ最適なスタイナーツリーを生成するためのアルゴリズムと, ネットワーク内のノード数を$n$とする$\tilde{o}(n^{1/4})$ rounds と$\tilde{o}(n^{9/4})$メッセージを使用する完全有向最小スパンニングツリーを生成するアルゴリズムの2つのアルゴリズムを提案する。 したがって、このアルゴリズムは古典集合-ユークリッドモデルにおける既知のアルゴリズムよりも低い漸近的ラウンドとメッセージ複雑性を達成する。 高レベルでは、古典的アルゴリズムフレームワークと量子サブルーチンを組み合わせることで、これらの結果を達成する。 Groverの検索アルゴリズムの分散バージョンを使用して三角形探索を高速化する既存のフレームワークは、漸近的スピードアップの中核にある。 第二に、我々のアルゴリズムと関連するアルゴリズムにかかわる定数と対数要素を慎重に特徴づけるが、そうでなければ$\tilde{O}$表記法でよく分からない。 この分析は、我々の量子アルゴリズムと既存の量子アルゴリズムと古典アルゴリズムの両方を実用的にするためにいくつかの改善が必要であることを示している。

The CONGEST and CONGEST-CLIQUE models have been carefully studied to represent situations where the communication bandwidth between processors in a network is severely limited. Messages of only $O(log(n))$ bits of information each may be sent between processors in each round. The quantum versions of these models allow the processors instead to communicate and compute with quantum bits under the same bandwidth limitations. This leads to the following natural research question: What problems can be solved more efficiently in these quantum models than in the classical ones? Building on existing work, we contribute to this question in two ways. Firstly, we present two algorithms in the Quantum CONGEST-CLIQUE model of distributed computation that succeed with high probability; one for producing an approximately optimal Steiner Tree, and one for producing an exact directed minimum spanning tree, each of which uses $\tilde{O}(n^{1/4})$ rounds of communication and $\tilde{O}(n^{9/4})$ messages, where $n$ is the number of nodes in the network. The algorithms thus achieve a lower asymptotic round and message complexity than any known algorithms in the classical CONGEST-CLIQUE model. At a high level, we achieve these results by combining classical algorithmic frameworks with quantum subroutines. An existing framework for using distributed version of Grover's search algorithm to accelerate triangle finding lies at the core of the asymptotic speedup. Secondly, we carefully characterize the constants and logarithmic factors involved in our algorithms as well as related algorithms, otherwise commonly obscured by $\tilde{O}$ notation. The analysis shows that some improvements are needed to render both our and existing related quantum and classical algorithms practical, as their asymptotic speedups only help for very large values of $n$.
翻訳日:2023-07-04 13:51:16 公開日:2023-07-01
# Breaching FedMD: Paired-Logitsインバージョンアタックによるイメージリカバリ

Breaching FedMD: Image Recovery via Paired-Logits Inversion Attack ( http://arxiv.org/abs/2304.11436v2 )

ライセンス: Link先を確認
Hideaki Takahashi, Jingjing Liu, and Yang Liu(参考訳) フェデレート・ラーニング・アンド・モデル蒸留(Federated Learning with Model Distillation, FedMD)は、一般のデータセットの出力ロジットのみを蒸留知識として送信する、新たな協調学習パラダイムである。 本稿では,公開データセットの出力ログの共有が,勾配を直接共有するよりも安全であるにもかかわらず,慎重に設計された悪意のある攻撃によるデータ露出のかなりのリスクが存在することを発見した。 本研究では、悪意のあるサーバが、サーバとクライアントモデル間の信頼ギャップを生かした逆ニューラルネットワークをトレーニングすることにより、FedMDとその変異体に対するPLI攻撃を注入できることを示す。 複数の顔認識データセットに関する実験では、公開データセットのみのサーバクライアントロジットをペアにすることで、fedmdのようなスキームの下で、悪意のあるサーバはテスト済みのすべてのベンチマークで、高い成功率でプライベートイメージを再構築することができる。

Federated Learning with Model Distillation (FedMD) is a nascent collaborative learning paradigm, where only output logits of public datasets are transmitted as distilled knowledge, instead of passing on private model parameters that are susceptible to gradient inversion attacks, a known privacy risk in federated learning. In this paper, we found that even though sharing output logits of public datasets is safer than directly sharing gradients, there still exists a substantial risk of data exposure caused by carefully designed malicious attacks. Our study shows that a malicious server can inject a PLI (Paired-Logits Inversion) attack against FedMD and its variants by training an inversion neural network that exploits the confidence gap between the server and client models. Experiments on multiple facial recognition datasets validate that under FedMD-like schemes, by using paired server-client logits of public datasets only, the malicious server is able to reconstruct private images on all tested benchmarks with a high success rate.
翻訳日:2023-07-04 13:43:53 公開日:2023-07-01
# いくつかのシュロディンガー方程式の解

Solutions of some Schrodinger equations ( http://arxiv.org/abs/2304.08508v2 )

ライセンス: Link先を確認
Brian L Burrows(参考訳) 2種類の非エルミート系が考えられる。 そのうちの1つは非エルミートおよび非線形であり、励起状態の解を得るために反復過程が用いられる。 このモデルは多くの物理系で使われており、計算法は一般化された内積を持つ単純なヒルベルト空間を用いる。 第2の型はハミルトニアンにおいて複素項を持ち、無限区間におけるよく研究された問題である。 ここでは、有限区間を考慮し、この区間に対する固有関数の完全な集合を使用し、有限区間状態と無限区間状態の関係を議論する。

Two types of non-Hermitian systems are considered. One of them is both non-Hermitian and non-Linear and an iterative process is used to obtain excited state solutions; the ground state may be solved exactly. The model has been used in many physical systems and the method of calculation uses a simple Hilbert space with a generalised inner product. The second type has a complex term in the Hamiltonian and is a well studied problem in the infinite interval. Here a finite interval is considered and a complete set of eigenfunctions for this interval is used.The relationship between the finite interval states and the infinite interval states is discussed.
翻訳日:2023-07-04 13:42:15 公開日:2023-07-01
# 都市空間時間予測の効率化に向けて:統一図書館と性能ベンチマーク

Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction: A Unified Library and Performance Benchmark ( http://arxiv.org/abs/2304.14343v4 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wenjun Jiang, Wayne Xin Zhao, Jingyuan Wang(参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。 しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。 これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。 これらの課題に対処するため、都市空間時空間予測の総合的なレビューを行い、原子ファイルと呼ばれる空間時空間データの統一記憶形式を提案する。 また、libcityは、研究者に信頼できる実験ツールと便利な開発フレームワークを提供するオープンソースライブラリである。 本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。 LibCityを用いて、異なるモデルやコンポーネントの有効性を検証する一連の実験を行い、将来有望な技術開発と研究の方向性を時空間予測のために要約した。 公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。

As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we provide a comprehensive review of urban spatial-temporal prediction and propose a unified storage format for spatial-temporal data called atomic files. We also propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. Using LibCity, we conducted a series of experiments to validate the effectiveness of different models and components, and we summarized promising future technology developments and research directions for spatial-temporal prediction. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field.
翻訳日:2023-07-04 13:32:55 公開日:2023-07-01
# UNADON:トランスフォーマーを用いたゲノムワイド染色体空間位置予測モデル

UNADON: Transformer-based model to predict genome-wide chromosome spatial position ( http://arxiv.org/abs/2304.13230v2 )

ライセンス: Link先を確認
Muyu Yang and Jian Ma(参考訳) 機能核体に対する染色体の空間的位置決めは、転写などのゲノム機能と相互作用する。 しかし、ゲノム全体にわたってクロマチンの空間的位置決定に影響を与える配列パターンやエピゲノミクスの特徴はよく分かっていない。 そこで本研究では,TSA-seqによって測定された特定のタイプの核体へのゲノムワイド細胞学的距離を,シーケンス特性とエピジェノミック信号の両方を用いて予測する。 4つの細胞株 (K562, H1, HFFc6, HCT116) における UNADON の評価は, 単一細胞株で訓練した場合の核体へのクロマチン空間位置の予測において高い精度を示した。 UNADONは未確認の細胞型でもよく機能した。 重要なのは,核体へのクロマチンの大規模区画化に影響を及ぼす潜在配列とエピゲノミクス因子を明らかにすることである。 UNADONは、配列の特徴と大規模クロマチン空間局在の原理に関する新たな知見を提供し、核構造や機能を理解する上で重要な意味を持つ。

The spatial positioning of chromosomes relative to functional nuclear bodies is intertwined with genome functions such as transcription. However, the sequence patterns and epigenomic features that collectively influence chromatin spatial positioning in a genome-wide manner are not well understood. Here, we develop a new transformer-based deep learning model called UNADON, which predicts the genome-wide cytological distance to a specific type of nuclear body, as measured by TSA-seq, using both sequence features and epigenomic signals. Evaluations of UNADON in four cell lines (K562, H1, HFFc6, HCT116) show high accuracy in predicting chromatin spatial positioning to nuclear bodies when trained on a single cell line. UNADON also performed well in an unseen cell type. Importantly, we reveal potential sequence and epigenomic factors that affect large-scale chromatin compartmentalization to nuclear bodies. Together, UNADON provides new insights into the principles between sequence features and large-scale chromatin spatial localization, which has important implications for understanding nuclear structure and function.
翻訳日:2023-07-04 13:31:59 公開日:2023-07-01
# ポテンシャル流としての生成モデルにおける潜在トラバース

Latent Traversals in Generative Models as Potential Flows ( http://arxiv.org/abs/2304.12944v2 )

ライセンス: Link先を確認
Yue Song, T. Anderson Keller, Nicu Sebe, Max Welling(参考訳) 深層生成モデルにおける最近の顕著な進歩にもかかわらず、それらの潜在空間の構造はいまだに理解されていないため、意味論的に意味のある潜在トラバーサルの実行はオープンな研究課題である。 ほとんどの先行研究はこの課題を、潜在構造を線形にモデル化し、対応する線形方向を見出すことで解決することを目的としている。 そこで本研究では,学習された動的ポテンシャルランドスケープを持つ潜在構造物をモデル化し,ランドスケープの勾配を下るサンプルの流れとして潜在トラバースを行う。 物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習され、空間と時間の両方で柔軟に変化する。 絡み合いを実現するために、複数の電位を同時に学習し、分類器によって区別され、意味的に自己整合する。 実験により,本手法は最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を達成できることが実証された。 さらに,本手法をトレーニング中に正規化項として統合することにより,構造化表現の学習に対する帰納的バイアスとして作用し,最終的に類似した構造化データに対するモデル可能性を向上させることを実証する。

Despite the significant recent progress in deep generative models, the underlying structure of their latent spaces is still poorly understood, thereby making the task of performing semantically meaningful latent traversals an open research challenge. Most prior work has aimed to solve this challenge by modeling latent structures linearly, and finding corresponding linear directions which result in `disentangled' generations. In this work, we instead propose to model latent structures with a learned dynamic potential landscape, thereby performing latent traversals as the flow of samples down the landscape's gradient. Inspired by physics, optimal transport, and neuroscience, these potential landscapes are learned as physically realistic partial differential equations, thereby allowing them to flexibly vary over both space and time. To achieve disentanglement, multiple potentials are learned simultaneously, and are constrained by a classifier to be distinct and semantically self-consistent. Experimentally, we demonstrate that our method achieves both more qualitatively and quantitatively disentangled trajectories than state-of-the-art baselines. Further, we demonstrate that our method can be integrated as a regularization term during training, thereby acting as an inductive bias towards the learning of structured representations, ultimately improving model likelihood on similarly structured data.
翻訳日:2023-07-04 13:31:14 公開日:2023-07-01
# 勧告基礎モデルの項目IDの索引付け方法

How to Index Item IDs for Recommendation Foundation Models ( http://arxiv.org/abs/2305.06569v3 )

ライセンス: Link先を確認
Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang(参考訳) Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。 従来のレコメンデーションモデルでは、各候補項目と各候補項目のランキングスコアを計算するのではなく、アイテムを直接生成する生成レコメンデーションを可能にし、マルチステージフィルタリングからシングルステージフィルタリングまでのレコメンデーションパイプラインを簡素化する。 推奨項目を決定する際に、過剰に長いテキストを生成するのを避けるために、推奨基礎モデルにはLLM互換アイテムIDを作成することが不可欠である。 本研究では,P5を代表的バックボーンモデルとし,様々なインデクシング手法を用いて結果の再現を行い,推薦基礎モデルの項目インデックス化問題を体系的に検討する。 項目インデクシングの重要性を強調するため,まず,独立したインデクシング,タイトルインデクシング,ランダムインデクシングなど,いくつかの自明な項目インデクシング手法の問題について論じる。 次に,シーケンシャルインデクシング,協調インデクシング,セマンティック(コンテンツベース)インデクシング,ハイブリッドインデクシングという,シンプルかつ効果的な4つのソリューションを提案する。 P5 の再現性調査では,項目インデックス法がモデル性能に与える影響が明らかになり,提案手法の有効性を実世界のデータセットで検証した。

Recommendation foundation model utilizes large language models (LLM) for recommendation by converting recommendation tasks into natural language tasks. It enables generative recommendation which directly generates the item(s) to recommend rather than calculating a ranking score for each and every candidate item in traditional recommendation models, simplifying the recommendation pipeline from multi-stage filtering to single-stage filtering. To avoid generating excessively long text when deciding which item(s) to recommend, creating LLM-compatible item IDs is essential for recommendation foundation models. In this study, we systematically examine the item indexing problem for recommendation foundation models, using P5 as the representative backbone model and replicating its results with various indexing methods. To emphasize the importance of item indexing, we first discuss the issues of several trivial item indexing methods, such as independent indexing, title indexing, and random indexing. We then propose four simple yet effective solutions, including sequential indexing, collaborative indexing, semantic (content-based) indexing, and hybrid indexing. Our reproducibility study of P5 highlights the significant influence of item indexing methods on the model performance, and our results on real-world datasets validate the effectiveness of our proposed solutions.
翻訳日:2023-07-04 13:23:09 公開日:2023-07-01
# シャープネス・アウェアの最小化だけで敵のロバスト性が向上する

Sharpness-Aware Minimization Alone can Improve Adversarial Robustness ( http://arxiv.org/abs/2305.05392v2 )

ライセンス: Link先を確認
Zeming Wei, Jingyu Zhu, Yihao Zhang(参考訳) シャープネス認識最小化(SAM)は、損失シャープネスを正規化することによって一般化能力を向上させる効果的な方法である。 本稿では, SAMを対角強靭性の文脈で探索する。 その結果,SAMのみを用いることで,通常のトレーニングに比べ精度を損なうことなく,対向的堅牢性を向上できることがわかった。 また,DNNの対向性向上手法であるSAMと対向訓練(AT)の関係についても論じる。 特に,SAM と AT は摂動強度の点で異なることが示され,精度と頑健さのトレードオフが異なっている。 我々はこれらの主張を単純化したモデルで理論的に証明する。 最後に,AT はクリーンな精度と計算オーバーヘッドの低下に悩まされているが,特定の条件下では SAM をAT の軽量代替品とみなすことができる。 コードはhttps://github.com/weizeming/SAM_ATで入手できる。

Sharpness-Aware Minimization (SAM) is an effective method for improving generalization ability by regularizing loss sharpness. In this paper, we explore SAM in the context of adversarial robustness. We find that using only SAM can achieve superior adversarial robustness without sacrificing clean accuracy compared to standard training, which is an unexpected benefit. We also discuss the relation between SAM and adversarial training (AT), a popular method for improving the adversarial robustness of DNNs. In particular, we show that SAM and AT differ in terms of perturbation strength, leading to different accuracy and robustness trade-offs. We provide theoretical evidence for these claims in a simplified model. Finally, while AT suffers from decreased clean accuracy and computational overhead, we suggest that SAM can be regarded as a lightweight substitute for AT under certain requirements. Code is available at https://github.com/weizeming/SAM_AT.
翻訳日:2023-07-04 13:22:29 公開日:2023-07-01
# 対照的解析による領域一般化における不均一性の定量と探索

Quantifying and Exploring Heterogeneity in Domain Generalization through Contrastive Analysis ( http://arxiv.org/abs/2305.15889v2 )

ライセンス: Link先を確認
Yunze Tong, Junkun Yuan, Min Zhang, Didi Zhu, Keli Zhang, Fei Wu, Kun Kuang(参考訳) ドメイン一般化(DG)は、現実世界のアプリケーションで一般的に発生する問題である。 その目的は、複数のソースドメインを利用することで、見えないターゲットドメインに適切に一般化できるモデルをトレーニングすることである。 多くのDGアルゴリズムでは、各データポイントがサンプリングされる領域を示すドメインラベルは、一般化性能を高めるための監督の形式として扱われる。 しかし、元のドメインラベルを監視信号として使用するのは、異種性として知られるドメイン間の多様性の欠如のために最適ではないかもしれない。 この不均一性の欠如は、元のラベルが騒がしく、一般化学習プロセスを混乱させる可能性がある。 ドメインを再分割し、新しい分割パターンを適用することで、この問題に対処しようとする方法もある。 しかし、選択されたパターンは、正確に定量化できるメトリクスがないため、最大不均質性を捉えることができない。 本稿では、ドメインの不均質性は不変学習フレームワークにおける変種的特徴に主在することを提案する。 我々は、対照的な学習を利用して、領域の不均一性の計量を導出する新しいアプローチを導入する。 異種特徴の学習を促進することにより,データの多様性に対するモデルの学習ポテンシャルを捉えるメトリクスを開発した。 また,分散に基づく不均一性を求めることと,不変性に基づく一般化モデルの訓練との違いを強調した。 最初の段階では、コントラストメトリックを用いて最も異質な分割パターンを生成する。 第2段階では、ドメインとクラスが示す安定した関係に基づいてペアを構築することで、不変性に焦点を当てた対照学習を行う。 このアプローチは、生成したドメインラベルを効果的に一般化する。 広範な実験により,本手法は不均一性を明らかにすることに成功し,顕著な一般化性能を達成した。

Domain generalization (DG) is a commonly encountered issue in real-world applications. Its objective is to train models that can generalize well to unseen target domains by utilizing multiple source domains. In most DG algorithms, domain labels, which indicate the domain from which each data point is sampled, are treated as a form of supervision to enhance generalization performance. However, using the original domain labels as the supervision signal may not be optimal due to a lack of diversity among domains, known as heterogeneity. This lack of heterogeneity can lead to the original labels being noisy and disrupting the generalization learning process. Some methods attempt to address this by re-dividing the domains and applying a new dividing pattern. However, the chosen pattern may not capture the maximum heterogeneity since there is no metric available to quantify it accurately. In this paper, we propose that domain heterogeneity primarily lies in variant features within the invariant learning framework. We introduce a novel approach which utilizes contrastive learning to guide the metric for domain heterogeneity. By promoting the learning of variant features, we develop a metric that captures models' learning potential for data heterogeneity. We also emphasize the distinction between seeking variance-based heterogeneity and training an invariance-based generalizable model. In the first stage, we generate the most heterogeneous dividing pattern using our contrastive metric. In the second stage, we employ contrastive learning focused on invariance by constructing pairs based on the stable relationships indicated by domains and classes. This approach effectively utilizes the generated domain labels for generalization. Extensive experiments demonstrate that our method successfully uncovers heterogeneity and achieves remarkable generalization performance.
翻訳日:2023-07-04 13:13:30 公開日:2023-07-01
# プロンプトの摂動感度を克服するゼロショット法

Zero-shot Approach to Overcome Perturbation Sensitivity of Prompts ( http://arxiv.org/abs/2305.15689v2 )

ライセンス: Link先を確認
Mohna Chakraborty, Adithya Kulkarni, Qi Li(参考訳) 近年の研究では、自然言語プロンプトは、前訓練された言語モデルによって学習された知識をバイナリ文単位の感情分類タスクに活用できることが示されている。 具体的には、手動または自動生成プロンプトを用いて感情分類モデルを微調整する。 しかし,これらの手法の性能は,利用したプロンプトの摂動に敏感である。 さらに、これらの手法は、自動プロンプト生成とプロンプトランキングのためのラベル付きインスタンスに依存している。 本研究の目的は、ゼロショット設定で与えられたタスクに対する高品質なプロンプトを見つけることである。 ベースプロンプトが与えられた場合,提案手法は,位置,推論,パラフレージングを用いたベースプロンプトに類似した複数のプロンプトを自動的に生成し,新しいメトリックを用いてプロンプトをランク付けする。 本研究は,二分文レベルの感情分類タスクにおいて,最上位のプロンプトが高品質で,基本プロンプトと少数ショット学習を用いて生成したプロンプトを著しく上回っていることを実証的に示す。

Recent studies have demonstrated that natural-language prompts can help to leverage the knowledge learned by pre-trained language models for the binary sentence-level sentiment classification task. Specifically, these methods utilize few-shot learning settings to fine-tune the sentiment classification model using manual or automatically generated prompts. However, the performance of these methods is sensitive to the perturbations of the utilized prompts. Furthermore, these methods depend on a few labeled instances for automatic prompt generation and prompt ranking. This study aims to find high-quality prompts for the given task in a zero-shot setting. Given a base prompt, our proposed approach automatically generates multiple prompts similar to the base prompt employing positional, reasoning, and paraphrasing techniques and then ranks the prompts using a novel metric. We empirically demonstrate that the top-ranked prompts are high-quality and significantly outperform the base prompt and the prompts generated using few-shot learning for the binary sentence-level sentiment classification task.
翻訳日:2023-07-04 13:12:47 公開日:2023-07-01
# 単一スナップショットからのグラフ拡散履歴の再構成

Reconstructing Graph Diffusion History from a Single Snapshot ( http://arxiv.org/abs/2306.00488v3 )

ライセンス: Link先を確認
Ruizhong Qiu, Dingsu Wang, Lei Ying, H. Vincent Poor, Yifang Zhang, Hanghang Tong(参考訳) グラフ上の拡散は、多くのハイインパクト応用でユビキタスである。 これらの応用において、完全な拡散履歴は、動的パターンの同定、予防行動の反映、介入効果の予測において重要な役割を果たす。 その重要性にもかかわらず、完全な拡散履歴はほとんど存在せず、不適切さ、爆発的な探索空間、訓練データの不足などにより、再構築が極めて困難である。 現在まで、拡散履歴復元のための方法はほとんど存在しない。 これらは極大推定(MLE)の定式化のみに基づいており、真の拡散パラメータを知る必要がある。 本稿では,単一のスナップショットから拡散履歴を再構築する(dash)という,より難しい問題について検討する。 まず、MLEの定式化の基本的な限界を明らかにする理論解析から始める。 証明します (a)拡散パラメータの推定誤差は、拡散パラメータ推定のNP硬度により避けられず、 b)mleの定式化は拡散パラメータの推定誤差に敏感である。 本論文はmle定式化の固有の限界を克服するために, 拡散パラメータの推定誤差に対して確実に安定なヒストリの後方分布のバリ中心を求める, 新たなバリ中心定式法を提案する。 さらに,metropolis-hastings markov chain monte carlo method (m--h mcmc) による後進ヒット時間を推定し,教師なしグラフニューラルネットワークを用いてm--h mcmcの収束を加速する最適提案を学習することにより,最適な提案を伴う拡散ヒット時間(ditto)という効率的な解法を開発した。 提案手法の有効性を示すために広範な実験を行った。

Diffusion on graphs is ubiquitous with numerous high-impact applications. In these applications, complete diffusion histories play an essential role in terms of identifying dynamical patterns, reflecting on precaution actions, and forecasting intervention effects. Despite their importance, complete diffusion histories are rarely available and are highly challenging to reconstruct due to ill-posedness, explosive search space, and scarcity of training data. To date, few methods exist for diffusion history reconstruction. They are exclusively based on the maximum likelihood estimation (MLE) formulation and require to know true diffusion parameters. In this paper, we study an even harder problem, namely reconstructing Diffusion history from A single SnapsHot} (DASH), where we seek to reconstruct the history from only the final snapshot without knowing true diffusion parameters. We start with theoretical analyses that reveal a fundamental limitation of the MLE formulation. We prove: (a) estimation error of diffusion parameters is unavoidable due to NP-hardness of diffusion parameter estimation, and (b) the MLE formulation is sensitive to estimation error of diffusion parameters. To overcome the inherent limitation of the MLE formulation, we propose a novel barycenter formulation: finding the barycenter of the posterior distribution of histories, which is provably stable against the estimation error of diffusion parameters. We further develop an effective solver named DIffusion hiTting Times with Optimal proposal (DITTO) by reducing the problem to estimating posterior expected hitting times via the Metropolis--Hastings Markov chain Monte Carlo method (M--H MCMC) and employing an unsupervised graph neural network to learn an optimal proposal to accelerate the convergence of M--H MCMC. We conduct extensive experiments to demonstrate the efficacy of the proposed method.
翻訳日:2023-07-04 13:05:42 公開日:2023-07-01
# 自然言語処理モデルのドメインシフトに対するロバスト性の測定

Measuring the Robustness of Natural Language Processing Models to Domain Shifts ( http://arxiv.org/abs/2306.00168v2 )

ライセンス: Link先を確認
Nitay Calderon, Naveh Porat, Eyal Ben-David, Zorik Gekhman, Nadav Oved, Roi Reichart(参考訳) 既存のドメインロバストネス(dr)の研究は、異なるセットアップ、評価タスクの多様性の欠如、チャレンジセットへの依存に苦しめられている。 本稿では,大言語モデル(llm)時代における dr 課題の現状について,基本的な問いを提起する。 この目的のために,文章およびトークンレベルの分類,QA,生成を含む多様なNLPタスクからなるDRベンチマークを構築し,各タスクは複数のドメインから構成される。 我々は、自然ドメインシフト設定における微調整および少ショット学習モデルのDR課題を探求し、アウト・オブ・ディストリビューション(OOD)パフォーマンス劣化の2つの診断指標を考案する: 一般的に使用されるソース・ドロップ(SD)と、見落とされたターゲット・ドロップ(TD)。 第2に, SD よりも平均 OOD の劣化率をよく近似し, 第3に, SD と TD のどちらが正の値であっても, どちらも正の値であり, 不正確な DR の結論を導出する可能性がある。

Existing research on Domain Robustness (DR) suffers from disparate setups, lack of evaluation task variety, and reliance on challenge sets. In this paper, we pose a fundamental question: What is the state of affairs of the DR challenge in the era of Large Language Models (LLMs)? To this end, we construct a DR benchmark comprising diverse NLP tasks, including sentence and token-level classification, QA, and generation, each task consists of several domains. We explore the DR challenge of fine-tuned and few-shot learning models in natural domain shift settings and devise two diagnostic metrics of Out-of-Distribution (OOD) performance degradation: The commonly used Source Drop (SD) and the overlooked Target Drop (TD). Our findings reveal important insights: First, despite their capabilities, zero-to-few shot LLMs and fine-tuning approaches still fail to meet satisfactory performance in the OOD context; Second, TD approximates better than SD the average OOD degradation; Third, in a significant proportion of domain shifts, either SD or TD is positive, but not both, and therefore disregarding one can lead to incorrect DR conclusions.
翻訳日:2023-07-04 13:05:13 公開日:2023-07-01
# 正規化高次元モデルを説明するための表現点選択

Representer Point Selection for Explaining Regularized High-dimensional Models ( http://arxiv.org/abs/2305.20002v2 )

ライセンス: Link先を確認
Che-Ping Tsai, Jiong Zhang, Eli Chien, Hsiang-Fu Yu, Cho-Jui Hsieh, Pradeep Ravikumar(参考訳) 本稿では,高次元代表者(High-dimensional representativeer)と呼ぶサンプルに基づく新しいクラスを紹介し,各トレーニングサンプルの重み付けの観点から,正規化された高次元モデルの予測を説明する。 私たちのワークホースは、一般的な正規化高次元モデルに対する新しい表現子定理であり、各トレーニングサンプルからの貢献の観点からモデル予測を分解する: 正(負)の(負)インパクトトレーニングサンプルに対応する正の(負の)値がモデルの予測に適合する。 我々は、$\ell_1$正規化スパースモデルと核ノルム正規化低ランクモデルの標準インスタンスの結果を導出する。 本研究では, 協調フィルタリングの文脈における低ランクモデルの適用について検討し, 高次元表現器を特定のポピュラーなモデルのクラスに対してインスタンス化する。 最後に,提案手法の3つの実世界のバイナリ分類データセットと2つのレコメンダシステムデータセットにおける経験的性能について検討した。 また,モデルレコメンデーションにおける高次元表現器の有用性を示す。

We introduce a novel class of sample-based explanations we term high-dimensional representers, that can be used to explain the predictions of a regularized high-dimensional model in terms of importance weights for each of the training samples. Our workhorse is a novel representer theorem for general regularized high-dimensional models, which decomposes the model prediction in terms of contributions from each of the training samples: with positive (negative) values corresponding to positive (negative) impact training samples to the model's prediction. We derive consequences for the canonical instances of $\ell_1$ regularized sparse models, and nuclear norm regularized low-rank models. As a case study, we further investigate the application of low-rank models in the context of collaborative filtering, where we instantiate high-dimensional representers for specific popular classes of models. Finally, we study the empirical performance of our proposed methods on three real-world binary classification datasets and two recommender system datasets. We also showcase the utility of high-dimensional representers in explaining model recommendations.
翻訳日:2023-07-04 13:04:52 公開日:2023-07-01
# エントロピー共分散モデル

Entropic covariance models ( http://arxiv.org/abs/2306.03590v2 )

ライセンス: Link先を確認
Piotr Zwiernik(参考訳) 共分散行列推定における課題の1つは、適切なモデルと効率的な推定方法を見つけることである。 文献でよく使われる2つのモデリングアプローチは、共分散行列またはその逆行列に線形制限を課す。 別のアプローチでは、共分散行列の行列対数に対する線形制限を考える。 本稿では,上記の例を含む共分散行列の異なる変換に対する線形制約に関する一般的な枠組みを提案する。 提案手法は凸問題を解き,M推定器を出力し,比較的簡単な漸近的・有限標本解析を可能にする。 一般理論を発展させた後、相関行列のモデリングとスパーシティに着目する。 我々の幾何学的洞察は、共分散行列モデリングにおける最近の様々な結果を拡張することができる。 これには、行列対数を用いた最近の結果の代替となる相関行列の空間の非制限パラメトリゼーション(unrestricted parametrization)を提供する。

In covariance matrix estimation, one of the challenges lies in finding a suitable model and an efficient estimation method. Two commonly used modelling approaches in the literature involve imposing linear restrictions on the covariance matrix or its inverse. Another approach considers linear restrictions on the matrix logarithm of the covariance matrix. In this paper, we present a general framework for linear restrictions on different transformations of the covariance matrix, including the mentioned examples. Our proposed estimation method solves a convex problem and yields an M-estimator, allowing for relatively straightforward asymptotic and finite sample analysis. After developing the general theory, we focus on modelling correlation matrices and on sparsity. Our geometric insights allow to extend various recent results in covariance matrix modelling. This includes providing unrestricted parametrizations of the space of correlation matrices, which is alternative to a recent result utilizing the matrix logarithm.
翻訳日:2023-07-04 12:54:09 公開日:2023-07-01
# ベイズ最適化を用いたトラス設計の最適化

Optimization for truss design using Bayesian optimization ( http://arxiv.org/abs/2306.01763v2 )

ライセンス: Link先を確認
Bhawani Sandeep, Surjeet Singh, Sumit Kumar(参考訳) 本稿では,計算機支援有限要素解析を用いたメカニカルトラスの幾何最適化について述べる。 トラスの形状は、耐えられる荷重の容量を決定する主要な要因である。 与えられたパラメータ空間において、我々の目標は、荷重保持能力を最大化するとともに、誘導応力に屈しない船体のパラメータを見つけることである。 設計評価のための計算コストの高い設計解析ツールである有限要素解析に頼っている。 このような高価な評価関数に対して,我々はベイズ最適化を,他のシミュレーションに基づく最適化手法よりも効果的に実証されたサンプルの最適化フレームワークとして選択した。 ベイズ最適化アルゴリズムを利用することで、トラス設計は一連の候補トラス設計を反復的に評価し、結果に基づいて設計空間の確率モデルを更新する。 このモデルは、各候補設計の性能を予測するために使用され、設計空間の探索と活用のバランスをとる予測と取得関数に基づいて、次の候補設計を選択する。 我々の結果は、特に有限要素解析において、高価なエンジニアリング領域におけるAIベースの最適化に関する将来の研究のベースラインとして利用することができる。

In this work, geometry optimization of mechanical truss using computer-aided finite element analysis is presented. The shape of the truss is a dominant factor in determining the capacity of load it can bear. At a given parameter space, our goal is to find the parameters of a hull that maximize the load-bearing capacity and also don't yield to the induced stress. We rely on finite element analysis, which is a computationally costly design analysis tool for design evaluation. For such expensive to-evaluate functions, we chose Bayesian optimization as our optimization framework which has empirically proven sample efficient than other simulation-based optimization methods. By utilizing Bayesian optimization algorithms, the truss design involves iteratively evaluating a set of candidate truss designs and updating a probabilistic model of the design space based on the results. The model is used to predict the performance of each candidate design, and the next candidate design is selected based on the prediction and an acquisition function that balances exploration and exploitation of the design space. Our result can be used as a baseline for future study on AI-based optimization in expensive engineering domains especially in finite element Analysis.
翻訳日:2023-07-04 12:53:07 公開日:2023-07-01
# 分類構造ドメイン適応

Taxonomy-Structured Domain Adaptation ( http://arxiv.org/abs/2306.07874v2 )

ライセンス: Link先を確認
Tianyi Liu, Zihao Xu, Hao He, Guang-Yuan Hao, Guang-He Lee, Hao Wang(参考訳) ドメイン適応は、異なるドメイン間の分散シフトを軽減することを目的としている。 しかし、伝統的な定式化は主にカテゴリー的ドメインに限定され、現実世界におけるニュアンス的ドメイン関係を大幅に単純化している。 本研究では,動物種や製品カタログなどの階層的類似性構造を持つドメインを定式化する分類構造ドメインの一般化に取り組む。 我々は,古典的敵対的枠組みに基づいて構築し,その分類情報を保存するために,敵対的差別者と競合する新しい分類論者を紹介する。 平衡は、非情報的領域分類(例えば、すべての葉ノードが根ノードに接続する平坦な分類法)を与えられた場合、古典的な逆領域適応の解を回復し、他の分類学で非自明な結果をもたらす。 実験により,本手法は,実世界の人工データセットと実世界のデータセットを併用し,適応性を向上する。 コードはhttps://github.com/Wang-ML-Lab/TSDAで入手できる。

Domain adaptation aims to mitigate distribution shifts among different domains. However, traditional formulations are mostly limited to categorical domains, greatly simplifying nuanced domain relationships in the real world. In this work, we tackle a generalization with taxonomy-structured domains, which formalizes domains with nested, hierarchical similarity structures such as animal species and product catalogs. We build on the classic adversarial framework and introduce a novel taxonomist, which competes with the adversarial discriminator to preserve the taxonomy information. The equilibrium recovers the classic adversarial domain adaptation's solution if given a non-informative domain taxonomy (e.g., a flat taxonomy where all leaf nodes connect to the root node) while yielding non-trivial results with other taxonomies. Empirically, our method achieves state-of-the-art performance on both synthetic and real-world datasets with successful adaptation. Code is available at https://github.com/Wang-ML-Lab/TSDA.
翻訳日:2023-07-04 12:46:17 公開日:2023-07-01
# 樹木変分オートエンコーダ

Tree Variational Autoencoders ( http://arxiv.org/abs/2306.08984v2 )

ライセンス: Link先を確認
Laura Manduchi, Moritz Vandenhirtz, Alain Ryser, Julia Vogt(参考訳) 本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層クラスタリングモデルを提案する。 提案するツリー変分オートエンコーダ(treevae)は,その固有特性に応じてサンプルを階層的に分割し,データの隠れた構造に光を照射する。 アーキテクチャを適用して、潜伏変数間の依存関係を符号化する最適なツリーを発見する。 提案する木ベースの生成アーキテクチャは軽量な条件付き推論を可能にし,特殊なリーフデコーダを利用することで生成性能を向上させる。 TreeVAEはデータの基盤となるクラスタを明らかにし、実世界の画像データを含むさまざまなデータセット上で異なるグループ間の有意義な階層関係を見出す。 TreeVAEは、シーケンシャルなものよりも、より競争力のあるログライクな低バウンドを提供する。 最後に、その生成的性質から、treevaeは条件付きサンプリングによって検出されたクラスタから新しいサンプルを生成することができる。

We propose a new generative hierarchical clustering model that learns a flexible tree-based posterior distribution over latent variables. The proposed Tree Variational Autoencoder (TreeVAE) hierarchically divides samples according to their intrinsic characteristics, shedding light on hidden structure in the data. It adapts its architecture to discover the optimal tree for encoding dependencies between latent variables. The proposed tree-based generative architecture permits lightweight conditional inference and improves generative performance by utilizing specialized leaf decoders. We show that TreeVAE uncovers underlying clusters in the data and finds meaningful hierarchical relations between the different groups on a variety of datasets, including real-world imaging data. We present empirically that TreeVAE provides a more competitive log-likelihood lower bound than the sequential counterparts. Finally, due to its generative nature, TreeVAE is able to generate new samples from the discovered clusters via conditional sampling.
翻訳日:2023-07-04 12:33:42 公開日:2023-07-01
# 深層学習を用いたダークウェブ活動分類

Dark Web Activity Classification Using Deep Learning ( http://arxiv.org/abs/2306.07980v3 )

ライセンス: Link先を確認
Ali Fayzi, Mohammad Fayzi, Kourosh Dadashtabar Ahmadi(参考訳) 現代では、人々は直接的または間接的に、情報を得るためにインターネットや検索エンジンに大きく依存している。 しかし、ユーザからアクセス可能な情報は、インターネット上の全情報のわずか4%に過ぎず、一般にサーフェスウェブとして知られている。 検索エンジンから抜け出す残りの情報はdeep webと呼ばれる。 deep webは、個人メールアカウント、ソーシャルメディアアカウント、オンライン銀行口座、その他の機密データなど、意図的に隠された情報を包含している。 ディープウェブには、大学、銀行、市民記録のデータベースを含むいくつかの重要なアプリケーションが含まれており、それらはオフリミットであり、アクセスが違法である。 ダークウェブはディープウェブのサブセットであり、犯罪者や密輸業者が麻薬密売、武器密輸、盗まれた銀行カードの販売、マネーロンダリングなどの違法行為を行うのに理想的なプラットフォームを提供する。 本稿では,ダークウェブ上での活動のタイトルを検出するためにディープラーニングを利用する検索エンジンを提案する。 薬物取引、武器取引、盗まれた銀行カードの販売、偽のIDの販売、違法通貨の販売を含む5つのカテゴリに焦点をあてる。 本研究の目的は、Webサイトから「.onion」拡張で関連画像を抽出し、ページのテキストからキーワードを抽出することで、画像のないWebサイトのタイトルを識別することである。 さらに,提案手法の評価に使用したDarkoob画像のデータセットについても紹介した。 実験の結果,提案手法はテストデータセット上で94%の精度が得られることがわかった。

In contemporary times, people rely heavily on the internet and search engines to obtain information, either directly or indirectly. However, the information accessible to users constitutes merely 4% of the overall information present on the internet, which is commonly known as the surface web. The remaining information that eludes search engines is called the deep web. The deep web encompasses deliberately hidden information, such as personal email accounts, social media accounts, online banking accounts, and other confidential data. The deep web contains several critical applications, including databases of universities, banks, and civil records, which are off-limits and illegal to access. The dark web is a subset of the deep web that provides an ideal platform for criminals and smugglers to engage in illicit activities, such as drug trafficking, weapon smuggling, selling stolen bank cards, and money laundering. In this article, we propose a search engine that employs deep learning to detect the titles of activities on the dark web. We focus on five categories of activities, including drug trading, weapon trading, selling stolen bank cards, selling fake IDs, and selling illegal currencies. Our aim is to extract relevant images from websites with a ".onion" extension and identify the titles of websites without images by extracting keywords from the text of the pages. Furthermore, we introduce a dataset of images called Darkoob, which we have gathered and used to evaluate our proposed method. Our experimental results demonstrate that the proposed method achieves an accuracy rate of 94% on the test dataset.
翻訳日:2023-07-04 12:32:38 公開日:2023-07-01
# マクロ生物系における非古典性の時間的証人

Temporal witnesses of non-classicality in a macroscopic biological system ( http://arxiv.org/abs/2306.12799v2 )

ライセンス: Link先を確認
Giuseppe Di Pietra, Vlatko Vedral, Chiara Marletto(参考訳) ポリマーに沿ったエクシトン移動は多くの生物学的プロセス、例えば光合成バイオシステムにおける光の収穫に必須である。 ここでは、この現象に非古典性の新たな証人を適用し、励起子が光子のコヒーレント量子進化を仲介できるならば、励起子は非古典的であると結論付ける。 次に, 高分子鎖に沿った励起子の量子移動に関する一般量子ビットモデルを提案し, 環境デコヒーレンスの影響を議論する。 この結果の一般性は、複雑な生体分子の量子特性の新しい試験を設計するのに理想的な候補となる。

Exciton transfer along a polymer is essential for many biological processes, for instance light harvesting in photosynthetic biosystems. Here we apply a new witness of non-classicality to this phenomenon, to conclude that, if an exciton can mediate the coherent quantum evolution of a photon, then the exciton is non-classical. We then propose a general qubit model for the quantum transfer of an exciton along a polymer chain, also discussing the effects of environmental decoherence. The generality of our results makes them ideal candidates to design new tests of quantum features in complex bio-molecules.
翻訳日:2023-07-04 12:26:24 公開日:2023-07-01
# 競合型マルチエージェント探索のための進化戦略

Evolving Strategies for Competitive Multi-Agent Search ( http://arxiv.org/abs/2306.10640v2 )

ライセンス: Link先を確認
Erkin Bahceci, Riitta Katila, and Risto Miikkulainen(参考訳) 進化的計算は工学における自動発見に適しているが、人間や組織がより効果的に機能する方法についての洞察を得るためにも利用できる。 本稿では,組織におけるイノベーションサーチの現実的な課題をモチベーションの例として用い,まず,競争力のあるマルチエージェントサーチ(CMAS)として人間の創造的問題解決を定式化する。 CMASは既存のシングルエージェントやチーム検索と異なり、エージェントは他のエージェントの検索の知識と、これらの検索から生じる検索環境の動的変化を通して対話する。 主な仮説は、進化的計算がCMASの効果的な戦略を発見するのに使えることであり、この仮説はNKモデルの一連の実験、すなわち、部分的に相関し、調整可能な頑丈なフィットネスランドスケープで検証される。 異なる競争環境ごとに異なる専門戦略が進化し、環境全体にわたってうまく機能する一般的な戦略も進化する。 これらの戦略は、手作りの戦略や伝統的な木探索に基づく戦略よりも効率的で複雑である。 このような風景の新たな球面可視化を用いて、例えば、風景のポジティブな変化を追跡することによって、戦略がいかにうまく機能するかについての洞察が得られる。 本稿は,将来,競争力のあるマルチエージェント検索として,様々な創造活動を研究するためのフレームワークを提供する。

While evolutionary computation is well suited for automatic discovery in engineering, it can also be used to gain insight into how humans and organizations could perform more effectively. Using a real-world problem of innovation search in organizations as the motivating example, this article first formalizes human creative problem solving as competitive multi-agent search (CMAS). CMAS is different from existing single-agent and team search problems in that the agents interact through knowledge of other agents' searches and through the dynamic changes in the search landscape that result from these searches. The main hypothesis is that evolutionary computation can be used to discover effective strategies for CMAS; this hypothesis is verified in a series of experiments on the NK model, i.e.\ partially correlated and tunably rugged fitness landscapes. Different specialized strategies are evolved for each different competitive environment, and also general strategies that perform well across environments. These strategies are more effective and more complex than hand-designed strategies and a strategy based on traditional tree search. Using a novel spherical visualization of such landscapes, insight is gained about how successful strategies work, e.g.\ by tracking positive changes in the landscape. The article thus provides a possible framework for studying various human creative activities as competitive multi-agent search in the future.
翻訳日:2023-07-04 12:23:34 公開日:2023-07-01
# 状態のみ列からの非マルコフ決定過程の学習

Learning non-Markovian Decision-Making from State-only Sequences ( http://arxiv.org/abs/2306.15156v2 )

ライセンス: Link先を確認
Aoyang Qin, Feng Gao, Qing Li, Song-Chun Zhu, Sirui Xie(参考訳) 従来の模倣学習では、デモ参加者の行動にアクセスできるが、これらの運動信号は自然主義的な環境では観測できないことが多い。 さらに、これらの設定におけるシーケンシャルな意思決定行動は、標準的なマルコフ決定プロセス(MDP)の仮定から逸脱することができる。 これらの課題に対処するために、状態遷移生成器の潜時空間におけるエネルギーベースである非マルコフ決定過程(nMDP)を用いた状態のみ列の深部生成モデリングについて検討する。 提案手法は,後肢の短周期MCMCサンプリングと重要サンプリングを含むモデルベース模倣を実現するための最大推定法である。 モデルなしのポリシーの実行は、事前のサンプリングと等価であり、モデルベースの計画はそのポリシーから初期化された後続のサンプリングである。 非マルコフ制約付き経路計画タスクにおいて,提案手法の有効性を実証し,mujocoスイートからの挑戦領域において,学習モデルが強力な性能を示すことを示した。

Conventional imitation learning assumes access to the actions of demonstrators, but these motor signals are often non-observable in naturalistic settings. Additionally, sequential decision-making behaviors in these settings can deviate from the assumptions of a standard Markov Decision Process (MDP). To address these challenges, we explore deep generative modeling of state-only sequences with non-Markov Decision Process (nMDP), where the policy is an energy-based prior in the latent space of the state transition generator. We develop maximum likelihood estimation to achieve model-based imitation, which involves short-run MCMC sampling from the prior and importance sampling for the posterior. The learned model enables \textit{decision-making as inference}: model-free policy execution is equivalent to prior sampling, model-based planning is posterior sampling initialized from the policy. We demonstrate the efficacy of the proposed method in a prototypical path planning task with non-Markovian constraints and show that the learned model exhibits strong performances in challenging domains from the MuJoCo suite.
翻訳日:2023-07-04 12:16:29 公開日:2023-07-01
# ファジィコンディション拡散と拡散射影の注意が顔画像補正への応用

Fuzzy-Conditioned Diffusion and Diffusion Projection Attention Applied to Facial Image Correction ( http://arxiv.org/abs/2306.14891v2 )

ライセンス: Link先を確認
Majed El Helou(参考訳) 画像拡散は画像合成において顕著な性能を示しており、暗黙的に先行画像として機能している。 このような前者は、塗装問題の解決にコンディショニングが使われてきたが、バイナリユーザベースのコンディショニングのみをサポートしている。 我々は、暗黙の拡散先行を制御可能な強度で活用できるファジィ条件拡散を導出する。 ファジィコンディショニングはピクセル単位で適用でき、異なる画像コンポーネントを様々な程度に変更することができる。 さらに,ファジィ条件の拡散と拡散依存性の注意マップを組み合わせた顔画像補正手法を提案する。 我々の写像は異常の度合いを推定し、拡散空間に投影することで得られる。 われわれのアプローチは、また、解釈可能かつ自律的な顔画像補正につながることを示す。

Image diffusion has recently shown remarkable performance in image synthesis and implicitly as an image prior. Such a prior has been used with conditioning to solve the inpainting problem, but only supporting binary user-based conditioning. We derive a fuzzy-conditioned diffusion, where implicit diffusion priors can be exploited with controllable strength. Our fuzzy conditioning can be applied pixel-wise, enabling the modification of different image components to varying degrees. Additionally, we propose an application to facial image correction, where we combine our fuzzy-conditioned diffusion with diffusion-derived attention maps. Our map estimates the degree of anomaly, and we obtain it by projecting on the diffusion space. We show how our approach also leads to interpretable and autonomous facial image correction.
翻訳日:2023-07-04 12:16:11 公開日:2023-07-01
# PMaF: 主要なマトリックス機能のための深い宣言層

PMaF: Deep Declarative Layers for Principal Matrix Features ( http://arxiv.org/abs/2306.14759v3 )

ライセンス: Link先を確認
Zhiwei Xu, Hao Wang, Yanbin Liu, Stephen Gould(参考訳) 主行列特徴(PMaF)を学習するために、球面上の最小二乗(LESS)と暗示固有分解(IED)の2つの微分可能な深い宣言層を探索する。 これは高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに用いられる。 まず、前方通過における反復最適化の問題を解き、二段階最適化フレームワークの下で暗黙の勾配を求める解をバックプロパゲートする。 特に,LESSの前方通過効率を向上させるために,バックトラックライン探索法とタンジェント空間における降下崩壊を用いた適応降下ステップについて検討した。 一方、悪用されたデータ構造は、LESSとIEDの後方通過における計算複雑性を大幅に低減するために使用される。 実験では, 解の最適性と計算要件を比較することにより, 既定ベースラインよりも上層部が優れていることを示す。

We explore two differentiable deep declarative layers, namely least squares on sphere (LESS) and implicit eigen decomposition (IED), for learning the principal matrix features (PMaF). It can be used to represent data features with a low-dimensional vector containing dominant information from a high-dimensional matrix. We first solve the problems with iterative optimization in the forward pass and then backpropagate the solution for implicit gradients under a bi-level optimization framework. Particularly, adaptive descent steps with the backtracking line search method and descent decay in the tangent space are studied to improve the forward pass efficiency of LESS. Meanwhile, exploited data structures are used to greatly reduce the computational complexity in the backward pass of LESS and IED. Empirically, we demonstrate the superiority of our layers over the off-the-shelf baselines by comparing the solution optimality and computational requirements.
翻訳日:2023-07-04 12:15:56 公開日:2023-07-01
# 皮膚疾患診断のための公平なマルチエクイット枠組みによる公平性を目指して

Toward Fairness Through Fair Multi-Exit Framework for Dermatological Disease Diagnosis ( http://arxiv.org/abs/2306.14518v2 )

ライセンス: Link先を確認
Ching-Hao Chiu, Hao-Wei Chung, Yu-Jen Chen, Yiyu Shi, Tsung-Yi Ho(参考訳) 医療画像認識においてフェアネスはますます重要になっている。 しかし、偏見を和らげることなく、不公平な医療AIシステムを展開することは、未成年者の利益を損なう可能性がある。 本稿では,ニューラルネットワークの深い層から抽出した特徴が一般に高い精度を提供する一方で,より深い層から特徴を引き出す際に,公平性条件が劣化することを観察する。 この現象は、マルチエグジットフレームワークの概念を拡張する動機となります。 内部分類器はより正確で公平で、既存のほとんどのフェアネス対応フレームワークに適用可能な拡張性が高いように訓練されています。 推論中、内部分類器からの信頼性の高い任意のインスタンスは、早期に終了する。 実験の結果, 2つの皮膚科疾患データセットにおいて, 当科における公平性条件の改善が期待できることがわかった。

Fairness has become increasingly pivotal in medical image recognition. However, without mitigating bias, deploying unfair medical AI systems could harm the interests of underprivileged populations. In this paper, we observe that while features extracted from the deeper layers of neural networks generally offer higher accuracy, fairness conditions deteriorate as we extract features from deeper layers. This phenomenon motivates us to extend the concept of multi-exit frameworks. Unlike existing works mainly focusing on accuracy, our multi-exit framework is fairness-oriented; the internal classifiers are trained to be more accurate and fairer, with high extensibility to apply to most existing fairness-aware frameworks. During inference, any instance with high confidence from an internal classifier is allowed to exit early. Experimental results show that the proposed framework can improve the fairness condition over the state-of-the-art in two dermatological disease datasets.
翻訳日:2023-07-04 12:15:41 公開日:2023-07-01
# より高速なセグメンテーション:モバイルアプリケーションのための軽量SAMを目指して

Faster Segment Anything: Towards Lightweight SAM for Mobile Applications ( http://arxiv.org/abs/2306.14289v2 )

ライセンス: Link先を確認
Chaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae, Seungkyu Lee, Choong Seon Hong(参考訳) Segment Anything Model (SAM) は印象的なゼロショット転送性能と多数の視覚アプリケーション(きめ細かい制御による画像編集など)の多用途性のために注目されている。 このようなアプリケーションの多くは、携帯電話のようなリソース制約のあるエッジデバイス上で実行する必要がある。 本研究では,重厚画像エンコーダを軽量画像エンコーダに置き換えることで,SAMをモバイルフレンドリーにすることを目的とする。 オリジナルのSAM論文のように、このような新しいSAMをトレーニングする簡単な方法は、特に限られたトレーニングソースが利用できる場合、不満足なパフォーマンスをもたらす。 画像エンコーダとマスクデコーダの結合最適化が主な原因で,脱カップリング蒸留法を提案する。 具体的には、重画像エンコーダ(元のSAMではViT-H)から軽量画像エンコーダに知識を蒸留し、元のSAMではマスクデコーダと自動的に互換性を持つ。 トレーニングは1日以内で1つのGPU上で完了することができ、その結果得られる軽量SAMはMobileSAMと呼ばれる。 推論速度では、単一のGPUで、MobileSAMは画像当たり約10msで、画像エンコーダでは8ms、マスクデコーダでは4msで動作する。 優れたパフォーマンスで、MobileSAMは同時実行のFastSAMの約5倍高速で、7倍小さく、モバイルアプリケーションに向いています。 さらに,MobileSAMはCPU上で比較的スムーズに動作可能であることを示す。 プロジェクトのコードは \href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{MobileSAM}} で提供されている。

Segment Anything Model (SAM) has attracted significant attention due to its impressive zero-shot transfer performance and high versatility for numerous vision applications (like image editing with fine-grained control). Many of such applications need to be run on resource-constraint edge devices, like mobile phones. In this work, we aim to make SAM mobile-friendly by replacing the heavyweight image encoder with a lightweight one. A naive way to train such a new SAM as in the original SAM paper leads to unsatisfactory performance, especially when limited training sources are available. We find that this is mainly caused by the coupled optimization of the image encoder and mask decoder, motivated by which we propose decoupled distillation. Concretely, we distill the knowledge from the heavy image encoder (ViT-H in the original SAM) to a lightweight image encoder, which can be automatically compatible with the mask decoder in the original SAM. The training can be completed on a single GPU within less than one day, and the resulting lightweight SAM is termed MobileSAM which is more than 60 times smaller yet performs on par with the original SAM. For inference speed, With a single GPU, MobileSAM runs around 10ms per image: 8ms on the image encoder and 4ms on the mask decoder. With superior performance, our MobileSAM is around 5 times faster than the concurrent FastSAM and 7 times smaller, making it more suitable for mobile applications. Moreover, we show that MobileSAM can run relatively smoothly on CPU. The code for our project is provided at \href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{MobileSAM}}), with a demo showing that MobileSAM can run relatively smoothly on CPU.
翻訳日:2023-07-04 12:15:26 公開日:2023-07-01
# 共生学習による最適ヘテロシドスティック回帰

Near Optimal Heteroscedastic Regression with Symbiotic Learning ( http://arxiv.org/abs/2306.14288v2 )

ライセンス: Link先を確認
Dheeraj Baby and Aniket Das and Dheeraj Nagaraj and Praneeth Netrapalli(参考訳) n$サンプル$(\mathbf{x}_i, y_i)$ from $y_i = \langle \mathbf{w}^{*}, \mathbf{x}_i \rangle + \epsilon_i \cdot \langle \mathbf{f}^{*}, \mathbf{x}_i \rangle$ with $\mathbf{x}_i \sim N(0,\mathbf{I})$, $\epsilon_i \sim N(0,1)$$$$$$\mathbf{w}^{*}$を推定する。 統計学、計量学、時系列分析などにおけるそのようなモデルの古典的な応用以外にも、データは様々なが未知の品質の複数のソースから収集される場合、機械学習にも特に関係している。 我々の研究は、$\tilde{o}\left(\|\mathbf{f}^{*}\|^2 \cdot \left(\frac{1}{n} + \left(\frac{d}{n}\right)^2\right)\right)$の誤差により二乗ノルムにおいて$\mathbf{w}^{*}$を推定し、一致する下界(対数係数)を証明できることを示した。 これは、以前の最もよく知られた上限である$\tilde{O}\left(\|\mathbf{f}^{*}\|^2\cdot \frac{d}{n}\right)$に対する実質的な改善である。 我々のアルゴリズムは2つのキーサブルーチンを持つ交代最小化手順である 1. 古典的重み付き最小二乗ヒューリスティックの適応により$\mathbf{w}^{*}$を推定し、これが最初の非漸近的保証を与える。 2. 位相検索にインスパイアされた$\mathbf{f}^{*}$を推定するための非凸擬勾配降下手順。 本稿では,2つの重要な問題に対する高速な非漸近速度,乗法雑音による線形回帰,乗法雑音による位相検索,それぞれが独立な関心事である。 これ以外にも、無限の相互情報量を扱うLeCam法(ファノ法のような標準手法の直接適用を防ぐことによって)の新たな適応を含む下界の証明は、他のヘテロ代数学的あるいは重み付き統計問題に対する下界の確立にも大きな関心を持つ可能性がある。

We consider the problem of heteroscedastic linear regression, where, given $n$ samples $(\mathbf{x}_i, y_i)$ from $y_i = \langle \mathbf{w}^{*}, \mathbf{x}_i \rangle + \epsilon_i \cdot \langle \mathbf{f}^{*}, \mathbf{x}_i \rangle$ with $\mathbf{x}_i \sim N(0,\mathbf{I})$, $\epsilon_i \sim N(0,1)$, we aim to estimate $\mathbf{w}^{*}$. Beyond classical applications of such models in statistics, econometrics, time series analysis etc., it is also particularly relevant in machine learning when data is collected from multiple sources of varying but apriori unknown quality. Our work shows that we can estimate $\mathbf{w}^{*}$ in squared norm up to an error of $\tilde{O}\left(\|\mathbf{f}^{*}\|^2 \cdot \left(\frac{1}{n} + \left(\frac{d}{n}\right)^2\right)\right)$ and prove a matching lower bound (upto log factors). This represents a substantial improvement upon the previous best known upper bound of $\tilde{O}\left(\|\mathbf{f}^{*}\|^2\cdot \frac{d}{n}\right)$. Our algorithm is an alternating minimization procedure with two key subroutines 1. An adaptation of the classical weighted least squares heuristic to estimate $\mathbf{w}^{*}$, for which we provide the first non-asymptotic guarantee. 2. A nonconvex pseudogradient descent procedure for estimating $\mathbf{f}^{*}$ inspired by phase retrieval. As corollaries, we obtain fast non-asymptotic rates for two important problems, linear regression with multiplicative noise and phase retrieval with multiplicative noise, both of which are of independent interest. Beyond this, the proof of our lower bound, which involves a novel adaptation of LeCam's method for handling infinite mutual information quantities (thereby preventing a direct application of standard techniques like Fano's method), could also be of broader interest for establishing lower bounds for other heteroscedastic or heavy-tailed statistical problems.
翻訳日:2023-07-04 12:14:51 公開日:2023-07-01
# ロバスト連合学習のための一階メタスタッケルバーグ法

A First Order Meta Stackelberg Method for Robust Federated Learning ( http://arxiv.org/abs/2306.13800v2 )

ライセンス: Link先を確認
Yunian Pan, Tao Li, Henger Li, Tianyi Xu, Zizhan Zheng, and Quanyan Zhu(参考訳) これまでの研究によると、連邦学習(FL)システムは様々なセキュリティリスクにさらされている。 いくつかの防衛戦略の提案にもかかわらず、それらは非適応的で特定の種類の攻撃に特有の傾向があり、予測不能あるいは適応不能な脅威に対して効果的ではない。 この研究は、バイエルン・スタックルベルク・マルコフゲーム(BSMG)として敵対的連合学習をモデル化し、様々な攻撃タイプに関するディフェンダーの不完全な情報をキャプチャする。 本稿では,bsmgにおける平衡戦略を解決するために,効率的なメタ学習アルゴリズムであるmeta-stackelberg learning (meta-sl)を提案する。 メタslは, 1次$o(\varepsilon^{-2})$勾配反復において, 1次$\varepsilon$平衡点に収束し, 1回に$o(\varepsilon^{-4})$のサンプルが必要となる。 実証的な証拠は、我々のメタスタックルバーグフレームワークが、不確かな性質の強力なモデル中毒やバックドア攻撃に対して非常によく機能していることを示している。

Previous research has shown that federated learning (FL) systems are exposed to an array of security risks. Despite the proposal of several defensive strategies, they tend to be non-adaptive and specific to certain types of attacks, rendering them ineffective against unpredictable or adaptive threats. This work models adversarial federated learning as a Bayesian Stackelberg Markov game (BSMG) to capture the defender's incomplete information of various attack types. We propose meta-Stackelberg learning (meta-SL), a provably efficient meta-learning algorithm, to solve the equilibrium strategy in BSMG, leading to an adaptable FL defense. We demonstrate that meta-SL converges to the first-order $\varepsilon$-equilibrium point in $O(\varepsilon^{-2})$ gradient iterations, with $O(\varepsilon^{-4})$ samples needed per iteration, matching the state of the art. Empirical evidence indicates that our meta-Stackelberg framework performs exceptionally well against potent model poisoning and backdoor attacks of an uncertain nature.
翻訳日:2023-07-04 12:13:42 公開日:2023-07-01
# マルチバンド系における非アベリア・アハロノフ・ボーム効果の微分散乱断面積

Differential scattering cross section of the non-Abelian Aharonov-Bohm effect in multiband systems ( http://arxiv.org/abs/2306.13448v2 )

ライセンス: Link先を確認
R\'obert N\'emeth, J\'ozsef Cserti(参考訳) 我々は,非可換リー群に対応するゲージ場上の粒子の散乱という,等方的多バンド系における非アベリア・アハロノフ・ボーム効果の統一的処理を開発する。 このような系の散乱状態の複素輪郭積分表現を示し、それらの漸近形式を用いて微分散乱断面積を計算する。 断面の角度依存性は、元々アハラノフとボームが独創的な論文で得たものと同じであるが、今回は入射平面波の偏光に依存する。 この理論の適用として、波動関数の輪郭積分を明示的に行い、凝縮物や粒子物理学に関連する3つの非自明な等方性多バンド系に対する対応する断面を計算する。 散乱の性質についてより深い知見を得るため、異なる入射波の確率分布と電流分布をプロットする。 本稿では,Abelian AB効果に関する最近の知見を一般化し,正確に解けるAB散乱問題を拡張した。

We develop a unified treatment of the non-Abelian Aharonov-Bohm (AB) effect in isotropic multiband systems, namely, the scattering of particles on a gauge field corresponding to a noncommutative Lie group. We present a complex contour integral representation of the scattering states for such systems, and, using their asymptotic form, we calculate the differential scattering cross section. The angular dependence of the cross section turns out to be the same as that obtained originally by Aharonov and Bohm in their seminal paper, but this time it depends on the polarization of the incoming plane wave. As an application of our theory, we perform the contour integrals for the wave functions explicitly and calculate the corresponding cross section for three non-trivial isotropic multiband systems relevant to condensed matter and particle physics. To have a deeper insight into the nature of the scattering, we plot the probability and current distributions for different incoming waves. This paper is a generalization of our recent results on the Abelian AB effect providing an extension of exactly solvable AB scattering problems.
翻訳日:2023-07-04 12:12:51 公開日:2023-07-01
# ペルシャマルチドメイン感情分析のための重み付きCapsuleNetネットワーク

weighted CapsuleNet networks for Persian multi-domain sentiment analysis ( http://arxiv.org/abs/2306.17068v2 )

ライセンス: Link先を確認
Mahboobeh Sadat Kobari, Nima Karimi, Benyamin Pourhosseini, Ramin Mousa(参考訳) 感情分類は自然言語処理における基本的なタスクであり、ポジティブ、ネガティブ、ニュートラルの3つのクラスのうちの1つを自由テキストに割り当てる。 しかし、感情分類モデルは高度にドメインに依存しており、分類器は、ある領域において妥当な精度で分類を行うが、単語の意味的重複が正確性に乏しいため、別の領域では分類しない。 本稿では,累積加重カプセルネットワークを用いたペルシャ/アラビア多ドメイン感情分析手法を提案する。 軽量カプセルアンサンブルは、各ドメインごとに別々のカプセルネットワークをトレーニングし、ドメイン依存度(DBD)と呼ばれる重み付け尺度から成っている。 この基準はTFとIDFから成り、各ドメインのそれぞれのドキュメントの依存関係を別々に計算し、この値は各カプセルが生成する可能性のある出力によって乗算される。 最終的に、これらの乗法の総和は最終的な出力の肩書きであり、極性を決定するために使われる。 そして、最も依存しているドメインは各ドメインの最終的な出力と見なされる。 提案手法はDigikalaデータセットを用いて評価し,既存の手法に比べて精度が高かった。 その結果,帰属領域の検出精度0.89,極性検出精度0.99が得られた。 また、不均衡なクラスを扱う問題に対して、コスト感受性関数が用いられた。 この機能は感情分類の精度を0.0162改善することができた。 amazon arabic dataに対するこのアプローチは、ドメイン分類において 0.9695 accuraciesを達成することができる。

Sentiment classification is a fundamental task in natural language processing, assigning one of the three classes, positive, negative, or neutral, to free texts. However, sentiment classification models are highly domain dependent; the classifier may perform classification with reasonable accuracy in one domain but not in another due to the Semantic multiplicity of words getting poor accuracy. This article presents a new Persian/Arabic multi-domain sentiment analysis method using the cumulative weighted capsule networks approach. Weighted capsule ensemble consists of training separate capsule networks for each domain and a weighting measure called domain belonging degree (DBD). This criterion consists of TF and IDF, which calculates the dependency of each document for each domain separately; this value is multiplied by the possible output that each capsule creates. In the end, the sum of these multiplications is the title of the final output, and is used to determine the polarity. And the most dependent domain is considered the final output for each domain. The proposed method was evaluated using the Digikala dataset and obtained acceptable accuracy compared to the existing approaches. It achieved an accuracy of 0.89 on detecting the domain of belonging and 0.99 on detecting the polarity. Also, for the problem of dealing with unbalanced classes, a cost-sensitive function was used. This function was able to achieve 0.0162 improvements in accuracy for sentiment classification. This approach on Amazon Arabic data can achieve 0.9695 accuracies in domain classification.
翻訳日:2023-07-04 12:07:50 公開日:2023-07-01
# GraMMaR:3次元動作再構成のための地上認識運動モデル

GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction ( http://arxiv.org/abs/2306.16736v2 )

ライセンス: Link先を確認
Sihan Ma, Qiong Cao, Jing Zhang, Dacheng Tao(参考訳) 複雑な人間と地面の相互作用を非神秘化することは、rgbビデオから正確かつ現実的な3d人間の動きの再構築に不可欠である。 従来の手法では、暗黙的または疎密な方法で人間と地上の相互作用をモデル化しており、しばしばノイズや不確実性に直面した時に非現実的で誤った動きをもたらす。 対照的に、我々のアプローチはこれらの相互作用を密で連続的な方法で明示的に表現している。 そこで本研究では,動き列の各時間ステップにおける各関節面と接地面の遷移と相互作用の分布を協調的に学習する,3次元動作再構成のための新しい接地認識運動モデルであるグラマーを提案する。 運動と地面への距離変化との整合性を明確に促進するように訓練されている。 トレーニング後,GraMMaRを二元的優先度として活用する共同最適化戦略を確立し,楽観的な接地運動空間への最適化を規則化する。 これは、想定または学習された地上面に関係なく、現実的で一貫性のある運動再構成をもたらす。 AMASS と AIST++ のデータセットを広範囲に評価することにより,複雑であいまいな人間-地上相互作用を含む難解なケースにおいて,優れた一般化と識別能力を示す。 コードはリリースされます。

Demystifying complex human-ground interactions is essential for accurate and realistic 3D human motion reconstruction from RGB videos, as it ensures consistency between the humans and the ground plane. Prior methods have modeled human-ground interactions either implicitly or in a sparse manner, often resulting in unrealistic and incorrect motions when faced with noise and uncertainty. In contrast, our approach explicitly represents these interactions in a dense and continuous manner. To this end, we propose a novel Ground-aware Motion Model for 3D Human Motion Reconstruction, named GraMMaR, which jointly learns the distribution of transitions in both pose and interaction between every joint and ground plane at each time step of a motion sequence. It is trained to explicitly promote consistency between the motion and distance change towards the ground. After training, we establish a joint optimization strategy that utilizes GraMMaR as a dual-prior, regularizing the optimization towards the space of plausible ground-aware motions. This leads to realistic and coherent motion reconstruction, irrespective of the assumed or learned ground plane. Through extensive evaluation on the AMASS and AIST++ datasets, our model demonstrates good generalization and discriminating abilities in challenging cases including complex and ambiguous human-ground interactions. The code will be released.
翻訳日:2023-07-04 10:21:57 公開日:2023-07-01
# NNQS-Transformer:Ab initio量子化学のための効率よくスケーラブルなニューラルネットワーク量子状態アプローチ

NNQS-Transformer: an Efficient and Scalable Neural Network Quantum States Approach for Ab initio Quantum Chemistry ( http://arxiv.org/abs/2306.16705v2 )

ライセンス: Link先を確認
Yangjun Wu, Chu Guo, Yi Fan, Pengyu Zhou, Honghui Shang(参考訳) ニューラルネットワーク量子状態(NNQS)は、量子多体問題に対する有望な候補として浮上しているが、その実践的応用はサンプリングと局所エネルギー計算のコストが高いためにしばしば妨げられている。 電子構造計算のための高性能NNQS法を開発した。 The major innovations include: (1) A transformer based architecture as the quantum wave function ansatz; (2) A data-centric parallelization scheme for the variational Monte Carlo (VMC) algorithm which preserves data locality and well adapts for different computing architectures; (3) A parallel batch sampling strategy which reduces the sampling cost and achieves good load balance; (4) A parallel local energy evaluation scheme which is both memory and computationally efficient; (5) Study of real chemical systems demonstrates both the superior accuracy of our method compared to state-of-the-art and the strong and weak scalability for large molecular systems with up to $120$ spin orbitals.

Neural network quantum state (NNQS) has emerged as a promising candidate for quantum many-body problems, but its practical applications are often hindered by the high cost of sampling and local energy calculation. We develop a high-performance NNQS method for \textit{ab initio} electronic structure calculations. The major innovations include: (1) A transformer based architecture as the quantum wave function ansatz; (2) A data-centric parallelization scheme for the variational Monte Carlo (VMC) algorithm which preserves data locality and well adapts for different computing architectures; (3) A parallel batch sampling strategy which reduces the sampling cost and achieves good load balance; (4) A parallel local energy evaluation scheme which is both memory and computationally efficient; (5) Study of real chemical systems demonstrates both the superior accuracy of our method compared to state-of-the-art and the strong and weak scalability for large molecular systems with up to $120$ spin orbitals.
翻訳日:2023-07-04 10:21:34 公開日:2023-07-01