このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230821となっている論文です。

PDF登録状況(公開日: 20230821)

TitleAuthorsAbstract論文公表日・翻訳日
# LTM: 言語モデルに基づく拡張性とブラックボックス類似性に基づくテストスイートの最小化

LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models ( http://arxiv.org/abs/2304.01397v2 )

ライセンス: Link先を確認
Rongqi Pan, Taher A. Ghaleb, Lionel Briand(参考訳) テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、特に大規模なソフトウェアシステムにおいて、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。 したがって、テストスイートの障害検出能力を維持しつつ、冗長なテストケースを取り除いてテスト時間とリソースを削減し、ソフトウェアテストの効率を向上させるためにテストスイートの最小化(tsm)が採用される。 TSMのアプローチのほとんどはコードカバレッジ(ホワイトボックス)やモデルベースの機能に依存している。 ATMやFAST-Rのようなテストコード(ブラックボックス)のみに依存する最近のTSMアプローチが提案されている。 スケーラビリティに対処するため,我々は,大規模言語モデル(llm)に基づく新規でスケーラブルでブラックボックスの類似性に基づくtsmアプローチであるltm(language model-based test suite minimization)を提案する。 類似度測定を支援するために,CodeBERT,GraphCodeBERT,UniXcoderの3種類の事前学習言語モデルを用いて,テストコードの埋め込みを抽出し,コサイン類似度とユークリッド距離の2つの類似度尺度を計算した。 我々のゴールは、計算効率が向上するだけでなく、遺伝的アルゴリズム(GA)を導出し、全体の検索時間を短縮できる類似性尺度を見つけることである。 実験の結果、50%の最小化予算の下で、LTM(UniXcoderとCosineの類似性を使用)の最適構成は、ATMの最高の2構成を3つのキーセットで上回った。 (a) 試験時間の節約率の向上(平均で38.06%に対して40.38%) (b)断層検出率(平均0.84対0.81)が著しく高く、さらに重要なこと。 c) テストスイートの最小化(平均26.73分に対して72.75分)は、準備時間(最大2桁の高速化)と検索時間(最大1桁の高速化)の両方においてはるかに高速である。

Test suites tend to grow when software evolves, making it often infeasible to execute all test cases with the allocated testing budgets, especially for large software systems. Therefore, test suite minimization (TSM) is employed to improve the efficiency of software testing by removing redundant test cases, thus reducing testing time and resources, while maintaining the fault detection capability of the test suite. Most of the TSM approaches rely on code coverage (white-box) or model-based features, which are not always available for test engineers. Recent TSM approaches that rely only on test code (black-box) have been proposed, such as ATM and FAST-R. To address scalability, we propose LTM (Language model-based Test suite Minimization), a novel, scalable, and black-box similarity-based TSM approach based on large language models (LLMs). To support similarity measurement, we investigated three different pre-trained language models: CodeBERT, GraphCodeBERT, and UniXcoder, to extract embeddings of test code, on which we computed two similarity measures: Cosine Similarity and Euclidean Distance. Our goal is to find similarity measures that are not only computationally more efficient but can also better guide a Genetic Algorithm (GA), thus reducing the overall search time. Experimental results, under a 50% minimization budget, showed that the best configuration of LTM (using UniXcoder with Cosine similarity) outperformed the best two configurations of ATM in three key facets: (a) achieving a greater saving rate of testing time (40.38% versus 38.06%, on average); (b) attaining a significantly higher fault detection rate (0.84 versus 0.81, on average); and, more importantly, (c) minimizing test suites much faster (26.73 minutes versus 72.75 minutes, on average) in terms of both preparation time (up to two orders of magnitude faster) and search time (one order of magnitude faster).
翻訳日:2023-10-24 12:45:06 公開日:2023-08-21
# 制御静的ループ解析による状態マシンとしてのプロトコルフォーマットの抽出

Extracting Protocol Format as State Machine via Controlled Static Loop Analysis ( http://arxiv.org/abs/2305.13483v3 )

ライセンス: Link先を確認
Qingkai Shi and Xiangzhe Xu and Xiangyu Zhang(参考訳) プロトコルメッセージフォーマットのリバースエンジニアリングは多くのセキュリティアプリケーションにとって重要である。 主流技術は動的解析を使用し、その低被覆問題を継承する -- 推論されたメッセージフォーマットは入力の特徴のみを反映している。 高いカバレッジを達成するため、我々は静的解析を用いてプロトコルパーサの実装からメッセージフォーマットを推測する。 本研究では,制約強調正規表現を用いてフォーマットを記述し,有限状態機械を用いて解析する,極めて困難なプロトコルのクラスに注目した。 このような状態マシンは複雑な解析ループとして実装されることが多く、従来の静的解析による解析は本質的に困難である。 提案手法は,各ループイテレーションを状態として,ループイテレーション間の依存性を状態遷移として,ステートマシンを抽出する。 経路に敏感で正確だが経路爆発を避けるために、注意深く設計された規則に基づき、解析はできるだけ多くの経路をマージするように制御される。 評価結果は、状態マシンを推測し、その結果、90%以上の精度でメッセージフォーマットを5分以内で再現できることを示す。 また、プロトコルファザーの強化にステートマシンを適用し、カバレッジの観点から20%から230%改善し、ベースラインと比較して10以上のゼロデイを検出するようにしました。

Reverse engineering of protocol message formats is critical for many security applications. Mainstream techniques use dynamic analysis and inherit its low-coverage problem -- the inferred message formats only reflect the features of their inputs. To achieve high coverage, we choose to use static analysis to infer message formats from the implementation of protocol parsers. In this work, we focus on a class of extremely challenging protocols whose formats are described via constraint-enhanced regular expressions and parsed using finite-state machines. Such state machines are often implemented as complicated parsing loops, which are inherently difficult to analyze via conventional static analysis. Our new technique extracts a state machine by regarding each loop iteration as a state and the dependency between loop iterations as state transitions. To achieve high, i.e., path-sensitive, precision but avoid path explosion, the analysis is controlled to merge as many paths as possible based on carefully-designed rules. The evaluation results show that we can infer a state machine and, thus, the message formats, in five minutes with over 90% precision and recall, far better than state of the art. We also applied the state machines to enhance protocol fuzzers, which are improved by 20% to 230% in terms of coverage and detect ten more zero-days compared to baselines.
翻訳日:2023-10-24 07:53:28 公開日:2023-08-21
# praioritize: スマートコントラクトのバグと脆弱性を優先する学習

PrAIoritize: Learning to Prioritize Smart Contract Bugs and Vulnerabilities ( http://arxiv.org/abs/2308.11082v1 )

ライセンス: Link先を確認
Majd Soud, Grischa Liebel and Mohammad Hamdaqa(参考訳) スマートコントラクトの脆弱性とバグは、重大な財務損失、評判の損傷、法的問題につながる可能性があるため、ソフトウェアエンジニアにとって重要な懸念となっている。 したがって、スマートコントラクトに対するバグ修正の優先順位付けは、信頼性を維持する上で重要です。 トラッキングツールがないため、スマートコントラクトレポートされたバグの優先順位付けは手作業で行われ、面倒な作業であり、バグのトリアージを制限し、専門的な知識を必要とします。 PrAIoritizeは,高度に緊急なバグレポートの優先順位付けを支援するスマートコントラクトバグ優先順位の自動予測手法である。 PrAIoritizeは2つの主要なフェーズから構成される。 1)スマートコントラクトキーワードレキシコンの自動構築及びラベル付きバグレポートへの優先度レベルの自動割り当てを含む自動ラベリング 2) モデル構築は,多クラス分類によるフィードフォワードニューラルネットワーク (FFNN) と双方向長短期メモリ (BiLSTM) の機能設計と設計を伴い,バグのテキスト記述の特徴をより正確に把握し,それらの優先度レベルを予測する。 このモデルは、GitHubで利用可能なオープンソースソフトウェア(OSS)プロジェクトとNVD脆弱性データベースという、2つのデータソースから収集されたスマートコントラクトバグレポートを使用してトレーニングされる。 本評価は,f-measure,精度,リコールの5.75%-35.29%向上し,類似した分類タスクに対して,最先端のベースラインや一般的な事前学習モデル(bertなど)よりも大幅に改善することを示す。

Smart contract vulnerabilities and bugs have become a key concern for software engineers, as they can lead to significant financial losses, reputational damage, and legal issues. Therefore, prioritizing bug fixing for smart contracts is critical to maintaining trust. Due to the lack of tracking tools, prioritizing smart contract-reported bugs is done manually, which is a tedious task, limits bug triaging, and needs specialized knowledge. Towards this end, we propose PrAIoritize; an automated approach for predicting smart contract bug priorities that assist software engineers in prioritizing highly urgent bug reports. PrAIoritize consists of two main phases: 1) automatic labeling, which involves the automatic construction of a smart contract keyword lexicon and the automatic assignment of priority levels to unlabeled bug reports; 2) model construction, which involves feature engineering and designs layers of feed-forward neural networks (FFNNs) and bidirectional long short-term memory (BiLSTM) with multi-class classification to better capture the features of the textual descriptions of bugs and predict their priority levels. The model then is trained using smart contract bug reports collected from two data sources: open-source software (OSS) projects available on GitHub and NVD vulnerability database. Our evaluation demonstrates significant improvement over state-of-the-art baselines and commonly used pre-trained models (e.g. BERT) for similar classification tasks, with 5.75%-35.29% increase in F-measure, precision, and recall.
翻訳日:2023-10-23 13:18:30 公開日:2023-08-21
# 組み込みネットワークスタックにおけるパケット検証脆弱性の体系的検出

Systematically Detecting Packet Validation Vulnerabilities in Embedded Network Stacks ( http://arxiv.org/abs/2308.10965v1 )

ライセンス: Link先を確認
Paschal C. Amusuo (1), Ricardo Andr\'es Calvo M\'endez (2), Zhongwei Xu (3), Aravind Machiry (1) and James C. Davis (1) ((1) Purdue University, USA, (2) Universidad Nacional de Colombia, (3) Xi'an JiaoTong University)(参考訳) 組み込みネットワークスタック(ENS)は、低リソースデバイスが外部との通信を可能にし、モノのインターネットとサイバー物理システムの開発を促進する。 ENSの欠陥の中には、重大なサイバーセキュリティの脆弱性がある。 以前の研究は、ソフトウェアシステムの多くのクラスにおける欠陥の特徴に光を当てているが、ens欠陥の性質を記述したり、それらを暴露するための体系的な技術を特定したりした研究はない。 ENS欠陥を検出するための最も一般的な自動化アプローチは、フィードバック駆動のランダム化動的解析(fuzzing)である。 本稿では、ENSにおけるサイバーセキュリティの脆弱性を初めて体系的に評価する。 6つのオープンソースENSにわたる61の脆弱性を分析した。 これらのENS欠陥のほとんどはネットワークスタックのトランスポート層とネットワーク層に集中しており、ネットワークプロトコルの異なる状態に到達する必要がある。 そこで我々は,トランスポート層とネットワーク層に着目し,ネットワークプロトコルの状態をカバーする種を用いて,パケットフィールドを体系的に修飾するシステムテストフレームワークを提案する。 このフレームワークを4 ENSで評価し,IP/TCP/UDP脆弱性14件のうち12件を複製した。 最新のバージョンでは、全てのプロトコル状態をカバーする有界系統テスト中に7つの新しい欠陥(6つの割り当てられたcve)を発見し、パケット毎に最大3回の修正を行った。 従来のファジリング実験では見つからなかった4つのレンズのうち3つに欠陥が見つかった。 以上の結果から,ファジングは系統的テストが採用されるまで延期すべきであることが示唆された。

Embedded Network Stacks (ENS) enable low-resource devices to communicate with the outside world, facilitating the development of the Internet of Things and Cyber-Physical Systems. Some defects in ENS are thus high-severity cybersecurity vulnerabilities: they are remotely triggerable and can impact the physical world. While prior research has shed light on the characteristics of defects in many classes of software systems, no study has described the properties of ENS defects nor identified a systematic technique to expose them. The most common automated approach to detecting ENS defects is feedback-driven randomized dynamic analysis ("fuzzing"), a costly and unpredictable technique. This paper provides the first systematic characterization of cybersecurity vulnerabilities in ENS. We analyzed 61 vulnerabilities across 6 open-source ENS. Most of these ENS defects are concentrated in the transport and network layers of the network stack, require reaching different states in the network protocol, and can be triggered by only 1-2 modifications to a single packet. We therefore propose a novel systematic testing framework that focuses on the transport and network layers, uses seeds that cover a network protocol's states, and systematically modifies packet fields. We evaluated this framework on 4 ENS and replicated 12 of the 14 reported IP/TCP/UDP vulnerabilities. On recent versions of these ENSs, it discovered 7 novel defects (6 assigned CVES) during a bounded systematic test that covered all protocol states and made up to 3 modifications per packet. We found defects in 3 of the 4 ENS we tested that had not been found by prior fuzzing research. Our results suggest that fuzzing should be deferred until after systematic testing is employed.
翻訳日:2023-10-23 13:18:06 公開日:2023-08-21
# ログ解析のための大規模ベンチマーク

A Large-scale Benchmark for Log Parsing ( http://arxiv.org/abs/2308.10828v1 )

ライセンス: Link先を確認
Zhihan Jiang, Jinyang Liu, Junjie Huang, Yichen Li, Yintong Huo, Jiazhen Gu, Zhuangbin Chen, Jieming Zhu and Michael R. Lyu(参考訳) ログデータは、ソフトウェアシステムの自動保守における異常検出や障害診断といった活動において重要なものだ。 構造化されていないフォーマットであるため、ログ解析は自動解析のために構造化フォーマットに変換するためにしばしば必要となる。 さまざまなログパーサが存在しており、これらのツールをベンチマークして機能やパフォーマンスを理解することが不可欠である。 しかしながら、ログ解析のための既存のデータセットは、スケールと代表性の観点から制限されており、ログパーサーの評価や開発を目的とした研究の課題となっている。 この問題は、これらのパーサーが製品用に評価されるとより顕著になる。 これらの問題に対処するため,我々は,実世界のソフトウェアシステムで観測されるログデータをより正確にミラーリングするlogpubという,大規模な注釈付きログデータセットのコレクションを導入する。 logpubは14のデータセットからなり、それぞれ平均360万のログ行からなる。 LogPubを利用することで、より厳密で実用的な設定で、15のログパーサを再評価します。 また,不均衡なデータ分布に対する現在の指標の感度を低下させる新しい評価指標を提案する。 さらに,レアシステムイベントを表すログ上のログパーサの詳細な性能を調査し,システムのトラブルシューティングに関する包括的な情報を提供する。 このようなログを正確に解析することは、非常に難しい。 当社の作業は、より現実的な設定でログパーサの設計と評価に光を当てることによって、本番システムにおける実装が容易になると考えています。

Log data is pivotal in activities like anomaly detection and failure diagnosis in the automated maintenance of software systems. Due to their unstructured format, log parsing is often required to transform them into a structured format for automated analysis. A variety of log parsers exist, making it vital to benchmark these tools to comprehend their features and performance. However, existing datasets for log parsing are limited in terms of scale and representativeness, posing challenges for studies that aim to evaluate or develop log parsers. This problem becomes more pronounced when these parsers are evaluated for production use. To address these issues, we introduce a new collection of large-scale annotated log datasets, named LogPub, which more accurately mirrors log data observed in real-world software systems. LogPub comprises 14 datasets, each averaging 3.6 million log lines. Utilizing LogPub, we re-evaluate 15 log parsers in a more rigorous and practical setting. We also propose a new evaluation metric to lessen the sensitivity of current metrics to imbalanced data distribution. Furthermore, we are the first to scrutinize the detailed performance of log parsers on logs that represent rare system events and offer comprehensive information for system troubleshooting. Parsing such logs accurately is vital yet challenging. We believe that our work could shed light on the design and evaluation of log parsers in more realistic settings, thereby facilitating their implementation in production systems.
翻訳日:2023-10-23 13:17:39 公開日:2023-08-21
# EALink:イシューコミットリンクリカバリのための効率的で正確な事前トレーニングフレームワーク

EALink: An Efficient and Accurate Pre-trained Framework for Issue-Commit Link Recovery ( http://arxiv.org/abs/2308.10759v1 )

ライセンス: Link先を確認
Chenyuan Zhang, Yanlin Wang, Zhao Wei, Yong Xu, Juhong Wang, Hui Li and Rongrong Ji(参考訳) ソフトウェアトレーサビリティリンクの一種であるイシューコミットリンクは、様々なソフトウェア開発やメンテナンスタスクにおいて重要な役割を果たす。 しかし、それらは一般的に不足しており、開発者はコミットするときにしばしばタグを忘れたり、失敗したりする。 既存の研究では,自動イシューコミットリンクリカバリを改善するために,事前トレーニングされたモデルを含むディープラーニング技術を導入している。その有望な性能にもかかわらず,これまでのアプローチには4つの大きな問題があり,大規模ソフトウェアプロジェクトのリンクリカバリを妨げている。 これらの問題を解決するために, EALinkという, 効率的かつ正確な事前学習フレームワークを提案する。 ealinkは、既存のトレーニング済みメソッドよりもはるかに少ないモデルパラメータを必要とし、効率的なトレーニングとリカバリをもたらす。 さらに,EALinkの回復精度を向上させるため,様々な手法を設計する。 大規模データセットを構築し,ealinkのパワーを実証するための広範な実験を行う。 その結果、ealinkは様々な評価基準で最先端の手法を(15.23%-408.65%)上回っていることがわかった。 一方、トレーニングと推論のオーバーヘッドは、既存のメソッドよりも桁違いに低い。

Issue-commit links, as a type of software traceability links, play a vital role in various software development and maintenance tasks. However, they are typically deficient, as developers often forget or fail to create tags when making commits. Existing studies have deployed deep learning techniques, including pretrained models, to improve automatic issue-commit link recovery.Despite their promising performance, we argue that previous approaches have four main problems, hindering them from recovering links in large software projects. To overcome these problems, we propose an efficient and accurate pre-trained framework called EALink for issue-commit link recovery. EALink requires much fewer model parameters than existing pre-trained methods, bringing efficient training and recovery. Moreover, we design various techniques to improve the recovery accuracy of EALink. We construct a large-scale dataset and conduct extensive experiments to demonstrate the power of EALink. Results show that EALink outperforms the state-of-the-art methods by a large margin (15.23%-408.65%) on various evaluation metrics. Meanwhile, its training and inference overhead is orders of magnitude lower than existing methods.
翻訳日:2023-10-23 13:17:19 公開日:2023-08-21
# 宇宙ネットワークにおけるConsensus-Critical Codeの静的セキュリティテスト

Static Application Security Testing of Consensus-Critical Code in the Cosmos Network ( http://arxiv.org/abs/2308.10613v1 )

ライセンス: Link先を確認
Jasper Surmont, Weihong Wang, Tom Van Cutsem(参考訳) ブロックチェーンはコンセンサスに到達するために決定論的実行を必要とする。 これは、Solidityのようなスマートコントラクトを書くように設計された言語でしばしば保証される。 アプリケーション固有のブロックチェーンや‘appchains’は、ブロックチェーンのアプリケーションロジックを汎用プログラミング言語を使って記述することを可能にする。 特に、開発者はブロックチェーンアプリケーションロジックに非決定性のソースがないことを保証する必要があります。 非決定主義のあらゆる源は潜在的な脆弱性の源であるかもしれない。 本稿では,静的アプリケーションセキュリティテスト(SAST)ツールを用いて,開発時の非決定性の検出を行う。 私たちは、アプリケーション固有のブロックチェーンの相互接続ネットワークを構築するための著名なオープンソースプロジェクトであるcosmosにフォーカスしています。 Cosmosは、これらのチェーンをGoプログラミング言語で実装できるSoftware Development Kit(SDK)を提供している。 我々は、Goにおける非決定性の原因を分析するために、11の代表的コスモスベースのアプリチェーンのコーパスを作成する。 研究の一環として、コスモスアプリケーションのためのCodeQLコード分析ルールセットであるcosmos-sdk-codeqlを特定した。 これらのルールは多くの偽陽性を生成し、ブロックチェーンロジックの一部として実行されるコード内でのみ非決定性の原因をより正確に検出するリファクタリングされたルールセットを提案する。 我々は、ルールの精度が大幅に向上し、sastツールがより効果的になり、cosmosベースのブロックチェーンのセキュリティ強化に潜在的に寄与することを示した。

Blockchains require deterministic execution in order to reach consensus. This is often guaranteed in languages designed to write smart contracts, such as Solidity. Application-specific blockchains or ``appchains'' allow the blockchain application logic to be written using general-purpose programming languages, giving developers more flexibility but also additional responsibilities. In particular, developers must ensure that their blockchain application logic does not contain any sources of non-determinism. Any source of non-determinism may be a potential source of vulnerabilities. This paper focuses on the use of Static Application Security Testing (SAST) tools to detect such sources of non-determinism at development time. We focus on Cosmos, a prominent open-source project that lets developers build interconnected networks of application-specific blockchains. Cosmos provides a Software Development Kit (SDK) that allows these chains to be implemented in the Go programming language. We create a corpus of 11 representative Cosmos-based appchains to analyze for sources of non-determinism in Go. As part of our study, we identified cosmos-sdk-codeql, a set of CodeQL code analysis rules for Cosmos applications. We find that these rules generate many false positives and propose a refactored set of rules that more precisely detects sources of non-determinism only in code that runs as part of the blockchain logic. We demonstrate a significant increase in the precision of the rules, making the SAST tool more effective and hence potentially contributing to enhanced security for Cosmos-based blockchains.
翻訳日:2023-10-23 13:17:00 公開日:2023-08-21
# 事前知識を用いたコミット分類のためのプロンプトチューニングの導入

Incorprating Prompt tuning for Commit classification with prior Knowledge ( http://arxiv.org/abs/2308.10576v1 )

ライセンス: Link先を確認
Jiajun Tong, Zhixiao Wang, Xiaobin Rui(参考訳) コミット分類(CC)は、ソフトウェア開発者がコードの変更をその性質と目的に応じて異なるタイプに分類するのを助けるため、ソフトウェアのメンテナンスにおいて重要なタスクである。 これにより、開発作業の進捗をよりよく理解し、改善が必要な領域を特定します。 しかしながら、既存のメソッドはすべて識別モデルであり、通常はクラスラベルの確率を生成するために出力層を追加する複雑なアーキテクチャを持つ。 さらに、細調整には大量のラベル付きデータが必要であり、ラベル付きデータに制限がある場合、効果的な分類境界を学習することは困難である。 本稿では,先行知識(ipck)https://github.com/applemax1992/ipckを用いたコミット分類のためのプロンプトチューニングを組み込んだ生成フレームワークを提案する。 限られたサンプルだけでSOTAのパフォーマンスに到達できます。 まず,T5に基づく生成フレームワークを提案する。 異なるccタスクをtext2text問題に統一し、余分な出力層を必要とせず、モデルの構造を単純化するエンコーダ−デコーダ構築方法。 第二に、微調整の代わりに、限られたサンプルしか持たない数ショットシナリオで適用可能なプロンプトチューニングソリューションを設計する。 さらに,外部知識グラフによる事前知識を組み込んで,音声機械ステップの最終的なラベルに単語の確率をマッピングし,少ないシナリオでの性能を向上させる。 2つのオープンデータセットに対する大規模な実験は、我々のフレームワークがCCの問題をシンプルだが効果的に、数ショットとゼロショットのシナリオで解決できることを示している。

Commit Classification(CC) is an important task in software maintenance since it helps software developers classify code changes into different types according to their nature and purpose. This allows them to better understand how their development efforts are progressing, identify areas where they need improvement. However, existing methods are all discriminative models, usually with complex architectures that require additional output layers to produce class label probabilities. Moreover, they require a large amount of labeled data for fine-tuning, and it is difficult to learn effective classification boundaries in the case of limited labeled data. To solve above problems, we propose a generative framework that Incorporating prompt-tuning for commit classification with prior knowledge (IPCK) https://github.com/AppleMax1992/IPCK, which simplifies the model structure and learns features across different tasks. It can still reach the SOTA performance with only limited samples. Firstly, we proposed a generative framework based on T5. This encoder-decoder construction method unifies different CC task into a text2text problem, which simplifies the structure of the model by not requiring an extra output layer. Second, instead of fine-tuning, we design an prompt-tuning solution which can be adopted in few-shot scenarios with only limit samples. Furthermore, we incorporate prior knowledge via an external knowledge graph to map the probabilities of words into the final labels in the speech machine step to improve performance in few-shot scenarios. Extensive experiments on two open available datasets show that our framework can solve the CC problem simply but effectively in few-shot and zeroshot scenarios, while improving the adaptability of the model without requiring a large amount of training samples for fine-tuning.
翻訳日:2023-10-23 13:16:36 公開日:2023-08-21
# 人工知能と審美的判断

Artificial Intelligence and Aesthetic Judgment ( http://arxiv.org/abs/2309.12338v1 )

ライセンス: Link先を確認
Jessica Hullman, Ari Holtzman, Andrew Gelman(参考訳) 生成AIは人間の表現様式で創造的な出力を生成する。 現代の生成aiモデルのアウトプットとの遭遇は、アートワークとのインタラクションを組織化する同じ種類の審美的判断によって媒介されていると論じている。 美術館で見る芸術における解釈手順は、生来の人間的教養ではなく、芸術史や芸術批判といった分野によって歴史の上に発展し、特定の社会的機能を実現する。 これにより、生成的AIに対する反応、新しいメディアへのアプローチ方法、そして生成的AIが未来に対する多くの恐怖を喚起する理由を考えると、停止することになります。 我々は自然に芸術史から因果推論の混同を継承する: 作品は、その創造に影響を与える文化的条件の徴候として読み取ることができ、同時に、永遠の人間の状態の時間的、因果的な蒸留とみなすことができる。 このエッセイでは、私たちは、このジレンマを生成的AIの文脈で捉えたとき、未解決の緊張に焦点を当てています。 現在の解釈モードは、このタスクに十分か? 歴史的に、新しい芸術形態は芸術の解釈方法を変え、芸術作品が本質的な人間の真理に触れた証拠として用いられるようになった。 生成AIが現代的美的判断に影響を与えるにつれて、我々は、AI生成メディアの意味を精査しようとする際の落とし穴と罠について概説する。

Generative AIs produce creative outputs in the style of human expression. We argue that encounters with the outputs of modern generative AI models are mediated by the same kinds of aesthetic judgments that organize our interactions with artwork. The interpretation procedure we use on art we find in museums is not an innate human faculty, but one developed over history by disciplines such as art history and art criticism to fulfill certain social functions. This gives us pause when considering our reactions to generative AI, how we should approach this new medium, and why generative AI seems to incite so much fear about the future. We naturally inherit a conundrum of causal inference from the history of art: a work can be read as a symptom of the cultural conditions that influenced its creation while simultaneously being framed as a timeless, seemingly acausal distillation of an eternal human condition. In this essay, we focus on an unresolved tension when we bring this dilemma to bear in the context of generative AI: are we looking for proof that generated media reflects something about the conditions that created it or some eternal human essence? Are current modes of interpretation sufficient for this task? Historically, new forms of art have changed how art is interpreted, with such influence used as evidence that a work of art has touched some essential human truth. As generative AI influences contemporary aesthetic judgment we outline some of the pitfalls and traps in attempting to scrutinize what AI generated media means.
翻訳日:2023-10-23 06:49:02 公開日:2023-08-21
# ActiveAI: 目標ベースシナリオ学習による中学生向けAIリテラシーの導入

ActiveAI: Introducing AI Literacy for Middle School Learners with Goal-based Scenario Learning ( http://arxiv.org/abs/2309.12337v1 )

ライセンス: Link先を確認
Ying Jui Tseng, Gautam Yadav(参考訳) ActiveAIプロジェクトは、AI4K12知識フレームワークに基づいたAIリテラシー学習エクスペリエンスを提供することで、7~9年生のAI教育における重要な課題に対処する。 目標ベースのシナリオ、即時フィードバック、プロジェクトベースの学習、インテリジェントエージェントといった学習科学メカニズムを利用することで、スライダー、ステッパー、コレクタといった学習者の入力を取り入れて理解を深める。 これらのコースでは、学生はソーシャルメディアコメントの感情分析のような現実世界のシナリオに取り組んでいる。 これにより、AIシステムへの効果的な関与を学び、AI生成出力を評価する能力を開発することができる。 学習エンジニアリングプロセス(LEP)は、デザインと影響に焦点を当て、プロジェクトの作成とデータインスツルメンテーションをガイドした。 このプロジェクトは現在実装段階にあり、アプリ開発にインテリジェントなチューター設計の原則を活用している。 拡張された抽象概念は、基礎設計と開発を提示し、今後のさらなる評価と研究を行う。

The ActiveAI project addresses key challenges in AI education for grades 7-9 students by providing an engaging AI literacy learning experience based on the AI4K12 knowledge framework. Utilizing learning science mechanisms such as goal-based scenarios, immediate feedback, project-based learning, and intelligent agents, the app incorporates a variety of learner inputs like sliders, steppers, and collectors to enhance understanding. In these courses, students work on real-world scenarios like analyzing sentiment in social media comments. This helps them learn to effectively engage with AI systems and develop their ability to evaluate AI-generated output. The Learning Engineering Process (LEP) guided the project's creation and data instrumentation, focusing on design and impact. The project is currently in the implementation stage, leveraging the intelligent tutor design principles for app development. The extended abstract presents the foundational design and development, with further evaluation and research to be conducted in the future.
翻訳日:2023-10-23 06:48:22 公開日:2023-08-21
# mv-deepsdf:マルチスウィープポイントクラウドによる暗黙的モデリングによる自動運転における3次元車両再構成

MV-DeepSDF: Implicit Modeling with Multi-Sweep Point Clouds for 3D Vehicle Reconstruction in Autonomous Driving ( http://arxiv.org/abs/2309.16715v1 )

ライセンス: Link先を確認
Yibo Liu, Kelly Zhu, Guile Wu, Yuan Ren, Bingbing Liu, Yang Liu, Jinjun Shan(参考訳) 騒々しい部分的な雲から3D車両を再構築することは、自動運転にとって非常に重要である。 既存の3次元再構成法の多くは, 難易度の高い入出力を扱うために精巧に設計されているため, 直接適用できない。 本研究では,マルチスウィープポイント雲から最適符号距離関数(SDF)形状の表現を推定し,野生の車両を再構築するMV-DeepSDFという新しいフレームワークを提案する。 SDFに基づく暗黙的モデリング手法はいくつか存在するが、それらは単一のビューベースの再構築のみに焦点を当てており、その結果、忠実度は低い。 対照的に, 潜在特徴空間におけるマルチスウィープ整合性と相補性を分析し, 暗黙的空間形状推定問題を要素対集合特徴抽出問題に変換することを提案する。 そこで我々は,個々の要素レベルの表現を抽出し,それらを集約して,セットレベルの予測潜在コードを生成する新しいアーキテクチャを考案した。 このセットレベルの潜伏符号は、暗黙空間における最適3次元形状の表現であり、その後車両の連続SDFに復号することができる。 このように3次元車両再構成のためのマルチスウィープ間の一貫性と補完情報を学習する。 実世界の2つの自動運転データセット(waymoとkitti)について徹底的な実験を行い、質的かつ定量的に最先端の代替手法よりも優れたアプローチを実証した。

Reconstructing 3D vehicles from noisy and sparse partial point clouds is of great significance to autonomous driving. Most existing 3D reconstruction methods cannot be directly applied to this problem because they are elaborately designed to deal with dense inputs with trivial noise. In this work, we propose a novel framework, dubbed MV-DeepSDF, which estimates the optimal Signed Distance Function (SDF) shape representation from multi-sweep point clouds to reconstruct vehicles in the wild. Although there have been some SDF-based implicit modeling methods, they only focus on single-view-based reconstruction, resulting in low fidelity. In contrast, we first analyze multi-sweep consistency and complementarity in the latent feature space and propose to transform the implicit space shape estimation problem into an element-to-set feature extraction problem. Then, we devise a new architecture to extract individual element-level representations and aggregate them to generate a set-level predicted latent code. This set-level latent code is an expression of the optimal 3D shape in the implicit space, and can be subsequently decoded to a continuous SDF of the vehicle. In this way, our approach learns consistent and complementary information among multi-sweeps for 3D vehicle reconstruction. We conduct thorough experiments on two real-world autonomous driving datasets (Waymo and KITTI) to demonstrate the superiority of our approach over state-of-the-art alternative methods both qualitatively and quantitatively.
翻訳日:2023-10-23 05:47:25 公開日:2023-08-21
# 乳農におけるピアツーピアエネルギー取引のためのマルチエージェントシステムアプローチ

A Multi-Agent Systems Approach for Peer-to-Peer Energy Trading in Dairy Farming ( http://arxiv.org/abs/2310.05932v1 )

ライセンス: Link先を確認
Mian Ibad Ali Shah, Abdul Wahid, Enda Barrett, Karl Mason(参考訳) 所望の炭素排出量削減を実現するためには、再生可能エネルギーの統合とピアツーピアエネルギー取引の導入の促進が不可欠である。 これは特に農耕などのエネルギー集約的な農業にとって重要である。 しかし、再生可能エネルギーとピアツーピア取引の統合は課題を呈している。 そこで本研究では,マルチエージェント・ピアツーピア・デイリーファーム・エナジーシミュレータ(MAPDES)を提案する。 当社の戦略は電力コストとピーク需要をそれぞれ約30%、ピーク需要を24%削減し、P2P取引のない基準シナリオと比較してエネルギー販売を37%増加させる。 これは我々のアプローチの有効性を示している。

To achieve desired carbon emission reductions, integrating renewable generation and accelerating the adoption of peer-to-peer energy trading is crucial. This is especially important for energy-intensive farming, like dairy farming. However, integrating renewables and peer-to-peer trading presents challenges. To address this, we propose the Multi-Agent Peer-to-Peer Dairy Farm Energy Simulator (MAPDES), enabling dairy farms to participate in peer-to-peer markets. Our strategy reduces electricity costs and peak demand by approximately 30% and 24% respectively, while increasing energy sales by 37% compared to the baseline scenario without P2P trading. This demonstrates the effectiveness of our approach.
翻訳日:2023-10-23 04:02:43 公開日:2023-08-21
# ディープニューラルネットワークを用いたマルウェア分類:エッジデバイスの性能評価と応用

Malware Classification using Deep Neural Networks: Performance Evaluation and Applications in Edge Devices ( http://arxiv.org/abs/2310.06841v1 )

ライセンス: Link先を確認
Akhil M R, Adithya Krishna V Sharma, Harivardhan Swamy, Pavan A, Ashray Shetty, Anirudh B Sathyanarayana(参考訳) 現代のマルウェア検出の難しさとともに,近年のマルウェア攻撃の増加とともに,マルウェア分類におけるDeep Neural Networks(DNN)の有効性と性能を評価する必要がある。 複数のdnnアーキテクチャは、マルウェアバイナリの検出と分類のために設計および訓練することができる。 その結果,DNNがマルウェアの種類によって高い精度で正確な分類を行う可能性が示された。 さらに、これらのDNNモデルをエッジデバイスにデプロイして、特にリソース制約のあるシナリオにおいて、リアルタイムな分類を可能にすることは、大規模なIoTシステムにとって不可欠であることが証明されている。 モデルアーキテクチャを最適化し、エッジコンピューティング能力を活用することにより、限られたリソースでも効率的な性能を実現する。 本研究は、マルウェア検出技術の進歩に寄与し、マルウェアの早期検出のためのサイバーセキュリティ対策の統合と、攻撃による有害な影響の防止の重要性を強調している。 エッジデバイスへのセキュリティタスクの分散に関する最適な考慮事項は、大規模iotシステムの整合性と可用性がマルウェア攻撃によって損なわれないようにし、よりレジリエントでセキュアなディジタルエコシステムを提唱する。

With the increasing extent of malware attacks in the present day along with the difficulty in detecting modern malware, it is necessary to evaluate the effectiveness and performance of Deep Neural Networks (DNNs) for malware classification. Multiple DNN architectures can be designed and trained to detect and classify malware binaries. Results demonstrate the potential of DNNs in accurately classifying malware with high accuracy rates observed across different malware types. Additionally, the feasibility of deploying these DNN models on edge devices to enable real-time classification, particularly in resource-constrained scenarios proves to be integral to large IoT systems. By optimizing model architectures and leveraging edge computing capabilities, the proposed methodologies achieve efficient performance even with limited resources. This study contributes to advancing malware detection techniques and emphasizes the significance of integrating cybersecurity measures for the early detection of malware and further preventing the adverse effects caused by such attacks. Optimal considerations regarding the distribution of security tasks to edge devices are addressed to ensure that the integrity and availability of large scale IoT systems are not compromised due to malware attacks, advocating for a more resilient and secure digital ecosystem.
翻訳日:2023-10-23 03:34:29 公開日:2023-08-21
# 物理教育におけるChatGPT支援問題解決の負の因果関係の検討

Unreflected Acceptance -- Investigating the Negative Consequences of ChatGPT-Assisted Problem Solving in Physics Education ( http://arxiv.org/abs/2309.03087v1 )

ライセンス: Link先を確認
Lars Krupp, Steffen Steinert, Maximilian Kiefer-Emmanouilidis, Karina E. Avila, Paul Lukowicz, Jochen Kuhn, Stefan K\"uchemann, Jakob Karolus(参考訳) 大規模言語モデル(LLM)が最近人気を博している。 しかし,ChatGPTを通した一般利用が,教育などの日常生活のセンシティブな領域に与える影響はいまだ不明である。 それでも、確立した教育方法に対する社会的影響は、既に学生と教育者の両方によって経験されている。 本研究は,高次物理学教育に焦点をあて,問題解決戦略を検討する。 ある研究では、物理学のバックグラウンドを持つ学生が物理学の課題を解決するために割り当てられ、あるグループはインターネット検索エンジン(n=12)にアクセスし、他のグループはchatgpt(n=27)の使用を許可された。 提供されるツールのパフォーマンス、戦略、相互作用を評価しました。 以上の結果から,ChatGPTを支援したソリューションの半数近くは,学生によって誤って正しいと仮定され,その分野においてもChatGPTを過度に信頼していたことが示唆された。 同様に、42%のケースでは、学生はコピー&ペーストを使ってChatGPT(検索エンジンクエリの4%でしか使われていない)をクエリした。 本研究は,(1)学生がLSMと対話する方法を指導すること,(2)ユーザにとっての潜在的な欠点を認識することの必要性を示した。

Large language models (LLMs) have recently gained popularity. However, the impact of their general availability through ChatGPT on sensitive areas of everyday life, such as education, remains unclear. Nevertheless, the societal impact on established educational methods is already being experienced by both students and educators. Our work focuses on higher physics education and examines problem solving strategies. In a study, students with a background in physics were assigned to solve physics exercises, with one group having access to an internet search engine (N=12) and the other group being allowed to use ChatGPT (N=27). We evaluated their performance, strategies, and interaction with the provided tools. Our results showed that nearly half of the solutions provided with the support of ChatGPT were mistakenly assumed to be correct by the students, indicating that they overly trusted ChatGPT even in their field of expertise. Likewise, in 42% of cases, students used copy & paste to query ChatGPT -- an approach only used in 4% of search engine queries -- highlighting the stark differences in interaction behavior between the groups and indicating limited reflection when using ChatGPT. In our work, we demonstrated a need to (1) guide students on how to interact with LLMs and (2) create awareness of potential shortcomings for users.
翻訳日:2023-09-10 03:48:26 公開日:2023-08-21
# 新しい包括的データセットを用いたバングラテキスト分類のための深部生成モデルを用いた特徴抽出

Feature Extraction Using Deep Generative Models for Bangla Text Classification on a New Comprehensive Dataset ( http://arxiv.org/abs/2308.13545v1 )

ライセンス: Link先を確認
Md. Rafi-Ur-Rashid, Sami Azam, Mirjam Jonkman(参考訳) テキスト分類の特徴の選択は,テキストマイニングと情報検索において基本的な課題である。 バングラ語は世界で6番目に広く話されている言語であるにもかかわらず、テキストデータセットの不足によりほとんど注目を集めていない。 本研究では,7つのカテゴリで212,184個のBangla文書の包括的データセットを収集し,注釈を作成し,作成した。 lstm変分オートエンコーダ(lstm vae)、補助分類器生成型adversarial network(ac-gan)、adversarial autoencoder(aae)の3つのディープラーニング生成モデルを実装し、テキストの特徴を抽出する。 この3つのモデルをトレーニングするためにデータセットを利用し,文書分類タスクで得られた特徴空間を用いた。 分類器の性能を評価し,逆オートエンコーダモデルが最適な特徴空間を生成できることを見出した。

The selection of features for text classification is a fundamental task in text mining and information retrieval. Despite being the sixth most widely spoken language in the world, Bangla has received little attention due to the scarcity of text datasets. In this research, we collected, annotated, and prepared a comprehensive dataset of 212,184 Bangla documents in seven different categories and made it publicly accessible. We implemented three deep learning generative models: LSTM variational autoencoder (LSTM VAE), auxiliary classifier generative adversarial network (AC-GAN), and adversarial autoencoder (AAE) to extract text features, although their applications are initially found in the field of computer vision. We utilized our dataset to train these three models and used the feature space obtained in the document classification task. We evaluated the performance of the classifiers and found that the adversarial autoencoder model produced the best feature space.
翻訳日:2023-09-03 21:31:11 公開日:2023-08-21
# 位置情報データが拡張現実のユーザビリティに与える影響:比較ユーザテスト

Impact of geolocation data on augmented reality usability: A comparative user test ( http://arxiv.org/abs/2308.13544v1 )

ライセンス: Link先を確認
Julien Mercier (Lab-Sticc_decide, Ubs, Hes-So, Hes-So, Heig-Vd), N. Chabloz (Hes-So, Heig-Vd, Hes-So), G. Dozot (Hes-So, Heig-Vd, Hes-So), C. Audrin, O. Ertz (Hes-So, Heig-Vd, Hes-So), E. Bocher (Lab-Sticc_decide, Lab-Sticc), D. Rappo (Hes-So, Heig-Vd, Hes-So)(参考訳) 抽象。 位置情報に基づく拡張現実(AR)を教育に活用することは、参加者のモチベーション、エンゲージメント、身体活動に利益をもたらすが、位置情報データの不正確さは、拡張現実のオブジェクトを揺らぎや漂流させ、それはユーザー体験を低下させる要因である。 我々は,オープンソースのWeb ARアプリケーションを開発し,位置情報データのユーザビリティ,探索,フォーカスへの影響を評価するために,比較ユーザテスト(n = 54)を実施した。 制御群は組込みgsnsデータと組み合わせてシステムを用いて自然の生物多様性を調査し、実験群はrtkデータに外部モジュールを用いた。 テスト中は、視線追跡データ、位置情報、アプリ内ユーザー追跡イベントが記録された。 参加者はユーザビリティアンケート(SUS,UEQ,HARUS)に回答した。 その結果,RTK群が曝露した位置情報データは,コントロール群よりも平均値が低かった。 RTKグループはすべての尺度でユーザビリティスコアが低く,9つ中5つが有意であり,不正確なデータはユーザビリティを否定的に予測することを示した。 gnssグループはrtk群より多く歩き、探査に部分的な影響を示した。 画面とのインタラクション時間に有意な影響は認められず,データ精度とフォーカスの関係は示されなかった。 rtkデータでは位置情報ベースのarインターフェースのユーザビリティは向上しなかったが,システム全体のユーザビリティを優れたものとして評価し,瞳孔での将来の使用に最適な運用条件を定義することができた。

Abstract. While the use of location-based augmented reality (AR) for education has demonstrated benefits on participants' motivation, engagement, and on their physical activity, geolocation data inaccuracy causes augmented objects to jitter or drift, which is a factor in downgrading user experience. We developed a free and open source web AR application and conducted a comparative user test (n = 54) in order to assess the impact of geolocation data on usability, exploration, and focus. A control group explored biodiversity in nature using the system in combination with embedded GNSS data, and an experimental group used an external module for RTK data. During the test, eye tracking data, geolocated traces, and in-app user-triggered events were recorded. Participants answered usability questionnaires (SUS, UEQ, HARUS).We found that the geolocation data the RTK group was exposed to was less accurate in average than that of the control group. The RTK group reported lower usability scores on all scales, of which 5 out of 9 were significant, indicating that inaccurate data negatively predicts usability. The GNSS group walked more than the RTK group, indicating a partial effect on exploration. We found no significant effect on interaction time with the screen, indicating no specific relation between data accuracy and focus. While RTK data did not allow us to better the usability of location-based AR interfaces, results allow us to assess our system's overall usability as excellent, and to define optimal operating conditions for future use with pupils.
翻訳日:2023-09-03 21:30:53 公開日:2023-08-21
# ユビキタスハンドインタラクションに向けて

Towards Ubiquitous Intelligent Hand Interaction ( http://arxiv.org/abs/2308.13543v1 )

ライセンス: Link先を確認
Chen Liang(参考訳) ユビキタスコンピューティングとセンシングデバイスの開発は、次世代のナチュラルユーザインターフェース(nui)に新たな要求をもたらす、複合現実(mixed reality)とiot(例えばスマートホーム)のような新たなインタラクションシナリオを生み出した。 人間の手は、大きな自由の度合いの恩恵を受け、日常生活において外界と対話する媒体として機能し、また、NUIのメインエントリーと見なされている。 残念なことに、現在のハンドトラッキングシステムは、光学的アーティファクトに悩まされ、ユビキタス環境では実用的でないファーストパースペクティブ・ビジョンベースのソリューションに限られている。 私の論文では、センサ、行動、セマンティクスの観点から基礎となるロジックを分析し、インテリジェントなハンドインタラクションを実現するための研究フレームワークを構成することで、この問題を再考する。 そして、これまでの研究トピックを要約し、私の研究枠組みに基づいた今後の研究方向性を図示します。

The development of ubiquitous computing and sensing devices has brought about novel interaction scenarios such as mixed reality and IoT (e.g., smart home), which pose new demands for the next generation of natural user interfaces (NUI). Human hand, benefit for the large degree-of-freedom, serves as a medium through which people interact with the external world in their daily lives, thus also being regarded as the main entry of NUI. Unfortunately, current hand tracking system is largely confined on first perspective vision-based solutions, which suffer from optical artifacts and are not practical in ubiquitous environments. In my thesis, I rethink this problem by analyzing the underlying logic in terms of sensor, behavior, and semantics, constituting a research framework for achieving ubiquitous intelligent hand interaction. Then I summarize my previous research topics and illustrated the future research directions based on my research framework.
翻訳日:2023-09-03 21:30:26 公開日:2023-08-21
# LaGR-SEQ: サンプル効率のよいクエリによる言語指導型強化学習

LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying ( http://arxiv.org/abs/2308.13542v1 )

ライセンス: Link先を確認
Thommen George Karimpanal, Laknath Buddhika Semage, Santu Rana, Hung Le, Truyen Tran, Sunil Gupta and Svetha Venkatesh(参考訳) 大規模言語モデル(llm)は最近、テキストによるコンテキスト認識応答を提供することで、印象的な能力を示している。 この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。 例えば、キューブの部分スタックを観察することによって、llmは、部分スタック内の観察されたパターン(キューブサイズ、色、その他の属性など)を外挿することで、残りのキューブを積み上げるべき正しいシーケンスを予測することができる。 そこで本研究では,このllmの予測能力を用いて,プライマリ強化学習(rl)エージェントによって部分的に完了したタスクに対する解法を提案するラグラン(言語誘導強化学習)を提案する。 しかしながら、RLトレーニングは一般的にサンプリング効率が良くないため、このアプローチの展開は本質的には、LSMがソリューションに対して繰り返しクエリされることを意味する。 この問題に対処するために、SEQ(sample efficient querying)を導入し、第二のRLエージェントを同時にトレーニングし、LLMがいつソリューションのためにクエリされるべきかを判断する。 具体的には、このエージェントをトレーニングするための報酬として、LSMから発せられるソリューションの品質を利用する。 提案するフレームワークであるLaGR-SEQは,LLMに対するクエリ数を最小化しながら,より効率的な一次RLトレーニングを実現する。 一連のタスクにおいて,我々のアプローチを実証し,その限界と今後の研究方向性とともに,そのメリットを強調する。

Large language models (LLMs) have recently demonstrated their impressive ability to provide context-aware responses via text. This ability could potentially be used to predict plausible solutions in sequential decision making tasks pertaining to pattern completion. For example, by observing a partial stack of cubes, LLMs can predict the correct sequence in which the remaining cubes should be stacked by extrapolating the observed patterns (e.g., cube sizes, colors or other attributes) in the partial stack. In this work, we introduce LaGR (Language-Guided Reinforcement learning), which uses this predictive ability of LLMs to propose solutions to tasks that have been partially completed by a primary reinforcement learning (RL) agent, in order to subsequently guide the latter's training. However, as RL training is generally not sample-efficient, deploying this approach would inherently imply that the LLM be repeatedly queried for solutions; a process that can be expensive and infeasible. To address this issue, we introduce SEQ (sample efficient querying), where we simultaneously train a secondary RL agent to decide when the LLM should be queried for solutions. Specifically, we use the quality of the solutions emanating from the LLM as the reward to train this agent. We show that our proposed framework LaGR-SEQ enables more efficient primary RL training, while simultaneously minimizing the number of queries to the LLM. We demonstrate our approach on a series of tasks and highlight the advantages of our approach, along with its limitations and potential future research directions.
翻訳日:2023-09-03 21:30:08 公開日:2023-08-21
# DiagGPT:タスク指向対話の自動トピック管理によるLLMベースのチャットボット

DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue ( http://arxiv.org/abs/2308.08043v2 )

ライセンス: Link先を確認
Lang Cao(参考訳) ChatGPTのような大規模言語モデル(LLM)は、ますます洗練され、人間のものとよく似た能力を示している。 これらのAIモデルは、人間の日常生活における幅広いタスクを支援する上で重要な役割を担っている。 AIの重要な応用は、チャットエージェントとしての使用であり、さまざまなドメインにわたる人間の問い合わせに応答する。 現在のLLMは、一般的な質問に答える能力を示している。 しかしながら、基本的な質問応答対話は、法律や医療の相談のような複雑な診断シナリオでは不足することが多い。 これらのシナリオは一般的にタスク指向対話(TOD)を必要とし、AIチャットエージェントは積極的に質問をポーズし、特定のタスク完了に向けてユーザーを誘導する必要がある。 従来の微調整モデルはTODでは性能が低く、現在のLLMは本質的にこの能力を持っていない。 本稿では,LDMをTODシナリオに拡張する革新的な手法であるDiagGPT(Dialogue in diagnosis GPT)を紹介する。 実験の結果,DiagGPTはユーザとTODを行う上で優れた性能を示し,実用化の可能性を示した。

Large Language Models (LLMs), such as ChatGPT, are becoming increasingly sophisticated, demonstrating capabilities that closely resemble those of humans. These AI models are playing an essential role in assisting humans with a wide array of tasks in daily life. A significant application of AI is its use as a chat agent, responding to human inquiries across various domains. Current LLMs have shown proficiency in answering general questions. However, basic question-answering dialogue often falls short in complex diagnostic scenarios, such as legal or medical consultations. These scenarios typically necessitate Task-Oriented Dialogue (TOD), wherein an AI chat agent needs to proactively pose questions and guide users towards specific task completion. Previous fine-tuning models have underperformed in TOD, and current LLMs do not inherently possess this capability. In this paper, we introduce DiagGPT (Dialogue in Diagnosis GPT), an innovative method that extends LLMs to TOD scenarios. Our experiments reveal that DiagGPT exhibits outstanding performance in conducting TOD with users, demonstrating its potential for practical applications.
翻訳日:2023-08-25 17:09:10 公開日:2023-08-21
# FedDAT:マルチモーダルな不均一なフェデレーション学習における基礎モデルファインタニングへのアプローチ

FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning ( http://arxiv.org/abs/2308.12305v1 )

ライセンス: Link先を確認
Haokun Chen, Yao Zhang, Denis Krompass, Jindong Gu, Volker Tresp(参考訳) 近年,基礎モデルはマルチモーダル学習において著しい進歩を遂げている。 これらのモデルは、数百万(あるいは数十億)のパラメータを備えており、通常、微調整のためにかなりの量のデータを必要とする。 しかし、異なるプライバシー規制により、さまざまな分野からのトレーニングデータの収集と集中化が困難になっている。 フェデレーション学習(federated learning, fl)は、複数のクライアントがローカルデータを集中化することなく、協調的にニューラルネットワークをトレーニングできる、有望なソリューションだ。 クライアントの計算負荷と通信のオーバーヘッドを軽減するため、従来の研究はパラメータ効率ファインタニング(PEFT)法をFLに適用した。 ここでは、モデルパラメータのごく一部のみが、連合通信中に最適化され、通信される。 それにもかかわらず、以前のほとんどの研究は単一のモダリティに焦点を合わせ、クライアント間のデータ不均一性の存在を無視した。 そこで本研究では,feddat(federated dual-aadapter teacher)と呼ばれる異種マルチモーダルflに適した微調整フレームワークを提案する。 具体的には,dual-adapter teacher(dat)を活用して,クライアントのローカル更新を規則化し,効率的な知識伝達のために相互知識蒸留(mkd)を適用する。 FedDATは、様々な異種視覚言語タスクのための基礎モデルの効率的な分散微調整を可能にする最初のアプローチである。 本手法の有効性を実証するため,FedDAT が既存の集中型 PEFT 法をFL に適用した場合,データ不均一性の異なる4つのマルチモード FL ベンチマークを広範囲に実験した。

Recently, foundation models have exhibited remarkable advancements in multi-modal learning. These models, equipped with millions (or billions) of parameters, typically require a substantial amount of data for finetuning. However, collecting and centralizing training data from diverse sectors becomes challenging due to distinct privacy regulations. Federated Learning (FL) emerges as a promising solution, enabling multiple clients to collaboratively train neural networks without centralizing their local data. To alleviate client computation burdens and communication overheads, previous works have adapted Parameter-efficient Finetuning (PEFT) methods for FL. Hereby, only a small fraction of the model parameters are optimized and communicated during federated communications. Nevertheless, most previous works have focused on a single modality and neglected one common phenomenon, i.e., the presence of data heterogeneity across the clients. Therefore, in this work, we propose a finetuning framework tailored to heterogeneous multi-modal FL, called Federated Dual-Aadapter Teacher (FedDAT). Specifically, our approach leverages a Dual-Adapter Teacher (DAT) to address data heterogeneity by regularizing the client local updates and applying Mutual Knowledge Distillation (MKD) for an efficient knowledge transfer. FedDAT is the first approach that enables an efficient distributed finetuning of foundation models for a variety of heterogeneous Vision-Language tasks. To demonstrate its effectiveness, we conduct extensive experiments on four multi-modality FL benchmarks with different types of data heterogeneity, where FedDAT substantially outperforms the existing centralized PEFT methods adapted for FL.
翻訳日:2023-08-25 16:59:30 公開日:2023-08-21
# POVM仮説クラスの脂肪破砕, 共同測定性およびPAC学習性

Fat Shattering, Joint Measurability, and PAC Learnability of POVM Hypothesis Classes ( http://arxiv.org/abs/2308.12304v1 )

ライセンス: Link先を確認
Abram Magner and Arun Padakandla(参考訳) 学習者が準備された量子状態のみにアクセスできる設定において,pac学習可能性に必要な十分条件と対応するサンプル複雑性境界を定式化することにより,量子測定クラスの学習可能性を特徴付ける。 私たちはまず、この設定に関する以前の研究の結果を調査します。 従来の研究で定義された経験的リスクと古典理論の定義との整合性は古典的なクラスで得られる一様収束性を満たすことができないことを示す。 さらに, 有限次元POVMクラスにおいても, 先行研究におけるVC次元一般化上界は無限大であることを示す。 標準ermの失敗を克服して一様収束を満たすために、新しい学習規則を定式化したermを定義する。 このことはPOVMと確率的に観察された概念クラスに対する普遍的な学習規則であり、一様収束を満たす条件はクラスの有限脂肪破砕次元である。 有限な脂肪分散次元と近似有限分割可能性の概念を用いて, 学習可能性の上限の上・下限を定量的に計算し, サンプル再利用を可能にした。 次に, 有限脂肪破砕次元は, ほぼ同時測定可能な部分集合による有限被覆性を示し, マッチング条件を導出することを示した。 また、有限次元ヒルベルト空間上で定義されるすべての測定クラスがPAC学習可能であることを示す。 結果はいくつかのPOVMクラスで説明します。

We characterize learnability for quantum measurement classes by establishing matching necessary and sufficient conditions for their PAC learnability, along with corresponding sample complexity bounds, in the setting where the learner is given access only to prepared quantum states. We first probe the results from previous works on this setting. We show that the empirical risk defined in previous works and matching the definition in the classical theory fails to satisfy the uniform convergence property enjoyed in the classical setting for some learnable classes. Moreover, we show that VC dimension generalization upper bounds in previous work are frequently infinite, even for finite-dimensional POVM classes. To surmount the failure of the standard ERM to satisfy uniform convergence, we define a new learning rule -- denoised ERM. We show this to be a universal learning rule for POVM and probabilistically observed concept classes, and the condition for it to satisfy uniform convergence is finite fat shattering dimension of the class. We give quantitative sample complexity upper and lower bounds for learnability in terms of finite fat-shattering dimension and a notion of approximate finite partitionability into approximately jointly measurable subsets, which allow for sample reuse. We then show that finite fat shattering dimension implies finite coverability by approximately jointly measurable subsets, leading to our matching conditions. We also show that every measurement class defined on a finite-dimensional Hilbert space is PAC learnable. We illustrate our results on several example POVM classes.
翻訳日:2023-08-25 16:59:00 公開日:2023-08-21
# マルチモーダルチャネルミキシング:顔行動単位検出のためのチャネルと空間マスク付きオートエンコーダ

Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on Facial Action Unit Detection ( http://arxiv.org/abs/2209.12244v2 )

ライセンス: Link先を確認
Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li and Lijun Yin(参考訳) 近年,顔行動単位(au)検出のためのロバストモデルの開発にマルチモーダルデータの利用が注目されている。 しかし、マルチモーダルデータの異質性は、効果的な表現の学習に困難をもたらす。 そのような課題の1つは、単一の特徴抽出器を使って複数のモダリティから関連する特徴を抽出することである。 さらに、これまでの研究では、マルチモーダル核融合戦略の可能性を十分に研究していない。 後期核融合に関する広範な研究とは対照的に、チャンネル情報探索のための初期の核融合に関する調査は限られている。 本稿では,マルチモーダル融合を容易にするためのロバスト表現を学習するための事前学習モデルとして,マルチモーダルチャネル混合 (mcm) と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。 このアプローチは、5つのチャネルのうち2つがランダムにドロップされるチャネル混合モジュールを統合する、早期のフュージョンセットアップに従っている。 その後、落としたチャンネルはマスク付きオートエンコーダを使用して残りのチャンネルから再構築される。 このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能を促進する。 エンコーダは、自動顔アクションユニット検出の下流タスクに微調整される。 BP4D+で事前学習実験を行い, BP4DとDisFAを微調整し, 提案フレームワークの有効性と堅牢性を検討した。 その結果,本手法は最先端ベースライン法の性能を満たし,その性能を上回っていることがわかった。

Recent studies have focused on utilizing multi-modal data to develop robust models for facial Action Unit (AU) detection. However, the heterogeneity of multi-modal data poses challenges in learning effective representations. One such challenge is extracting relevant features from multiple modalities using a single feature extractor. Moreover, previous studies have not fully explored the potential of multi-modal fusion strategies. In contrast to the extensive work on late fusion, there are limited investigations on early fusion for channel information exploration. This paper presents a novel multi-modal reconstruction network, named Multimodal Channel-Mixing (MCM), as a pre-trained model to learn robust representation for facilitating multi-modal fusion. The approach follows an early fusion setup, integrating a Channel-Mixing module, where two out of five channels are randomly dropped. The dropped channels then are reconstructed from the remaining channels using masked autoencoder. This module not only reduces channel redundancy, but also facilitates multi-modal learning and reconstruction capabilities, resulting in robust feature learning. The encoder is fine-tuned on a downstream task of automatic facial action unit detection. Pre-training experiments were conducted on BP4D+, followed by fine-tuning on BP4D and DISFA to assess the effectiveness and robustness of the proposed framework. The results demonstrate that our method meets and surpasses the performance of state-of-the-art baseline methods.
翻訳日:2023-08-24 18:57:25 公開日:2023-08-21
# 逆レンダリングのためのニューラルマイクロファセットフィールド

Neural Microfacet Fields for Inverse Rendering ( http://arxiv.org/abs/2303.17806v2 )

ライセンス: Link先を確認
Alexander Mai, Dor Verbin, Falko Kuester, Sara Fridovich-Keil(参考訳) 本稿では,シーン画像から材料,幾何学,環境照明を復元するニューラルマイクロファセット場を提案する。 本手法では, 各試料を(潜在的に不透明な)表面として扱うことにより, ボリューム設定内にマイクロファセット反射率モデルを用いる。 表面ベースのモンテカルロレンダリングをボリューム設定で使用することで、表面ベースの光輸送における数十年の研究と、ビュー合成のためのボリュームレンダリングの最近の進歩を組み合わせることで、逆レンダリングを効率的に行うことができる。 提案手法は, 逆レンダリング, 高忠実度幾何, 高周波照明の詳細を捉え, その新しいビュー合成結果は, 照明や材料を回復しない最先端の手法と同等である。

We present Neural Microfacet Fields, a method for recovering materials, geometry, and environment illumination from images of a scene. Our method uses a microfacet reflectance model within a volumetric setting by treating each sample along the ray as a (potentially non-opaque) surface. Using surface-based Monte Carlo rendering in a volumetric setting enables our method to perform inverse rendering efficiently by combining decades of research in surface-based light transport with recent advances in volume rendering for view synthesis. Our approach outperforms prior work in inverse rendering, capturing high fidelity geometry and high frequency illumination details; its novel view synthesis results are on par with state-of-the-art methods that do not recover illumination or materials.
翻訳日:2023-08-24 18:21:13 公開日:2023-08-21
# VQA療法 : 視覚的接地による回答の違いを探る

VQA Therapy: Exploring Answer Differences by Visually Grounding Answers ( http://arxiv.org/abs/2308.11662v1 )

ライセンス: Link先を確認
Chongyan Chen, Samreen Anjum, Danna Gurari(参考訳) 視覚的な質問応答は、画像に関する質問に対する回答を予測するタスクである。 異なる人々が視覚的な質問に対して異なる回答を提供できることを考えれば、答えの根拠を持つ理由をよりよく理解することを目指している。 VQAAnswerTherapyと呼ばれる、視覚的な各質問に対して、それぞれのユニークな答えを視覚的に根拠付ける最初のデータセットを紹介します。 次に,視覚的質問が1つの回答グラウンドを持つかどうかを予測し,すべての回答グラウンドを局所化する2つの新しい問題を提案する。 我々は、これらの新しい問題の現代的アルゴリズムをベンチマークし、成功と苦闘の場所を示す。 データセットと評価サーバはhttps://vizwiz.org/tasks-and-datasets/vqa-answer-therapy/で公開されている。

Visual question answering is a task of predicting the answer to a question about an image. Given that different people can provide different answers to a visual question, we aim to better understand why with answer groundings. We introduce the first dataset that visually grounds each unique answer to each visual question, which we call VQAAnswerTherapy. We then propose two novel problems of predicting whether a visual question has a single answer grounding and localizing all answer groundings. We benchmark modern algorithms for these novel problems to show where they succeed and struggle. The dataset and evaluation server can be found publicly at https://vizwiz.org/tasks-and-datasets/vqa-answer-therapy/.
翻訳日:2023-08-24 17:28:52 公開日:2023-08-21
# 量子ファジィ軌道

Quantum Fuzzy Orbits ( http://arxiv.org/abs/2308.11661v1 )

ライセンス: Link先を確認
Jes\'us Fuentes(参考訳) この写本は、時間変動を受ける高調波磁場の影響下で量子演算を調査する。 著者はこれらのフィールドと標準変数の動的相互作用を精査し、スクイーズ、ループ効果、パラメトリック共鳴などの効果をもたらす。 時間依存の二次ハミルトニアンに繋がった観測対象の時間進化について検討した。 この調査の結果は、量子制御理論に寄与している。

This manuscript surveys quantum operations under the influence of harmonic magnetic fields subject to time variations. The author scrutinises the dynamic interplay of these fields and canonical variables, leading to effects such as squeezing, looping effects, and parametric resonances. The time evolution of observables tethered to a time-dependent quadratic Hamiltonian is examined. The results of this inquiry offer contributions to the quantum control theory.
翻訳日:2023-08-24 17:28:37 公開日:2023-08-21
# 保険詐欺ネットワークデータをシミュレートするエンジン

An engine to simulate insurance fraud network data ( http://arxiv.org/abs/2308.11659v1 )

ライセンス: Link先を確認
Bavo D.C. Campo and Katrien Antonio(参考訳) 伝統的に、不正保険請求の検出はビジネスルールと専門家による判断に依存しており、時間とコストのかかるプロセスとなっている(Oskarsd\'ottir et al., 2022)。 その結果、研究者は疑わしい主張を識別するための効率的で正確な分析戦略を開発する方法を模索している。 クレームに関わる当事者のソーシャルネットワークから設計された特徴を備えた学習方法を提供することは、特に有望な戦略である(例えば、van vlasselaer et al. (2016), tumminello et al. (2023))。 しかしながら,不正検出モデルを開発する場合には,いくつかの課題に直面する。 例えば、不正行為の一般的でない性質は、高いクラスの不均衡を生み出し、よく機能する分析分類モデルの開発を複雑にする。 さらに、少数のクレームのみが調査されラベルが取得され、その結果、ラベルなしデータの大量のコーパスが生成される。 しかし、もう1つの課題は、公開データの欠如だ。 これにより、新しいメソッドの開発だけでなく、既存のテクニックの検証も妨げられる。 そこで我々は,ネットワーク構造と利用可能な共変量を持つ合成データを作成するために設計されたシミュレーションマシンを,<Oskarsd\'ottir et al.(2022)で解析された実生活保険詐欺データと類似した設計を行った。 さらに、ユーザは複数のデータ生成機構を制御する。 不正発生モデルにおいて、政策立案者及び当事者の総数、所望の不均衡レベル、および特徴(効果の大きさ)を特定できる。 このように、シミュレーションエンジンは、研究者や実践者がいくつかの方法論的課題を検証できるだけでなく、さまざまな設定で保険不正検出モデル(開発戦略)をテストすることができる。 さらに、(高度な)機械学習技術の予測性能を評価するために、大規模な合成データセットを生成することができる。

Traditionally, the detection of fraudulent insurance claims relies on business rules and expert judgement which makes it a time-consuming and expensive process (\'Oskarsd\'ottir et al., 2022). Consequently, researchers have been examining ways to develop efficient and accurate analytic strategies to flag suspicious claims. Feeding learning methods with features engineered from the social network of parties involved in a claim is a particularly promising strategy (see for example Van Vlasselaer et al. (2016); Tumminello et al. (2023)). When developing a fraud detection model, however, we are confronted with several challenges. The uncommon nature of fraud, for example, creates a high class imbalance which complicates the development of well performing analytic classification models. In addition, only a small number of claims are investigated and get a label, which results in a large corpus of unlabeled data. Yet another challenge is the lack of publicly available data. This hinders not only the development of new methods, but also the validation of existing techniques. We therefore design a simulation machine that is engineered to create synthetic data with a network structure and available covariates similar to the real life insurance fraud data set analyzed in \'Oskarsd\'ottir et al. (2022). Further, the user has control over several data-generating mechanisms. We can specify the total number of policyholders and parties, the desired level of imbalance and the (effect size of the) features in the fraud generating model. As such, the simulation engine enables researchers and practitioners to examine several methodological challenges as well as to test their (development strategy of) insurance fraud detection models in a range of different settings. Moreover, large synthetic data sets can be generated to evaluate the predictive performance of (advanced) machine learning techniques.
翻訳日:2023-08-24 17:28:32 公開日:2023-08-21
# BCI評価のための擬似オンラインフレームワーク:MOABBの視点から

Pseudo-online framework for BCI evaluation: A MOABB perspective ( http://arxiv.org/abs/2308.11656v1 )

ライセンス: Link先を確認
Igor Carrara (UCA, CRISAM), Th\'eodore Papadopoulo (UCA, CRISAM)(参考訳) 目的: BCI(Brain-Computer Interface)技術は、オンライン、オフライン、擬似オンラインの3つのモードで動作する。 オンラインモードでは、リアルタイム脳波データが常に分析される。 オフラインモードでは、信号を取得して処理する。 擬似オンラインモードプロセスは、データをリアルタイムで受信したかのように収集する。 主な違いは、オフラインモードがデータ全体を分析することが多いことだが、オンラインモードと疑似オンラインモードは短時間のウィンドウでのみデータを分析する。 オフライン解析は通常、事前に定義された時間ウィンドウに分析を制限した非同期bcisで実行される。 オンラインモードや疑似オンラインモードと互換性のある非同期bciは、柔軟なメンタルアクティビティ持続時間を可能にする。 オフライン処理はより正確である傾向があり、オンライン分析は治療応用に適している。 Pseudo-online実装はリアルタイム制約なしでオンライン処理を近似する。 オフラインである多くのbci研究は、実際のシナリオと比較してバイアスをもたらし、分類アルゴリズムのパフォーマンスに影響を及ぼす。 アプローチ:本研究の目的は,現在のmoabbフレームワークをオフラインモードに拡張し,擬似オンライン環境での異なるアルゴリズムの比較と,重複するスライディングウインドウに基づく技術の利用を可能にすることである。 これを実現するには、タスク思考ではないあらゆる可能性を考慮してデータセットにアイドル状態イベントを導入する必要がある。 アルゴリズムの性能を検証するために,正規化マシューズ相関係数 (nMCC) と情報伝達率 (ITR) を用いる。 主な結果: いくつかの被験者が作成した複数の運動画像(MI)データセットから過去15年間の最先端のアルゴリズムを分析し, 統計的観点から両アプローチの差異を示した。 意味: オフラインモードと疑似オンラインモードで異なるアルゴリズムのパフォーマンスを分析する能力により、bciコミュニティは分類アルゴリズムのパフォーマンスに関するより正確で包括的なレポートを得ることができる。

Objective: BCI (Brain-Computer Interface) technology operates in three modes: online, offline, and pseudo-online. In the online mode, real-time EEG data is constantly analyzed. In offline mode, the signal is acquired and processed afterwards. The pseudo-online mode processes collected data as if they were received in real-time. The main difference is that the offline mode often analyzes the whole data, while the online and pseudo-online modes only analyze data in short time windows. Offline analysis is usually done with asynchronous BCIs, which restricts analysis to predefined time windows. Asynchronous BCI, compatible with online and pseudo-online modes, allows flexible mental activity duration. Offline processing tends to be more accurate, while online analysis is better for therapeutic applications. Pseudo-online implementation approximates online processing without real-time constraints. Many BCI studies being offline introduce biases compared to real-life scenarios, impacting classification algorithm performance. Approach: The objective of this research paper is therefore to extend the current MOABB framework, operating in offline mode, so as to allow a comparison of different algorithms in a pseudo-online setting with the use of a technology based on overlapping sliding windows. To do this will require the introduction of a idle state event in the dataset that takes into account all different possibilities that are not task thinking. To validate the performance of the algorithms we will use the normalized Matthews Correlation Coefficient (nMCC) and the Information Transfer Rate (ITR). Main results: We analyzed the state-of-the-art algorithms of the last 15 years over several Motor Imagery (MI) datasets composed by several subjects, showing the differences between the two approaches from a statistical point of view. Significance: The ability to analyze the performance of different algorithms in offline and pseudo-online modes will allow the BCI community to obtain more accurate and comprehensive reports regarding the performance of classification algorithms.
翻訳日:2023-08-24 17:28:00 公開日:2023-08-21
# 量子および量子インスパイアされたアルゴリズムにおける差分プライバシー増幅

Differential Privacy Amplification in Quantum and Quantum-inspired Algorithms ( http://arxiv.org/abs/2203.03604v2 )

ライセンス: Link先を確認
Armando Angrisani, Mina Doosti and Elham Kashefi(参考訳) ディファレンシャルプライバシは、アウトプットがすべてのユーザに関する最小限の情報を明らかにする方法で、約n$ユーザに関するデータセットを処理するための理論的フレームワークを提供する。 このようなプライバシーの概念は、通常ノイズ付加機構によって保証され、サブサンプリング、シャッフル、反復、混合、拡散を含むいくつかのプロセスによって増幅される。 本研究では、量子および量子に着想を得たアルゴリズムに対するプライバシー増幅バウンダリを提供する。 特に,古典データセットの量子エンコーディング上で実行されるアルゴリズムや,量子インスパイアされた古典的サンプリングの結果が,微分プライバシーを増幅することを示す。 さらに, 量子チャネルの構成によって微分プライバシーの量子バージョンが増幅されることを証明し, 混合条件を満たすことを条件とした。

Differential privacy provides a theoretical framework for processing a dataset about $n$ users, in a way that the output reveals a minimal information about any single user. Such notion of privacy is usually ensured by noise-adding mechanisms and amplified by several processes, including subsampling, shuffling, iteration, mixing and diffusion. In this work, we provide privacy amplification bounds for quantum and quantum-inspired algorithms. In particular, we show for the first time, that algorithms running on quantum encoding of a classical dataset or the outcomes of quantum-inspired classical sampling, amplify differential privacy. Moreover, we prove that a quantum version of differential privacy is amplified by the composition of quantum channels, provided that they satisfy some mixing conditions.
翻訳日:2023-08-23 21:39:15 公開日:2023-08-21
# 量子局所微分プライバシーと量子統計的クエリモデル

Quantum Local Differential Privacy and Quantum Statistical Query Model ( http://arxiv.org/abs/2203.03591v2 )

ライセンス: Link先を確認
Armando Angrisani and Elham Kashefi(参考訳) 量子統計クエリは、限られた量子資源を持つ学習者の計算能力を研究する理論的枠組みを提供する。 このモデルは、利用可能な量子デバイスが厳しいノイズにさらされ、量子メモリが限られている現在の状況において特に関係がある。 一方、量子微分プライバシーの枠組みは、ノイズが計算の恩恵を享受し、堅牢性と統計的セキュリティを高めることを実証している。 本研究では,局所モデルにおける量子統計的クエリと量子差分プライバシーの等価性を確立し,古典的な成果を量子設定にまで拡張する。 さらに,局所微分プライバシー下での量子相対エントロピーに対する強データ処理の不等式を導出し,制限された測定値を持つ非対称仮説検定の課題に適用する。 最後に,局所微分プライバシー下での量子多人数計算の課題について考察する。 原理の証明として、パリティ関数がこのモデルで効率的に学習できることを示し、対応する古典的タスクは指数関数的に多くのサンプルを必要とする。

Quantum statistical queries provide a theoretical framework for investigating the computational power of a learner with limited quantum resources. This model is particularly relevant in the current context, where available quantum devices are subject to severe noise and have limited quantum memory. On the other hand, the framework of quantum differential privacy demonstrates that noise can, in some cases, benefit the computation, enhancing robustness and statistical security. In this work, we establish an equivalence between quantum statistical queries and quantum differential privacy in the local model, extending a celebrated classical result to the quantum setting. Furthermore, we derive strong data processing inequalities for the quantum relative entropy under local differential privacy and apply this result to the task of asymmetric hypothesis testing with restricted measurements. Finally, we consider the task of quantum multi-party computation under local differential privacy. As a proof of principle, we demonstrate that the parity function is efficiently learnable in this model, whereas the corresponding classical task requires exponentially many samples.
翻訳日:2023-08-23 21:39:02 公開日:2023-08-21
# 接地視覚と言語埋め込みにおける社会的バイアスの測定

Measuring Social Biases in Grounded Vision and Language Embeddings ( http://arxiv.org/abs/2002.08911v2 )

ライセンス: Link先を確認
Candace Ross, Boris Katz, Andrei Barbu(参考訳) 社会バイアスの概念を言語埋め込みから基底ビジョンや言語埋め込みへと一般化する。 バイアスは接地埋め込みに存在するが、実際は接地埋め込みと同等かそれ以上に重要であるようである。 これは、視覚と言語が異なるバイアスに悩まされるという事実にもかかわらず、両者のバイアスを弱めることを期待しているかもしれない。 単語埋め込みにおけるバイアスを測定するメトリクスをこの新しい設定に一般化する複数の方法が存在する。 一般化の空間(Grounded-WEAT と Grounded-SEAT )を導入し、3つの一般化がバイアス、言語、視覚の相互作用について異なるが重要な疑問に答えることを示した。 これらのメトリクスは、COCO、Conceptual Captions、Google Imagesの10,228のイメージで、標準言語バイアスベンチマークを拡張して作成した、グラウンドドバイアスの最初のデータセットである、新しいデータセットで使用される。 ビジョンデータセット自体が偏っているため、データセットの構築は難しい。 システムにおけるこれらのバイアスの存在は、実際の結果をもたらし始め、バイアスを慎重に測定し、公正な社会を構築する上で重要なものとなる。

We generalize the notion of social biases from language embeddings to grounded vision and language embeddings. Biases are present in grounded embeddings, and indeed seem to be equally or more significant than for ungrounded embeddings. This is despite the fact that vision and language can suffer from different biases, which one might hope could attenuate the biases in both. Multiple ways exist to generalize metrics measuring bias in word embeddings to this new setting. We introduce the space of generalizations (Grounded-WEAT and Grounded-SEAT) and demonstrate that three generalizations answer different yet important questions about how biases, language, and vision interact. These metrics are used on a new dataset, the first for grounded bias, created by augmenting extending standard linguistic bias benchmarks with 10,228 images from COCO, Conceptual Captions, and Google Images. Dataset construction is challenging because vision datasets are themselves very biased. The presence of these biases in systems will begin to have real-world consequences as they are deployed, making carefully measuring bias and then mitigating it critical to building a fair society.
翻訳日:2023-08-23 21:37:28 公開日:2023-08-21
# BaRe-ESA: 登録されていない人体形状のためのリーマン的フレームワーク

BaRe-ESA: A Riemannian Framework for Unregistered Human Body Shapes ( http://arxiv.org/abs/2211.13185v3 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson, Martin Bauer, Nicolas Charon, Mohamed Daoudi(参考訳) 本研究では,人体スキャン表現,補間,外挿のための新しいリーマン的フレームワークBasis Restricted Elastic Shape Analysis(BaRe-ESA)を提案する。 bare-esaは、未登録のメッシュ、すなわち、事前のポイントからポイント対応、あるいは一貫性のあるメッシュ構造を前提として、直接動作する。 この方法は、曲面の空間上の不変高階計量に付随するリーマン計量(非ユークリッド)を備える潜在空間表現に依存する。 FAUSTおよびDFAUSTデータセットの実験結果から、BaRe-ESAは、形状登録、補間、外挿の点で、以前のソリューションに関して大幅に改善されている。 モデルの有効性と強度は, 動き伝達やランダムな身体形状の生成, ポーズなどの応用でさらに実証される。

We present Basis Restricted Elastic Shape Analysis (BaRe-ESA), a novel Riemannian framework for human body scan representation, interpolation and extrapolation. BaRe-ESA operates directly on unregistered meshes, i.e., without the need to establish prior point to point correspondences or to assume a consistent mesh structure. Our method relies on a latent space representation, which is equipped with a Riemannian (non-Euclidean) metric associated to an invariant higher-order metric on the space of surfaces. Experimental results on the FAUST and DFAUST datasets show that BaRe-ESA brings significant improvements with respect to previous solutions in terms of shape registration, interpolation and extrapolation. The efficiency and strength of our model is further demonstrated in applications such as motion transfer and random generation of body shape and pose.
翻訳日:2023-08-23 21:33:40 公開日:2023-08-21
# タイト言語モデルの測度論的特徴付け

A Measure-Theoretic Characterization of Tight Language Models ( http://arxiv.org/abs/2212.10502v2 )

ライセンス: Link先を確認
Li Du, Lucas Torroba Hennigen, Tiago Pimentel, Clara Meister, Jason Eisner, Ryan Cotterell(参考訳) 自然言語処理における中心的なタスクである言語モデリングでは、文字列上の確率分布を推定する。 ほとんどの場合、推定分布はすべての有限弦上の 1 に収束する。 しかし、いくつかの病的なケースでは、確率質量は無限列の集合に `leak''' を付けることができる。 より正確に漏洩の概念を特徴付けるため,本稿では言語モデリングの尺度論的扱いについて述べる。 多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。 また,先行研究で提案されているタイトネスの特性を一般化する。

Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
翻訳日:2023-08-23 21:19:22 公開日:2023-08-21
# No Easy Way Out: ヘイトとハラスメントを抑えるためのExtremist Forumの非プラットフォーム化の効果

No Easy Way Out: the Effectiveness of Deplatforming an Extremist Forum to Suppress Hate and Harassment ( http://arxiv.org/abs/2304.07037v2 )

ライセンス: Link先を確認
Anh V. Vu, Alice Hutchings, Ross Anderson(参考訳) 世界中の議員や政策立案者は、オンライン上で違法で有害で望ましくない物質を抑制する選択肢を議論している。 いくつかの定量的データから,オンライン上での嫌がらせや嫌がらせを抑制するための活動コミュニティの非プラットフォーム化は,いくつかのit企業を巻き込んでも困難であることが示された。 私たちのケーススタディは、2022年末に最大かつ最長のハラスメントフォーラムであるkiwi farmsが崩壊したことです。 数ヵ月間、多くのテクノロジー企業が積極的に参加していたが、このキャンペーンはフォーラムを閉鎖し、不快なコンテンツを削除できなかった。 大衆の意識を高めながら、急激なプラットフォーム変位と交通の断片化につながった。 活動の一部はテレグラムに移され、トラフィックは主要領域から以前放棄された代替手段に移行した。 フォーラムは数週間間断続的に停止し、その後、キャンペーンの主導するコミュニティは関心を失い、トラフィックはメインドメインに戻され、ユーザーはすぐに戻って、フォーラムはオンラインに戻り、さらに接続が深まった。 フォーラムのメンバーはその後すぐにこの事件についての議論を中止し、フォーラムの活動、アクティブユーザ、スレッド、投稿、トラフィックは全て半分に削減された。 裁判所命令のないコミュニティの非プラットフォーム化は、検閲と言論の自由に関する哲学的問題、オンラインコンテンツモデレーションにおける産業の役割に関する倫理的および法的問題、民間人対政府の行動の有効性に関する実践的問題を引き起こす。 個別のサービス提供者に対して一連の裁判所命令を用いて分散したコミュニティを構築することは、検閲がキーメンテナを逮捕したり、加わったり、妨げたりすることなく、無力化できなければ、非常に効果的とは思えない。

Legislators and policymakers worldwide are debating options for suppressing illegal, harmful and undesirable material online. Drawing on several quantitative data sources, we show that deplatforming an active community to suppress online hate and harassment, even with a substantial concerted effort involving several tech firms, can be hard. Our case study is the disruption of the largest and longest-running harassment forum Kiwi Farms in late 2022, which is probably the most extensive industry effort to date. Despite the active participation of a number of tech companies over several consecutive months, this campaign failed to shut down the forum and remove its objectionable content. While briefly raising public awareness, it led to rapid platform displacement and traffic fragmentation. Part of the activity decamped to Telegram, while traffic shifted from the primary domain to previously abandoned alternatives. The forum experienced intermittent outages for several weeks, after which the community leading the campaign lost interest, traffic was directed back to the main domain, users quickly returned, and the forum was back online and became even more connected. The forum members themselves stopped discussing the incident shortly thereafter, and the net effect was that forum activity, active users, threads, posts and traffic were all cut by about half. Deplatforming a community without a court order raises philosophical issues about censorship versus free speech; ethical and legal issues about the role of industry in online content moderation; and practical issues on the efficacy of private-sector versus government action. Deplatforming a dispersed community using a series of court orders against individual service providers appears unlikely to be very effective if the censor cannot incapacitate the key maintainers, whether by arresting them, enjoining them or otherwise deterring them.
翻訳日:2023-08-23 21:13:59 公開日:2023-08-21
# 事前情報を用いた確率的量子探索アルゴリズムの最適化

Optimization of probabilistic quantum search algorithm with a priori information ( http://arxiv.org/abs/2304.02856v2 )

ライセンス: Link先を確認
Yutong Huang, Shengshi Pang(参考訳) 量子コンピュータは量子状態の情報を符号化し、量子重ね合わせと量子相関を利用して量子アルゴリズムを実行する。 グロバーの量子探索アルゴリズムは古典計算よりも量子コンピューティングの優位性を証明する典型的な量子アルゴリズムである。 データベース検索のクエリの複雑さを2次に減らし、データベースの要素に関する事前情報が提供されていない場合に最適であることが知られている。 本研究では,要素の事前確率分布が一般的であるデータベースに対して,非ゼロ故障確率を許容する確率的グローバー探索アルゴリズムを検討し,量子系の初期状態と拡散作用素の反射軸を最適化することにより,oracle呼び出し数を最小化する。 初期状態と反射軸は一致しないので、量子探索アルゴリズムは、初期状態、反射軸および探索対象状態によって広がる3次元部分空間で量子システムを回転させる。 オラクル呼び出しの数は変動法により最小化され、故障確率の低い仮定で公式な結果が得られる。 その結果, データベース要素の事前分布が一様でない場合, 量子探索アルゴリズムの成功確率が小さくなると, オラクル呼び出しの数が大幅に減少し, 探索問題の解を見つけるための平均クエリの複雑さが小さくなることがわかった。 この結果は、最適化量子探索アルゴリズムのパワーを示すために、2値a事前確率を持つ単純だが非自明なデータベースモデルに適用される。 この論文は、量子探索アルゴリズムのより大きな故障確率を可能にする高次結果への一般化に関する議論で締めくくられている。

A quantum computer encodes information in quantum states and runs quantum algorithms to surpass the classical counterparts by exploiting quantum superposition and quantum correlation. Grover's quantum search algorithm is a typical quantum algorithm that proves the superiority of quantum computing over classical computing. It has a quadratic reduction in the query complexity of database search, and is known to be optimal when no a priori information about the elements of the database is provided. In this work, we consider a probabilistic Grover search algorithm allowing nonzero probability of failure for a database with a general a priori probability distribution of the elements, and minimize the number of oracle calls by optimizing the initial state of the quantum system and the reflection axis of the diffusion operator. The initial state and the reflection axis are allowed to not coincide, and thus the quantum search algorithm rotates the quantum system in a three-dimensional subspace spanned by the initial state, the reflection axis and the search target state in general. The number of oracle calls is minimized by a variational method, and formal results are obtained with the assumption of low failure probability. The results show that for a nonuniform a priori distribution of the database elements, the number of oracle calls can be significantly reduced given a small decrease in the success probability of the quantum search algorithm, leading to a lower average query complexity to find the solution of the search problem. The results are applied to a simple but nontrivial database model with two-value a priori probabilities to show the power of the optimized quantum search algorithm. The paper concludes with a discussion about the generalization to higher-order results that allows for a larger failure probability for the quantum search algorithm.
翻訳日:2023-08-23 21:12:54 公開日:2023-08-21
# 分極と周波数超エンタングルメントに基づくエンタングルメント蒸留

Entanglement distillation based on polarization and frequency hyperentanglement ( http://arxiv.org/abs/2304.01470v2 )

ライセンス: Link先を確認
Dan Xu, Changjia Chen, Brian T. Kirby, and Li Qian(参考訳) エンタングルメント蒸留は量子情報処理に多くの応用があり、量子通信、暗号、計算、シミュレーションの質と効率を向上させる重要なツールである。 本研究では, 1対の分極周波数ハイパーエンタングルド光子のみを用いたエンタングルメント蒸留法を提案し, 2対のエンタングルド論理量子ビット, 1対の分極エンタングルド量子ビット, 1対の周波数エンタングルド量子ビットを含むものと等価に評価した。 2つの量子ビット間で必要なcnot演算を行うため、偏波依存周波数変換器の使用を検討する。 分極と空間モード/エネルギー時間自由度に依存する従来のエンタングルメント蒸留法と比較して、周波数符号化量子ビットの利用は、チャネルが線形であるときにビットフリップ誤差に免疫する利点がある。 蒸留後、周波数自由度を犠牲にして偏光絡み合いの忠実度を著しく改善することができる。 シミュレーションにより,高忠実度,高収率,高蒸留率が得られることを示した。 我々の蒸留方式は,既存の通信ファイバネットワークと互換性のある現在の技術で簡単に実装でき,効率的な量子通信を実現するための有望なアプローチである。

Entanglement distillation has many applications in quantum information processing and is an important tool for improving the quality and efficiency of quantum communication, cryptography, computing, and simulation. We propose an entanglement distillation scheme using only one pair of polarization-frequency hyperentangled photons, which can be equivalently viewed as containing two pairs of entangled logical qubits: a pair of polarization-entangled qubits and a pair of frequency-entangled qubits. To perform the required CNOT operation between the two qubits we consider the use of a polarization-dependent frequency converter. Compared to past methods of entanglement distillation that relied on polarization and spatial-mode/energy-time degree of freedom, the utilization of frequency-encoded qubits offers an advantage in that it is immune to bit-flip errors when the channel is linear. After distillation, the fidelity of polarization entanglement can be significantly improved by sacrificing the frequency degree of freedom. Through simulation, we show that high fidelity gains, large yield, and high distillation rate can be achieved. Our distillation scheme is simple to implement with current technologies, compatible with existing telecommunication fiber networks, and is a promising approach for achieving efficient quantum communication.
翻訳日:2023-08-23 21:11:07 公開日:2023-08-21
# CVRecon:ニューラルコンストラクションのための3D幾何学的特徴学習を再考

CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction ( http://arxiv.org/abs/2304.14633v2 )

ライセンス: Link先を確認
Ziyue Feng, Leon Yang, Pengsheng Guo, Bing Li(参考訳) 近年,ポーズ画像を用いた神経再建の進歩が目覚ましい進歩を遂げている。 しかし、深度情報がないため、既存のボリュームベース技術は、カメラ線全体に沿った物体表面の2次元画像特徴を単純に複製する。 この重複は空空間と閉空間にノイズをもたらし、高品質な3d幾何学を生み出す上での課題となる。 従来の多視点ステレオ手法からインスピレーションを得て,コストボリュームにリッチな幾何学的埋め込みを生かし,幾何学的特徴学習を容易にするために,エンドツーエンドの3次元ニューラルネットワーク再構成フレームワークCVReconを提案する。 さらに,ビュー依存情報をエンコードする新たな3次元幾何学的特徴表現であるrccv(ray-contextual compensationd cost volume)を提案する。 総合的な実験により, 様々な測定値の復元品質が大幅に向上し, 3次元ジオメトリの明瞭な詳細を回復できることを実証した。 我々の広範なアブレーション研究は、効果的な3次元幾何学的特徴学習スキームの開発に関する洞察を提供する。 プロジェクトページ: https://cvrecon.ziyue.cool/

Recent advances in neural reconstruction using posed image sequences have made remarkable progress. However, due to the lack of depth information, existing volumetric-based techniques simply duplicate 2D image features of the object surface along the entire camera ray. We contend this duplication introduces noise in empty and occluded spaces, posing challenges for producing high-quality 3D geometry. Drawing inspiration from traditional multi-view stereo methods, we propose an end-to-end 3D neural reconstruction framework CVRecon, designed to exploit the rich geometric embedding in the cost volumes to facilitate 3D geometric feature learning. Furthermore, we present Ray-contextual Compensated Cost Volume (RCCV), a novel 3D geometric feature representation that encodes view-dependent information with improved integrity and robustness. Through comprehensive experiments, we demonstrate that our approach significantly improves the reconstruction quality in various metrics and recovers clear fine details of the 3D geometries. Our extensive ablation studies provide insights into the development of effective 3D geometric feature learning schemes. Project page: https://cvrecon.ziyue.cool/
翻訳日:2023-08-23 20:59:37 公開日:2023-08-21
# EverLight:屋内編集可能なHDR照明推定

EverLight: Indoor-Outdoor Editable HDR Lighting Estimation ( http://arxiv.org/abs/2304.13207v2 )

ライセンス: Link先を確認
Mohammad Reza Karimi Dastjerdi, Jonathan Eisenmann, Yannick Hold-Geoffroy, Jean-Fran\c{c}ois Lalonde(参考訳) 照明環境の多様性のため、既存の照明推定技術は屋内や屋外の環境で明示的に設計されている。 方法は特に正確なエネルギー(例えばパラメトリック照明モデル)を捉えることに焦点を当てており、シェーディングと強い鋳造影を強調するか、あるいは可塑性反射を優先する可塑性テクスチャ(例えば、GAN)を作り出す。 編集可能な照明機能を提供するアプローチが提案されているが、これらは単純な照明モデルで実現性は限られている。 本稿では,最近の文献の傾向のギャップを埋める手法を提案するとともに,パラメトリック光モデルと360{\deg}パノラマを組み合わせてレンダリングエンジンでHDRIとして使用できる手法を提案する。 GANをベースとしたパノラマ外挿法における最近の進歩を活用し,パラメトリック球状ガウスを用いたHDRに拡張した。 そこで本研究では,パノラマ生成プロセスにおいて,照明関連の特徴をジェネレータ全体に注入し,オリジナル又は編集されたシーン照明を密結合する新しい照明共変調方式を提案する。 我々の表現では、ユーザは光の方向、強度、数などを簡単に編集してシェーディングに影響を与えながら、リッチで複雑なリフレクションを提供しながら、編集とシームレスにブレンドすることができる。 さらに,室内および屋外の環境を包含し,ドメイン固有手法と比較しても最先端の成果を示す。

Because of the diversity in lighting environments, existing illumination estimation techniques have been designed explicitly on indoor or outdoor environments. Methods have focused specifically on capturing accurate energy (e.g., through parametric lighting models), which emphasizes shading and strong cast shadows; or producing plausible texture (e.g., with GANs), which prioritizes plausible reflections. Approaches which provide editable lighting capabilities have been proposed, but these tend to be with simplified lighting models, offering limited realism. In this work, we propose to bridge the gap between these recent trends in the literature, and propose a method which combines a parametric light model with 360{\deg} panoramas, ready to use as HDRI in rendering engines. We leverage recent advances in GAN-based LDR panorama extrapolation from a regular image, which we extend to HDR using parametric spherical gaussians. To achieve this, we introduce a novel lighting co-modulation method that injects lighting-related features throughout the generator, tightly coupling the original or edited scene illumination within the panorama generation process. In our representation, users can easily edit light direction, intensity, number, etc. to impact shading while providing rich, complex reflections while seamlessly blending with the edits. Furthermore, our method encompasses indoor and outdoor environments, demonstrating state-of-the-art results even when compared to domain-specific methods.
翻訳日:2023-08-23 20:59:20 公開日:2023-08-21
# 拡散モデルを用いた長期光度一貫性新規ビュー合成

Long-Term Photometric Consistent Novel View Synthesis with Diffusion Models ( http://arxiv.org/abs/2304.10700v2 )

ライセンス: Link先を確認
Jason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker(参考訳) 一つの入力画像からの新しい視点合成は難しい課題であり、大きな動きで分離される可能性のある所望のカメラポーズからシーンの新しい視点を生成することが目的である。 この合成タスクの非常に不確実な性質は、シーン内および視野外における未観測要素(すなわち閉塞)によるものであり、様々な出力を捉えるために魅力的な生成モデルを使用することである。 本稿では,特定のカメラ軌跡に整合した一連のフォトリアリスティック画像を生成可能な新しい生成モデルと,単一の開始画像を提案する。 本手法は,視覚的シーン要素を補間し,未観測領域を幾何学的に一貫した方法で外挿できる自己回帰的条件拡散モデルに基づく。 条件付けは、単一のカメラビューをキャプチャするイメージと、新しいカメラビューの(相対的な)ポーズに限られる。 生成したビューのシーケンス上の一貫性を測定するために、新しいメトリック、しきい値付き対称エピポーラ距離(TSED)を導入し、シーケンス内の一貫したフレームペアの数を測定する。 従来の手法では画質の高い画像と、ビューのペア間で一貫性のあるセマンティクスを生成できることが示されているが、我々の測定値と実証的に比較すると、それらはしばしば所望のカメラのポーズと一致しない。 対照的に,本手法はフォトリアリスティック画像とビュー一貫性画像の両方を生成する。

Novel view synthesis from a single input image is a challenging task, where the goal is to generate a new view of a scene from a desired camera pose that may be separated by a large motion. The highly uncertain nature of this synthesis task due to unobserved elements within the scene (i.e. occlusion) and outside the field-of-view makes the use of generative models appealing to capture the variety of possible outputs. In this paper, we propose a novel generative model capable of producing a sequence of photorealistic images consistent with a specified camera trajectory, and a single starting image. Our approach is centred on an autoregressive conditional diffusion-based model capable of interpolating visible scene elements, and extrapolating unobserved regions in a view, in a geometrically consistent manner. Conditioning is limited to an image capturing a single camera view and the (relative) pose of the new camera view. To measure the consistency over a sequence of generated views, we introduce a new metric, the thresholded symmetric epipolar distance (TSED), to measure the number of consistent frame pairs in a sequence. While previous methods have been shown to produce high quality images and consistent semantics across pairs of views, we show empirically with our metric that they are often inconsistent with the desired camera poses. In contrast, we demonstrate that our method produces both photorealistic and view-consistent imagery.
翻訳日:2023-08-23 20:58:55 公開日:2023-08-21
# Z-GMOT:ゼロショットジェネリック多目的追跡

Z-GMOT: Zero-shot Generic Multiple Object Tracking ( http://arxiv.org/abs/2305.17648v2 )

ライセンス: Link先を確認
Kim Hoang Tran, Tien-Phat Nguyen, Anh Duy Le Dinh, Pha Nguyen, Thinh Phan, Khoa Luu, Donald Adjeroh, Ngan Hoang Le(参考訳) 近年の進歩にもかかわらず、Multi-Object Tracking(MOT)アプローチは、大規模ラベル付きデータセットの高価なアノテーションを必要とするトラッキングターゲットの事前知識への依存など、いくつかの制限を被っている。 結果として、既存のMOTメソッドは、定義済みの小さなカテゴリに限られており、実世界の目に見えないオブジェクトと戦っている。 これらの問題に対処するため、GMOT(Generic Multiple Object Tracking)が提案されている。 しかしながら、既存のGMOTアプローチはすべてワンショットのパラダイムに従っており、主に初期バウンディングボックスに依存しており、視点、照明、閉塞、スケールなどの変種を扱うのに苦労している。 本稿では,既存のMOT法とGMOT法の限界に対処する新しい手法を提案する。 具体的には,ゼロショットGMOT (Z-GMOT) アルゴリズムを提案する。 そこで本研究では, 偽陽性を最小化しつつ, 未確認物体を検出可能な言語画像事前学習(GLIP)の改良版iGLIPを提案する。 GMOT-40データセット、AnimalTrackテストセット、DanceTrackテストセットに基づいて、Z-GMOTを徹底的に評価する。 これらの評価結果は,既存手法よりも大幅に改善された。 例えば、GMOT-40データセットでは、Z-GMOTは1ショットのGMOTとOC-SORTを27.79ポイントのHOTAと44.37ポイントのMOTAで上回っている。 AnimalTrackデータセットでは、DeepSORTで完全に監督されたメソッドを12.55ポイントのHOTAと8.97ポイントのMOTAで上回っている。 さらなる研究を促進するため、本論文の受理後、コードとモデルを公開します。

Despite the significant progress made in recent years, Multi-Object Tracking (MOT) approaches still suffer from several limitations, including their reliance on prior knowledge of tracking targets, which necessitates the costly annotation of large labeled datasets. As a result, existing MOT methods are limited to a small set of predefined categories, and they struggle with unseen objects in the real world. To address these issues, Generic Multiple Object Tracking (GMOT) has been proposed, which requires less prior information about the targets. However, all existing GMOT approaches follow a one-shot paradigm, relying mainly on the initial bounding box and thus struggling to handle variants e.g., viewpoint, lighting, occlusion, scale, and etc. In this paper, we introduce a novel approach to address the limitations of existing MOT and GMOT methods. Specifically, we propose a zero-shot GMOT (Z-GMOT) algorithm that can track never-seen object categories with zero training examples, without the need for predefined categories or an initial bounding box. To achieve this, we propose iGLIP, an improved version of Grounded language-image pretraining (GLIP), which can detect unseen objects while minimizing false positives. We evaluate our Z-GMOT thoroughly on the GMOT-40 dataset, AnimalTrack testset, DanceTrack testset. The results of these evaluations demonstrate a significant improvement over existing methods. For instance, on the GMOT-40 dataset, the Z-GMOT outperforms one-shot GMOT with OC-SORT by 27.79 points HOTA and 44.37 points MOTA. On the AnimalTrack dataset, it surpasses fully-supervised methods with DeepSORT by 12.55 points HOTA and 8.97 points MOTA. To facilitate further research, we will make our code and models publicly available upon acceptance of this paper.
翻訳日:2023-08-23 20:49:13 公開日:2023-08-21
# fairdp: 異なるプライバシーを持つ認定公正性

FairDP: Certified Fairness with Differential Privacy ( http://arxiv.org/abs/2305.16474v2 )

ライセンス: Link先を確認
Khang Tran, Ferdinando Fioretto, Issa Khalil, My T. Thai, NhatHai Phan(参考訳) 本稿では,fairdpについて述べる。fairdpは差分プライバシー(dp)を用いた認証公正性を実現するための新しいメカニズムである。 FairDPは個別に個別のグループのモデルを訓練し、グループ固有のクリッピング用語を用いてDPの異なる影響を評価し、バウンドする。 トレーニングプロセスを通じて、このメカニズムはグループモデルからの知識を段階的に統合し、下流タスクにおけるプライバシ、ユーティリティ、公平性のバランスをとる包括的なモデルを定式化する。 広範に理論的および実証的な分析により、FairDPの有効性が検証され、モデルユーティリティ、プライバシ、フェアネス間のトレードオフが改善された。

This paper introduces FairDP, a novel mechanism designed to achieve certified fairness with differential privacy (DP). FairDP independently trains models for distinct individual groups, using group-specific clipping terms to assess and bound the disparate impacts of DP. Throughout the training process, the mechanism progressively integrates knowledge from group models to formulate a comprehensive model that balances privacy, utility, and fairness in downstream tasks. Extensive theoretical and empirical analyses validate the efficacy of FairDP and improved trade-offs between model utility, privacy, and fairness compared with existing methods.
翻訳日:2023-08-23 20:48:44 公開日:2023-08-21
# VariGrad: 未登録データの幾何学的深層学習のための新しい特徴ベクトルアーキテクチャ

VariGrad: A Novel Feature Vector Architecture for Geometric Deep Learning on Unregistered Data ( http://arxiv.org/abs/2307.03553v2 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson(参考訳) 本稿では,3次元幾何データの特徴ベクトル表現を計算するために,可変勾配(varigrad)を利用した新しい幾何学的ディープラーニング層を提案する。 これらの特徴ベクトルは、分類、登録、形状再構成といった様々な下流学習タスクで使用できる。 幾何データのパラメータ化を独立に表現することで,与えられたサンプリングやパラメータ化とは無関係に,データ上でのトレーニングとテストが可能となる。 提案したVariGrad層で示される再サンプリングの効率性,一般化性,堅牢性を示す。

We present a novel geometric deep learning layer that leverages the varifold gradient (VariGrad) to compute feature vector representations of 3D geometric data. These feature vectors can be used in a variety of downstream learning tasks such as classification, registration, and shape reconstruction. Our model's use of parameterization independent varifold representations of geometric data allows our model to be both trained and tested on data independent of the given sampling or parameterization. We demonstrate the efficiency, generalizability, and robustness to resampling demonstrated by the proposed VariGrad layer.
翻訳日:2023-08-23 20:37:20 公開日:2023-08-21
# 事前訓練するか、事前訓練しないか? 病理組織学におけるセマンティクスセグメンテーションのためのドメイン特化前訓練の事例研究

To pretrain or not to pretrain? A case study of domain-specific pretraining for semantic segmentation in histopathology ( http://arxiv.org/abs/2307.03275v2 )

ライセンス: Link先を確認
Tushar Kataria, Beatrice Knudsen and Shireen Elhabian(参考訳) 医用画像データセットのアノテートは費用がかかるため、細調整(あるいは伝達学習)は疾患分類やセマンティックセグメンテーションなどのデジタル病理ビジョン応用において最も効果的な方法である。 しかし、実際の画像に基づいて訓練されたモデルのテクスチャバイアスにより、転送学習は、未ラベルの病理学データと自己教師によるドメイン固有の特徴の発見を必要とするような、パフォーマンスの低いモデルをもたらす可能性がある。 そこで我々は,病理組織特異的な事前訓練モデルが,病理視覚,すなわち腺と細胞セグメンテーションにより良い初期化をもたらすという前提を検証した。 本研究では,病理組織学的領域特異的および非領域特異的(実世界画像)プレトレーニング重みと腺・細胞分節タスクの性能を比較した。 さらに,ドメイン固有の事前学習が性能を著しく向上させるデータセットサイズについて検討した。 さらに,ドメイン固有の初期化によって,異なるデータセット上での配布外テストの有効性が向上するか否かを検討した。 その結果、ドメイン固有の事前学習重みによるパフォーマンス向上は、タスクとトレーニングデータセットのサイズの両方に依存することがわかった。 データセットサイズが限定されたインスタンスでは腺分節性能が著しく向上するのに対し,細胞分節データセットでトレーニングしたモデルでは改善は見られなかった。

Annotating medical imaging datasets is costly, so fine-tuning (or transfer learning) is the most effective method for digital pathology vision applications such as disease classification and semantic segmentation. However, due to texture bias in models trained on real-world images, transfer learning for histopathology applications might result in underperforming models, which necessitates the need for using unlabeled histopathology data and self-supervised methods to discover domain-specific characteristics. Here, we tested the premise that histopathology-specific pretrained models provide better initializations for pathology vision tasks, i.e., gland and cell segmentation. In this study, we compare the performance of gland and cell segmentation tasks with histopathology domain-specific and non-domain-specific (real-world images) pretrained weights. Moreover, we investigate the dataset size at which domain-specific pretraining produces significant gains in performance. In addition, we investigated whether domain-specific initialization improves the effectiveness of out-of-distribution testing on distinct datasets but the same task. The results indicate that performance gain using domain-specific pretrained weights depends on both the task and the size of the training dataset. In instances with limited dataset sizes, a significant improvement in gland segmentation performance was also observed, whereas models trained on cell segmentation datasets exhibit no improvement.
翻訳日:2023-08-23 20:37:12 公開日:2023-08-21
# 前立腺イメージングにおけるセグメンテーション基礎モデルの実証解析

Empirical Analysis of a Segmentation Foundation Model in Prostate Imaging ( http://arxiv.org/abs/2307.03266v2 )

ライセンス: Link先を確認
Heejong Kim, Victor Ion Butoi, Adrian V. Dalca, Daniel J.A. Margolis, Mert R. Sabuncu(参考訳) 医療画像セグメンテーションの最先端技術のほとんどは、ディープラーニングモデルに依存している。 しかしながら、これらのモデルは、しばしば、高価なラベル付きデータセットを必要とする教師付き方法で、狭義のタスクで訓練される。 自然言語生成などの機械学習領域の最近の進歩は、ラベル付きデータはほとんどなく、下流の様々なタスクにカスタマイズ可能な基礎モデルの構築の実現可能性と有用性を示している。 これは、基礎モデルがこの分野の未来を形作ることを期待する医療画像のパラダイムシフトである可能性が高い。 本稿では,最近開発された医用画像分割の基礎モデル universeg について述べる。 本研究では,前立腺画像の文脈で経験的評価を行い,従来のタスク固有セグメンテーションモデルの訓練手法と比較する。 本研究は, 医用画像セグメンテーションの基礎モデルの開発と導入において重要となるいくつかの重要な要因について考察した。

Most state-of-the-art techniques for medical image segmentation rely on deep-learning models. These models, however, are often trained on narrowly-defined tasks in a supervised fashion, which requires expensive labeled datasets. Recent advances in several machine learning domains, such as natural language generation have demonstrated the feasibility and utility of building foundation models that can be customized for various downstream tasks with little to no labeled data. This likely represents a paradigm shift for medical imaging, where we expect that foundation models may shape the future of the field. In this paper, we consider a recently developed foundation model for medical image segmentation, UniverSeg. We conduct an empirical evaluation study in the context of prostate imaging and compare it against the conventional approach of training a task-specific segmentation model. Our results and discussion highlight several important factors that will likely be important in the development and adoption of foundation models for medical image segmentation.
翻訳日:2023-08-23 20:36:48 公開日:2023-08-21
# 平均ハードアテンション変換器は一様閾値回路である

Average-Hard Attention Transformers are Constant-Depth Uniform Threshold Circuits ( http://arxiv.org/abs/2308.03212v2 )

ライセンス: Link先を確認
Lena Strobl(参考訳) トランスフォーマーは様々な自然言語処理タスクのニューラルネットワークモデルとして広く使われている。 従来の研究では、入力長に対する内部計算に対する平均的ハードアテンションと対数精度の2つの仮定を定深しきい値回路との関係について検討していた。 Merrill et al. (2022) は、平均強注意変換器が複雑性クラスTC0に該当する言語を認識し、定数深さ多項式サイズのしきい値回路で認識できる言語の集合を示すことを証明している。 同様に、merrill and sabharwal (2023) は、log-precision transformersが一様tc0クラス内の言語を認識することを示した。 このことは、両トランスモデルが一定の深さのしきい値回路でシミュレート可能であることを示し、後者は均一な回路ファミリを生成するため、より堅牢であることを示している。 本論文では,最初の結果が一様回路にも拡張可能であることを示す。

Transformers have emerged as a widely used neural network model for various natural language processing tasks. Previous research explored their relationship with constant-depth threshold circuits, making two assumptions: average-hard attention and logarithmic precision for internal computations relative to input length. Merrill et al. (2022) prove that average-hard attention transformers recognize languages that fall within the complexity class TC0, denoting the set of languages that can be recognized by constant-depth polynomial-size threshold circuits. Likewise, Merrill and Sabharwal (2023) show that log-precision transformers recognize languages within the class of uniform TC0. This shows that both transformer models can be simulated by constant-depth threshold circuits, with the latter being more robust due to generating a uniform circuit family. Our paper shows that the first result can be extended to yield uniform circuits as well.
翻訳日:2023-08-23 20:30:18 公開日:2023-08-21
# クリティカルポイント++:ロバスト分類、敵防衛、説明可能なAIのためのアジャイルポイントクラウド重要度測定

Critical Points ++: An Agile Point Cloud Importance Measure for Robust Classification, Adversarial Defense and Explainable AI ( http://arxiv.org/abs/2308.05525v2 )

ライセンス: Link先を確認
Meir Yossef Levi, Guy Gilboa(参考訳) Out-Of-Distribution (OOD)サンプルの正確かつ迅速な対応能力は、現実世界の安全要求アプリケーションにおいて不可欠である。 本研究は,まず3次元点雲とOODサンプルの臨界点間の相互作用について検討する。 私たちの発見は、共通の腐敗や異常値がしばしば重要なポイントとして解釈されるということです。 臨界点の概念を重要度尺度に一般化する。 重要度の低い点のみに基づく分類ネットワークの訓練は,クリーンセットでの小さな性能損失を犠牲にして,ロバスト性が劇的に向上することを示す。 正規化エントロピーは腐敗分析に非常に有益である。 非臨界点の集合を選択するために正規化エントロピーに基づく適応しきい値を提案する。 提案する重要度は計算が極めて高速である。 説明可能なAI(XAI)、外乱除去、不確実性推定、ロバスト分類、敵防衛など、さまざまなアプリケーションで使用することができることを示す。 後者の2つのタスクのSOTA結果に到達する。 https://github.com/yossilevii100/critical_points2

The ability to cope accurately and fast with Out-Of-Distribution (OOD) samples is crucial in real-world safety demanding applications. In this work we first study the interplay between critical points of 3D point clouds and OOD samples. Our findings are that common corruptions and outliers are often interpreted as critical points. We generalize the notion of critical points into importance measures. We show that training a classification network based only on less important points dramatically improves robustness, at a cost of minor performance loss on the clean set. We observe that normalized entropy is highly informative for corruption analysis. An adaptive threshold based on normalized entropy is suggested for selecting the set of uncritical points. Our proposed importance measure is extremely fast to compute. We show it can be used for a variety of applications, such as Explainable AI (XAI), Outlier Removal, Uncertainty Estimation, Robust Classification and Adversarial Defense. We reach SOTA results on the two latter tasks. Code is available at: https://github.com/yossilevii100/critical_points2
翻訳日:2023-08-23 20:16:50 公開日:2023-08-21
# 深層学習によるマルチスペクトル衛星データからのメタン排出の自律的検出

Autonomous Detection of Methane Emissions in Multispectral Satellite Data Using Deep Learning ( http://arxiv.org/abs/2308.11003v1 )

ライセンス: Link先を確認
Bertrand Rouet-Leduc, Thomas Kerdreux, Alexandre Tuel, Claudia Hulbert(参考訳) メタンは最も強力な温室効果ガスの1つであり、その半減期が短いため、地球温暖化を急速に抑制する主要なターゲットとなっている。 しかし、現在のメタン放出モニタリング技術は、しばしば劇的に過小評価されるエミッション要因や自己報告に依存している。 当初は表面特性を観測するために設計されたが、最近、大気中の物質を分析する強力な方法として衛星マルチスペクトルデータが登場した。 しかし、マルチスペクトル計のスペクトル分解能は乏しく、メタンの測定は非常にノイズが多い。 メタンデータ生成物は、表面やその他の大気ガス(特に水蒸気)の吸収にも敏感であり、通常は広範囲の人間分析を必要とする潜在的なメタンプラムのノイズマップを提供する。 本研究では,sentinel-2衛星のマルチスペクトルデータにおけるメタン漏れ検出の自動化,最先端のマルチスペクトルメタンデータ製品に比べて誤検出率を劇的に低減し,潜在的な漏洩箇所の事前知識を必要とせずに,ディープラーニング手法の画像認識能力を活用できることを示す。 提案手法は,世界中のポイントソースメタン排出量の自動化・高精細・高頻度モニタリングへの道を開くものである。

Methane is one of the most potent greenhouse gases, and its short atmospheric half-life makes it a prime target to rapidly curb global warming. However, current methane emission monitoring techniques primarily rely on approximate emission factors or self-reporting, which have been shown to often dramatically underestimate emissions. Although initially designed to monitor surface properties, satellite multispectral data has recently emerged as a powerful method to analyze atmospheric content. However, the spectral resolution of multispectral instruments is poor, and methane measurements are typically very noisy. Methane data products are also sensitive to absorption by the surface and other atmospheric gases (water vapor in particular) and therefore provide noisy maps of potential methane plumes, that typically require extensive human analysis. Here, we show that the image recognition capabilities of deep learning methods can be leveraged to automatize the detection of methane leaks in Sentinel-2 satellite multispectral data, with dramatically reduced false positive rates compared with state-of-the-art multispectral methane data products, and without the need for a priori knowledge of potential leak sites. Our proposed approach paves the way for the automated, high-definition and high-frequency monitoring of point-source methane emissions across the world.
翻訳日:2023-08-23 20:10:26 公開日:2023-08-21
# ネットワーク内の絡み合い伝達のための不完全資源と測定値の双対性

Duality between imperfect resources and measurements for propagating entanglement in networks ( http://arxiv.org/abs/2308.10975v1 )

ライセンス: Link先を確認
Sudipta Mondal, Pritam Halder, Aditi Sen De(参考訳) そこで本研究では,まず2ノードを除く全てのノードを適度に選択された単一量子ビットシステムで占有し,その2ノードが2成分のノイズの絡み合い状態を共有するネットワークのための計測に基づく絡み合い伝播戦略を提案する。 サイト間の接続は、unsharp 2-qubit測定によって確立される。 一つのノードだけが測定を行うとき、それを一方向プロトコルと呼び、最初の絡み合った状態の双方が測定を行うとき、これを双方向スキームと呼ぶ。 測定結果が後選択された場合, 単一部位に作用する局所振幅減衰チャネルの存在下では, モノガミースコアによって測定されたエンタングルメントの共有性は, ノイズのないシナリオよりも, ノイズの強度のすべての値に対して高い値となることを示した。 チャネルによらず、最初の最大絡み合い状態よりも、初期非最大絡み合い状態から高い単元スコアが得られるような非シャープ性パラメータの範囲が存在することを観察する。 資源状態から入力される平均単元スコアに対する雑音の影響は, 双方向よりも一方向プロトコルでより早く低減できる可能性が示唆された。

We propose a measurement-based entanglement propagation strategy for networks in which all nodes except two are initially occupied by a suitably chosen single-qubit system and the two nodes share a bipartite noisy entangled state. The connections between the sites are established using unsharp two-qubit measurements. When only a single node performs measurements, we refer to it as a unidirectional protocol while when both parts of the initial entangled states perform measurements, we call it a bidirectional scheme. When the measurement outcome is post-selected, we demonstrate that in the presence of a local amplitude damping channel acting on a single site, entanglement shareability, as measured by the monogamy score, of the resulting state after measurement can be higher for all values of the strength of the noise than that of the scenario without noise. We observe that irrespective of the channel, there exists a range of unsharpness parameter where a higher monogamy score may be obtained starting from the initial nonmaximally entangled states than from the initial maximally entangled state. We report that the effect of noise on the average monogamy score entered from the resource state may be reduced faster with the unidirectional protocol than with the bidirectional one.
翻訳日:2023-08-23 20:09:52 公開日:2023-08-21
# SupEuclid: 教師付きコントラスト学習とユークリッド距離を用いた超シンプルで高品質なOoD検出

SupEuclid: Extremely Simple, High Quality OoD Detection with Supervised Contrastive Learning and Euclidean Distance ( http://arxiv.org/abs/2308.10973v1 )

ライセンス: Link先を確認
Jarrod Haas(参考訳) アウト・オブ・ディストリビューション(OoD)検出はここ数年で大きく発展し、利用可能なメソッドが近づき、いくつかのケースでは標準ベンチマークで完全なデータ分離を実現している。 これらの結果は一般に、大または複雑なモデル、事前訓練、OoDサンプルへの露出、または余分なハイパーパラメータチューニングを含む。 驚くべきことに、非常に単純な方法でこれらの最先端のメソッドの多くを超える結果を得ることができる。 我々は,SCL(Supervised Contrastive Learning)でトレーニングされたResNet18が,スコアリングルールとしてユークリッド距離のみを用いて,近距離および遠距離のOoD検出ベンチマーク上で最先端の結果を生成することを示した。 これは、より洗練された方法やより大きなモデルの必要性を回避し、少なくとも、さらなる実験と分析のために非常に強力で簡単なベースラインを提供する。

Out-of-Distribution (OoD) detection has developed substantially in the past few years, with available methods approaching, and in a few cases achieving, perfect data separation on standard benchmarks. These results generally involve large or complex models, pretraining, exposure to OoD examples or extra hyperparameter tuning. Remarkably, it is possible to achieve results that can exceed many of these state-of-the-art methods with a very simple method. We demonstrate that ResNet18 trained with Supervised Contrastive Learning (SCL) produces state-of-the-art results out-of-the-box on near and far OoD detection benchmarks using only Euclidean distance as a scoring rule. This may obviate the need in some cases for more sophisticated methods or larger models, and at the very least provides a very strong, easy to use baseline for further experimentation and analysis.
翻訳日:2023-08-23 20:09:30 公開日:2023-08-21
# 限られたデータによるmriフィールドトランスフォーメーション:ニューラルスタイルトランスフォーメーションによる正規化

MRI Field-transfer Reconstruction with Limited Data: Regularization by Neural Style Transfer ( http://arxiv.org/abs/2308.10968v1 )

ライセンス: Link先を確認
Guoyao Shen, Yancheng Zhu, Hernan Jara, Sean B. Andersson, Chad W. Farris, Stephan Anderson, Xin Zhang(参考訳) 近年の研究では,深層学習モデルを用いたMRI再建が成功している。 しかし、ほとんどの報告されたアプローチはタスク固有の大規模データセットのトレーニングを必要とする。 Denoising (RED) による正規化は、画像再構成の先行として Denoiser を組み込む一般的なパイプラインである。 redのポテンシャルは、デノイジング、デブラリング、スーパーレゾリューションといった複数の画像関連タスクで実証されている。 本研究では,ニューラル・スタイル・トランスファー(RNST)法による正規化を提案し,ニューラル・スタイル・ニューラル・トランスファーおよびデノナイジング・エンジンの先行点をさらに活用する。 これによりRNSTは、ノイズの多い低画質の画像から、異なる画像スタイルと限られたデータで高品質な画像を再構成することができる。 1.5Tと3Tの臨床MRIでRNSTを評価し,RNSTが画像品質を大幅に向上させることを示した。 以上の結果から,MRI再建のためのRNSTフレームワークの機能と,限られたデータを用いた再建作業の可能性を強調した。

Recent works have demonstrated success in MRI reconstruction using deep learning-based models. However, most reported approaches require training on a task-specific, large-scale dataset. Regularization by denoising (RED) is a general pipeline which embeds a denoiser as a prior for image reconstruction. The potential of RED has been demonstrated for multiple image-related tasks such as denoising, deblurring and super-resolution. In this work, we propose a regularization by neural style transfer (RNST) method to further leverage the priors from the neural transfer and denoising engine. This enables RNST to reconstruct a high-quality image from a noisy low-quality image with different image styles and limited data. We validate RNST with clinical MRI scans from 1.5T and 3T and show that RNST can significantly boost image quality. Our results highlight the capability of the RNST framework for MRI reconstruction and the potential for reconstruction tasks with limited data.
翻訳日:2023-08-23 20:09:12 公開日:2023-08-21
# 時間的量子参照フレームに関する測定イベント

Measurement events relative to temporal quantum reference frames ( http://arxiv.org/abs/2308.10967v1 )

ライセンス: Link先を確認
Ladina Hausmann, Alexander Schmidhuber, Esteban Castro-Ruiz(参考訳) Page-Wootters形式主義(Page-Wootters formalism)は、背景に依存し、量子力学的な時間の概念を一般相対性理論の背景独立性と整合させる提案である。 しかし、この枠組みの物理的意味については多くの議論がある。 本研究では,Page-Wootters形式に対する2つの一貫したアプローチを比較し,量子時間参照フレームに対する進化と測定の操作的意味を明らかにする。 いわゆる「twirled observable」アプローチは、ハミルトニアン制約に関して不変な作用素として測定を実装している。 代わりに、「純度測定」アプローチは制約自体を変更することによって動的に測定をモデル化する。 どちらの手法も理想時計の極限に一致するが、非理想的、有限リソースクロックの場合に対する純粋測定アプローチの自然な一般化は、根本的に異なる図形をもたらす。 この不一致の物理的起源を論じ、それらが運用的に異なる状況を記述していると論じる。 さらに,非理想時計に対しては,時間的非局所的・非単位的進化が得られ,事象の時間的順序の操作的定義に根本的な制限が生じることを示す。 それにもかかわらず、時間が離散的であると仮定すれば、ユニタリティーと定時順序は復元できる。

The Page-Wootters formalism is a proposal for reconciling the background-dependent, quantum-mechanical notion of time with the background independence of general relativity. However, there has been much discussion regarding the physical meaning of the framework. In this work, we compare two consistent approaches to the Page-Wootters formalism to clarify the operational meaning of evolution and measurements with respect to a quantum temporal reference frame. The so-called "twirled observable" approach implements measurements as operators that are invariant with respect to the Hamiltonian constraint. The "purified measurement" approach instead models measurements dynamically by modifying the constraint itself. While both approaches agree in the limit of ideal clocks, a natural generalization of the purified measurement approach to the case of non-ideal, finite-resource clocks yields a radically different picture. We discuss the physical origin of this discrepancy and argue that they describe operationally distinct situations. Moreover, we show that, for non-ideal clocks, the purified measurement approach yields time non-local, non-unitary evolution and implies a fundamental limitation to the operational definition of the temporal order of events. Nevertheless, unitarity and definite temporal order can be restored if we assume that time is discrete.
翻訳日:2023-08-23 20:08:57 公開日:2023-08-21
# DocPrompt: ゼロショットと少数ショットの文書質問応答のための大規模継続事前トレーニング

DocPrompt: Large-scale continue pretrain for zero-shot and few-shot document question answering ( http://arxiv.org/abs/2308.10959v1 )

ライセンス: Link先を確認
Sijin Wu, Dan Zhang, Teng Hu, Shikun Feng(参考訳) 本稿では,ゼロショットと少数ショットのパフォーマンスを持つ文書質問応答タスクのためのDocpromptを提案する。 本研究では,弱い教師付きデータ生成手法,新しいマルチステージ学習法,新しい理解モデルと生成モデルアンサンブル法を提案する。 実験の結果、docpromptモデルは、文書質問応答タスクにおいて既存の強力なベースラインモデルを大きく上回ることがわかった。 この手法は、顧客プロジェクトに対する文書質問の配信効率とモデル性能を大幅に改善し、アノテーションコストと労力コストを削減する。 私たちのデモはhttps://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout.orgにある。

In this paper, we propose Docprompt for document question answering tasks with powerful zero-shot and few-shot performance. We proposed a novel weakly supervised data generation method, a novel multl-stage training method and a novel understanding model & generation model ensemble method. Experiment results show that the Docprompt model after continue pretrain significantly outperforms the existing strong baseline models on document question answering tasks. This method greatly improves the delivery efficiency and model performance of document question answering customer projects, reducing annotation costs and labor costs. Our demo can be found at https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout.
翻訳日:2023-08-23 20:08:37 公開日:2023-08-21
# オーストラリアの組織におけるモバイルデバイスの利用による知識漏洩リスクへの対応

Addressing Knowledge Leakage Risk caused by the use of mobile devices in Australian Organizations ( http://arxiv.org/abs/2308.10920v1 )

ライセンス: Link先を確認
Carlos Andres Agudelo Serna, Rachelle Bosua, Sean B. Maynard, Atif Ahmad(参考訳) 情報と知識の漏洩はオーストラリアの組織にとって重大なセキュリティリスクとなっている。 オーストラリアのビジネスにおけるセキュリティインシデントの平均費用は280万ドルである。 さらにオーストラリアの組織は、情報漏洩の調査と評価に世界第2位(平均120万ドル)を費やしている。 センシティブな組織情報の漏洩は、ソーシャルメディア、クラウドコンピューティング、モバイルデバイスなど、さまざまな経路を通じて発生する。 In this study, we (1) analyze the knowledge leakage risk (KLR) caused by the use of mobile devices in knowledge-intensive Australian organizations, (2) present a conceptual research model to explain the determinants that influence KLR through the use of mobile devices grounded in the literature, (3) conduct interviews with security and knowledge managers to understand what strategies they use to mitigate KLR caused by the use of mobile devices and (4) use content analysis and the conceptual model to frame the preliminary findings from the interviews. キーワード:知識漏洩、モバイルデバイス、モバイルコンテキスト、知識漏洩リスク

Information and knowledge leakage has become a significant security risk to Australian organizations. Each security incident in Australian business cost an average US$\$$2.8 million. Furthermore, Australian organisations spend the second most worldwide (US$\$$1.2 million each on average) on investigating and assessing information breaches. The leakage of sensitive organizational information occurs through different avenues, such as social media, cloud computing and mobile devices. In this study, we (1) analyze the knowledge leakage risk (KLR) caused by the use of mobile devices in knowledge-intensive Australian organizations, (2) present a conceptual research model to explain the determinants that influence KLR through the use of mobile devices grounded in the literature, (3) conduct interviews with security and knowledge managers to understand what strategies they use to mitigate KLR caused by the use of mobile devices and (4) use content analysis and the conceptual model to frame the preliminary findings from the interviews. Keywords: Knowledge leakage, mobile devices, mobile contexts, knowledge leakage risk
翻訳日:2023-08-23 20:08:26 公開日:2023-08-21
# メタパスに基づく文脈知識を用いた深部半教師付き異常検出

Deep Semi-supervised Anomaly Detection with Metapath-based Context Knowledge ( http://arxiv.org/abs/2308.10918v1 )

ライセンス: Link先を確認
Hwan Kim, Junghoon Kim, Byung Suk Lee, and Sungsu Lim(参考訳) 近年,グラフ異常検出が注目されている。 本稿では,メタパスに基づく半教師付き学習を利用した新しい手法を提案する。 本稿では,エンコーダとデコーダの両方にgcn層を組み込んで,異常ノードと正常ノード間のコンテキスト情報を効率的に伝搬する,メタパスに基づくセミ教師付き異常検出(msad)という新しいフレームワークを提案する。 メタパスに基づくコンテキスト情報の設計と、特に構築された異常なコミュニティは、グローバルおよびローカルの両方で、構造と属性の差異を学習するプロセスを強化する。 本稿では,7つの実世界のネットワークを対象とした総合的な実験を通して,最先端技術と比較してMSAD法が優れていることを示す。 本研究の有望な成果は,属性付きネットワークにおける異常検出の有効性をさらに高めるため,メタパスパターンの最適化と解析に焦点を当て,今後の研究の道を開くものである。

Graph anomaly detection has attracted considerable attention in recent years. This paper introduces a novel approach that leverages metapath-based semi-supervised learning, addressing the limitations of previous methods. We present a new framework, Metapath-based Semi-supervised Anomaly Detection (MSAD), incorporating GCN layers in both the encoder and decoder to efficiently propagate context information between abnormal and normal nodes. The design of metapath-based context information and a specifically crafted anomaly community enhance the process of learning differences in structures and attributes, both globally and locally. Through a comprehensive set of experiments conducted on seven real-world networks, this paper demonstrates the superiority of the MSAD method compared to state-of-the-art techniques. The promising results of this study pave the way for future investigations, focusing on the optimization and analysis of metapath patterns to further enhance the effectiveness of anomaly detection on attributed networks.
翻訳日:2023-08-23 20:08:16 公開日:2023-08-21
# 表現学習者としての拡散モデル

Diffusion Model as Representation Learner ( http://arxiv.org/abs/2308.10916v1 )

ライセンス: Link先を確認
Xingyi Yang and Xinchao Wang(参考訳) 拡散確率モデル (DPM) は近年, 様々な生成タスクにおいて顕著な成果を上げているが, 事前学習したDPMの表現は十分に理解されていない。 本稿では,DPMの表現力に関する詳細な調査を行い,生成的DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。 本研究は, dpmの特徴空間の検討から始まり, dpmは本質的に表現学習と正規化モデルのキャパシティのバランスをとる自動エンコーダであることを明らかにした。 そこで我々はRepFusionという新しい知識伝達パラダイムを導入する。 提案手法は,既成のdpmから異なる時間ステップにおける表現を抽出し,強化学習により最適な時間を決定する学生ネットワークの監督として動的に活用する。 我々は,いくつかの画像分類,意味セグメンテーション,ランドマーク検出ベンチマークのアプローチを評価し,最先端手法よりも優れていることを示す。 本結果は,DPMを表現学習の強力なツールとしての可能性を明らかにし,サンプル生成以上の生成モデルの有用性について考察する。 コードは \url{https://github.com/adamdad/repfusion} で入手できる。

Diffusion Probabilistic Models (DPMs) have recently demonstrated impressive results on various generative tasks.Despite its promises, the learned representations of pre-trained DPMs, however, have not been fully understood. In this paper, we conduct an in-depth investigation of the representation power of DPMs, and propose a novel knowledge transfer method that leverages the knowledge acquired by generative DPMs for recognition tasks. Our study begins by examining the feature space of DPMs, revealing that DPMs are inherently denoising autoencoders that balance the representation learning with regularizing model capacity. To this end, we introduce a novel knowledge transfer paradigm named RepFusion. Our paradigm extracts representations at different time steps from off-the-shelf DPMs and dynamically employs them as supervision for student networks, in which the optimal time is determined through reinforcement learning. We evaluate our approach on several image classification, semantic segmentation, and landmark detection benchmarks, and demonstrate that it outperforms state-of-the-art methods. Our results uncover the potential of DPMs as a powerful tool for representation learning and provide insights into the usefulness of generative models beyond sample generation. The code is available at \url{https://github.com/Adamdad/Repfusion}.
翻訳日:2023-08-23 20:07:59 公開日:2023-08-21
# ハイモナイズアクロスイメージングロケーション(HAIL: One-Shot Learning for Brain MRI)

Harmonization Across Imaging Locations(HAIL): One-Shot Learning for Brain MRI ( http://arxiv.org/abs/2308.11047v1 )

ライセンス: Link先を確認
Abhijeet Parida, Zhifan Jiang, Syed Muhammad Anwar, Nicholas Foreman, Nicholas Stence, Michael J. Fisher, Roger J. Packer, Robert A. Avery, and Marius George Linguraru(参考訳) 機械学習による予後診断や小児脳腫瘍などの稀な疾患の診断には、異なるデバイスやプロトコルを使用する可能性のある複数の臨床現場から医療画像データを集める必要がある。 深層学習による放射線画像の調和はgans(generative adversarial network)に依存する。 しかし、gansは「幻覚」として知られる現象である元の訓練データには存在しない疑似構造を生成することで悪名高い。 脳の磁気共鳴画像(MRI)などの医用画像における幻覚を防止するために,我々は,ニューラルスタイル転送をハーモニゼーションに利用するワンショット学習法を提案する。 試験時に、臨床現場からの1つの画像を用いて、コラボレーションサイトの強度スケールに合致した画像を生成する。 このアプローチでは,機能抽出,ニューラルスタイル転送,適応型インスタンス正規化の学習を組み合わせる。 さらに,画像の調和度を計測し,解剖学的構造の保存度を評価する評価指標を用いて,画像調和法の有効性を評価する新しい手法を提案する。 実験の結果,新しい臨床部位に画像強度を調整しながら患者の解剖を保存できる方法の有効性が示された。 我々の一般的な調和モデルは、新しいサイトから見えないデータに利用できるため、現実の医療応用や臨床試験に有用なツールである。

For machine learning-based prognosis and diagnosis of rare diseases, such as pediatric brain tumors, it is necessary to gather medical imaging data from multiple clinical sites that may use different devices and protocols. Deep learning-driven harmonization of radiologic images relies on generative adversarial networks (GANs). However, GANs notoriously generate pseudo structures that do not exist in the original training data, a phenomenon known as "hallucination". To prevent hallucination in medical imaging, such as magnetic resonance images (MRI) of the brain, we propose a one-shot learning method where we utilize neural style transfer for harmonization. At test time, the method uses one image from a clinical site to generate an image that matches the intensity scale of the collaborating sites. Our approach combines learning a feature extractor, neural style transfer, and adaptive instance normalization. We further propose a novel strategy to evaluate the effectiveness of image harmonization approaches with evaluation metrics that both measure image style harmonization and assess the preservation of anatomical structures. Experimental results demonstrate the effectiveness of our method in preserving patient anatomy while adjusting the image intensities to a new clinical site. Our general harmonization model can be used on unseen data from new sites, making it a valuable tool for real-world medical applications and clinical trials.
翻訳日:2023-08-23 20:00:52 公開日:2023-08-21
# 散発的な相関関係とそれを見つけるべき場所

Spurious Correlations and Where to Find Them ( http://arxiv.org/abs/2308.11043v1 )

ライセンス: Link先を確認
Gautam Sreekumar and Vishnu Naresh Boddeti(参考訳) モデルがデータから信頼できない特徴を学習し、データ駆動学習のよく知られた欠点であるときに、明らかな相関が生じる。 これを緩和するためのアルゴリズムはいくつか提案されているが、スプリアス相関の指標は共同して導出していない。 その結果、スタンドアローン仮説に基づく解は単純なERMベースラインを破ることができない。 我々は,スプリアス相関の発生の背後にある一般的な仮説を収集し,因果グラフから生成された合成データセットを用いた標準ermベースラインへの影響を検討する。 その後、これらの仮説とモデル設計の選択を結びつけるパターンを観察する。

Spurious correlations occur when a model learns unreliable features from the data and are a well-known drawback of data-driven learning. Although there are several algorithms proposed to mitigate it, we are yet to jointly derive the indicators of spurious correlations. As a result, the solutions built upon standalone hypotheses fail to beat simple ERM baselines. We collect some of the commonly studied hypotheses behind the occurrence of spurious correlations and investigate their influence on standard ERM baselines using synthetic datasets generated from causal graphs. Subsequently, we observe patterns connecting these hypotheses and model design choices.
翻訳日:2023-08-23 20:00:32 公開日:2023-08-21
# 多視点再構成のための座標量子化ニューラルインプシット表現

Coordinate Quantized Neural Implicit Representations for Multi-view Reconstruction ( http://arxiv.org/abs/2308.11025v1 )

ライセンス: Link先を確認
Sijia Jiang, Jing Hua, Zhizhong Han(参考訳) 近年,3次元再構成のための多視点画像からニューラル暗示表現を学習する研究が盛んに行われている。 追加の入力補完座標として、正弦波関数を位置符号化として用いることは、座標ベースのニューラルネットワークで高周波の詳細を明らかにする上で重要な役割を果たしている。 しかし、高周波位置符号化は最適化を不安定にし、空空間におけるノイズの多い再構成やアーティファクトをもたらす。 この問題を一般の意味で解くために,量子化座標を用いたニューラルネットワークの暗黙表現を学習し,最適化中の場の不確実性と曖昧さを低減させる。 連続座標の代わりに、超高分解能でフィールドを離散化することで得られる量子化座標の最も近い補間を用いて、連続座標を離散座標に離散化する。 我々は離散座標とその位置符号化を用いてボリュームレンダリングを通じて暗黙的関数を学習する。 これによりサンプル空間の変動が著しく減少し、異なるビューからの光線の交点におけるより多視点の一貫性制約が引き起こされ、暗黙の関数をより効果的に推論することができる。 我々の量子化座標は計算負担を伴わず、最新の手法にシームレスに取り組むことができる。 広く使用されているベンチマークによる評価は、最先端技術よりも優位性を示している。 私たちのコードはhttps://github.com/MachinePerceptionLab/CQ-NIRで利用可能です。

In recent years, huge progress has been made on learning neural implicit representations from multi-view images for 3D reconstruction. As an additional input complementing coordinates, using sinusoidal functions as positional encodings plays a key role in revealing high frequency details with coordinate-based neural networks. However, high frequency positional encodings make the optimization unstable, which results in noisy reconstructions and artifacts in empty space. To resolve this issue in a general sense, we introduce to learn neural implicit representations with quantized coordinates, which reduces the uncertainty and ambiguity in the field during optimization. Instead of continuous coordinates, we discretize continuous coordinates into discrete coordinates using nearest interpolation among quantized coordinates which are obtained by discretizing the field in an extremely high resolution. We use discrete coordinates and their positional encodings to learn implicit functions through volume rendering. This significantly reduces the variations in the sample space, and triggers more multi-view consistency constraints on intersections of rays from different views, which enables to infer implicit function in a more effective way. Our quantized coordinates do not bring any computational burden, and can seamlessly work upon the latest methods. Our evaluations under the widely used benchmarks show our superiority over the state-of-the-art. Our code is available at https://github.com/MachinePerceptionLab/CQ-NIR.
翻訳日:2023-08-23 19:59:39 公開日:2023-08-21
# 地球観測を用いた半教師あり学習のためのマルチタスクハイパーグラフ

Multi-Task Hypergraphs for Semi-supervised Learning using Earth Observations ( http://arxiv.org/abs/2308.11021v1 )

ライセンス: Link先を確認
Mihai Pirvu, Alina Marcu, Alexandra Dobrescu, Nabil Belbachir, Marius Leordeanu(参考訳) 世界の解釈には様々な方法があり、相互依存度が高い。 このような複雑な依存関係を利用して、各ノードがタスクであり、与えられたタスクに到達したハイパーグラフを通して異なるパスが教師なしの教師になるような、強力なマルチタスクハイパーグラフを導入します。 各ハイパーエッジは、与えられたタスクのためのアンサンブル教師の一部であり、自己教師型ハイパーグラフシステムの学生でもある。 我々のモデルは、地球観測の最も重要な問題の一つに応用され、それは非常に多タスクであり、しばしば地上データ不足に悩まされる。 nasaのneoデータセットで22年間にわたる広範な実験を行い、強力なベースラインと最近の作業に対して一貫した改善を行うことで、マルチタスクの半教師付きアプローチの価値を実証する。 また,ハイパーグラフは,複数の観測層で最大7年間にわたって欠落したデータであるマルチタスク・セルフスーパービジョン・プロセスを通じて,教師なしデータ分散シフトに適応し,確実に回復可能であることを示す。

There are many ways of interpreting the world and they are highly interdependent. We exploit such complex dependencies and introduce a powerful multi-task hypergraph, in which every node is a task and different paths through the hypergraph reaching a given task become unsupervised teachers, by forming ensembles that learn to generate reliable pseudolabels for that task. Each hyperedge is part of an ensemble teacher for a given task and it is also a student of the self-supervised hypergraph system. We apply our model to one of the most important problems of our times, that of Earth Observation, which is highly multi-task and it often suffers from missing ground-truth data. By performing extensive experiments on the NASA NEO Dataset, spanning a period of 22 years, we demonstrate the value of our multi-task semi-supervised approach, by consistent improvements over strong baselines and recent work. We also show that the hypergraph can adapt unsupervised to gradual data distribution shifts and reliably recover, through its multi-task self-supervision process, the missing data for several observational layers for up to seven years.
翻訳日:2023-08-23 19:59:16 公開日:2023-08-21
# スペクトルグラフオーマー:マルチビューカラー画像を用いたエゴセントリック2手再構成のためのスペクトルグラフベース変換器

Spectral Graphormer: Spectral Graph-based Transformer for Egocentric Two-Hand Reconstruction using Multi-View Color Images ( http://arxiv.org/abs/2308.11015v1 )

ライセンス: Link先を確認
Tze Ho Elden Tse, Franziska Mueller, Zhengyang Shen, Danhang Tang, Thabo Beeler, Mingsong Dou, Yinda Zhang, Sasa Petrovic, Hyung Jin Chang, Jonathan Taylor, Bardia Doosti(参考訳) マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースのフレームワークを提案する。 単一のrgb画像からモデルパラメータをレグレッションするためにディープネットワークを通常訓練する既存のハンドポーズ推定法とは異なり、エゴセントリックな視点から高分解能で拡張前腕を持つ両手の絶対ルートポーズを直接レグレッションするより難しい問題設定を考える。 既存のデータセットは、エゴセントリックな視点では実現できないか、背景のバリエーションがないため、多様なシナリオを持つ大規模な合成データセットを作成し、マルチライブラリカメラセットアップから実際のデータセットを収集し、提案するマルチビュー画像特徴融合戦略を検証する。 再建を物理的に可能なものにするために,我々は2つの戦略を提案する。 (i)アップサンプリング時にメッシュを平滑化する粗度から細度までのスペクトルグラフ畳み込みデコーダ 二 自己侵入を防止するため、推定時の最適化に基づく改善段階 広範に定量的かつ定性的な評価を行うことにより,我々のフレームワークは,実時間AR/VRアプリケーションだけでなく,実データへの合成学習モデルの一般化を実証できることを示す。

We propose a novel transformer-based framework that reconstructs two high fidelity hands from multi-view RGB images. Unlike existing hand pose estimation methods, where one typically trains a deep network to regress hand model parameters from single RGB image, we consider a more challenging problem setting where we directly regress the absolute root poses of two-hands with extended forearm at high resolution from egocentric view. As existing datasets are either infeasible for egocentric viewpoints or lack background variations, we create a large-scale synthetic dataset with diverse scenarios and collect a real dataset from multi-calibrated camera setup to verify our proposed multi-view image feature fusion strategy. To make the reconstruction physically plausible, we propose two strategies: (i) a coarse-to-fine spectral graph convolution decoder to smoothen the meshes during upsampling and (ii) an optimisation-based refinement stage at inference to prevent self-penetrations. Through extensive quantitative and qualitative evaluations, we show that our framework is able to produce realistic two-hand reconstructions and demonstrate the generalisation of synthetic-trained models to real data, as well as real-time AR/VR applications.
翻訳日:2023-08-23 19:58:53 公開日:2023-08-21
# 電子健康記録のパーソナライズされたイベント予測

Personalized Event Prediction for Electronic Health Records ( http://arxiv.org/abs/2308.11013v1 )

ライセンス: Link先を確認
Jeong Min Lee and Milos Hauskrecht(参考訳) 臨床イベントシーケンスは、患者の介護記録を表す数百の臨床イベントで構成される。 このようなシーケンスの正確な予測モデルを開発することは、現在の患者の状態を解釈・分類したり、悪い臨床事象や結果を予測する様々なモデルをサポートする上で非常に重要である。 臨床シーケンスの予測モデルを学ぶ上で重要な課題は、患者固有の多様性である。 基礎となる臨床状況に基づいて、各患者の配列は異なる臨床イベント(観察、検査結果、薬品、処置)から構成される。 したがって、多くの異なる患者でイベントシーケンスから学習した単純な集団ワイドモデルでは、イベントシーケンスとその差異の患者固有のダイナミクスを正確に予測することができない。 そこで本研究では,各患者とその特定状況の予測をより良く調整するための,複数の新しい事象列予測モデルと手法を提案し,検討する。 本研究で開発された手法は, 人口のサブポピュレーション, 自己適応, メタレベルのモデルスイッチングを, 即時予測を支援する最善の機会で, 適応的にモデルを選択することができる。 本研究はMIMIC-IIIデータベースを用いて, 臨床イベントシーケンスにおけるこれらのモデルの性能を解析・検証する。

Clinical event sequences consist of hundreds of clinical events that represent records of patient care in time. Developing accurate predictive models of such sequences is of a great importance for supporting a variety of models for interpreting/classifying the current patient condition, or predicting adverse clinical events and outcomes, all aimed to improve patient care. One important challenge of learning predictive models of clinical sequences is their patient-specific variability. Based on underlying clinical conditions, each patient's sequence may consist of different sets of clinical events (observations, lab results, medications, procedures). Hence, simple population-wide models learned from event sequences for many different patients may not accurately predict patient-specific dynamics of event sequences and their differences. To address the problem, we propose and investigate multiple new event sequence prediction models and methods that let us better adjust the prediction for individual patients and their specific conditions. The methods developed in this work pursue refinement of population-wide models to subpopulations, self-adaptation, and a meta-level model switching that is able to adaptively select the model with the best chance to support the immediate prediction. We analyze and test the performance of these models on clinical event sequences of patients in MIMIC-III database.
翻訳日:2023-08-23 19:58:19 公開日:2023-08-21
# 磁気トンネル接合シナプスを用いたニューロモルフィックヘビアン学習

Neuromorphic Hebbian learning with magnetic tunnel junction synapses ( http://arxiv.org/abs/2308.11011v1 )

ライセンス: Link先を確認
Peng Zhou, Alexander J. Edwards, Frederick B. Mancoff, Sanjeev Aggarwal, Stephen K. Heinrich-Barna, Joseph S. Friedman(参考訳) ニューロモルフィックコンピューティングは、生体ニューラルネットワークの機能と構造の両方を模倣し、人工知能を極端に効率良く提供することを目的としている。 従来のアプローチでは、アナログ抵抗状態の非揮発性メモリデバイスにシナプス重みを格納し、メモリアレイからシナプス重みを転送するコストを回避しつつ、ニューラルネットワーク操作のインメモリ計算を可能にする。 しかし、ニューロモルフィック系における重みの保存におけるアナログ抵抗状態の使用は、確率的記述、確率的過程を通して時間とともに漂う重み、シナプス重みの精度を低下させる限られた持続性によって妨げられる。 本稿では,磁気トンネル接合(MTJ)の2次抵抗状態による高精度な推論を実現するニューロモルフィックネットワークを,教師なしヘビアン学習のための確率的スピントランスファートルク(STT)スイッチングのアナログ特性を活用して,実験的に提案する。 MTJ合成で直接実装したニューロモルフィックネットワークの実験的実験を行った。 また,確率的STT-MTJシナプスを用いた教師なしヘビアン学習システムにより,MNIST手書き文字認識における競合精度が向上することを示した。 ハードウェアを意識した設計によってニューロモルフィックの原則を適切に適用することにより、提案されたSTT-MTJニューロモルフィック学習ネットワークは、極端な効率で自律的に学習する人工知能ハードウェアへの経路を提供する。

Neuromorphic computing aims to mimic both the function and structure of biological neural networks to provide artificial intelligence with extreme efficiency. Conventional approaches store synaptic weights in non-volatile memory devices with analog resistance states, permitting in-memory computation of neural network operations while avoiding the costs associated with transferring synaptic weights from a memory array. However, the use of analog resistance states for storing weights in neuromorphic systems is impeded by stochastic writing, weights drifting over time through stochastic processes, and limited endurance that reduces the precision of synapse weights. Here we propose and experimentally demonstrate neuromorphic networks that provide high-accuracy inference thanks to the binary resistance states of magnetic tunnel junctions (MTJs), while leveraging the analog nature of their stochastic spin-transfer torque (STT) switching for unsupervised Hebbian learning. We performed the first experimental demonstration of a neuromorphic network directly implemented with MTJ synapses, for both inference and spike-timing-dependent plasticity learning. We also demonstrated through simulation that the proposed system for unsupervised Hebbian learning with stochastic STT-MTJ synapses can achieve competitive accuracies for MNIST handwritten digit recognition. By appropriately applying neuromorphic principles through hardware-aware design, the proposed STT-MTJ neuromorphic learning networks provide a pathway toward artificial intelligence hardware that learns autonomously with extreme efficiency.
翻訳日:2023-08-23 19:57:46 公開日:2023-08-21
# 数学的短解項目の自動評価における言語モデルの利用

Using language models in the implicit automated assessment of mathematical short answer items ( http://arxiv.org/abs/2308.11006v1 )

ライセンス: Link先を確認
Christopher Ormerod(参考訳) 本稿では,数学項目に対する短い構成応答を評価する新しい方法を提案する。 このアプローチでは、学生が応答で指定したキーバリューを識別するパイプラインを使用する。 これにより、反応の正しさを判断し、誤解を識別することができます。 価値識別パイプラインからの情報は、教師と生徒にフィードバックを提供するために使用できる。 値識別パイプラインは2つの微調整言語モデルで構成される。 最初のモデルは、学生の反応で値が暗黙的かどうかを判断する。 第2のモデルは、応答中のキー値が指定された場所を特定する。 我々は、任意のプロンプトと値に使用できるジェネリックモデルと、それぞれのプロンプトと値に固有のモデルの両方を考慮する。 値識別パイプラインは、従来のルーリックベースのスコアリングよりも、短い構築された応答を評価するための正確で情報的な方法である。 学生にもっとターゲティングなフィードバックを提供するために利用することができ、数学の理解を改善するのに役立ちます。

We propose a new way to assess certain short constructed responses to mathematics items. Our approach uses a pipeline that identifies the key values specified by the student in their response. This allows us to determine the correctness of the response, as well as identify any misconceptions. The information from the value identification pipeline can then be used to provide feedback to the teacher and student. The value identification pipeline consists of two fine-tuned language models. The first model determines if a value is implicit in the student response. The second model identifies where in the response the key value is specified. We consider both a generic model that can be used for any prompt and value, as well as models that are specific to each prompt and value. The value identification pipeline is a more accurate and informative way to assess short constructed responses than traditional rubric-based scoring. It can be used to provide more targeted feedback to students, which can help them improve their understanding of mathematics.
翻訳日:2023-08-23 19:57:18 公開日:2023-08-21
# ロバストビデオ予測器を用いた自然映像の長期予測

Long-Term Prediction of Natural Video Sequences with Robust Video Predictors ( http://arxiv.org/abs/2308.11079v1 )

ライセンス: Link先を確認
Luke Ditria, Tom Drummond(参考訳) 高次元ビデオシーケンスの予測は、奇妙なほど難しい問題である。 あるビデオシーケンスの可能な将来数は、不確実性のために時間とともに指数関数的に増加する。 これは、世界の限られたスナップショットから複雑な自然映像シーンを予測しようとする場合に特に顕著である。 固有の不確実性は、長期的な予測を非常に難しくする未来にさらに蓄積します。 この作業では、ロバストビデオ予測器(RoViP)の作成を支援する既存の作業に多くの改善を加えました。 深い知覚と不確実性に基づく再建損失を組み合わせることで,高品質な短期予測を実現できることを示す。 注意に基づくスキップ接続は、入力特徴の長距離空間移動を可能とし、さらなる性能向上を可能にする。 最後に,予測器を自身の予測誤差に対して頑健にすることで,反復的な単段予測タスクを用いて,非常に長く現実的な自然映像を生成できることを示す。

Predicting high dimensional video sequences is a curiously difficult problem. The number of possible futures for a given video sequence grows exponentially over time due to uncertainty. This is especially evident when trying to predict complicated natural video scenes from a limited snapshot of the world. The inherent uncertainty accumulates the further into the future you predict making long-term prediction very difficult. In this work we introduce a number of improvements to existing work that aid in creating Robust Video Predictors (RoViPs). We show that with a combination of deep Perceptual and uncertainty-based reconstruction losses we are able to create high quality short-term predictions. Attention-based skip connections are utilised to allow for long range spatial movement of input features to further improve performance. Finally, we show that by simply making the predictor robust to its own prediction errors, it is possible to produce very long, realistic natural video sequences using an iterated single-step prediction task.
翻訳日:2023-08-23 19:51:36 公開日:2023-08-21
# アイシングモデルにおける正規化群と深層学習の関連性についての一考察

A Deep Dive into the Connections Between the Renormalization Group and Deep Learning in the Ising Model ( http://arxiv.org/abs/2308.11075v1 )

ライセンス: Link先を確認
Kelsie Taylor(参考訳) 再正規化群 (renormalization group, rg) は、統計物理学および量子場理論において必須の手法であり、物理理論のスケール不変性と、これらの理論のパラメータがスケーリングによってどのように変化するかを考える。 ディープラーニングは、多層ニューラルネットワークを使用して、無数の複雑な問題を解決する強力な計算技術である。 従来の研究では、教師なしディープラーニングは、原データの層間粗粒化によって、RGフローの一形態である可能性が示唆されている。 この関係をより厳密に検討し,2次元近距離イジングモデルのカダノフブロック再正規化の簡単な例として,限定ボルツマンマシン(rbms)による深層学習について検討した。 比較基準となる1Dおよび2Dイジングモデルに対する広範な再正規化手法を開発した。 2次元イジングモデルでは、Wolffアルゴリズムを用いてIsingモデルサンプルを生成し、準決定論的手法を用いてグループフローを行い、臨界指数 \nu を計算してこれらの結果を検証する。 次に,Isingモデル層を層単位でRBM学習し,RGと定性的に類似した学習におけるブロック構造を見出した。 最後に、学習からイジングスピン再正規化までの各層の重みを直接比較したが、最も近いイジングモデルの単純な場合の定量的不整合を見出した。

The renormalization group (RG) is an essential technique in statistical physics and quantum field theory, which considers scale-invariant properties of physical theories and how these theories' parameters change with scaling. Deep learning is a powerful computational technique that uses multi-layered neural networks to solve a myriad of complicated problems. Previous research suggests the possibility that unsupervised deep learning may be a form of RG flow, by being a layer-by-layer coarse graining of the original data. We examined this connection on a more rigorous basis for the simple example of Kadanoff block renormalization of the 2D nearest-neighbor Ising model, with our deep learning accomplished via Restricted Boltzmann Machines (RBMs). We developed extensive renormalization techniques for the 1D and 2D Ising model to provide a baseline for comparison. For the 1D Ising model, we successfully used Adam optimization on a correlation length loss function to learn the group flow, yielding results consistent with the analytical model for infinite N. For the 2D Ising model, we successfully generated Ising model samples using the Wolff algorithm, and performed the group flow using a quasi-deterministic method, validating these results by calculating the critical exponent \nu. We then examined RBM learning of the Ising model layer by layer, finding a blocking structure in the learning that is qualitatively similar to RG. Lastly, we directly compared the weights of each layer from the learning to Ising spin renormalization, but found quantitative inconsistencies for the simple case of nearest-neighbor Ising models.
翻訳日:2023-08-23 19:51:21 公開日:2023-08-21
# 視聴覚クラスインクリメンタルラーニング

Audio-Visual Class-Incremental Learning ( http://arxiv.org/abs/2308.11073v1 )

ライセンス: Link先を確認
Weiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian(参考訳) 本稿では,音声視覚ビデオ認識のためのクラス増分学習シナリオである音声視覚クラス増分学習を紹介する。 音声と視覚の同時モデリングは, クラスインクリメンタル学習を改善できるが, 現在の手法では, 漸進的なステップが進むにつれて, 音声と視覚の特徴間の意味的類似性は維持できない。 さらに,前回の課題で学習した視聴覚相関は,漸進的なステップが進むにつれて忘れられ,性能が低下する傾向が観察された。 これらの課題を克服するために,av-cilでは,インスタンス認識とクラス認識の両方の意味的類似性を維持するために,d-avsc(d-audio-visual similarity constraint)を組み込んだav-cilを提案する。 AVE, Kinetics-Sounds, VGGSound100-Class-Incremental, VGGSound100-Class-Incremental, AVE, Kinetics-Sounds, VGGSoundの3つのクラスインクリメンタルデータセットを作成する。 AVE-CI, K-S-CI, VS100-CI を用いた実験により, AV-CIL が既存のクラス増分学習法よりも優れていることが示された。 コードとデータは、https://github.com/weiguopian/av-cil_iccv2023で入手できる。

In this paper, we introduce audio-visual class-incremental learning, a class-incremental learning scenario for audio-visual video recognition. We demonstrate that joint audio-visual modeling can improve class-incremental learning, but current methods fail to preserve semantic similarity between audio and visual features as incremental step grows. Furthermore, we observe that audio-visual correlations learned in previous tasks can be forgotten as incremental steps progress, leading to poor performance. To overcome these challenges, we propose AV-CIL, which incorporates Dual-Audio-Visual Similarity Constraint (D-AVSC) to maintain both instance-aware and class-aware semantic similarity between audio-visual modalities and Visual Attention Distillation (VAD) to retain previously learned audio-guided visual attentive ability. We create three audio-visual class-incremental datasets, AVE-Class-Incremental (AVE-CI), Kinetics-Sounds-Class-Incremental (K-S-CI), and VGGSound100-Class-Incremental (VS100-CI) based on the AVE, Kinetics-Sounds, and VGGSound datasets, respectively. Our experiments on AVE-CI, K-S-CI, and VS100-CI demonstrate that AV-CIL significantly outperforms existing class-incremental learning methods in audio-visual class-incremental learning. Code and data are available at: https://github.com/weiguoPian/AV-CIL_ICCV2023.
翻訳日:2023-08-23 19:50:51 公開日:2023-08-21
# Nested Multi-Adnt Reasoningのためのニューラルアモータライズ推論

Neural Amortized Inference for Nested Multi-agent Reasoning ( http://arxiv.org/abs/2308.11071v1 )

ライセンス: Link先を確認
Kunal Jha, Tuan Anh Le, Chuanyang Jin, Yen-Ling Kuo, Joshua B. Tenenbaum, Tianmin Shu(参考訳) コミュニケーション、指導、ブラッフィングなどのマルチエージェントインタラクションは、しばしば高階の社会的推論、すなわち他人がどのように自分自身を推論するかを理解することに依存する。 このような複雑な推論は、ネストしたマルチエージェント推論によって効果的にモデル化できる。 それでも計算の複雑さは、各レベルの推論によって指数関数的にエスカレートし、大きな課題となる。 しかし、人間は日々の生活の一部として複雑な社会的推論を行う。 人型推論能力と計算限界のギャップを埋めるため,ニューラルネットワークを利用して高次社会的推論を記憶し,ネストしたマルチエージェント推論を高速化する手法を提案する。 提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。 実験の結果,精度の低下を最小限に抑えながら,計算効率がよいことがわかった。

Multi-agent interactions, such as communication, teaching, and bluffing, often rely on higher-order social inference, i.e., understanding how others infer oneself. Such intricate reasoning can be effectively modeled through nested multi-agent reasoning. Nonetheless, the computational complexity escalates exponentially with each level of reasoning, posing a significant challenge. However, humans effortlessly perform complex social inferences as part of their daily lives. To bridge the gap between human-like inference capabilities and computational limitations, we propose a novel approach: leveraging neural networks to amortize high-order social inference, thereby expediting nested multi-agent reasoning. We evaluate our method in two challenging multi-agent interaction domains. The experimental results demonstrate that our method is computationally efficient while exhibiting minimal degradation in accuracy.
翻訳日:2023-08-23 19:50:16 公開日:2023-08-21
# 映像に基づく行動認識に対する時間分布バックドア攻撃

Temporal-Distributed Backdoor Attack Against Video Based Action Recognition ( http://arxiv.org/abs/2308.11070v1 )

ライセンス: Link先を確認
Xi Li, Songhe Wang, Ruiquan Huang, Mahanth Gowda, George Kesidis(参考訳) ディープニューラルネットワーク(DNN)は、ビデオアクション認識を含む様々なアプリケーションで大きな成功を収めているが、バックドア攻撃(トロイの木馬)には弱いままである。 backdoor-compromizedモデルでは,テストインスタンス(非ターゲットクラス)に特定のトリガを組み込んだ場合,アタックフリーインスタンスの精度を維持しながら,攻撃者が選択したターゲットクラスを誤って分類する。 画像データに対するバックドア攻撃については広範な研究があるが、バックドア攻撃による映像ベースシステムの受容性は未解明のままである。 現在の研究は、画像データに対して提案されたアプローチの直接拡張である。例えば、トリガーはフレーム内に埋め込まれており、既存の防御によって検出される傾向がある。 本稿では,ビデオデータに対する \textit{simple} かつ \textit{effective} バックドア攻撃を提案する。 提案する攻撃は、変換されたドメインに摂動を加え、ビデオフレーム全体に \textbf{imperceptible, temporally distributed} トリガーを仕掛け、既存の防御戦略に耐性があることが示されている。 提案手法の有効性は,ビデオ認識ベンチマーク ucf101 と hmdb51 と手話認識ベンチマーク greek sign language (gsl) データセットを用いて,様々な既知のモデルを用いた広範囲な実験により実証された。 提案する攻撃に対するいくつかの要因の影響を考察し、広範囲な研究を通じて「集団的損傷」と呼ばれる興味深い効果を見いだした。

Deep neural networks (DNNs) have achieved tremendous success in various applications including video action recognition, yet remain vulnerable to backdoor attacks (Trojans). The backdoor-compromised model will mis-classify to the target class chosen by the attacker when a test instance (from a non-target class) is embedded with a specific trigger, while maintaining high accuracy on attack-free instances. Although there are extensive studies on backdoor attacks against image data, the susceptibility of video-based systems under backdoor attacks remains largely unexplored. Current studies are direct extensions of approaches proposed for image data, e.g., the triggers are \textbf{independently} embedded within the frames, which tend to be detectable by existing defenses. In this paper, we introduce a \textit{simple} yet \textit{effective} backdoor attack against video data. Our proposed attack, adding perturbations in a transformed domain, plants an \textbf{imperceptible, temporally distributed} trigger across the video frames, and is shown to be resilient to existing defensive strategies. The effectiveness of the proposed attack is demonstrated by extensive experiments with various well-known models on two video recognition benchmarks, UCF101 and HMDB51, and a sign language recognition benchmark, Greek Sign Language (GSL) dataset. We delve into the impact of several influential factors on our proposed attack and identify an intriguing effect termed "collateral damage" through extensive studies.
翻訳日:2023-08-23 19:50:01 公開日:2023-08-21
# トポロジカルグラフ信号圧縮

Topological Graph Signal Compression ( http://arxiv.org/abs/2308.11068v1 )

ライセンス: Link先を確認
Guillermo Bern\'ardez, Lev Telyatnikov, Eduard Alarc\'on, Albert Cabellos-Aparicio, Pere Barlet-Ros, Pietro Li\`o(参考訳) 最近登場したトポロジカルディープラーニング(TDL)手法は、グラフ表現によって定義されたペア関係や局所近傍を越えて、高次相互作用を自然に処理することで、現在のグラフニューラルネットワーク(GNN)を拡張することを目的としている。 本稿では,グラフ上の信号を圧縮する新しいTDL方式を提案する。まず,高次構造の解離した集合を,元の信号に基づいて推定する -$N$データポイントを$K\ll N$コレクションにクラスタリングすることで,位相的メッセージパッシングは,これらの多元集合内の信号の圧縮表現を得る。 我々のフレームワークは、標準的なGNNとフィードフォワードアーキテクチャの両方を改善して、2つのリアルタイムインターネットサービスプロバイダネットワークのデータセットから時間リンクベースの信号を圧縮します。

Recently emerged Topological Deep Learning (TDL) methods aim to extend current Graph Neural Networks (GNN) by naturally processing higher-order interactions, going beyond the pairwise relations and local neighborhoods defined by graph representations. In this paper we propose a novel TDL-based method for compressing signals over graphs, consisting in two main steps: first, disjoint sets of higher-order structures are inferred based on the original signal --by clustering $N$ datapoints into $K\ll N$ collections; then, a topological-inspired message passing gets a compressed representation of the signal within those multi-element sets. Our results show that our framework improves both standard GNN and feed-forward architectures in compressing temporal link-based signals from two real-word Internet Service Provider Networks' datasets --from $30\%$ up to $90\%$ better reconstruction errors across all evaluation scenarios--, suggesting that it better captures and exploits spatial and temporal correlations over the whole graph-based network structure.
翻訳日:2023-08-23 19:49:32 公開日:2023-08-21
# MetaGCD: 一般的なカテゴリー発見を継続的に学ぶ

MetaGCD: Learning to Continually Learn in Generalized Category Discovery ( http://arxiv.org/abs/2308.11063v1 )

ライセンス: Link先を確認
Yanan Wu, Zhixiang Chi, Yang Wang, Songhe Feng(参考訳) 本稿では、事前定義されたクラスでトレーニングされたモデルが、既知のクラスと新しいクラスの両方を含むラベルのないデータに常に遭遇する現実のシナリオについて考察する。 目標は、既知のクラスのパフォーマンスを維持しながら、新しいクラスを継続的に発見することである。 設定を連続的一般化圏発見 (c-gcd) と呼ぶ。 新規クラス発見のための既存のメソッドは、新しいクラスのみを含むラベルのないデータのような非現実的な仮定のために、直接c-gcd設定を扱うことができない。 さらに、新しいクラスを連続的に発見することができない。 本研究では,これらの仮定をすべて引き上げ,MetaGCDと呼ばれるアプローチを提案し,忘れることなく段階的に発見する方法を学習する。 提案手法はメタラーニングフレームワークを用いて,オフラインラベル付きデータを用いてテスト段階学習プロセスのシミュレーションを行う。 メタオブジェクトは、2つの矛盾する学習目標を取り囲むように定義され、忘れずに新しいクラス発見を実現する。 さらに,相関画像を引き寄せながら非相関画像を識別するソフト近傍型コントラストネットワークを提案する。 強力なベースラインを構築し、3つの広く使われているベンチマークで広範な実験を行い、本手法の優位性を実証する。

In this paper, we consider a real-world scenario where a model that is trained on pre-defined classes continually encounters unlabeled data that contains both known and novel classes. The goal is to continually discover novel classes while maintaining the performance in known classes. We name the setting Continual Generalized Category Discovery (C-GCD). Existing methods for novel class discovery cannot directly handle the C-GCD setting due to some unrealistic assumptions, such as the unlabeled data only containing novel classes. Furthermore, they fail to discover novel classes in a continual fashion. In this work, we lift all these assumptions and propose an approach, called MetaGCD, to learn how to incrementally discover with less forgetting. Our proposed method uses a meta-learning framework and leverages the offline labeled data to simulate the testing incremental learning process. A meta-objective is defined to revolve around two conflicting learning objectives to achieve novel class discovery without forgetting. Furthermore, a soft neighborhood-based contrastive network is proposed to discriminate uncorrelated images while attracting correlated images. We build strong baselines and conduct extensive experiments on three widely used benchmarks to demonstrate the superiority of our method.
翻訳日:2023-08-23 19:49:10 公開日:2023-08-21
# UnLoc: ビデオローカライゼーションタスクのための統一フレームワーク

UnLoc: A Unified Framework for Video Localization Tasks ( http://arxiv.org/abs/2308.11062v1 )

ライセンス: Link先を確認
Shen Yan, Xuehan Xiong, Arsha Nagrani, Anurag Arnab, Zhonghao Wang, Weina Ge, David Ross, Cordelia Schmid(参考訳) clipのような大規模な画像テキスト事前学習モデルは、トリミングビデオの複数のビデオレベルのタスクに使われているが、未トリミングビデオでの時間的ローカライズには、まだ比較的未検討の作業である。 我々は、事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給するUnLocと呼ばれる新しいアプローチを設計する。 融合モジュールの出力は、各レベルがヘッドと接続してフレーム毎の関連スコアと開始/終了時間のずれを予測する機能ピラミッドを構築するために使用される。 従来の作業とは異なり,モーメント検索や時間的局所化,アクションセグメンテーションを単一ステージモデルで実現しており,動作提案やモーションベース事前学習特徴,表現マスクは不要である。 専門的なモデルとは異なり、統一的なアプローチで3つの異なるローカライゼーションタスクの成果を達成できる。 コードは \url{https://github.com/google-research/scenic} で入手できる。

While large-scale image-text pretrained models such as CLIP have been used for multiple video-level tasks on trimmed videos, their use for temporal localization in untrimmed videos is still a relatively unexplored task. We design a new approach for this called UnLoc, which uses pretrained image and text towers, and feeds tokens to a video-text fusion model. The output of the fusion module are then used to construct a feature pyramid in which each level connects to a head to predict a per-frame relevancy score and start/end time displacements. Unlike previous works, our architecture enables Moment Retrieval, Temporal Localization, and Action Segmentation with a single stage model, without the need for action proposals, motion based pretrained features or representation masking. Unlike specialized models, we achieve state of the art results on all three different localization tasks with a unified approach. Code will be available at: \url{https://github.com/google-research/scenic}.
翻訳日:2023-08-23 19:48:52 公開日:2023-08-21
# 識別領域を超えて:弱監視セマンティックセマンティックセグメンテーションのためのCAMに代わるサリエンシマップ

Beyond Discriminative Regions: Saliency Maps as Alternatives to CAMs for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2308.11052v1 )

ライセンス: Link先を確認
M. Maruf, Arka Daw, Amartya Dutta, Jie Bu, Anuj Karpatne(参考訳) 近年,分類器が生成するクラスアクティベーションマップ(cams)を用いて,訓練用セグメンテーションモデルの擬似基底真理を生成する,弱い教師付きセマンティックセグメンテーション(ws3)手法がいくつか提案されている。 CAMは画像の識別領域(DR)を強調するのが得意であるが、分類器の予測に寄与しない物体の領域を無視することが知られている。 対照的に、サリエンシーマップのような帰属法は、分類予測への貢献に基づいて各ピクセルにスコアを割り当てる別のアプローチを提供する。 本稿では、WS3に対する唾液とCAMを包括的に比較する。 本研究は, 類似点と相違点の理解に関する複数の視点を含む。 さらに、代替手法であるCAMのWS3性能を総合的に評価する新しい評価指標を提供する。 我々は,ベンチマークデータセットに関する実証研究を通じて,CAMの限界に対処する上でのサリエンシの有効性を示す。 さらに,サリエンシ性能を向上させる確率的集約手法としてランダムトリミングを提案し,WS3 に対する CAM の強力な代替となる。

In recent years, several Weakly Supervised Semantic Segmentation (WS3) methods have been proposed that use class activation maps (CAMs) generated by a classifier to produce pseudo-ground truths for training segmentation models. While CAMs are good at highlighting discriminative regions (DR) of an image, they are known to disregard regions of the object that do not contribute to the classifier's prediction, termed non-discriminative regions (NDR). In contrast, attribution methods such as saliency maps provide an alternative approach for assigning a score to every pixel based on its contribution to the classification prediction. This paper provides a comprehensive comparison between saliencies and CAMs for WS3. Our study includes multiple perspectives on understanding their similarities and dissimilarities. Moreover, we provide new evaluation metrics that perform a comprehensive assessment of WS3 performance of alternative methods w.r.t. CAMs. We demonstrate the effectiveness of saliencies in addressing the limitation of CAMs through our empirical studies on benchmark datasets. Furthermore, we propose random cropping as a stochastic aggregation technique that improves the performance of saliency, making it a strong alternative to CAM for WS3.
翻訳日:2023-08-23 19:48:34 公開日:2023-08-21
# ユーザシミュレータとしての大規模言語モデル

Large Language Model as a User Simulator ( http://arxiv.org/abs/2308.11534v1 )

ライセンス: Link先を確認
Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang(参考訳) クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。 しかし、baizeやultrachatのような現在の取り組みは、人間参加の難しさから会話データを自動生成することを目指しているが、それらは主に、本物の人間学習ではなく、指示に基づいて人間の行動をシミュレートするためにchatgptに依存している。 その結果、スコープが限定され、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如することになる。 そこで本研究では,人間と機械の対話から抽出した質問を学習目標とし,ユーザシミュレータであるusergptを訓練し,高品質な合成会話データセットであるrealchatを作成する。 このデータセットは、私たちのアシスタントモデルであるReaLMをトレーニングします。 実験的に、realmは等価なトレーニングセットサイズを考えると、vicuna-benchとmt-benchの両方のベースラインモデルよりも2対比較で上回っており、手作業による評価も高い競合性を示している。 印象的なことに、最新のLLaMA 2モデルで微調整された場合、ReaLMはMT-Benchで6.33のスコアを獲得し、LLaMA-2-7B-Chatモデルを含む同規模のモデルを上回った。 さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。 トレーニングセットデータ品質と結果モデルパフォーマンスとの相互作用に関する予備的な調査も行われ、将来の調査のための堅牢な基礎となる。

The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT conversations, as evidenced by Vicuna. However, while current endeavors like Baize and UltraChat aim to auto-generate conversational data due to challenges in gathering human participation, they primarily rely on ChatGPT to simulate human behaviors based on directives rather than genuine human learning. This results in a limited scope, diminished diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we innovatively target human questions extracted from genuine human-machine conversations as a learning goal and train a user simulator, UserGPT, to produce a high-quality human-centric synthetic conversation dataset, RealChat. Subsequently, this dataset trains our assistant model, ReaLM. Experimentally, ReaLM outpaces baseline models in both Vicuna-Bench and MT-Bench by pairwise comparison when considering equivalent training set sizes, and manual evaluation also shows that our model is highly competitive. Impressively, when fine-tuned with the latest LLaMA 2 model, ReaLM secured a leading score of 6.33 in the MT-Bench, outshining the contemporary same-scale models, including the LLaMA-2-7B-chat model. Further in-depth analysis demonstrates the scalability and transferability of our approach. A preliminary exploration into the interplay between training set data quality and resultant model performance is also undertaken, laying a robust groundwork for future investigations.
翻訳日:2023-08-23 17:32:00 公開日:2023-08-21
# refashioning emotion recognition modelling: 一般化された大規模モデルの出現

Refashioning Emotion Recognition Modelling: The Advent of Generalised Large Models ( http://arxiv.org/abs/2308.11578v1 )

ライセンス: Link先を確認
Zixing Zhang, Liyizhe Peng, Tao Pang, Jing Han, Huan Zhao, Bjorn W. Schuller(参考訳) 感情認識や感情コンピューティングの開始後、その幅広い応用により、活発な研究トピックとなっている。 過去数十年間、感情認識モデルは統計的に浅いモデルからニューラルネットワークベースの深層モデルへと徐々に移行してきた。 そのため、近年では、深いモデルが感情認識の最初の選択肢とみなされている。 しかし、ChatGPTのような大規模言語モデル(LLM)の登場は、ゼロ/フェーショット学習、インコンテキスト学習、チェーン・オブ・シントといった従来のディープモデルにはない能力の出現によって、世界を驚くほど驚かせた。 本稿では,LLMが感情認識において,文脈内学習,少数短学習,正確性,一般化,説明といった様々な側面でどのように機能するかを包括的に検討する。 さらに、我々は、先進的および一般化された大規模モデルの新たな時代における感情認識の強化に関する広範な議論に火をつけたいと願っている。

After the inception of emotion recognition or affective computing, it has increasingly become an active research topic due to its broad applications. Over the past couple of decades, emotion recognition models have gradually migrated from statistically shallow models to neural network-based deep models, which can significantly boost the performance of emotion recognition models and consistently achieve the best results on different benchmarks. Therefore, in recent years, deep models have always been considered the first option for emotion recognition. However, the debut of large language models (LLMs), such as ChatGPT, has remarkably astonished the world due to their emerged capabilities of zero/few-shot learning, in-context learning, chain-of-thought, and others that are never shown in previous deep models. In the present paper, we comprehensively investigate how the LLMs perform in emotion recognition in terms of diverse aspects, including in-context learning, few-short learning, accuracy, generalisation, and explanation. Moreover, we offer some insights and pose other potential challenges, hoping to ignite broader discussions about enhancing emotion recognition in the new era of advanced and generalised large models.
翻訳日:2023-08-23 17:19:22 公開日:2023-08-21
# Race Gotはそれと何の関係があるのか? 機械学習とディープラーニングを用いた人種間での若者の抑うつ予測

What's Race Got to do with it? Predicting Youth Depression Across Racial Groups Using Machine and Deep Learning ( http://arxiv.org/abs/2308.11591v1 )

ライセンス: Link先を確認
Nathan Zhong and Nikhil Yadav(参考訳) うつ病は一般的だが深刻な精神障害であり、毎年何百万人もの高校生に影響を与えている。 それでも、正確な診断と早期発見は重要な課題である。 公衆衛生の分野では、ニューラルネットワークががんやHIVなどの他の病気を識別する有望な結果をもたらすことが研究によって示されている。 本研究では,機械学習(ml)モデルとニューラルネットワーク(ann)モデルを用いて,学生の抑うつを分類する手法を提案する。 さらに、この研究は人種サブグループに関連する要因の違いを強調し、より広範囲で多様なデータセットの必要性を提唱している。 モデルでは全国の若者リスク行動監視システム(yrbss)の調査データをトレーニングし、統計分析によりうつ病の最も関連する要因が明らかになった。 調査データは、900のエントリからなる3つのレースサブセットを含む15,000のエントリからなる構造化データセットである。 分類では、研究問題を教師付き学習二分分類問題としてモデル化する。 異なる人種サブグループに対する抑うつに関連する要因も同定される。 MLとANNモデルはデータセット全体に基づいてトレーニングされ、続いてさまざまなレースサブセットを使用して、個人がうつ病を患っているかどうかを分類する。 ANNモデルが最も高いF1スコアは82.90%、最高のパフォーマンスの機械学習モデルであるサポートベクターマシン(SVM)は81.90%である。 本研究は、様々な人種集団におけるうつ病のモデル化に異なるパラメータが有用であることを明らかにし、アメリカの青年うつ病の研究をさらに進める。

Depression is a common yet serious mental disorder that affects millions of U.S. high schoolers every year. Still, accurate diagnosis and early detection remain significant challenges. In the field of public health, research shows that neural networks produce promising results in identifying other diseases such as cancer and HIV. This study proposes a similar approach, utilizing machine learning (ML) and artificial neural network (ANN) models to classify depression in a student. Additionally, the study highlights the differences in relevant factors for race subgroups and advocates the need for more extensive and diverse datasets. The models train on nationwide Youth Risk Behavior Surveillance System (YRBSS) survey data, in which the most relevant factors of depression are found with statistical analysis. The survey data is a structured dataset with 15000 entries including three race subsets each consisting of 900 entries. For classification, the research problem is modeled as a supervised learning binary classification problem. Factors relevant to depression for different racial subgroups are also identified. The ML and ANN models are trained on the entire dataset followed by different race subsets to classify whether an individual has depression. The ANN model achieves the highest F1 score of 82.90% while the best-performing machine learning model, support vector machines (SVM), achieves a score of 81.90%. This study reveals that different parameters are more valuable for modeling depression across diverse racial groups and furthers research regarding American youth depression.
翻訳日:2023-08-23 17:07:50 公開日:2023-08-21
# LOPR:ジェネレーティブモデルを用いた潜伏作業適応

LOPR: Latent Occupancy PRediction using Generative Models ( http://arxiv.org/abs/2210.01249v2 )

ライセンス: Link先を確認
Bernard Lange, Masha Itkina, Mykel J. Kochenderfer(参考訳) 環境予測フレームワークは自動運転車に不可欠なもので、動的環境における安全なナビゲーションを可能にする。 LiDARの生成した占有グリッドマップ(L-OGM)は、一般的に使用される軌道予測フレームワークとは異なり、手動ラベリングに頼ることなく、共同シーンの予測を容易にする堅牢な鳥の目視シーン表現を提供する。 従来のアプローチでは、グリッドセル空間で直接、決定論的L-OGM予測アーキテクチャを最適化していた。 これらの手法は予測においてある程度の成功を収めてきたが、時には非現実的で誤った予測に悩まされる。 予測された占有グリッドの品質とリアリズムは生成モデルを用いて向上できると主張している。 本稿では, 占有率予測を「表現学習」と「確率予測」に分解する枠組みを提案する。 提案手法では,RGBカメラや高精細マップなど,利用可能なセンサモードでモデルを条件付けすることができる。 このアプローチが最先端のパフォーマンスを達成し、実世界の裸眼、waymo open、実験車プラットフォームで収集したカスタムデータセット上で、さまざまなロボットプラットフォーム間で容易に転送できることを実証する。

Environment prediction frameworks are integral for autonomous vehicles, enabling safe navigation in dynamic environments. LiDAR generated occupancy grid maps (L-OGMs) offer a robust bird's eye-view scene representation that facilitates joint scene predictions without relying on manual labeling unlike commonly used trajectory prediction frameworks. Prior approaches have optimized deterministic L-OGM prediction architectures directly in grid cell space. While these methods have achieved some degree of success in prediction, they occasionally grapple with unrealistic and incorrect predictions. We claim that the quality and realism of the forecasted occupancy grids can be enhanced with the use of generative models. We propose a framework that decouples occupancy prediction into: representation learning and stochastic prediction within the learned latent space. Our approach allows for conditioning the model on other available sensor modalities such as RGB-cameras and high definition maps. We demonstrate that our approach achieves state-of-the-art performance and is readily transferable between different robotic platforms on the real-world NuScenes, Waymo Open, and a custom dataset we collected on an experimental vehicle platform.
翻訳日:2023-08-23 15:19:49 公開日:2023-08-21
# 物体検出システムに対する中間者攻撃

A Man-in-the-Middle Attack against Object Detection Systems ( http://arxiv.org/abs/2208.07174v3 )

ライセンス: Link先を確認
Han Wu, Sareh Rowlands and Johan Wahlstrom(参考訳) ディープラーニングモデルを用いた物体検出システムは,組み込みシステムにおけるcpuやgpuのパワー向上により,ロボット工学においてますます普及している。 しかし、これらのモデルは敵攻撃の影響を受けやすい。 検出システムへのアクセスに関する厳密な仮定によって攻撃は制限されるが、暗号における中間者攻撃に触発された新しいハードウェア攻撃を提案する。 この攻撃はUAP(Universal Adversarial Perturbation)を生成し、その後ハードウェア攻撃によってUSBカメラと検出システムの間の摂動を注入する。 さらに、先行研究は、攻撃性能よりもモデル精度を計測する評価指標によって誤解される。 提案する評価指標と組み合わせることで, 逆摂動の強さが著しく向上する。 これらの発見は、自律運転のような安全クリティカルなシステムにおけるディープラーニングモデルの適用に対する深刻な懸念を引き起こす。

Object detection systems using deep learning models have become increasingly popular in robotics thanks to the rising power of CPUs and GPUs in embedded systems. However, these models are susceptible to adversarial attacks. While some attacks are limited by strict assumptions on access to the detection system, we propose a novel hardware attack inspired by Man-in-the-Middle attacks in cryptography. This attack generates an Universal Adversarial Perturbation (UAP) and then inject the perturbation between the USB camera and the detection system via a hardware attack. Besides, prior research is misled by an evaluation metric that measures the model accuracy rather than the attack performance. In combination with our proposed evaluation metrics, we significantly increases the strength of adversarial perturbations. These findings raise serious concerns for applications of deep learning models in safety-critical systems, such as autonomous driving.
翻訳日:2023-08-23 15:18:20 公開日:2023-08-21
# 時間依存コーンシャム系のダイナミクスによる機械学習コーンシャムポテンシャル

Machine-learning Kohn-Sham potential from dynamics in time-dependent Kohn-Sham systems ( http://arxiv.org/abs/2207.00687v2 )

ライセンス: Link先を確認
Jun Yang, James D Whitfield(参考訳) 時間依存密度汎関数理論(TDDFT)におけるより良い交換相関ポテンシャルの構築は、TDDFT計算の精度を改善し、多電子系の特性をより正確に予測することができる。 本稿では,時間依存型コーンシャムシステムのエネルギー汎関数とコーンシャムポテンシャルを開発するための機械学習手法を提案する。 この方法はコーン・シャム・システムのダイナミクスに基づいており、モデルのトレーニングに正確なコーン・シャムポテンシャルに関するデータを必要としない。 1D高調波発振器の例と1D2電子の例で本手法の結果を実証した。 機械学習されたコーンシャムポテンシャルは、記憶効果がない場合に正確なコーンシャムポテンシャルと一致することを示す。 本手法は,コーン・シャム系のダイナミクスを記憶効果の存在下でも捉えることができる。 本稿では,時間依存型コーン・シャムシステムにおけるエネルギー汎関数とコーン・シャムポテンシャルのより良い近似に関する知見を提供する。

The construction of a better exchange-correlation potential in time-dependent density functional theory (TDDFT) can improve the accuracy of TDDFT calculations and provide more accurate predictions of the properties of many-electron systems. Here, we propose a machine learning method to develop the energy functional and the Kohn-Sham potential of a time-dependent Kohn-Sham system is proposed. The method is based on the dynamics of the Kohn-Sham system and does not require any data on the exact Kohn-Sham potential for training the model. We demonstrate the results of our method with a 1D harmonic oscillator example and a 1D two-electron example. We show that the machine-learned Kohn-Sham potential matches the exact Kohn-Sham potential in the absence of memory effect. Our method can still capture the dynamics of the Kohn-Sham system in the presence of memory effects. The machine learning method developed in this article provides insight into making better approximations of the energy functional and the Kohn-Sham potential in the time-dependent Kohn-Sham system.
翻訳日:2023-08-23 15:17:53 公開日:2023-08-21
# 画像分類クラウドサービスに対する分散ブラックボックス攻撃

Distributed Black-box Attack against Image Classification Cloud Services ( http://arxiv.org/abs/2210.16371v3 )

ライセンス: Link先を確認
Han Wu, Sareh Rowlands, Johan Wahlstrom(参考訳) ブラックボックスの敵攻撃は、モデル構造や重みへのアクセスを必要とせずに、画像分類器を誤分類する可能性がある。 最近の研究では、攻撃成功率は、1000クエリ未満で95%以上と報告されている。 その疑問は、ブラックボックス攻撃が、画像分類を達成するためにクラウドAPIに依存するIoTデバイスに対する真の脅威になったかどうかである。 これに光を当てるために、以前の研究は主に成功率の向上とクエリ数の減少に重点を置いてきたことに注意しよう。 しかし、クラウドAPIに対するブラックボックス攻撃のもうひとつの重要な要因は、攻撃の実行に必要な時間だ。 本稿では,ローカルモデルではなくクラウドapiに直接ブラックボックス攻撃を適用することにより,画像エンコーディングや前処理前に摂動を適用した先行研究における誤りを回避する。 さらに,局所探索法と勾配推定法の両方において,攻撃時間の約5倍削減が可能な分散ブラックボックス攻撃を実現するために,ロードバランシングを利用する。

Black-box adversarial attacks can fool image classifiers into misclassifying images without requiring access to model structure and weights. Recent studies have reported attack success rates of over 95% with less than 1,000 queries. The question then arises of whether black-box attacks have become a real threat against IoT devices that rely on cloud APIs to achieve image classification. To shed some light on this, note that prior research has primarily focused on increasing the success rate and reducing the number of queries. However, another crucial factor for black-box attacks against cloud APIs is the time required to perform the attack. This paper applies black-box attacks directly to cloud APIs rather than to local models, thereby avoiding mistakes made in prior research that applied the perturbation before image encoding and pre-processing. Further, we exploit load balancing to enable distributed black-box attacks that can reduce the attack time by a factor of about five for both local search and gradient estimation methods.
翻訳日:2023-08-23 15:08:03 公開日:2023-08-21
# 共有臨床音声記録における再同定の危険性

Risk of re-identification for shared clinical speech recordings ( http://arxiv.org/abs/2210.09975v2 )

ライセンス: Link先を確認
Daniela A. Wiepert, Bradley A. Malin, Joseph R. Duffy, Rene L. Utianski, John L. Stricker, David T. Jones, and Hugo Botha(参考訳) 大規模でキュレートされたデータセットは、医療における音声ベースのツールを活用するために必要です。 これらは製造にコストがかかり、データ共有への関心が高まる。 音声が話者(例えば音声プリント)を識別できるため、録音を共有することはプライバシーの懸念を引き起こす。 話者認識システムを用いて、人口統計やメタデータによらず、音声記録の再識別リスクを検討する。 リスクは、相手が考慮しなければならない比較数、すなわち探索空間と逆関係であることを示す。 小さな検索スペースではリスクが高いが、検索スペースが大きくなると減少する(precision >0.85$ for $<1*10^{6}$ comparisons, $precision <0.5$ for $>3*10^{6}$ comparisons)。 次に,音声記録の性質が再識別のリスクに影響を与え,非接続音声(母音延長など)の識別が困難であることを示す。 以上の結果から,話者認識システムは特定の状況下での参加者の再識別に有効であることが示唆された。

Large, curated datasets are required to leverage speech-based tools in healthcare. These are costly to produce, resulting in increased interest in data sharing. As speech can potentially identify speakers (i.e., voiceprints), sharing recordings raises privacy concerns. We examine the re-identification risk for speech recordings, without reference to demographic or metadata, using a state-of-the-art speaker recognition system. We demonstrate that the risk is inversely related to the number of comparisons an adversary must consider, i.e., the search space. Risk is high for a small search space but drops as the search space grows ($precision >0.85$ for $<1*10^{6}$ comparisons, $precision <0.5$ for $>3*10^{6}$ comparisons). Next, we show that the nature of a speech recording influences re-identification risk, with non-connected speech (e.g., vowel prolongation) being harder to identify. Our findings suggest that speaker recognition systems can be used to re-identify participants in specific circumstances, but in practice, the re-identification risk appears low.
翻訳日:2023-08-23 15:07:01 公開日:2023-08-21
# ISEE.U:予測不可能なターゲットによる分散オンラインアクティブターゲットローカライゼーション

ISEE.U: Distributed online active target localization with unpredictable targets ( http://arxiv.org/abs/2210.09107v2 )

ライセンス: Link先を確認
Miguel Vasques, Claudia Soares, Jo\~ao Gomes(参考訳) 本稿では, 各ノードにおける分散, 単純, 高速な計算によって定義されるオンライン能動学習アルゴリズムを用いて, 目標位置の推定を調整するパラメータがなく, 集中型最大分布推定器に期待して, 漸近的に同じ位置にあることを示す。 ISEE.Uは各エージェントに対してノイズの多い距離を取り、ローカライズ精度を最大化する制御を見つける。 特定のターゲットダイナミクスを想定していないため,予測不能なターゲットに対してロバストな手法である。 各エージェントは、Fisher Information Matrixの局所推定により、全体的な目標位置精度を最大化する制御を計算する。 提案手法を,目標運動が所定の軌道に従わない場合と,本手法が1つの中央CPU上で動作している場合の計算時間をx100より短縮した場合とを比較した。

This paper addresses target localization with an online active learning algorithm defined by distributed, simple and fast computations at each node, with no parameters to tune and where the estimate of the target position at each agent is asymptotically equal in expectation to the centralized maximum-likelihood estimator. ISEE.U takes noisy distances at each agent and finds a control that maximizes localization accuracy. We do not assume specific target dynamics and, thus, our method is robust when facing unpredictable targets. Each agent computes the control that maximizes overall target position accuracy via a local estimate of the Fisher Information Matrix. We compared the proposed method with a state of the art algorithm outperforming it when the target movements do not follow a prescribed trajectory, with x100 less computation time, even when our method is running in one central CPU.
翻訳日:2023-08-23 15:06:42 公開日:2023-08-21
# 不連続性の設計

Designing Discontinuities ( http://arxiv.org/abs/2305.08559v2 )

ライセンス: Link先を確認
Ibtihal Ferwana, Suyoung Park, Ting-Yi Wu, and Lav R. Varshney(参考訳) 不連続性はかなり任意であるが、社会システムの結果に大きな影響を及ぼす。 実際、それらの任意性は、多くの設定で変数間の因果関係を推測するために使われてきた理由である。 エコノメトリーからの回帰不連続性は、与えられた現象の因果効果を推定するために、集団を別々に分割する不連続変数の存在を仮定する。 ここでは、ある不連続変数に対する分割の設計について検討し、回帰不連続性を用いて以前に研究されたある効果を最適化する。 そこで本研究では,ある不連続変数の因果効果の大きさを学習し,その効果の大きさの利得と損失のバランスをとる不連続性の最適量子化設計に動的プログラミングを適用することにより,利害効果を最適化する量子化理論手法を提案する。 また,最適量子化の動的計画定式化のための計算効率の高い強化学習アルゴリズムを開発した。 我々は,ソーシャル・キャピタル,ソーシャル・モビリティ,健康の両立のために最適なタイムゾーン境界を設計することにより,このアプローチを実証する。 これは、日没時と社会資本の因果関係を示す独立した経験的興味を持つ新しいデータに基づく回帰不連続分析に基づいている。

Discontinuities can be fairly arbitrary but also cause a significant impact on outcomes in social systems. Indeed, their arbitrariness is why they have been used to infer causal relationships among variables in numerous settings. Regression discontinuity from econometrics assumes the existence of a discontinuous variable that splits the population into distinct partitions to estimate the causal effects of a given phenomenon. Here we consider the design of partitions for a given discontinuous variable to optimize a certain effect previously studied using regression discontinuity. To do so, we propose a quantization-theoretic approach to optimize the effect of interest, first learning the causal effect size of a given discontinuous variable and then applying dynamic programming for optimal quantization design of discontinuities that balance the gain and loss in the effect size. We also develop a computationally-efficient reinforcement learning algorithm for the dynamic programming formulation of optimal quantization. We demonstrate our approach by designing optimal time zone borders for counterfactuals of social capital, social mobility, and health. This is based on regression discontinuity analyses we perform on novel data, which may be of independent empirical interest in showing a causal relationship between sunset time and social capital.
翻訳日:2023-08-23 14:47:53 公開日:2023-08-21
# 因果推論における二重・単一降下と高次元合成制御への応用

Double and Single Descent in Causal Inference with an Application to High-Dimensional Synthetic Control ( http://arxiv.org/abs/2305.00700v2 )

ライセンス: Link先を確認
Jann Spiess, Guido Imbens, Amar Venugopal(参考訳) 機械学習における二重発色現象に関する最近の文献に触発され、多くの制御ユニットによる合成制御を含む、因果推論における高度に過度なパラメータ化モデルを考える。 このようなモデルでは、多くの自由パラメータが存在するため、モデルは完全にトレーニングデータに適合する。 まず,賃金データを示唆する高次元線形回帰と平均治療効果の推定を行い,サンプルサイズよりも多くの共変量を持つモデルが単純なモデルを上回ることを見出した。 次に,多数の制御ユニットを有する高次元合成制御推定器の性能を文書化する。 制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。 これらの高次元モデルの性能に関する統一的な理論的視点を提供する。 具体的には,より単純なモデルよりも複雑なモデルの方が,平均性能の向上に結びついていることを示す。 この視点は、制御ユニットが前処理期間の数に対して多くの場合、合成制御の使用に関する具体的な洞察を与える。

Motivated by a recent literature on the double-descent phenomenon in machine learning, we consider highly over-parameterized models in causal inference, including synthetic control with many control units. In such models, there may be so many free parameters that the model fits the training data perfectly. We first investigate high-dimensional linear regression for imputing wage data and estimating average treatment effects, where we find that models with many more covariates than sample size can outperform simple ones. We then document the performance of high-dimensional synthetic control estimators with many control units. We find that adding control units can help improve imputation performance even beyond the point where the pre-treatment fit is perfect. We provide a unified theoretical perspective on the performance of these high-dimensional models. Specifically, we show that more complex models can be interpreted as model-averaging estimators over simpler ones, which we link to an improvement in average performance. This perspective yields concrete insights into the use of synthetic control when control units are many relative to the number of pre-treatment periods.
翻訳日:2023-08-23 14:46:29 公開日:2023-08-21
# ADASSM:画像からの統計的形状モデルにおける逆データ拡張

ADASSM: Adversarial Data Augmentation in Statistical Shape Models From Images ( http://arxiv.org/abs/2307.03273v3 )

ライセンス: Link先を確認
Mokshagna Sai Teja Karanam, Tushar Kataria, Krithika Iyer and Shireen Elhabian(参考訳) 統計的形状モデル (SSM) は, 個体群全体の解剖学的変化を識別するための優れたツールとして確立されている。 形状モデルは、与えられたコホート内のすべてのサンプルに対して一貫した形状表現を使用し、形状を比較し、病理を検出できるバリエーションを特定し、治療計画を定式化するのに役立ちます。 医用画像では、これらの形状表現をCT/MRIスキャンから計算するには、解剖学的セグメンテーションアノテーション、登録、テクスチャデノイングを含む時間集約的な前処理操作が必要となる。 深層学習モデルは、体積画像から直接形状表現を学習する際、例外的な能力を示し、高効率で効率的な画像-SSMネットワークを生み出している。 それでもこれらのモデルはデータ不足であり、医療データの入手が限られているため、ディープラーニングモデルは過度に適合する傾向にある。 形状拡張されたサンプルを生成するためにカーネル密度推定(KDE)法を用いるオフラインデータ拡張技術は、従来のSSM法と同等の精度で画像からSSMネットワークを支援することに成功した。 しかし,これらの拡張手法は形状向上に重点を置いているのに対し,深層学習モデルは画像に基づくテクスチャバイアスを示し,準最適モデルとなる。 本稿では,データ依存型ノイズ生成やテクスチャ拡張を利用して,画像間SSMフレームワークのオンザフライデータ拡張のための新しい戦略を提案する。 提案するフレームワークは,画像対ssmネットワークの敵として訓練され,多様で難解なサンプルを補完する。 提案手法は,画素値のみに頼らず,基礎となる幾何学に焦点をあてることにより,精度の向上を実現する。

Statistical shape models (SSM) have been well-established as an excellent tool for identifying variations in the morphology of anatomy across the underlying population. Shape models use consistent shape representation across all the samples in a given cohort, which helps to compare shapes and identify the variations that can detect pathologies and help in formulating treatment plans. In medical imaging, computing these shape representations from CT/MRI scans requires time-intensive preprocessing operations, including but not limited to anatomy segmentation annotations, registration, and texture denoising. Deep learning models have demonstrated exceptional capabilities in learning shape representations directly from volumetric images, giving rise to highly effective and efficient Image-to-SSM networks. Nevertheless, these models are data-hungry and due to the limited availability of medical data, deep learning models tend to overfit. Offline data augmentation techniques, that use kernel density estimation based (KDE) methods for generating shape-augmented samples, have successfully aided Image-to-SSM networks in achieving comparable accuracy to traditional SSM methods. However, these augmentation methods focus on shape augmentation, whereas deep learning models exhibit image-based texture bias resulting in sub-optimal models. This paper introduces a novel strategy for on-the-fly data augmentation for the Image-to-SSM framework by leveraging data-dependent noise generation or texture augmentation. The proposed framework is trained as an adversary to the Image-to-SSM network, augmenting diverse and challenging noisy samples. Our approach achieves improved accuracy by encouraging the model to focus on the underlying geometry rather than relying solely on pixel values.
翻訳日:2023-08-23 14:36:44 公開日:2023-08-21
# 強反発型トポロジカル格子モデルにおける超伝導

Superconductivity in a Topological Lattice Model with Strong Repulsion ( http://arxiv.org/abs/2308.10935v1 )

ライセンス: Link先を確認
Rahul Sahay, Stefan Divic, Daniel E. Parker, Tomohiro Soejima, Sajant Anand, Johannes Hauschild, Monika Aidelsburger, Ashvin Vishwanath, Shubhayu Chatterjee, Norman Y. Yao, Michael P. Zaletel(参考訳) 固体と冷たい原子のコンテキストの両方において、合成量子物質の高度に調整可能な性質は、超伝導体のような物質の相関相の実現に役立つ顕微鏡的成分を調べることを招いている。 モワール系材料の最近の実験的進歩は、フェルミ-ハッバードモデルと量子ホール系の特徴を統一することで、そのような相の出現のための肥厚な土台が生まれることを示唆している。 ここでは, 時間反転対称性, バンドトポロジー, 強い反発相互作用という, まさにこれらの特徴を組み込んだ極小2次元格子モデルを紹介する。 無限円筒密度行列再正規化群法 (シリンダiDMRG) を用いて, 本モデルの基底状態相図について検討する。 相互作用誘起量子スピンホール(QSH)絶縁体をホストし、この状態が弱いホールドーピングによって超伝導体が有限周で生じることを実証し、この挙動がより大きなシリンダーに持続することを示す。 上記の円周では、超伝導相は対流路内の追加の反発相互作用を含む摂動に対して驚くほど堅牢である。 iDMRGにおける超伝導ギャップ関数を探索する手法を開発することにより,超伝導体を現象学的に特徴づける。 すなわち,QSH絶縁体上の孔の弱い対から形成されることを示す。 さらに、超伝導体の対対称性を判定し、ツイスト二層グラフェン(tbg)の実験で報告された非典型的な超伝導を想起させる。 このことから,本モデルとTBGのキラル限界における構造的類似点と相違点を解明した。 最後に、より直接的な実験的な実現のために、光学格子内のコールドフェルミオンアルカリ-アース原子系のハミルトニアンの実装を詳述する。

The highly tunable nature of synthetic quantum materials -- both in the solid-state and cold atom contexts -- invites examining which microscopic ingredients aid in the realization of correlated phases of matter such as superconductors. Recent experimental advances in moir\'e materials suggest that unifying the features of the Fermi-Hubbard model and quantum Hall systems creates a fertile ground for the emergence of such phases. Here, we introduce a minimal 2D lattice model that incorporates exactly these features: time-reversal symmetry, band topology, and strong repulsive interactions. By using infinite cylinder density matrix renormalization group methods (cylinder iDMRG), we investigate the ground state phase diagram of this model. We find that it hosts an interaction-induced quantum spin Hall (QSH) insulator and demonstrate that weakly hole-doping this state gives rise to a superconductor at a finite circumference, with indications that this behavior persists on larger cylinders. At the aforementioned circumference, the superconducting phase is surprisingly robust to perturbations including additional repulsive interactions in the pairing channel. By developing a technique to probe the superconducting gap function in iDMRG, we phenomenologically characterize the superconductor. Namely, we demonstrate that it is formed from the weak pairing of holes atop the QSH insulator. Furthermore, we determine the pairing symmetry of the superconductor, finding it to be $p$-wave -- reminiscent of the unconventional superconductivity reported in experiments on twisted bilayer graphene (TBG). Motivated by this, we elucidate structural similarities and differences between our model and those of TBG in its chiral limit. Finally, to provide a more direct experimental realization, we detail an implementation of our Hamiltonian in a system of cold fermionic alkaline-earth atoms in an optical lattice.
翻訳日:2023-08-23 14:26:49 公開日:2023-08-21
# 平均場理論は神経量子状態に対して単純である

Mean-field theories are simple for neural quantum states ( http://arxiv.org/abs/2308.10934v1 )

ライセンス: Link先を確認
Fabian Ballar Trigueros, Tiago Mendes-Santos, Markus Heyl(参考訳) 量子多体波動関数を表現するための人工ニューラルネットワークの利用は、基底状態と非平衡ダイナミクスの両方において、近年大きな進歩を遂げている。 しかし、このニューラル量子状態フレームワークにおける状態複雑性の定量化はいまだに解明されていない。 本研究では、この鍵となるオープンな疑問を、補完的な観点から解決する:どの状態が神経量子状態で表すのが簡単か? 具体的には、置換対称性を持つ平均場理論の基底状態は、限られた数の独立したニューラルネットワークパラメータしか必要としないことを示す。 熱力学的限界において, 平均場イジングモデルである完全連結横フィールドイジングモデル(TFIM)の基底状態への収束は, 1つのパラメータだけで達成できることを解析的に証明した。 解析を拡大し、置換対称性の破れの下で1パラメータアンサッツの挙動を探索する。 その目的のために、TFIMは可変長範囲の相互作用を持ち、相互作用指数$\alpha$を特徴とする。 解析的に、ニューラル量子状態の1パラメータアンサッツは、0\le \alpha \le 1$ の値全体の基底状態を正確に捉えており、このレジームにおけるモデルの平均場記述を示している。

The utilization of artificial neural networks for representing quantum many-body wave functions has garnered significant attention, with enormous recent progress for both ground states and non-equilibrium dynamics. However, quantifying state complexity within this neural quantum states framework remains elusive. In this study, we address this key open question from the complementary point of view: Which states are simple to represent with neural quantum states? Concretely, we show on a general level that ground states of mean-field theories with permutation symmetry only require a limited number of independent neural network parameters. We analytically establish that, in the thermodynamic limit, convergence to the ground state of the fully-connected transverse-field Ising model (TFIM), the mean-field Ising model, can be achieved with just one single parameter. Expanding our analysis, we explore the behavior of the 1-parameter ansatz under breaking of the permutation symmetry. For that purpose, we consider the TFIM with tunable long-range interactions, characterized by an interaction exponent $\alpha$. We show analytically that the 1-parameter ansatz for the neural quantum state still accurately captures the ground state for a whole range of values for $0\le \alpha \le 1$, implying a mean-field description of the model in this regime.
翻訳日:2023-08-23 14:26:06 公開日:2023-08-21
# 摂動相互作用を伴うハイゼンベルク制限気象学

Heisenberg-limited metrology with perturbing interactions ( http://arxiv.org/abs/2308.10929v1 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas(参考訳) 測定過程中に空間的局所的相互作用が存在する場合,GHZ様の状態に対してハイゼンベルク限定のメトロジーを実行することが可能である。 多項式時間古典計算に基づく測定とフィードバックに依存する明示的なプロトコルは、ハイゼンベルク極限を達成する。 一次元では行列積状態法を古典計算に利用することができ、高次元ではクラスター展開は効率的な計算の基盤となる。 後者のアプローチは、短周期量子力学のための効率的な古典的サンプリングアルゴリズムに基づいている。

We show that it is possible to perform Heisenberg-limited metrology on GHZ-like states, in the presence of generic spatially local interactions during the measurement process. An explicit protocol, which relies on measurements and feedback based on polynomial-time classical computation, achieves the Heisenberg limit. In one dimension, matrix product state methods can be used to perform this classical calculation, while in higher dimensions the cluster expansion underlies the efficient calculations. The latter approach is based on an efficient classical sampling algorithm for short-time quantum dynamics, which may be of independent interest.
翻訳日:2023-08-23 14:25:42 公開日:2023-08-21
# datavinci: 学習構文と意味文字列の補修

DataVinci: Learning Syntactic and Semantic String Repairs ( http://arxiv.org/abs/2308.10922v1 )

ライセンス: Link先を確認
Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen(参考訳) 実世界のデータセットでは文字列データが一般的で、Webから180万の実際のExcelスプレッドシートのサンプルの67.6%がテキストとして表現されている。 このような文字列データのクリーニングに成功したシステムは、実際のユーザに大きな影響を与える可能性がある。 以前の作業では文字列データのエラーを探索していたが、提案されたアプローチはエラー検出に限られていたり、ユーザがエラーを修正するためにアノテーションや例、制約を提供したりすることが多かった。 さらに、これらのシステムは、文字列の構文的誤りや意味的誤りに独立して焦点を合わせているが、文字列が構文的および意味的サブストリングの両方を含むことが多いことは無視している。 完全教師なし文字列データエラー検出と修復システムであるDataVinciを紹介する。 DataVinciはカラム内のほとんどの値をカバーする正規表現ベースのパターンを学び、データエラーのようなパターンを満足しない値を報告する。 DataVinciは、さらなるユーザインタラクションを必要とせずに、他のカラムで学んだ多数パターンと制約に基づいて、自動的にデータエラーへの編集を導出することができる。 構文的なサブストリングとセマンティックサブストリングの両方で文字列を処理するために、DataVinciはLLMを使用して、多数パターンの学習や編集の導出に先立って意味のある文字列の部分を抽象化(および再生成)する。 すべてのデータが過半数のパターンになるわけではないため、datavinciは既存のプログラム(ターゲットデータを読み取る)の実行情報を活用して、他の方法で識別されないデータ修復を識別し、修正する。 DataVinciは、既存の4つのベンチマークと新しいベンチマークで評価された場合、エラー検出と修復の両方で7つのベースラインを上回っている。

String data is common in real-world datasets: 67.6% of values in a sample of 1.8 million real Excel spreadsheets from the web were represented as text. Systems that successfully clean such string data can have a significant impact on real users. While prior work has explored errors in string data, proposed approaches have often been limited to error detection or require that the user provide annotations, examples, or constraints to fix the errors. Furthermore, these systems have focused independently on syntactic errors or semantic errors in strings, but ignore that strings often contain both syntactic and semantic substrings. We introduce DataVinci, a fully unsupervised string data error detection and repair system. DataVinci learns regular-expression-based patterns that cover a majority of values in a column and reports values that do not satisfy such patterns as data errors. DataVinci can automatically derive edits to the data error based on the majority patterns and constraints learned over other columns without the need for further user interaction. To handle strings with both syntactic and semantic substrings, DataVinci uses an LLM to abstract (and re-concretize) portions of strings that are semantic prior to learning majority patterns and deriving edits. Because not all data can result in majority patterns, DataVinci leverages execution information from an existing program (which reads the target data) to identify and correct data repairs that would not otherwise be identified. DataVinci outperforms 7 baselines on both error detection and repair when evaluated on 4 existing and new benchmarks.
翻訳日:2023-08-23 14:25:32 公開日:2023-08-21
# 人工知能による抗菌ペプチドの発見

Artificial intelligence-driven antimicrobial peptide discovery ( http://arxiv.org/abs/2308.10921v1 )

ライセンス: Link先を確認
Paulina Szymczak, Ewa Szczurek(参考訳) 抗菌ペプチド (amps) は抗菌性に対する有望な薬剤として出現し、従来の抗生物質の代替となる。 人工知能(AI)は、差別と生成の両方のアプローチを通じてAMP発見に革命をもたらした。 本発明の判別器は、活性や毒性などの主要なペプチド特性を予測し、かつ、生成体はペプチド上の分布を学習し、デノボまたはプロトタイプペプチドの類似体として新規なAMP候補のサンプリングを可能にする。 さらに, 条件付きおよび最適化された生成に加えて, 識別器誘導フィルタリング, 正の学習, 潜在空間サンプリングにより, 所望の特性を有するampの生成制御を実現する。 ここでは、AI駆動AMP発見における最近の成果をレビューし、最もエキサイティングな方向性を強調します。

Antimicrobial peptides (AMPs) emerge as promising agents against antimicrobial resistance, providing an alternative to conventional antibiotics. Artificial intelligence (AI) revolutionized AMP discovery through both discrimination and generation approaches. The discriminators aid the identification of promising candidates by predicting key peptide properties such as activity and toxicity, while the generators learn the distribution over peptides and enable sampling novel AMP candidates, either de novo, or as analogues of a prototype peptide. Moreover, the controlled generation of AMPs with desired properties is achieved by discriminator-guided filtering, positive-only learning, latent space sampling, as well as conditional and optimized generation. Here we review recent achievements in AI-driven AMP discovery, highlighting the most exciting directions.
翻訳日:2023-08-23 14:25:05 公開日:2023-08-21
# pacs:マルチヘッド注意機構モデルに基づくマルチオミクスデータによる癌サブタイプの予測と解析

PACS: Prediction and analysis of cancer subtypes from multi-omics data based on a multi-head attention mechanism model ( http://arxiv.org/abs/2308.10917v1 )

ライセンス: Link先を確認
Liangrui Pan, Dazheng Liu, Zhichao Feng, Wenjuan Liu, Shaoliang Peng(参考訳) がんの高均一性および臨床的特徴から,多変量データと癌サブタイプの臨床的特徴に有意差が認められた。 したがって、がんサブタイプの正確な分類は、医師が最も適切な治療法を選択し、治療結果を改善し、より正確な患者生存予測を提供するのに役立つ。 本研究では,がんサブタイプの分類に成功するためのマルチヘッドアテンション機構モデル(SMA)を提案する。 SMAモデルのアテンション機構と特徴共有モジュールは、マルチオミクスデータのグローバルおよびローカルの特徴情報をうまく学習することができる。 第二に、シームズから融合モジュールを介してマルチヘッドアテンションエンコーダを深く融合させることによりモデルのパラメータを豊かにする。 広範な実験によって検証されたsmaモデルは、ae、cnn、gnnベースのモデルと比較して、シミュレート、シングルセル、および癌マルチオミクスデータセットにおける癌サブタイプの最高精度、f1マクロ、f1重み付け、正確な分類を達成している。 そこで我々は,注意に基づくアプローチによるマルチオミクスデータの研究に貢献する。

Due to the high heterogeneity and clinical characteristics of cancer, there are significant differences in multi-omic data and clinical characteristics among different cancer subtypes. Therefore, accurate classification of cancer subtypes can help doctors choose the most appropriate treatment options, improve treatment outcomes, and provide more accurate patient survival predictions. In this study, we propose a supervised multi-head attention mechanism model (SMA) to classify cancer subtypes successfully. The attention mechanism and feature sharing module of the SMA model can successfully learn the global and local feature information of multi-omics data. Second, it enriches the parameters of the model by deeply fusing multi-head attention encoders from Siamese through the fusion module. Validated by extensive experiments, the SMA model achieves the highest accuracy, F1 macroscopic, F1 weighted, and accurate classification of cancer subtypes in simulated, single-cell, and cancer multiomics datasets compared to AE, CNN, and GNN-based models. Therefore, we contribute to future research on multiomics data using our attention-based approach.
翻訳日:2023-08-23 14:24:52 公開日:2023-08-21
# リアルタイム・プロポーショナル・マイノコントロールのためのインスタンスベース学習--義肢組込みシステムにおける精度保存データ削減を実証するランダム化ユーザスタディ

Instance-based Learning with Prototype Reduction for Real-Time Proportional Myocontrol: A Randomized User Study Demonstrating Accuracy-preserving Data Reduction for Prosthetic Embedded Systems ( http://arxiv.org/abs/2308.11019v1 )

ライセンス: Link先を確認
Tim Sziburis, Markus Nowak, Davide Brunelli(参考訳) 本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。 インスタンスベースの予測において高い計算要求に対処するため、リアルタイム決定性を考慮したデータセット削減手法を評価し、電池駆動携帯機器への信頼性の高い統合を可能にする。 8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。 オフラインのクロスバリデーション精度に加えて、リアルタイムパイロット実験(オンライン目標達成試験)の成功率を決定する。 精度とタイミング動作に関する組込み制御アプリケーションに対する特定のデータセット削減手法の妥当性の評価に基づいて、DSM(Decision Surface Mapping)は、kNNを縮小セットに適用する際の有望性を証明している。 ランダム化二重盲検ユーザスタディにより,Rook Regression (RR) とRandom Fourier Features (RR-RFF) に対する各手法 (kNN, kNN, DSM-reduction) の評価を行った。 kNN法は, 回帰法よりも有意に優れていた(p<0.0005)。 DSM-kNNとkNNの間には統計的に有意な差はなかった(数値レベル0.05)。 これは、クラスごとに1つのサンプルだけを減らし、成功率を維持しながら99%以上の還元率を得るという点で顕著である。 同じ行動は、拡張されたユーザー調査で確認することができる。 k=1が優れた選択であることが判明すると、kNN(全ての予測ステップ)とDSM-kNN(トレーニングフェーズ)の両方のランタイム複雑性は、元のサンプルの数に関して線形になり、信頼性の高いウェアラブル補綴応用が好まれる。

This work presents the design, implementation and validation of learning techniques based on the kNN scheme for gesture detection in prosthetic control. To cope with high computational demands in instance-based prediction, methods of dataset reduction are evaluated considering real-time determinism to allow for the reliable integration into battery-powered portable devices. The influence of parameterization and varying proportionality schemes is analyzed, utilizing an eight-channel-sEMG armband. Besides offline cross-validation accuracy, success rates in real-time pilot experiments (online target achievement tests) are determined. Based on the assessment of specific dataset reduction techniques' adequacy for embedded control applications regarding accuracy and timing behaviour, Decision Surface Mapping (DSM) proves itself promising when applying kNN on the reduced set. A randomized, double-blind user study was conducted to evaluate the respective methods (kNN and kNN with DSM-reduction) against Ridge Regression (RR) and RR with Random Fourier Features (RR-RFF). The kNN-based methods performed significantly better (p<0.0005) than the regression techniques. Between DSM-kNN and kNN, there was no statistically significant difference (significance level 0.05). This is remarkable in consideration of only one sample per class in the reduced set, thus yielding a reduction rate of over 99% while preserving success rate. The same behaviour could be confirmed in an extended user study. With k=1, which turned out to be an excellent choice, the runtime complexity of both kNN (in every prediction step) as well as DSM-kNN (in the training phase) becomes linear concerning the number of original samples, favouring dependable wearable prosthesis applications.
翻訳日:2023-08-23 14:17:32 公開日:2023-08-21
# 量子skyrmionの安定性:射影的測定と量子ゼノ効果

Stability of a quantum skyrmion: projective measurements and the quantum Zeno effect ( http://arxiv.org/abs/2308.11014v1 )

ライセンス: Link先を確認
Fabio Salvati, Mikhail I. Katsnelson, Andrey A. Bagrov, Tom Westerhout(参考訳) 磁気スキャミオンは渦状準粒子であり、長寿命と顕著な位相特性が特徴である。 これにより、磁気情報ストレージや処理デバイスにおける情報キャリアの役割に期待できる候補となる。 古典系におけるスカイミオンの研究においてかなりの進歩があったが、量子の場合についてはほとんど知られていない: 量子スカイミオンは系の局所磁化を探索することで直接観察することはできず、トポロジカル保護の概念は量子領域において解明される。 ここでは、量子スカイミオンの潜在的堅牢性について、古典的なものと比較して検討する。 局所射影計測対象の量子スキャミオンのダイナミクスを理論的に解析し、外部摂動によってスキャミオン量子状態の性質がほとんど変化しないことを示す。 さらに、量子スキャミオン上で繰り返し測定を行うことで、量子ゼノ効果の類似物によって完全に安定化できることを示した。

Magnetic skyrmions are vortex-like quasiparticles characterized by long lifetime and remarkable topological properties. That makes them a promising candidate for the role of information carriers in magnetic information storage and processing devices. Although considerable progress has been made in studying skyrmions in classical systems, little is known about the quantum case: quantum skyrmions cannot be directly observed by probing the local magnetization of the system, and the notion of topological protection is elusive in the quantum realm. Here, we explore the potential robustness of quantum skyrmions in comparison to their classical counterparts. We theoretically analyze the dynamics of a quantum skyrmion subject to local projective measurements and demonstrate that the properties of the skyrmionic quantum state change very little upon external perturbations. We further show that by performing repetitive measurements on a quantum skyrmion, it can be completely stabilized through an analog of the quantum Zeno effect.
翻訳日:2023-08-23 14:17:04 公開日:2023-08-21
# 組織像分割のためのトランスモデルのロバストトレーニングのための切替補助損失

Switched auxiliary loss for robust training of transformer models for histopathological image segmentation ( http://arxiv.org/abs/2308.10994v1 )

ライセンス: Link先を確認
Mustaffa Hussain, Saharsh Barve(参考訳) 機能組織単位(英: functional tissue unit、ftus)は、特定の臓器に局在する細胞集団である。 FTUは、細胞レベルで情報を提供することで、特定の臓器に影響を及ぼす疾患を理解する上で、病理学者に重要な情報を提供する。 本研究では,HBMAP+HPA-Hacking the Human Body competitionデータセットを用いて,腎臓,大腸,肺,前立腺,脾臓の5臓器に複数臓器のFTUを分割するモデルを開発した。 深層モデルの最適学習に向けた課題となる勾配問題の解消のために,トランスフォーマなどのトレーニングモデルにシフト補助損失を追加することを提案する。 全体として,公開データセットでは0.793点,プライベートデータセットでは0.778点,提案手法では1%改善した。 また, 医用画像解析の分野における密集した予測タスクに対するトランスフォーマーモデルの利用も強化された。 この研究は、細胞と組織組織との関係を理解するのに役立ち、細胞機能のヒトの健康への影響を調べるための有用な媒体を提供する。

Functional tissue Units (FTUs) are cell population neighborhoods local to a particular organ performing its main function. The FTUs provide crucial information to the pathologist in understanding the disease affecting a particular organ by providing information at the cellular level. In our research, we have developed a model to segment multi-organ FTUs across 5 organs namely: the kidney, large intestine, lung, prostate and spleen by utilizing the HuBMAP + HPA - Hacking the Human Body competition dataset. We propose adding shifted auxiliary loss for training models like the transformers to overcome the diminishing gradient problem which poses a challenge towards optimal training of deep models. Overall, our model achieved a dice score of 0.793 on the public dataset and 0.778 on the private dataset and shows a 1% improvement with the use of the proposed method. The findings also bolster the use of transformers models for dense prediction tasks in the field of medical image analysis. The study assists in understanding the relationships between cell and tissue organization thereby providing a useful medium to look at the impact of cellular functions on human health.
翻訳日:2023-08-23 14:16:32 公開日:2023-08-21
# 経済予測における機械学習手法の計量

Econometrics of Machine Learning Methods in Economic Forecasting ( http://arxiv.org/abs/2308.10993v1 )

ライセンス: Link先を確認
Andrii Babii, Eric Ghysels, Jonas Striaukas(参考訳) 本稿では、経済予測のための機械学習手法の最近の進歩について調査する。 調査は、 nowcasting、textual data、panel and tensor data、high-dimensional granger causality test、time series cross-validation、classification with economic lossといったトピックをカバーしている。

This paper surveys the recent advances in machine learning method for economic forecasting. The survey covers the following topics: nowcasting, textual data, panel and tensor data, high-dimensional Granger causality tests, time series cross-validation, classification with economic losses.
翻訳日:2023-08-23 14:16:14 公開日:2023-08-21
# スプリアス相関の存在下での反事実の偏り

Debiasing Counterfactuals In the Presence of Spurious Correlations ( http://arxiv.org/abs/2308.10984v1 )

ライセンス: Link先を確認
Amar Kumar, Nima Fathi, Raghav Mehta, Brennan Nichyporuk, Jean-Pierre R. Falet, Sotirios Tsaftaris, Tal Arbel(参考訳) ディープラーニングモデルは複雑な医療画像分類タスクでうまく機能するが、たとえその結論が、関心のある因果画像マーカーではなく、トレーニングデータセットで広く普及している場合、スプリアス相関(すなわち共同設立者)に基づいても機能する。 これにより、全人口を統一する能力が制限される。 反事実画像生成に基づく説明可能性は、共同設立者の露出に使用できるが、バイアスを軽減するための戦略を提供していない。 本研究では,両方を統合する最初のエンドツーエンドトレーニングフレームワークを紹介する。 (i) 突発的相関のラッチを避けるために、一般的なデバイアス分類器(例えば、分布的ロバスト最適化(DRO)) 二 タスクに関連性のある一般化可能な画像マーカーを提示するための反実画像生成。 さらに, ファクトイメージによって露呈されるスプリアス相関に依存する分類器の規模を定量化するために, SCLS (Spurious correlation Latching Score) という新しい尺度を提案する。 2つの公開データセット(シミュレーションと実際のビジュアルアーティファクト)の包括的な実験を通じて、デバイアスの方法が示す。 (i)人口にまたがる一般化マーカーを学習し、 (ii)有意な相関を無視し,基礎疾患の病理に焦点をあてた。

Deep learning models can perform well in complex medical imaging classification tasks, even when basing their conclusions on spurious correlations (i.e. confounders), should they be prevalent in the training dataset, rather than on the causal image markers of interest. This would thereby limit their ability to generalize across the population. Explainability based on counterfactual image generation can be used to expose the confounders but does not provide a strategy to mitigate the bias. In this work, we introduce the first end-to-end training framework that integrates both (i) popular debiasing classifiers (e.g. distributionally robust optimization (DRO)) to avoid latching onto the spurious correlations and (ii) counterfactual image generation to unveil generalizable imaging markers of relevance to the task. Additionally, we propose a novel metric, Spurious Correlation Latching Score (SCLS), to quantify the extent of the classifier reliance on the spurious correlation as exposed by the counterfactual images. Through comprehensive experiments on two public datasets (with the simulated and real visual artifacts), we demonstrate that the debiasing method: (i) learns generalizable markers across the population, and (ii) successfully ignores spurious correlations and focuses on the underlying disease pathology.
翻訳日:2023-08-23 14:16:08 公開日:2023-08-21
# GPTを活用した「ギターピッグトライアル」 : 企業競争と協力研究のための新しいスマートエージェントベースモデリングアプローチ

"Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion ( http://arxiv.org/abs/2308.10974v1 )

ライセンス: Link先を確認
Xu Han, Zengqing Wu, Chuan Xiao(参考訳) 企業間のコミュニケーションを考えるとき、企業競争と共謀は複雑なダイナミクスを伴う。 このような問題は複雑なシステムの問題としてモデル化することができ、伝統的に人体やエージェントベースのモデリング手法を含む実験を通じてアプローチされる。 我々は,gpt-4技術が支援するスマートエージェントが企業を代表し,相互に対話する,smart agent-based modeling(sabm)という革新的なフレームワークを提案する。 様々な条件下で企業価格競争と結束行動を研究するための制御実験を行った。 SABMは、人間の被験者による実験よりもコスト効率が高く、柔軟である。 スマートエージェントは意思決定のための広範な知識基盤を持ち、従来のABMエージェントを超越した人間のような戦略能力を示す。 さらに、スマートエージェントは人間の会話をシミュレートしてパーソナライズすることができ、コミュニケーションに関わる複雑な状況を研究するのに最適である。 その結果, コミュニケーションの欠如により, スマートエージェントは相変わらず暗黙の結束に到達し, 価格がベルトランド均衡価格よりも高く, モノポリーやカルテル価格よりも低い水準で収束することが示された。 通信が許可されると、スマートエージェントはカルテル価格に近い価格で高いレベルの共謀を達成する。 協調はコミュニケーションによってより速く形成され、価格収束はそれなしではよりスムーズである。 これらの結果から,企業間の信頼関係が向上し,高水準の勝敗状況の機会を探究し,価格戦争を引き起こす可能性を低減するため,頻繁な価格変動を促すことが示唆された。 また,行動の差異を分析するために,企業に対して異なるペルソナを割り当て,多様な市場構造の下でモデルの検証を行った。 この結果はSABMの有効性と堅牢性を示し,競争と共謀に関する興味深い洞察を与える。

Firm competition and collusion involve complex dynamics, particularly when considering communication among firms. Such issues can be modeled as problems of complex systems, traditionally approached through experiments involving human subjects or agent-based modeling methods. We propose an innovative framework called Smart Agent-Based Modeling (SABM), wherein smart agents, supported by GPT-4 technologies, represent firms, and interact with one another. We conducted a controlled experiment to study firm price competition and collusion behaviors under various conditions. SABM is more cost-effective and flexible compared to conducting experiments with human subjects. Smart agents possess an extensive knowledge base for decision-making and exhibit human-like strategic abilities, surpassing traditional ABM agents. Furthermore, smart agents can simulate human conversation and be personalized, making them ideal for studying complex situations involving communication. Our results demonstrate that, in the absence of communication, smart agents consistently reach tacit collusion, leading to prices converging at levels higher than the Bertrand equilibrium price but lower than monopoly or cartel prices. When communication is allowed, smart agents achieve a higher-level collusion with prices close to cartel prices. Collusion forms more quickly with communication, while price convergence is smoother without it. These results indicate that communication enhances trust between firms, encouraging frequent small price deviations to explore opportunities for a higher-level win-win situation and reducing the likelihood of triggering a price war. We also assigned different personas to firms to analyze behavioral differences and tested variant models under diverse market structures. The findings showcase the effectiveness and robustness of SABM and provide intriguing insights into competition and collusion.
翻訳日:2023-08-23 14:15:46 公開日:2023-08-21
# 量子ノイズ支援による量子タスク

Quantum tasks assisted by quantum noise ( http://arxiv.org/abs/2308.10969v1 )

ライセンス: Link先を確認
Chuqiao Lin, Vir B. Bulchandani, Shivaji L. Sondhi(参考訳) 量子タスクに期待できる実用性の概念を導入し、基礎となる資源状態における量子ノイズの存在によってこれを増大させる一般的な条件について議論する。 ランダムな横フィールドイジングモデルの基底状態でパリティゲームをプレイする特定の問題に対して、結果の形式性を適用する。 これは、合理的プレイヤーが「リスク・シーキング」または「リスク・アバース」となる領域間の基底状態のフェーズ・ダイアグラムにおける分離を示す。 これらの領域の境界は、異常の相関長に非普遍的に依存する。 興味深いことに、逆場にゼロ平均無相関の障害を加えると、ノイズがなければ存在しない弱い量子的優位性が得られる。

We introduce a notion of expected utility for quantum tasks and discuss some general conditions under which this is increased by the presence of quantum noise in the underlying resource states. We apply the resulting formalism to the specific problem of playing the parity game with ground states of the random transverse-field Ising model. This demonstrates a separation in the ground-state phase diagram between regions where rational players will be ``risk-seeking'' or ``risk-averse'', depending on whether they win the game more or less often in the presence of disorder. The boundary between these regions depends non-universally on the correlation length of the disorder. Strikingly, we find that adding zero-mean, uncorrelated disorder to the transverse fields can generate a weak quantum advantage that would not exist in the absence of noise.
翻訳日:2023-08-23 14:15:17 公開日:2023-08-21
# BundleSeg: ホワイトマターバンドルセグメンテーションに対する汎用的で信頼性が高く再現可能なアプローチ

BundleSeg: A versatile, reliable and reproducible approach to white matter bundle segmentation ( http://arxiv.org/abs/2308.10958v1 )

ライセンス: Link先を確認
Etienne St-Onge, Kurt G Schilling, Francois Rheault(参考訳) 本稿では,ホワイトマター経路抽出のための信頼性,再現性,高速手法である bundleseg を提案する。 提案手法は, 道路図のクラスタリングや仮定の簡易化を必要とせず, 効率的な流線分割を実現するために, 反復登録手順と最近開発された正確な流線探索アルゴリズムを組み合わせたものである。 bundlesegは最先端のセグメンテーション法よりも再現性と再現性が向上し,高速化が図れる。 ホワイトマター接続の抽出における精度の向上と変動性の低減は、神経情報学研究に有用なツールとなり、ホワイトマター経路のトラクトグラフィーに基づく研究の感度と特異性を高める。

This work presents BundleSeg, a reliable, reproducible, and fast method for extracting white matter pathways. The proposed method combines an iterative registration procedure with a recently developed precise streamline search algorithm that enables efficient segmentation of streamlines without the need for tractogram clustering or simplifying assumptions. We show that BundleSeg achieves improved repeatability and reproducibility than state-of-the-art segmentation methods, with significant speed improvements. The enhanced precision and reduced variability in extracting white matter connections offer a valuable tool for neuroinformatic studies, increasing the sensitivity and specificity of tractography-based studies of white matter pathways.
翻訳日:2023-08-23 14:15:03 公開日:2023-08-21
# 開量子系のクリロフ複雑性:ハード球体からブラックホールへ

Krylov Complexity of Open Quantum Systems: From Hard Spheres to Black Holes ( http://arxiv.org/abs/2308.10945v1 )

ライセンス: Link先を確認
Vyshnav Mohan(参考訳) 準静的カオス開量子システムの複雑性について検討する。 原型的な例として、ベリー予想を用いてゆっくりと漏れる固球気体のクリロフ複雑性を解析的に計算する。 次に、複素度=ヴォームの提案を用いて、$d+1$-dimensional evaporating black holeのホログラフィック複雑性に接続する。 我々は、入射負エネルギーヌル衝撃波にまたがる静的シュワルツシルトパッチの列を縫合してブラックホール時空をモデル化する。 パラメータの特定により、各準定常平衡における遅延時間複雑性成長速度は、両方の系で同じであることが分かる。

We examine the complexity of quasi-static chaotic open quantum systems. As a prototypical example, we analytically compute the Krylov complexity of a slowly leaking hard-sphere gas using Berry's conjecture. We then connect it to the holographic complexity of a $d+1$-dimensional evaporating black hole using the Complexity=Volume proposal. We model the black hole spacetime by stitching together a sequence of static Schwarzschild patches across incoming negative energy null shock waves. Under certain identification of parameters, we find the late time complexity growth rate during each quasi-static equilibrium to be the same in both systems.
翻訳日:2023-08-23 14:14:48 公開日:2023-08-21
# 災害対応のためのUAV・労働者・自動車の協調経路計画

Collaborative Route Planning of UAVs, Workers and Cars for Crowdsensing in Disaster Response ( http://arxiv.org/abs/2308.11088v1 )

ライセンス: Link先を確認
Lei Han, Chunyu Tu, Zhiwen Yu, Zhiyong Yu, Weihua Shan, Liang Wang, and Bin Guo(参考訳) 災害対応の鍵は,被災地における最新情報を効果的に取得することである。 無人航空機(uav)、労働者、車両は、災害地域におけるデータ収集などのセンシングタスクを達成するために協力することができる。 本稿では,タスク完了率の最大化を目標として,UAV,労働者,自動車を含むエージェント群の経路計画を明示的に検討する。 本稿では,グローバルローカルな二元情報処理や異種マルチエージェントシステムに適したモデル構造を含む,多元多元経路計画アルゴリズムMANF-RL-RPを提案する。 グローバルローカルな二重情報処理は、グローバルな情報からの空間的特徴の抽出と拡散、および個々のエージェントからのローカル情報の分割とフィルタリングを含む。 異種マルチエージェントのためのモデル構造の構築について,以下の研究を行う。 異なるエージェントの状態を表現するために同じデータ構造を設計し、モデル構造を単純化するエージェントの意思決定プロセスのマルコフ特性を証明し、モデルのトレーニングに合理的な報酬関数を設計する。 最後に,リッチシミュレーションデータに基づいて詳細な実験を行った。 Greedy-SC-RPとMANF-DNN-RPのベースラインアルゴリズムと比較して、MANF-RL-RPはタスク完了率において大幅に改善されている。

Efficiently obtaining the up-to-date information in the disaster-stricken area is the key to successful disaster response. Unmanned aerial vehicles (UAVs), workers and cars can collaborate to accomplish sensing tasks, such as data collection, in disaster-stricken areas. In this paper, we explicitly address the route planning for a group of agents, including UAVs, workers, and cars, with the goal of maximizing the task completion rate. We propose MANF-RL-RP, a heterogeneous multi-agent route planning algorithm that incorporates several efficient designs, including global-local dual information processing and a tailored model structure for heterogeneous multi-agent systems. Global-local dual information processing encompasses the extraction and dissemination of spatial features from global information, as well as the partitioning and filtering of local information from individual agents. Regarding the construction of the model structure for heterogeneous multi-agent, we perform the following work. We design the same data structure to represent the states of different agents, prove the Markovian property of the decision-making process of agents to simplify the model structure, and also design a reasonable reward function to train the model. Finally, we conducted detailed experiments based on the rich simulation data. In comparison to the baseline algorithms, namely Greedy-SC-RP and MANF-DNN-RP, MANF-RL-RP has exhibited a significant improvement in terms of task completion rate.
翻訳日:2023-08-23 14:06:39 公開日:2023-08-21
# テンソルベースニューラルネットワークの応力表現 : フィンガーリブリン・エリクセンへの代替案

Stress representations for tensor basis neural networks: alternative formulations to Finger-Rivlin-Ericksen ( http://arxiv.org/abs/2308.11080v1 )

ライセンス: Link先を確認
Jan N. Fuhg, Nikolaos Bouklas, Reese E. Jones(参考訳) ニューラルネットワークと古典的表現定理に基づくデータ駆動構成的モデリングフレームワークは,構成的制約を容易に組み込む能力と優れた一般化性能により,近年注目されている。 これらのモデルでは、応力予測は不変依存係数関数と既知のテンソル基底生成器の線形結合から導かれる。 しかし、これまでの定式化は古典リヴリンとエリクセンの形式に基づくストレス表現に限られているが、代替表現の性能はまだ調査されていない。 本研究では, 有限変形条件下での超弾性材料モデリングのための様々なテンソルベースニューラルネットワークモデルについて, 理論的に等価な不変量と生成器を用いた未探索の定式化を含む検討を行った。 さらに,様々なキャリブレーション手法とともに,ポテンシャルベースと係数ベースアプローチを比較した。 9つの変種は、3つの異なる材料に対してノイズとノイズのないデータセットの両方に対して試験される。 各定式化のパフォーマンスに関する理論的および実践的な洞察が与えられる。

Data-driven constitutive modeling frameworks based on neural networks and classical representation theorems have recently gained considerable attention due to their ability to easily incorporate constitutive constraints and their excellent generalization performance. In these models, the stress prediction follows from a linear combination of invariant-dependent coefficient functions and known tensor basis generators. However, thus far the formulations have been limited to stress representations based on the classical Rivlin and Ericksen form, while the performance of alternative representations has yet to be investigated. In this work, we survey a variety of tensor basis neural network models for modeling hyperelastic materials in a finite deformation context, including a number of so far unexplored formulations which use theoretically equivalent invariants and generators to Finger-Rivlin-Ericksen. Furthermore, we compare potential-based and coefficient-based approaches, as well as different calibration techniques. Nine variants are tested against both noisy and noiseless datasets for three different materials. Theoretical and practical insights into the performance of each formulation are given.
翻訳日:2023-08-23 14:06:12 公開日:2023-08-21
# TeD-SPAD:ビデオ異常検出のための自己監督型プライバシー保護のための時間的識別性

TeD-SPAD: Temporal Distinctiveness for Self-supervised Privacy-preservation for video Anomaly Detection ( http://arxiv.org/abs/2308.11072v1 )

ライセンス: Link先を確認
Joseph Fioresi, Ishan Rajendrakumar Dave, Mubarak Shah(参考訳) 人間の監視のないビデオ異常検出(VAD)は、社会にポジティブな影響を与える複雑なコンピュータビジョンタスクである。 最近の進歩は、この問題の解決に大きな進歩をもたらしたが、既存のアプローチのほとんどは、現実の重要な懸念であるプライバシーを見落としている。 人工知能技術の普及に伴い、開発に適切なAI倫理を実装することが重要である。 VADのプライバシー漏洩により、モデルは人々の個人情報に関連する不必要なバイアスを拾い上げ、増幅することができるため、望ましくない意思決定につながる可能性がある。 本稿では,視覚的プライベート情報を自己管理的に破壊する,プライバシーに配慮したビデオ異常検出フレームワークTeD-SPADを提案する。 特に,現状の弱いVAD法を補完する時間的識別的特徴を促進するために,時間的に異なる三重項損失を用いることを提案する。 TeD-SPADを用いて、UCF-Crime、XD-Violence、ShanghaiTechの3つの弱教師付きVADデータセットに対して、プライバシ保護とユーティリティ異常検出性能の正のトレードオフを実現する。 提案した匿名化モデルは,UCF-Crime異常検出データセット上でのフレームレベルのOC AUCを3.69%削減した上で,プライベート属性の予測を32.25%削減する。 プロジェクトページ: https://joefioresi718.github.io/ted-spad_webpage/

Video anomaly detection (VAD) without human monitoring is a complex computer vision task that can have a positive impact on society if implemented successfully. While recent advances have made significant progress in solving this task, most existing approaches overlook a critical real-world concern: privacy. With the increasing popularity of artificial intelligence technologies, it becomes crucial to implement proper AI ethics into their development. Privacy leakage in VAD allows models to pick up and amplify unnecessary biases related to people's personal information, which may lead to undesirable decision making. In this paper, we propose TeD-SPAD, a privacy-aware video anomaly detection framework that destroys visual private information in a self-supervised manner. In particular, we propose the use of a temporally-distinct triplet loss to promote temporally discriminative features, which complements current weakly-supervised VAD methods. Using TeD-SPAD, we achieve a positive trade-off between privacy protection and utility anomaly detection performance on three popular weakly supervised VAD datasets: UCF-Crime, XD-Violence, and ShanghaiTech. Our proposed anonymization model reduces private attribute prediction by 32.25% while only reducing frame-level ROC AUC on the UCF-Crime anomaly detection dataset by 3.69%. Project Page: https://joefioresi718.github.io/TeD-SPAD_webpage/
翻訳日:2023-08-23 14:05:53 公開日:2023-08-21
# csm-h-r: 相互運用可能なインテリジェントシステムとプライバシ保護のための自動コンテキスト推論フレームワーク

CSM-H-R: An Automatic Context Reasoning Framework for Interoperable Intelligent Systems and Privacy Protection ( http://arxiv.org/abs/2308.11066v1 )

ライセンス: Link先を確認
Songhui Yue, Xiaoyan Hong, and Randy K. Smith(参考訳) 大規模システムにおける高レベルコンテキスト(hlc)推論の自動化は、iot時代におけるコンテキストデータの蓄積の鈍化、マルチソースからのデータの融合の傾向、コンテキストベースの意思決定プロセスの内在的複雑さとダイナミズムのために不可欠である。 この問題を軽減するために,実行時のオントロジーと状態と,意味のあるHLCを認識するためのモデル記憶フェーズをプログラム的に組み合わせた自動文脈推論フレームワークCSM-H-Rを提案する。 スマートキャンパス環境におけるインテリジェントエレベータシステムに基づくケーススタディを開発した。 このフレームワークの実装 - csmエンジンとhlc推論をベクトルおよび行列計算に翻訳する実験は、特にコンテキストの動的側面に配慮し、インテリジェントシステム統合における次のレベルの自動化を達成するために、高度な数学的および確率的モデルを使用する可能性を示し、一方で、プライバシー保護サポートはラベル埋め込みによる匿名化と情報相関の低減によって達成される。 この研究のコードは、https://github.com/songhui01/csm-h-rで入手できる。

Automation of High-Level Context (HLC) reasoning for intelligent systems at scale is imperative due to the unceasing accumulation of contextual data in the IoT era, the trend of the fusion of data from multi-sources, and the intrinsic complexity and dynamism of the context-based decision-making process. To mitigate this issue, we propose an automatic context reasoning framework CSM-H-R, which programmatically combines ontologies and states at runtime and the model-storage phase for attaining the ability to recognize meaningful HLC, and the resulting data representation can be applied to different reasoning techniques. Case studies are developed based on an intelligent elevator system in a smart campus setting. An implementation of the framework - a CSM Engine, and the experiments of translating the HLC reasoning into vector and matrix computing especially take care of the dynamic aspects of context and present the potentiality of using advanced mathematical and probabilistic models to achieve the next level of automation in integrating intelligent systems; meanwhile, privacy protection support is achieved by anonymization through label embedding and reducing information correlation. The code of this study is available at: https://github.com/songhui01/CSM-H-R.
翻訳日:2023-08-23 14:05:29 公開日:2023-08-21
# 関節エコーキャンセレーションとノイズ抑制のための超デュアルパス圧縮

Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression ( http://arxiv.org/abs/2308.11053v1 )

ライセンス: Link先を確認
Hangting Chen, Jianwei Yu, Yi Luo, Rongzhi Gu, Weihua Li, Zhuocheng Lu, Chao Weng(参考訳) エコーキャンセレーションとノイズ低減は全二重通信に不可欠であるが、既存のニューラルネットワークの多くは高い計算コストを持ち、モデルの複雑さのチューニングには柔軟性がない。 本稿では,時間周波数デュアルパス圧縮を導入し,計算コストに対する圧縮比を広範囲に設定する。 具体的には、周波数圧縮のために、トレーニング可能なフィルタを使用して、手動で設計したフィルタを寸法縮小のために置き換える。 時間圧縮では、フレームスキップ予測のみを用いることで性能が大幅に低下し、完全なシーケンスモデリングを備えた後処理ネットワークによって軽減される。 固定圧縮比では,時間法と周波数法の両方を組み合わせたデュアルパス圧縮により,モデルサイズの変化が少なく,圧縮比が4倍から32倍まで,さらに性能が向上することがわかった。 さらに,提案手法は高速フルサブネットとdeepfilternetと比較して競合性能を示す。 デモページは hangtingchen.github.io/ultra_dual_path_compression.github.io/ にある。

Echo cancellation and noise reduction are essential for full-duplex communication, yet most existing neural networks have high computational costs and are inflexible in tuning model complexity. In this paper, we introduce time-frequency dual-path compression to achieve a wide range of compression ratios on computational cost. Specifically, for frequency compression, trainable filters are used to replace manually designed filters for dimension reduction. For time compression, only using frame skipped prediction causes large performance degradation, which can be alleviated by a post-processing network with full sequence modeling. We have found that under fixed compression ratios, dual-path compression combining both the time and frequency methods will give further performance improvement, covering compression ratios from 4x to 32x with little model size change. Moreover, the proposed models show competitive performance compared with fast FullSubNet and DeepFilterNet. A demo page can be found at hangtingchen.github.io/ultra_dual_path_compression.github.io/.
翻訳日:2023-08-23 14:05:07 公開日:2023-08-21
# 分類とパターン認識のための厳密なベイズクレディブル集合について

On Exact Bayesian Credible Sets for Classification and Pattern Recognition ( http://arxiv.org/abs/2308.11037v1 )

ライセンス: Link先を確認
Chaegeun Song, Bing Li(参考訳) ベイズ信頼集合の現在の定義は一般に任意に割り当てられた信頼レベルを達成することができない。 この欠点は分類問題において特に深刻であり、達成可能なレベルは有限個しかない。 その結果、今日では、分類のための正確な信頼できる集合を構築する一般的な方法は存在しない。 本稿では,任意の既定信頼レベルを達成可能な一般化された信頼度集合を提案する。 キーとなる洞察は、ベイジアンで最も高い後方密度の信頼できる集合とニーマン=ピアソンの補題の間の単純な関係です。 この接続を用いて、離散的信頼レベル間のギャップを埋めるためのランダム化決定ルールを導入する。 この手法を伴って,信頼性集合を表すステアリングホイール・プロットも開発し,分類の不確かさの可視化に有用である。 離散パラメータの正確な信頼できる集合を開発することによって、ベイズ推論の理論をより完全化する。

The current definition of a Bayesian credible set cannot, in general, achieve an arbitrarily preassigned credible level. This drawback is particularly acute for classification problems, where there are only a finite number of achievable credible levels. As a result, there is as of today no general way to construct an exact credible set for classification. In this paper, we introduce a generalized credible set that can achieve any preassigned credible level. The key insight is a simple connection between the Bayesian highest posterior density credible set and the Neyman--Pearson lemma, which, as far as we know, hasn't been noticed before. Using this connection, we introduce a randomized decision rule to fill the gaps among the discrete credible levels. Accompanying this methodology, we also develop the Steering Wheel Plot to represent the credible set, which is useful in visualizing the uncertainty in classification. By developing the exact credible set for discrete parameters, we make the theory of Bayesian inference more complete.
翻訳日:2023-08-23 14:04:50 公開日:2023-08-21
# 健康情報学におけるディープラーニングモデルの分散協調学習のための分割学習

Split Learning for Distributed Collaborative Training of Deep Learning Models in Health Informatics ( http://arxiv.org/abs/2308.11027v1 )

ライセンス: Link先を確認
Zhuohang Li, Chao Yan, Xinmeng Zhang, Gharib Gharibi, Zhijun Yin, Xiaoqian Jiang, Bradley A. Malin(参考訳) 深層学習は急速に進化し続けており、多くの医学的予測タスクに顕著な可能性を示している。 しかし、医療機関全体で一般化するディープラーニングモデルの実現は難しい。 これは部分的には、これらの組織の本質的なサイロ化と患者のプライバシー要件によるものだ。 この問題に対処するために,スプリット・ラーニングによって,個別および個別に保持された健康データセット間でのディープラーニングモデルの協調的トレーニングを実現するとともに,オリジナルのレコードとモデルパラメータをプライベートに保持することが可能である。 従来のフェデレーション学習に比べて高いレベルのプライバシを提供する,新たなプライバシ保護分散学習フレームワークを導入する。 本研究では,ehr(biomedical imaging and electronic health record)データセットを用いて,分散学習で学習したディープラーニングモデルが,集中型および連合型モデルと非常によく似たパフォーマンスを実現し,計算効率を大幅に向上し,プライバシリスクを低減できることを示す。

Deep learning continues to rapidly evolve and is now demonstrating remarkable potential for numerous medical prediction tasks. However, realizing deep learning models that generalize across healthcare organizations is challenging. This is due, in part, to the inherent siloed nature of these organizations and patient privacy requirements. To address this problem, we illustrate how split learning can enable collaborative training of deep learning models across disparate and privately maintained health datasets, while keeping the original records and model parameters private. We introduce a new privacy-preserving distributed learning framework that offers a higher level of privacy compared to conventional federated learning. We use several biomedical imaging and electronic health record (EHR) datasets to show that deep learning models trained via split learning can achieve highly similar performance to their centralized and federated counterparts while greatly improving computational efficiency and reducing privacy risks.
翻訳日:2023-08-23 14:04:18 公開日:2023-08-21
# インシシットフィードバックと限定患者メタデータを用いた専門医推薦のための極端多ラベル分類

Extreme Multilabel Classification for Specialist Doctor Recommendation with Implicit Feedback and Limited Patient Metadata ( http://arxiv.org/abs/2308.11022v1 )

ライセンス: Link先を確認
Filipa Valdeira, Stevo Rackovi\'c, Valeria Danalachi, Qiwei Han, Cl\'audia Soares(参考訳) レコメンデーションシステム(Recommendation Systems, RS)は、医師紹介の問題に対処するためにしばしば用いられる。 しかし、これらのシステムは患者からのフィードバックや医療記録へのアクセスを必要としており、現実のシナリオでは必ずしも利用できない。 本研究は,新しい患者と相談歴のある患者の両方に対して,医師の異なる専門分野の推奨を予測することを目的としている。 テキストベースの分類タスクで一般的に使用されるExtreme Multilabel Classification (XML)を使用して、利用可能な機能をエンコードし、異なるシナリオを探索します。 レコメンデーションタスクへの可能性はしばしば示唆されているが、文献では詳しく検討されていない。 本稿では,従来のレコメンデーション設定を,従来のXMLメソッドが解決可能なマルチラベル分類問題に再キャストする方法を示す。 さらに,異なる専門分野の患者履歴を活用する統一モデルを提案する。 同じ特徴を持つ最先端RSと比較して,従来の相談歴のある患者に対しては,標準推奨基準を約10\%まで改善する。 新しい患者にとって、XMLは利用可能な機能をうまく活用し、特にリコールメトリクスに重点を置いて、好ましいシナリオでベンチマークを上回ります。 したがって、私たちのアプローチは、より効果的でパーソナライズされた医師紹介システムの構築に一歩近づいたのです。 さらに、現在のハイブリッドまたはコンテンツベースのRSに代わる有望な選択肢としてXMLを強調し、レコメンデーションタスクにXMLを使用する際に考慮すべき重要な側面を特定します。

Recommendation Systems (RS) are often used to address the issue of medical doctor referrals. However, these systems require access to patient feedback and medical records, which may not always be available in real-world scenarios. Our research focuses on medical referrals and aims to predict recommendations in different specialties of physicians for both new patients and those with a consultation history. We use Extreme Multilabel Classification (XML), commonly employed in text-based classification tasks, to encode available features and explore different scenarios. While its potential for recommendation tasks has often been suggested, this has not been thoroughly explored in the literature. Motivated by the doctor referral case, we show how to recast a traditional recommender setting into a multilabel classification problem that current XML methods can solve. Further, we propose a unified model leveraging patient history across different specialties. Compared to state-of-the-art RS using the same features, our approach consistently improves standard recommendation metrics up to approximately $10\%$ for patients with a previous consultation history. For new patients, XML proves better at exploiting available features, outperforming the benchmark in favorable scenarios, with particular emphasis on recall metrics. Thus, our approach brings us one step closer to creating more effective and personalized doctor referral systems. Additionally, it highlights XML as a promising alternative to current hybrid or content-based RS, while identifying key aspects to take into account when using XML for recommendation tasks.
翻訳日:2023-08-23 14:04:03 公開日:2023-08-21
# 対話型ロボットの客観的評価に向けて--マルチモーダルユーザ行動による人間類似性の評価

Towards Objective Evaluation of Socially-Situated Conversational Robots: Assessing Human-Likeness through Multimodal User Behaviors ( http://arxiv.org/abs/2308.11020v1 )

ライセンス: Link先を確認
Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze(参考訳) 本稿では,社会的に立地する対話型ロボットの評価という課題に取り組み,マルチモーダルなユーザ行動に基づく新しい客観的評価手法を提案する。 本研究では,ロボットの人間類似度を主評価指標として評価することに焦点を当てた。 従来の研究はユーザの主観的評価に依存することが多いが、このアプローチは、観察可能なユーザの振る舞いを間接的に評価することで、客観性と再現性を高めることを目的としている。 まず、注意深い対話コーパスに見られるユーザ行動を利用して、人間の類似度スコアの注釈付きデータセットを作成した。 そこで我々は,マルチモーダルユーザ行動と人間類似度スコアの相関関係を解析し,提案手法の有効性を実証した。

This paper tackles the challenging task of evaluating socially situated conversational robots and presents a novel objective evaluation approach that relies on multimodal user behaviors. In this study, our main focus is on assessing the human-likeness of the robot as the primary evaluation metric. While previous research often relied on subjective evaluations from users, our approach aims to evaluate the robot's human-likeness based on observable user behaviors indirectly, thus enhancing objectivity and reproducibility. To begin, we created an annotated dataset of human-likeness scores, utilizing user behaviors found in an attentive listening dialogue corpus. We then conducted an analysis to determine the correlation between multimodal user behaviors and human-likeness scores, demonstrating the feasibility of our proposed behavior-based evaluation method.
翻訳日:2023-08-23 14:03:38 公開日:2023-08-21
# オープンワールド環境における意味的シーン理解への公平連続学習アプローチ

Fairness Continual Learning Approach to Semantic Scene Understanding in Open-World Environments ( http://arxiv.org/abs/2305.15700v3 )

ライセンス: Link先を確認
Thanh-Dat Truong, Hoang-Quan Nguyen, Bhiksha Raj, Khoa Luu(参考訳) 連続的なセマンティックセグメンテーションは、以前のクラスからの情報を維持しながら新しいクラスを学ぶことを目的としている。 先行研究は近年顕著な進歩を見せているが、連続的なセマンティックセグメンテーションにおける公平性の懸念に対処する必要がある。 一方、フェアネスはディープラーニングモデルをデプロイする上で、特に人間や安全に関するアプリケーションにおいて、最も重要な要素の1つです。 本稿では,意味的セグメンテーション問題に対するフェアネス連続学習手法を提案する。 特に、フェアネス目標の下では、クラス分布に基づく新しいフェアネス連続学習フレームワークが提案されている。 次に,連続学習における重要な課題,すなわち破滅的な忘れ方と背景シフトに対処するために,新しい先駆的コントラストクラスタリング損失を提案する。 提案した損失は, 継続学習によく用いられる知識蒸留の新たな一般化学習パラダイムとして証明されている。 さらに,提案した条件構造整合性損失は,予測セグメンテーションの構造制約をさらに規則化した。 提案手法は,ADE20K,Cityscapes,Pascal VOCの3つの標準シーン理解ベンチマーク上での最先端性能を実現し,セグメンテーションモデルの公平性を向上した。

Continual semantic segmentation aims to learn new classes while maintaining the information from the previous classes. Although prior studies have shown impressive progress in recent years, the fairness concern in the continual semantic segmentation needs to be better addressed. Meanwhile, fairness is one of the most vital factors in deploying the deep learning model, especially in human-related or safety applications. In this paper, we present a novel Fairness Continual Learning approach to the semantic segmentation problem. In particular, under the fairness objective, a new fairness continual learning framework is proposed based on class distributions. Then, a novel Prototypical Contrastive Clustering loss is proposed to address the significant challenges in continual learning, i.e., catastrophic forgetting and background shift. Our proposed loss has also been proven as a novel, generalized learning paradigm of knowledge distillation commonly used in continual learning. Moreover, the proposed Conditional Structural Consistency loss further regularized the structural constraint of the predicted segmentation. Our proposed approach has achieved State-of-the-Art performance on three standard scene understanding benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC, and promoted the fairness of the segmentation model.
翻訳日:2023-08-23 11:15:21 公開日:2023-08-21
# One-Vote Veto:ローショット緑内障診断のための半教師付き学習

One-Vote Veto: Semi-Supervised Learning for Low-Shot Glaucoma Diagnosis ( http://arxiv.org/abs/2012.04841v4 )

ライセンス: Link先を確認
Rui Fan, Christopher Bowd, Nicole Brye, Mark Christopher, Robert N. Weinreb, David Kriegman, Linda M. Zangwill(参考訳) 畳み込みニューラルネットワーク(cnns)は眼底の画像から緑内障を自動的に診断する有望な技術であり、眼科検査の一環として日常的に取得される。 それにもかかわらず、CNNは通常、多くのバイオメディカル画像分類アプリケーションでは利用できない、特に病気が稀で専門家によるラベル付けがコストがかかるような、十分なラベル付きデータを必要とする。 本論文は,(1)従来のシャム語ネットワークを拡張し,ラベル付きデータが限定的かつ不均衡な場合の低ショット学習の訓練方法を導入し,(2)ラベルなし学習データを追加して精度を高めるための新しい半教師付き学習戦略を導入する。 提案するマルチタスク・シームズ・ネットワーク(MTSN)は,任意のバックボーンCNNを使用でき,トレーニングデータに制限されたバックボーンCNNの精度が,50倍のデータセットでトレーニングされたバックボーンCNNの精度に近づくことを示す。 また,MTSNに特化して設計された半教師付き学習戦略であるOne-Vote Veto (OVV) 自己学習についても紹介する。 ラベル付きトレーニングデータの自己予測と対照的な予測の両方を考慮することで、OVVの自己学習は、事前トレーニングされたMTSNを微調整するための追加の擬似ラベルを提供する。 15年以上にわたって取得された66,715枚の写真を含む大規模な(不均衡な)データセットを用いて、MTSNを用いた低撮影学習とOVVによる半教師あり学習の有効性を実験的に実証した。 異なる条件(カメラ,機器,場所,人口)で取得した眼底画像の3つのより小さな臨床データセットを用いて,提案手法の一般化可能性を示す。

Convolutional neural networks (CNNs) are a promising technique for automated glaucoma diagnosis from images of the fundus, and these images are routinely acquired as part of an ophthalmic exam. Nevertheless, CNNs typically require a large amount of well-labeled data for training, which may not be available in many biomedical image classification applications, especially when diseases are rare and where labeling by experts is costly. This article makes two contributions to address this issue: (1) It extends the conventional Siamese network and introduces a training method for low-shot learning when labeled data are limited and imbalanced, and (2) it introduces a novel semi-supervised learning strategy that uses additional unlabeled training data to achieve greater accuracy. Our proposed multi-task Siamese network (MTSN) can employ any backbone CNN, and we demonstrate with four backbone CNNs that its accuracy with limited training data approaches the accuracy of backbone CNNs trained with a dataset that is 50 times larger. We also introduce One-Vote Veto (OVV) self-training, a semi-supervised learning strategy that is designed specifically for MTSNs. By taking both self-predictions and contrastive predictions of the unlabeled training data into account, OVV self-training provides additional pseudo labels for fine-tuning a pre-trained MTSN. Using a large (imbalanced) dataset with 66,715 fundus photographs acquired over 15 years, extensive experimental results demonstrate the effectiveness of low-shot learning with MTSN and semi-supervised learning with OVV self-training. Three additional, smaller clinical datasets of fundus images acquired under different conditions (cameras, instruments, locations, populations) are used to demonstrate the generalizability of the proposed methods.
翻訳日:2023-08-23 03:43:16 公開日:2023-08-21
# 深層行列因子分解のための勾配降下--低位へのダイナミクスと暗黙のバイアス

Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit Bias towards Low Rank ( http://arxiv.org/abs/2011.13772v5 )

ライセンス: Link先を確認
Hung-Hsu Chou, Carsten Gieshoff, Johannes Maly, Holger Rauhut(参考訳) ディープラーニングでは、トレーニングポイントよりも多くのネットワークパラメータを使用するのが一般的である。 このような過パラメータ化のシナリオでは、訓練アルゴリズムが計算した解に暗黙のバイアスを引き起こすように、トレーニングエラーをゼロにする複数のネットワークが存在する。 実際には、(統計的に)グラデーションドルミネッセンスは、よく一般化した解を好む傾向にあり、深層学習の成功を説明できる。 本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。 我々は過度にパラメータ化されたscenarioにはいないが、それでも我々の分析は暗黙のバイアス現象に関する洞察を与えてくれる。 実際、バニラ勾配降下のダイナミクスの厳密な解析を行い、スペクトルの動的収束を特徴付ける。 我々は,イテレートの有効ランクが接地行列の低ランク射影の有効ランクに近い時間間隔を正確に特定することができる。 実際には、一定の規則性が要求される場合は、これらの間隔を早期停止の基準として使用できる。 また、行列センシングやランダム初期化など、より一般的なシナリオにおける暗黙バイアスの実証的証拠も提供する。 このことは、深層学習が複雑度(有効ランクの測度)が単調に増加する軌跡を好むことを示唆しており、これは深層学習の理論的理解の基本的な概念であると考えている。

In deep learning, it is common to use more network parameters than training points. In such scenarioof over-parameterization, there are usually multiple networks that achieve zero training error so that thetraining algorithm induces an implicit bias on the computed solution. In practice, (stochastic) gradientdescent tends to prefer solutions which generalize well, which provides a possible explanation of thesuccess of deep learning. In this paper we analyze the dynamics of gradient descent in the simplifiedsetting of linear networks and of an estimation problem. Although we are not in an overparameterizedscenario, our analysis nevertheless provides insights into the phenomenon of implicit bias. In fact, wederive a rigorous analysis of the dynamics of vanilla gradient descent, and characterize the dynamicalconvergence of the spectrum. We are able to accurately locate time intervals where the effective rankof the iterates is close to the effective rank of a low-rank projection of the ground-truth matrix. Inpractice, those intervals can be used as criteria for early stopping if a certain regularity is desired. Wealso provide empirical evidence for implicit bias in more general scenarios, such as matrix sensing andrandom initialization. This suggests that deep learning prefers trajectories whose complexity (measuredin terms of effective rank) is monotonically increasing, which we believe is a fundamental concept for thetheoretical understanding of deep learning.
翻訳日:2023-08-23 03:42:44 公開日:2023-08-21
# 音環境における分子-光子相互作用

Molecule-photon interactions in phononic environments ( http://arxiv.org/abs/1912.02635v3 )

ライセンス: Link先を確認
Michael Reitz, Christian Sommer, Burak Gurlek, Vahid Sandoghdar, Diego Martin-Cano, Claudiu Genes(参考訳) 分子は、光子、電子自由度、局所的な機械振動、フォノンをインターフェースできるコンパクトなハイブリッド量子光学系を構成する。 特に、分子内の電子と核運動の間の強い振動相互作用は、光学的放射圧ハミルトニアンに類似している。 分子振動は高温でも基底状態にあることが多いが、固体分子系の光-振動相互作用に基づく効率的な量子光学ネットワークが実現される前に、フォノンに付随するデコヒーレンスチャネルのハンドルを得る必要がある。 音環境におけるデコヒーレンスをよりよく理解するためのステップとして、結晶に埋め込まれたゲスト分子の非平衡力学に対するオープン量子系アプローチを取り上げ、マルコフ振動緩和と非マルコフ振動緩和の状態を同定する。 量子ランジュバン方程式に基づく確率的処理は、放射遷移のサブラジアンとスーパーラジアンの過程に類似した集団ビブロン・ビブロンダイナミクスを予測する。 これにより、音速浴から分子内振動を分離し、集団振動のコヒーレンス時間を高めることが可能となる。 また, 強拘束された測地線中の分子ポラリトニックについて, 新たに出現する出力場への光振動結合のインプリントにより, 有限入浴率に対して効果的なポラリトンクロストーク率が得られることを示した。

Molecules constitute compact hybrid quantum optical systems that can interface photons, electronic degrees of freedom, localized mechanical vibrations and phonons. In particular, the strong vibronic interaction between electrons and nuclear motion in a molecule resembles the optomechanical radiation pressure Hamiltonian. While molecular vibrations are often in the ground state even at elevated temperatures, one still needs to get a handle on decoherence channels associated with phonons before an efficient quantum optical network based on opto-vibrational interactions in solid-state molecular systems could be realized. As a step towards a better understanding of decoherence in phononic environments, we take here an open quantum system approach to the non-equilibrium dynamics of guest molecules embedded in a crystal, identifying regimes of Markovian versus non-Markovian vibrational relaxation. A stochastic treatment based on quantum Langevin equations predicts collective vibron-vibron dynamics that resembles processes of sub- and superradiance for radiative transitions. This in turn leads to the possibility of decoupling intramolecular vibrations from the phononic bath, allowing for enhanced coherence times of collective vibrations. For molecular polaritonics in strongly confined geometries, we also show that the imprint of opto-vibrational couplings onto the emerging output field results in effective polariton cross-talk rates for finite bath occupancies.
翻訳日:2023-08-23 03:41:32 公開日:2023-08-21
# ディープ・パーソン・ジェネレーション:顔・ポーズ・布の合成からみた調査

Deep Person Generation: A Survey from the Perspective of Face, Pose and Cloth Synthesis ( http://arxiv.org/abs/2109.02081v2 )

ライセンス: Link先を確認
Tong Sha, Wei Zhang, Tong Shen, Zhoujun Li, Tao Mei(参考訳) ディープ・パーソン・ジェネレーションは、仮想エージェント、ビデオ会議、オンラインショッピング、アート/映画制作に広く応用されているため、幅広い研究の注目を集めている。 深層学習の進展により、人像の視覚的外観(顔、ポーズ、布)を容易に生成したり、必要に応じて操作することができる。 本研究は,まず,人間生成のスコープを概観し,その後,ディープパーソン世代における最近の進歩と技術動向を体系的にレビューし,トーキングヘッド生成(face),ポーズ誘導型人生成(pose),衣服指向人生成(cloth)の3つの主なタスクをカバーした。 200以上の論文が概観のためにカバーされており、マイルストーンワークは技術的ブレークスルーを目撃するために強調されている。 これらの基本的なタスクに基づいて、仮想フィッティング、デジタルヒューマン、生成データ拡張など、多くのアプリケーションを調査します。 この調査が、ディープパーソン世代の将来的な展望に光を当て、デジタル人間への完全な応用のための有用な基盤を提供することを願っている。

Deep person generation has attracted extensive research attention due to its wide applications in virtual agents, video conferencing, online shopping and art/movie production. With the advancement of deep learning, visual appearances (face, pose, cloth) of a person image can be easily generated or manipulated on demand. In this survey, we first summarize the scope of person generation, and then systematically review recent progress and technical trends in deep person generation, covering three major tasks: talking-head generation (face), pose-guided person generation (pose) and garment-oriented person generation (cloth). More than two hundred papers are covered for a thorough overview, and the milestone works are highlighted to witness the major technical breakthrough. Based on these fundamental tasks, a number of applications are investigated, e.g., virtual fitting, digital human, generative data augmentation. We hope this survey could shed some light on the future prospects of deep person generation, and provide a helpful foundation for full applications towards digital human.
翻訳日:2023-08-23 03:37:00 公開日:2023-08-21
# 変圧器を用いた非対称バイラテラルu-netによる突発的物体検出

Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net ( http://arxiv.org/abs/2108.07851v6 )

ライセンス: Link先を確認
Yu Qiu, Yun Liu, Le Zhang, Jing Xu(参考訳) 既存のsalient object detection(sod)メソッドは、主にu字型の畳み込みニューラルネットワーク(cnns)に依存しており、グローバルコンテキストと、salient objectの探索とオブジェクトの詳細の精細化に不可欠なローカルな空間的詳細を組み合わせたスキップ接続を備えている。 大きな成功にもかかわらず、グローバルコンテキストの学習におけるCNNの能力は限られている。 近年、ビジョントランスフォーマーは、グローバル依存の強力なモデリングのため、コンピュータビジョンの革命的な進歩を遂げている。 しかし、変換器をSODに直接適用することは、局所空間表現を学習する能力に欠けるため、最適ではない。 そこで本研究では,SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーとCNNの組み合わせについて検討する。 トランスベース非対称双方向u-net (abiu-net) を提案する。 非対称バイラテラルエンコーダはトランスパスと軽量cnnパスを有しており、2つのパスはそれぞれエンコーダステージで通信し、相補的な大域的文脈と局所的な空間的詳細を学習する。 非対称なバイラテラルデコーダはトランスフォーマとcnnエンコーダパスから特徴を処理するための2つのパスで構成されており、それぞれのデコーダステージでは粗いサルエントオブジェクトの位置と細粒度のオブジェクト詳細をデコードする。 このような2つのエンコーダ/デコーダパス間の通信により、AbiU-NetはトランスフォーマーとCNNの自然な利点を生かして、補完的なグローバルとローカルの表現を学ぶことができる。 したがって、ABiU-NetはトランスフォーマーベースのSODの新しい視点を提供する。 大規模な実験により、ABiU-Netは従来の最先端SOD法に対して好適に機能することが示された。 コードはhttps://github.com/yuqiuyuqiu/abiu-netで入手できる。

Existing salient object detection (SOD) methods mainly rely on U-shaped convolution neural networks (CNNs) with skip connections to combine the global contexts and local spatial details that are crucial for locating salient objects and refining object details, respectively. Despite great successes, the ability of CNNs in learning global contexts is limited. Recently, the vision transformer has achieved revolutionary progress in computer vision owing to its powerful modeling of global dependencies. However, directly applying the transformer to SOD is suboptimal because the transformer lacks the ability to learn local spatial representations. To this end, this paper explores the combination of transformers and CNNs to learn both global and local representations for SOD. We propose a transformer-based Asymmetric Bilateral U-Net (ABiU-Net). The asymmetric bilateral encoder has a transformer path and a lightweight CNN path, where the two paths communicate at each encoder stage to learn complementary global contexts and local spatial details, respectively. The asymmetric bilateral decoder also consists of two paths to process features from the transformer and CNN encoder paths, with communication at each decoder stage for decoding coarse salient object locations and fine-grained object details, respectively. Such communication between the two encoder/decoder paths enables AbiU-Net to learn complementary global and local representations, taking advantage of the natural merits of transformers and CNNs, respectively. Hence, ABiU-Net provides a new perspective for transformer-based SOD. Extensive experiments demonstrate that ABiU-Net performs favorably against previous state-of-the-art SOD methods. The code is available at https://github.com/yuqiuyuqiu/ABiU-Net.
翻訳日:2023-08-23 03:36:35 公開日:2023-08-21
# 共同ワッサーシュタイン距離最小化による領域不変表現の学習

Learning Domain Invariant Representations by Joint Wasserstein Distance Minimization ( http://arxiv.org/abs/2106.04923v2 )

ライセンス: Link先を確認
L\'eo Andeol, Yusei Kawakami, Yuichiro Wada, Takafumi Kanamori, Klaus-Robert M\"uller, Gr\'egoire Montavon(参考訳) トレーニングデータのドメインシフトは、機械学習の実践的な応用において一般的である。 理想的には、mlモデルは、例えばドメイン不変表現を学習することによって、これらのシフトとは独立に機能すべきである。 しかし、一般的なMLの損失は、MLモデルが異なるドメインに対していかに一貫して機能するか、特に、他のドメインでのパフォーマンスを犠牲にして、そのモデルがドメイン上でうまく機能するかを強く保証するものではない。 本稿では,教師付きmlにおける古典的損失と結合空間におけるwasserstein距離(つまり表現と出力空間)との数学的関係のセットを提供することにより,この問題に対する新たな理論的基礎を構築する。 分類や回帰損失は、ドメイン間のGAN型判別器と組み合わせることで、ドメイン間の真のワッサーシュタイン距離に上限を形成することを示す。 これは、より不変な表現とドメイン間のより安定した予測性能を意味する。 理論的結果は複数の画像データセット上で実証的に裏付けられる。 提案手法は,ドメイン間の最小分類精度と最も不変な表現を系統的に生成する。

Domain shifts in the training data are common in practical applications of machine learning; they occur for instance when the data is coming from different sources. Ideally, a ML model should work well independently of these shifts, for example, by learning a domain-invariant representation. However, common ML losses do not give strong guarantees on how consistently the ML model performs for different domains, in particular, whether the model performs well on a domain at the expense of its performance on another domain. In this paper, we build new theoretical foundations for this problem, by contributing a set of mathematical relations between classical losses for supervised ML and the Wasserstein distance in joint space (i.e. representation and output space). We show that classification or regression losses, when combined with a GAN-type discriminator between domains, form an upper-bound to the true Wasserstein distance between domains. This implies a more invariant representation and also more stable prediction performance across domains. Theoretical results are corroborated empirically on several image datasets. Our proposed approach systematically produces the highest minimum classification accuracy across domains, and the most invariant representation.
翻訳日:2023-08-23 03:35:45 公開日:2023-08-21
# 判別ベイズフィルタは対数凸関数を最小化する確率ニュートン法に運動量を与える

Discriminative Bayesian filtering lends momentum to the stochastic Newton method for minimizing log-convex functions ( http://arxiv.org/abs/2104.12949v3 )

ライセンス: Link先を確認
Michael C. Burkhart(参考訳) 対数凸関数の集合の平均を最小化するために、確率ニュートン法は、全対象の勾配とヘッセンのサブサンプル版を用いて、その推定を反復的に更新する。 我々は,この最適化問題を潜在状態空間モデル上での逐次ベイズ推定として文脈化し,識別的に特定した観察過程を提案する。 ベイズフィルタを適用すると、更新を生成する際の勾配とヘッセンの歴史全体を考える新しい最適化アルゴリズムが得られる。 我々は,ポリアクの重球運動量に類似した方法で,古い観測結果の影響が時間とともに減少する行列に基づく条件を確立する。 提案手法の様々な側面を例で紹介し,確率的ニュートン法に関する他の関連イノベーションを概観する。

To minimize the average of a set of log-convex functions, the stochastic Newton method iteratively updates its estimate using subsampled versions of the full objective's gradient and Hessian. We contextualize this optimization problem as sequential Bayesian inference on a latent state-space model with a discriminatively-specified observation process. Applying Bayesian filtering then yields a novel optimization algorithm that considers the entire history of gradients and Hessians when forming an update. We establish matrix-based conditions under which the effect of older observations diminishes over time, in a manner analogous to Polyak's heavy ball momentum. We illustrate various aspects of our approach with an example and review other relevant innovations for the stochastic Newton method.
翻訳日:2023-08-23 03:35:27 公開日:2023-08-21
# 運動選手のエネルギー消費と回復を近似する新しい経路

A New Pathway to Approximate Energy Expenditure and Recovery of an Athlete ( http://arxiv.org/abs/2104.07903v3 )

ライセンス: Link先を確認
Fabian Clemens Weigend, Jason Siegler, Oliver Obst(参考訳) 本研究は,運動中の運動選手のエネルギー消費と回復のモデリングを新たな視点で行うため,進化的計算を経路として用いることを提案する。 本研究では,運動中に代謝系をシミュレートし,現在適用されている性能モデルの欠点に対処できる「三成分水理モデル」という理論的概念を再考する。 この水圧モデルは、必要な精度や量では取得できない生理的手段に依存するため、個々のアスリートに完全には検証されていない。 本稿では,具体的代謝指標との関係を解消し,そのパラメータを運動選手に適合させるために進化的計算を可能にする3成分水理モデルの一般化解釈と形式化を提案する。

This work proposes to use evolutionary computation as a pathway to allow a new perspective on the modeling of energy expenditure and recovery of an individual athlete during exercise. We revisit a theoretical concept called the "three component hydraulic model" which is designed to simulate metabolic systems during exercise and which is able to address recently highlighted shortcomings of currently applied performance models. This hydraulic model has not been entirely validated on individual athletes because it depends on physiological measures that cannot be acquired in the required precision or quantity. This paper introduces a generalized interpretation and formalization of the three component hydraulic model that removes its ties to concrete metabolic measures and allows to use evolutionary computation to fit its parameters to an athlete.
翻訳日:2023-08-23 03:35:13 公開日:2023-08-21
# クロスマップトランスフォーマー : 視覚言語ナビゲーションのためのダブルバックトランスレーションを用いたクロスモーダルマスクドパストランスフォーマー

CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation ( http://arxiv.org/abs/2103.00852v2 )

ライセンス: Link先を確認
Aly Magassouba, Komei Sugiura, and Hisashi Kawai(参考訳) 自然言語指示によるナビゲーションは、ユーザーと自然に対話する国内サービスロボットに特に適している。 このタスクは、自然言語のナビゲーション命令が与えられた特定の目的地につながる一連のアクションの予測を含む。 そのため、この作業には『バスルームから出て、右側の階段で待つ』などの指示の理解が必要となる。 視覚と言語ナビゲーションは、特に環境の探索と、言語と視覚の関係をモデル化するための指示によって指定された経路の正確な追従を必要とするため、依然として困難である。 そこで本研究では,言語的特徴と視覚的特徴を符号化して経路を逐次生成するCrossMap Transformerネットワークを提案する。 CrossMap変換器は、ナビゲーション命令を生成するTransformerベースのスピーカーに接続されている。 生成したパスは命令に変換され、生成した命令は経路に変換される この実験結果は、命令理解と命令生成という観点で、我々のアプローチの利点を示しています。

Navigation guided by natural language instructions is particularly suitable for Domestic Service Robots that interacts naturally with users. This task involves the prediction of a sequence of actions that leads to a specified destination given a natural language navigation instruction. The task thus requires the understanding of instructions, such as ``Walk out of the bathroom and wait on the stairs that are on the right''. The Visual and Language Navigation remains challenging, notably because it requires the exploration of the environment and at the accurate following of a path specified by the instructions to model the relationship between language and vision. To address this, we propose the CrossMap Transformer network, which encodes the linguistic and visual features to sequentially generate a path. The CrossMap transformer is tied to a Transformer-based speaker that generates navigation instructions. The two networks share common latent features, for mutual enhancement through a double back translation model: Generated paths are translated into instructions while generated instructions are translated into path The experimental results show the benefits of our approach in terms of instruction understanding and instruction generation.
翻訳日:2023-08-23 03:34:38 公開日:2023-08-21
# Weisfeiler Leman階層から抜け出す: メッセージパッシングを超えたグラフ学習

Walking Out of the Weisfeiler Leman Hierarchy: Graph Learning Beyond Message Passing ( http://arxiv.org/abs/2102.08786v3 )

ライセンス: Link先を確認
Jan T\"onshoff, Martin Ritzert, Hinrikus Wolf, Martin Grohe(参考訳) グラフ学習のためのニューラルネットワークアーキテクチャであるCRaWlを提案する。 グラフニューラルネットワークと同様に、crawlレイヤはグラフ上のノード機能を更新できるため、gnnレイヤと自由に結合したり、インターリーブしたりすることができる。 しかし、CRaWlはメッセージパッシンググラフニューラルネットワークとは根本的に異なる。 CRaWl層は、1D畳み込みを用いてランダムなウォークに沿って現れるサブグラフの情報を抽出し集約する。 これにより、長距離の相互作用を検出し、非局所的な特徴を計算する。 このアプローチの理論的根拠として,クロールの表現性はワイスフェイラー・レマンアルゴリズムのそれと比べられず,グラフニューラルネットワークとも相容れないという定理を証明した。 すなわち、CRaWlで表現できる関数があるが、GNNでは表現できない。 この結果はWeisfeiler Leman階層の上位レベルにまで拡張され、したがって高階のGNNにも拡張される。 実験により、CRaWlは、グラフ上の分類と回帰のための多数のベンチマークデータセットで最先端のGNNアーキテクチャと一致することを示す。

We propose CRaWl, a novel neural network architecture for graph learning. Like graph neural networks, CRaWl layers update node features on a graph and thus can freely be combined or interleaved with GNN layers. Yet CRaWl operates fundamentally different from message passing graph neural networks. CRaWl layers extract and aggregate information on subgraphs appearing along random walks through a graph using 1D Convolutions. Thereby it detects long range interactions and computes non-local features. As the theoretical basis for our approach, we prove a theorem stating that the expressiveness of CRaWl is incomparable with that of the Weisfeiler Leman algorithm and hence with graph neural networks. That is, there are functions expressible by CRaWl, but not by GNNs and vice versa. This result extends to higher levels of the Weisfeiler Leman hierarchy and thus to higher-order GNNs. Empirically, we show that CRaWl matches state-of-the-art GNN architectures across a multitude of benchmark datasets for classification and regression on graphs.
翻訳日:2023-08-23 03:34:19 公開日:2023-08-21
# 共起手がかりを用いた二重調音解析に基づく教師なしマルチモーダル単語発見

Unsupervised Multimodal Word Discovery based on Double Articulation Analysis with Co-occurrence cues ( http://arxiv.org/abs/2201.06786v2 )

ライセンス: Link先を確認
Akira Taniguchi, Hiroaki Murakami, Ryo Ozaki, Tadahiro Taniguchi(参考訳) ヒトの幼児は、音韻分布の統計的特性と他の感覚刺激の共起に基づいて、言語に関する最小限の事前知識を持つ言語語彙を取得する。 本研究では,音韻情報を分布キューとして,物体情報を共起キューとして用いた音声単位の学習手法を提案する。 提案手法は,教師なし学習を用いて音声信号から単語や音素を抽出し,多様視・触覚・聴覚同調に基づく対象情報を利用することができる。 提案手法は,音韻特徴から音素と単語を検出するnpb-daa(nonparametric bayesian double articulation analyzer)と,オブジェクトから得られたマルチモーダル情報を分類するmlda(multimodal latent dirichlet allocation)に基づいている。 実験では,提案手法がベースライン法よりも高い単語発見性能を示した。 対象の特徴を表す単語(名詞や形容詞に対応する単語)を正確に分割した。 さらに,言語情報の重要性の違いによる学習性能への影響について検討した。 単語の重みの増大は、固定条件の重みに対する性能をさらに向上させた。

Human infants acquire their verbal lexicon with minimal prior knowledge of language based on the statistical properties of phonological distributions and the co-occurrence of other sensory stimuli. This study proposes a novel fully unsupervised learning method for discovering speech units using phonological information as a distributional cue and object information as a co-occurrence cue. The proposed method can acquire words and phonemes from speech signals using unsupervised learning and utilize object information based on multiple modalities-vision, tactile, and auditory-simultaneously. The proposed method is based on the nonparametric Bayesian double articulation analyzer (NPB-DAA) discovering phonemes and words from phonological features, and multimodal latent Dirichlet allocation (MLDA) categorizing multimodal information obtained from objects. In an experiment, the proposed method showed higher word discovery performance than baseline methods. Words that expressed the characteristics of objects (i.e., words corresponding to nouns and adjectives) were segmented accurately. Furthermore, we examined how learning performance is affected by differences in the importance of linguistic information. Increasing the weight of the word modality further improved performance relative to that of the fixed condition.
翻訳日:2023-08-23 03:26:17 公開日:2023-08-21
# オブジェクト視覚ナビゲーションのためのエージェント中心関係グラフ

Agent-Centric Relation Graph for Object Visual Navigation ( http://arxiv.org/abs/2111.14422v3 )

ライセンス: Link先を確認
Xiaobo Hu, Youfang Lin, Shuo Wang, Zhihao Wu, Kai Lv(参考訳) object visual navigationは、視覚的な観察に基づいて、ターゲットオブジェクトに向かってエージェントを操ることを目的としている。 環境を合理的に認識し、エージェントを正確に制御することが極めて望ましい。 ナビゲーションタスクでは,環境内の関係に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を導入する。 ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。 一方,オブジェクト間の相対的水平位置を格納するオブジェクト水平関係グラフ(OHRG)を設計する。 一方,エージェント・ターゲット距離関係グラフ (ATDRG) では,エージェントが対象物との距離を知覚できる。 ATDRGでは、画像深度を利用して目標距離と垂直位置を求め、垂直方向の物体間の距離関係を捉える。 上記グラフにより、エージェントは環境を知覚し、ナビゲーションアクションを出力することができる。 人工環境における実験結果 ai2-thor は acrg が未発見のテスト環境において他の最先端手法を大きく上回っていることを証明している。

Object visual navigation aims to steer an agent toward a target object based on visual observations. It is highly desirable to reasonably perceive the environment and accurately control the agent. In the navigation task, we introduce an Agent-Centric Relation Graph (ACRG) for learning the visual representation based on the relationships in the environment. ACRG is a highly effective structure that consists of two relationships, i.e., the horizontal relationship among objects and the distance relationship between the agent and objects . On the one hand, we design the Object Horizontal Relationship Graph (OHRG) that stores the relative horizontal location among objects. On the other hand, we propose the Agent-Target Distance Relationship Graph (ATDRG) that enables the agent to perceive the distance between the target and objects. For ATDRG, we utilize image depth to obtain the target distance and imply the vertical location to capture the distance relationship among objects in the vertical direction. With the above graphs, the agent can perceive the environment and output navigation actions. Experimental results in the artificial environment AI2-THOR demonstrate that ACRG significantly outperforms other state-of-the-art methods in unseen testing environments.
翻訳日:2023-08-23 03:25:54 公開日:2023-08-21
# MMD集積2サンプル試験

MMD Aggregated Two-Sample Test ( http://arxiv.org/abs/2110.15073v4 )

ライセンス: Link先を確認
Antonin Schrab and Ilmun Kim and M\'elisande Albert and B\'eatrice Laurent and Benjamin Guedj and Arthur Gretton(参考訳) 本稿では,MMD(Maximum Mean Discrepancy)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。 まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。 このテストは、非漸近的にタイプIエラーの確率を制御する。 したがって、適切なテストレベルを漸近的に保証する以前のMDDテストと異なり、十分に校正されているため、小さなサンプルサイズでも確実に使用することができる。 密度の差がソボレフ球に存在する場合、ソボレフ球の滑らかさパラメータに依存する特定の核を持つmmdテストの最小最適性が証明される。 実際には、このパラメータは未知であり、そのため、この特定のカーネルでの最適mmdテストは使用できない。 この問題を克服するために, MMDAgg と呼ばれるスムーズなパラメータに適応した集約テストを構築した。 テストパワーは、カーネル選択(テストパワーの喪失につながる)や中央値ヒューリスティックのような任意のカーネル選択を必要とせず、使用するカーネルのコレクションに対して最大化される。 MMDAggは相変わらず非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。 我々の保証は特定の種類のカーネルに限定されないが、一次元変換不変特性カーネルの任意の積を保持する。 適応的な帯域幅コレクションを用いたMMDAggのユーザフレンドリなパラメータフリー実装を提供する。 我々は,mmdaggがソボレフスムースネス仮定を満たす合成データに対して,最先端のmmdベースの2つのサンプルテストよりも有意に優れており,実世界の画像データでは,ニューラルネットワークなどのモデルを利用したテストのパワーと密接に一致することを実証する。

We propose two novel nonparametric two-sample kernel tests based on the Maximum Mean Discrepancy (MMD). First, for a fixed kernel, we construct an MMD test using either permutations or a wild bootstrap, two popular numerical procedures to determine the test threshold. We prove that this test controls the probability of type I error non-asymptotically. Hence, it can be used reliably even in settings with small sample sizes as it remains well-calibrated, which differs from previous MMD tests which only guarantee correct test level asymptotically. When the difference in densities lies in a Sobolev ball, we prove minimax optimality of our MMD test with a specific kernel depending on the smoothness parameter of the Sobolev ball. In practice, this parameter is unknown and, hence, the optimal MMD test with this particular kernel cannot be used. To overcome this issue, we construct an aggregated test, called MMDAgg, which is adaptive to the smoothness parameter. The test power is maximised over the collection of kernels used, without requiring held-out data for kernel selection (which results in a loss of test power), or arbitrary kernel choices such as the median heuristic. We prove that MMDAgg still controls the level non-asymptotically, and achieves the minimax rate over Sobolev balls, up to an iterated logarithmic term. Our guarantees are not restricted to a specific type of kernel, but hold for any product of one-dimensional translation invariant characteristic kernels. We provide a user-friendly parameter-free implementation of MMDAgg using an adaptive collection of bandwidths. We demonstrate that MMDAgg significantly outperforms alternative state-of-the-art MMD-based two-sample tests on synthetic data satisfying the Sobolev smoothness assumption, and that, on real-world image data, MMDAgg closely matches the power of tests leveraging the use of models such as neural networks.
翻訳日:2023-08-23 03:24:28 公開日:2023-08-21
# エッジ交換可能なソーシャルネットワークモデルにおける異常エッジ検出

Anomalous Edge Detection in Edge Exchangeable Social Network Models ( http://arxiv.org/abs/2109.12727v2 )

ライセンス: Link先を確認
Rui Luo, Buddhika Nettasinghe, Vikram Krishnamurthy(参考訳) 本稿では,ソーシャルネットワークをモデル化する有向グラフの異常エッジを検出する。 我々は,異常エッジと正常エッジを区別するための基準としてエッジ交換可能性を利用する。 次に、共形予測理論に基づく異常検出器を提案する。この検出器は偽陽性率の上限が保証されている。 数値実験では,提案アルゴリズムはベースライン法よりも優れた性能を示す。

This paper studies detecting anomalous edges in directed graphs that model social networks. We exploit edge exchangeability as a criterion for distinguishing anomalous edges from normal edges. Then we present an anomaly detector based on conformal prediction theory; this detector has a guaranteed upper bound for false positive rate. In numerical experiments, we show that the proposed algorithm achieves superior performance to baseline methods.
翻訳日:2023-08-23 03:23:05 公開日:2023-08-21
# 量子量子チェシャー猫は検出可能か?

Is the dynamical quantum Cheshire cat detectable? ( http://arxiv.org/abs/2204.03374v2 )

ライセンス: Link先を確認
Jonte R. Hance, James Ladyman and John Rarity(参考訳) aharonovらによって提唱された動的量子チェシャイア猫の検出方法について検討する。 実際には、直交状態の小さな確率振幅 (`field') を加えて、その効果を検出できるようにする必要がある(つまり、初期状態が$|\uparrow_z\rangle$であるなら、これを小さな量の$|\downarrow_z\rangle$でバイアスする必要がある)。 この偏りは、直接あるいはポインタで状態と弱い絡み合いによって行うことができ、状態の進化を測定することができる位相参照を効果的に提供する。 この結果は、相互に偏りのない基底における検出の小さな確率差として測定され、この偏りの$\delta$に比例する。 これは、送信者ボブと受信者アリスの間を移動するためにプローブフィールドを必要としないことが証明できる反事実通信とは異なる。 さらに,これらの現象を実験室で実演できる光偏光実験も提案する。

We explore how one might detect the dynamical quantum Cheshire cat proposed by Aharonov et al. We show that, in practice, we need to bias the initial state by adding/subtracting a small probability amplitude (`field') of the orthogonal state, which travels with the disembodied property, to make the effect detectable (i.e. if our initial state is $|\uparrow_z\rangle$, we need to bias this with some small amount $\delta$ of state $|\downarrow_z\rangle$). This biasing, which can be done either directly or via weakly entangling the state with a pointer, effectively provides a phase reference with which we can measure the evolution of the state. The outcome can then be measured as a small probability difference in detections in a mutually unbiased basis, proportional to this biasing $\delta$. We show this is different from counterfactual communication, which provably does not require any probe field to travel between sender Bob and receiver Alice for communication. We further suggest an optical polarisation experiment where these phenomena might be demonstrated in a laboratory.
翻訳日:2023-08-23 03:17:05 公開日:2023-08-21
# ディープラーニング学習における概念進化--統一解釈枠組みと発見

Concept Evolution in Deep Learning Training: A Unified Interpretation Framework and Discoveries ( http://arxiv.org/abs/2203.16475v3 )

ライセンス: Link先を確認
Haekyu Park, Seongmin Lee, Benjamin Hoover, Austin P. Wright, Omar Shaikh, Rahul Duggal, Nilaksh Das, Judy Hoffman, Duen Horng Chau(参考訳) 本稿では,学習中の学習概念のインセプションと進化を明らかにする,ディープニューラルネットワーク(dnn)のための統合解釈フレームワークであるconceptevoを提案する。 我々の研究はDNN解釈研究における重要なギャップに対処するものであり、既存の手法は主に後学習の解釈に焦点を当てている。 conceptevoは、2つの新しい技術的貢献を紹介している:(1)統一的な意味空間を生成し、トレーニング中に異なるモデルの並べて比較できるアルゴリズム、(2)クラス予測のための重要な概念進化を発見し、定量化するアルゴリズム。 大規模な人的評価と定量的実験を通じて,ConceptEvoは,人間にとって理解しやすいだけでなく,クラスの予測にも不可欠である,異なるモデル間の概念進化の同定に成功した。 ConceptEvoは、ConvNeXtのような現代のDNNアーキテクチャと、VGGsやInceptionV3のような古典的なDNNの両方に適用できる。

We present ConceptEvo, a unified interpretation framework for deep neural networks (DNNs) that reveals the inception and evolution of learned concepts during training. Our work addresses a critical gap in DNN interpretation research, as existing methods primarily focus on post-training interpretation. ConceptEvo introduces two novel technical contributions: (1) an algorithm that generates a unified semantic space, enabling side-by-side comparison of different models during training, and (2) an algorithm that discovers and quantifies important concept evolutions for class predictions. Through a large-scale human evaluation and quantitative experiments, we demonstrate that ConceptEvo successfully identifies concept evolutions across different models, which are not only comprehensible to humans but also crucial for class predictions. ConceptEvo is applicable to both modern DNN architectures, such as ConvNeXt, and classic DNNs, such as VGGs and InceptionV3.
翻訳日:2023-08-23 03:16:44 公開日:2023-08-21
# 疑わしい対象:一段階視覚接地におけるモデルの予測を再考する

Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding ( http://arxiv.org/abs/2203.05186v2 )

ライセンス: Link先を確認
Yang Jiao, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang(参考訳) 近年,1段の視覚グラウンダーは2段のグラウンダーと同等の精度で高い効率性を持つため,高い注目を集めている。 しかし, 対象間関係モデリングは, 単段グルーダでは十分に研究されていない。 オブジェクト間の関係モデリングは重要ではあるが、その一部だけがテキストクエリに関連しており、モデルを混乱させる可能性があるため、すべてのオブジェクト間で必ずしも実行されるわけではない。 これらのオブジェクトを疑わしいオブジェクトと呼びます。 第一に、疑わしいオブジェクトを選択し、関係モデリングを行うための基盤として、オブジェクトの提案は利用できません。 第二に、疑わしいオブジェクトは他のオブジェクトよりも混乱しており、類似のセマンティクスを共有したり、特定の関係に絡み合ったりする可能性があるため、モデル予測をより簡単に誤解します。 そこで本研究では,既存のCNNやTransformerベースのワンステージ視覚グラウンドにシームレスに統合して,対象オブジェクトの選択を促進できるSOT(Suspected Object Transformation Mechanism)を提案する。 学習したアクティベーションマップから対象物が動的に検出され、トレーニング中のモデル電流識別能力に適応する。 その後、疑わしい対象に加えて、キーワード認識識別モジュール(kad)とランダム接続戦略(erc)による探索が同時に提案され、モデルの初期予測が再考される。 一方、KADは、疑わしい対象の識別に高い寄与するキーワードを活用する。 一方、ercでは、モデルが現在の誤った予測を常に悪用する状況に閉じ込められるのではなく、正しいオブジェクトを求めることができる。 提案手法の有効性を示す広範な実験を行った。

Recently, one-stage visual grounders attract high attention due to their comparable accuracy but significantly higher efficiency than two-stage grounders. However, inter-object relation modeling has not been well studied for one-stage grounders. Inter-object relationship modeling, though important, is not necessarily performed among all objects, as only part of them are related to the text query and may confuse the model. We call these objects suspected objects. However, exploring their relationships in the one-stage paradigm is non-trivial because: First, no object proposals are available as the basis on which to select suspected objects and perform relationship modeling. Second, suspected objects are more confusing than others, as they may share similar semantics, be entangled with certain relationships, etc, and thereby more easily mislead the model prediction. Toward this end, we propose a Suspected Object Transformation mechanism (SOT), which can be seamlessly integrated into existing CNN and Transformer-based one-stage visual grounders to encourage the target object selection among the suspected ones. Suspected objects are dynamically discovered from a learned activation map adapted to the model current discrimination ability during training. Afterward, on top of suspected objects, a Keyword-Aware Discrimination module (KAD) and an Exploration by Random Connection strategy (ERC) are concurrently proposed to help the model rethink its initial prediction. On the one hand, KAD leverages keywords contributing high to suspected object discrimination. On the other hand, ERC allows the model to seek the correct object instead of being trapped in a situation that always exploits the current false prediction. Extensive experiments demonstrate the effectiveness of our proposed method.
翻訳日:2023-08-23 03:15:15 公開日:2023-08-21
# 量子ボリュームの実践 - NISQデバイスで期待できること

Quantum Volume in Practice: What Users Can Expect from NISQ Devices ( http://arxiv.org/abs/2203.03816v5 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz(参考訳) 量子ボリューム(QV)は、ノイズ中間スケール量子(NISQ)デバイスの性能を定量化するデファクト標準ベンチマークとなっている。 IBM Q、IonQ、Rigetti、Oxford Quantum Circuits、Quantinuum(元Honeywell)が現在提供している24のNISQデバイス上で、QVの計算を行う。 提案手法は, NISQ デバイスの先進的な利用者が適切な量の最適化を期待できる性能を特徴付けるが, デバイスへのホワイトボックスアクセスは不要である。 特に、利用可能なコンパイラ最適化ルーチンを使用して、ベンダーの標準ゲートセットにQV回路をコンパイルし、異なるキュービットサブセットで実験を行う。 テストで達成したQV値は、公式に報告された結果よりも遅れており、投資された古典的なコンパイル作業にも大きく依存しています。

Quantum volume (QV) has become the de-facto standard benchmark to quantify the capability of Noisy Intermediate-Scale Quantum (NISQ) devices. While QV values are often reported by NISQ providers for their systems, we perform our own series of QV calculations on 24 NISQ devices currently offered by IBM Q, IonQ, Rigetti, Oxford Quantum Circuits, and Quantinuum (formerly Honeywell). Our approach characterizes the performances that an advanced user of these NISQ devices can expect to achieve with a reasonable amount of optimization, but without white-box access to the device. In particular, we compile QV circuits to standard gate sets of the vendor using compiler optimization routines where available, and we perform experiments across different qubit subsets. We find that running QV tests requires very significant compilation cycles, QV values achieved in our tests typically lag behind officially reported results and also depend significantly on the classical compilation effort invested.
翻訳日:2023-08-23 03:14:49 公開日:2023-08-21
# 神経介在表面の進化

Neural Implicit Surface Evolution ( http://arxiv.org/abs/2201.09636v4 )

ライセンス: Link先を確認
Tiago Novello, Vinicius da Silva, Guilherme Schardong, Luiz Schirmer, Helio Lopes, Luiz Velho(参考訳) 本研究では,LSE(Levelset equation)の下での暗黙曲面の動的変動をモデル化するためのスムーズニューラルネットワークの利用について検討する。 これにより、ニューラルな暗黙曲面の表現を時空 $\mathbb{R}^3\times \mathbb{R}$ に拡張し、連続幾何学変換の機構を開放する。 例えば、一般ベクトル場への初期曲面の進化、平均曲率方程式を用いた平滑化と研削、初期条件の補間などである。 ネットワークトレーニングには2つの制約がある。 データ項は、初期条件を対応する時刻、通常$\mathbb{R}^3 \times \{0\}$に適合させる。 すると、LSEという用語は、LSEが与える基礎となる幾何学的進化を、監督なしに近似するようネットワークに強制する。 ネットワークは、以前トレーニングされた初期条件に基づいて初期化することもでき、標準アプローチと比較してより高速に収束する。

This work investigates the use of smooth neural networks for modeling dynamic variations of implicit surfaces under the level set equation (LSE). For this, it extends the representation of neural implicit surfaces to the space-time $\mathbb{R}^3\times \mathbb{R}$, which opens up mechanisms for continuous geometric transformations. Examples include evolving an initial surface towards general vector fields, smoothing and sharpening using the mean curvature equation, and interpolations of initial conditions. The network training considers two constraints. A data term is responsible for fitting the initial condition to the corresponding time instant, usually $\mathbb{R}^3 \times \{0\}$. Then, a LSE term forces the network to approximate the underlying geometric evolution given by the LSE, without any supervision. The network can also be initialized based on previously trained initial conditions, resulting in faster convergence compared to the standard approach.
翻訳日:2023-08-23 03:14:07 公開日:2023-08-21
# ブラックボックス最適化のための生成前訓練

Generative Pretraining for Black-Box Optimization ( http://arxiv.org/abs/2206.10786v4 )

ライセンス: Link先を確認
Siddarth Krishnamoorthy, Satvik Mehul Mashkaria, Aditya Grover(参考訳) 科学や工学における多くの問題は、高次元空間上の高価なブラックボックス関数の最適化を伴う。 このようなブラックボックス最適化(BBO)問題に対して、オンライン機能評価の予算は小さく、事前トレーニングのための固定されたオフラインデータセットへのアクセスも少なくない。 以前のアプローチでは、オフラインデータを使用して関数やその逆を近似するが、データ分布からは程遠い精度では不十分である。 オフラインデータセットを用いた新しいブラックボックスオプティマイザを事前学習するための生成フレームワークBONETを提案する。 BONETでは、オフラインデータセットから派生した固定長軌道上で自己回帰モデルを訓練する。 低忠実度から高忠実度へのモノトニック遷移を展開する単純なヒューリスティックを用いて,オフラインデータから軌道を合成するサンプリング戦略を設計する。 実証的には、BONETを因果マスク付きトランスフォーマーを用いてインスタンス化し、Design-Benchで評価する。

Many problems in science and engineering involve optimizing an expensive black-box function over a high-dimensional space. For such black-box optimization (BBO) problems, we typically assume a small budget for online function evaluations, but also often have access to a fixed, offline dataset for pretraining. Prior approaches seek to utilize the offline data to approximate the function or its inverse but are not sufficiently accurate far from the data distribution. We propose BONET, a generative framework for pretraining a novel black-box optimizer using offline datasets. In BONET, we train an autoregressive model on fixed-length trajectories derived from an offline dataset. We design a sampling strategy to synthesize trajectories from offline data using a simple heuristic of rolling out monotonic transitions from low-fidelity to high-fidelity samples. Empirically, we instantiate BONET using a causally masked Transformer and evaluate it on Design-Bench, where we rank the best on average, outperforming state-of-the-art baselines.
翻訳日:2023-08-23 03:05:30 公開日:2023-08-21
# 強相互作用フェルミオンにおける普遍ホール応答の観測

Observation of Universal Hall Response in Strongly Interacting Fermions ( http://arxiv.org/abs/2205.13567v2 )

ライセンス: Link先を確認
T.-W. Zhou, G. Cappellini, D. Tusi, L. Franchi, J. Parravicini, C. Repellin, S. Greschner, M. Inguscio, T. Giamarchi, M. Filippone, J. Catani, L. Fallani(参考訳) ホール効果は、磁場中の荷電粒子の運動に由来するが、物質の記述には深い影響があり、凝縮物質をはるかに超えている。 相互作用系におけるそのような効果を理解することは、小さな磁場においても根本的な課題である。 本研究では,人工磁場でスレッディングされた2脚リボンにおける超低温フェルミオンの運動を追跡する原子量子シミュレータを用いた。 制御可能なクエンチダイナミクスを用いて,合成トンネルのホール応答と原子間相互作用強度を測定した。 相互作用しきい値を超える普遍的な相互作用非依存の挙動を理論的解析と一致して明らかにする。 計算が難しい状態に達する能力は、量子シミュレーションの力を示し、強い相関したトポロジカルな状態を記述する。

The Hall effect, which originates from the motion of charged particles in magnetic fields, has deep consequences for the description of materials, extending far beyond condensed matter. Understanding such an effect in interacting systems represents a fundamental challenge, even for small magnetic fields. In this work, we used an atomic quantum simulator in which we tracked the motion of ultracold fermions in two-leg ribbons threaded by artificial magnetic fields. Through controllable quench dynamics, we measured the Hall response for a range of synthetic tunneling and atomic interaction strengths. We unveil a universal interaction-independent behavior above an interaction threshold, in agreement with theoretical analyses. The ability to reach hard-to-compute regimes demonstrates the power of quantum simulation to describe strongly correlated topological states of matter.
翻訳日:2023-08-23 03:03:26 公開日:2023-08-21
# マルコフ等価DAGのカウントとサンプリングのための多項式時間アルゴリズムとその応用

Polynomial-Time Algorithms for Counting and Sampling Markov Equivalent DAGs with Applications ( http://arxiv.org/abs/2205.02654v3 )

ライセンス: Link先を確認
Marcel Wien\"obst, Max Bannach, Maciej Li\'skiewicz(参考訳) マルコフ同値類からの有向非巡回グラフのカウントとサンプリングは、グラフィカル因果解析の基本的なタスクである。 本稿では,これらのタスクを多項式時間で実行することができ,この分野における長年のオープンな問題を解く。 我々のアルゴリズムは効果的で容易に実装できる。 実験で示されたように、これらのブレークスルーは、マルコフ同値類に関する因果構造の活発な学習と因果効果の同定において、事実上適用可能である。

Counting and sampling directed acyclic graphs from a Markov equivalence class are fundamental tasks in graphical causal analysis. In this paper we show that these tasks can be performed in polynomial time, solving a long-standing open problem in this area. Our algorithms are effective and easily implementable. As we show in experiments, these breakthroughs make thought-to-be-infeasible strategies in active learning of causal structures and causal effect identification with regard to a Markov equivalence class practically applicable.
翻訳日:2023-08-23 03:03:13 公開日:2023-08-21
# トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み

Topical: Learning Repository Embeddings from Source Code using Attention ( http://arxiv.org/abs/2208.09495v3 )

ライセンス: Link先を確認
Agathe Lherondelle, Varun Babbar, Yash Satsangi, Fran Silavong, Shaltiel Eloul, Sean Moran(参考訳) 本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークである topical を提案する。 自然言語ドキュメンテーションやナイーブアグリゲーション技術に依存した既存の手法は、トピックルが注意の仕組みを活用していることより優れている。 このメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。 公開アクセス可能なgithubリポジトリでトレーニングされた topical は,リポジトリの自動タグ付けなどのタスクにおいて,複数のベースラインを越えたものだ。 Topicalはスケーラビリティと効率性を実証し、リポジトリレベルの表現計算に価値ある貢献をする。 さらなる研究のために、関連するツール、コード、トレーニングデータセットがhttps://github.com/jpmorganchase/topicalで提供されている。

This paper presents Topical, a novel deep neural network for repository level embeddings. Existing methods, reliant on natural language documentation or naive aggregation techniques, are outperformed by Topical's utilization of an attention mechanism. This mechanism generates repository-level representations from source code, full dependency graphs, and script level textual data. Trained on publicly accessible GitHub repositories, Topical surpasses multiple baselines in tasks such as repository auto-tagging, highlighting the attention mechanism's efficacy over traditional aggregation methods. Topical also demonstrates scalability and efficiency, making it a valuable contribution to repository-level representation computation. For further research, the accompanying tools, code, and training dataset are provided at: https://github.com/jpmorganchase/topical.
翻訳日:2023-08-23 02:57:03 公開日:2023-08-21
# Transformer と Graph Neural Networks を用いた論理合成における結果の品質予測

The prediction of the quality of results in Logic Synthesis using Transformer and Graph Neural Networks ( http://arxiv.org/abs/2207.11437v2 )

ライセンス: Link先を確認
Chenghao Yang, Zhongda Wang, Yinshui Xia, Zhufei Chu(参考訳) 論理合成段階では、合成ツールの構造変換を最適化シーケンスに結合し、特定の回路領域と遅延を満たすために回路に作用させる必要がある。 しかし、論理合成最適化シーケンスの実行には時間がかかり、回路の合成最適化シーケンスに対して結果の品質(QoR)を予測することは、エンジニアがより高速に最適化シーケンスを見つけるのに役立つ。 本研究では、未確認回路最適化シーケンスペアのQoRを予測するためのディープラーニング手法を提案する。 具体的には、構造変換を埋め込み法によりベクトルに変換し、最適化シーケンスの特徴を抽出するために高度な自然言語処理技術(Transformer)を用いる。 さらに、回路から回路までモデルの予測プロセスを一般化するために、回路のグラフ表現を隣接行列および特徴行列として表現する。 グラフニューラルネットワーク(GNN)は、回路の構造的特徴を抽出するために用いられる。 この問題に対して、Transformerと3つの典型的なGNNが使用される。 さらに、トランスフォーマーとGNNは、目に見えない回路最適化シーケンスのQoR予測のための共同学習ポリシーとして採用されている。 TransformerとGNNの組み合わせによるメソッドをベンチマークする。 実験結果から, Transformer と GraphSage の併用学習が最適であることが示唆された。 予測結果の平均絶対誤差(MAE)は0.412である。

In the logic synthesis stage, structure transformations in the synthesis tool need to be combined into optimization sequences and act on the circuit to meet the specified circuit area and delay. However, logic synthesis optimization sequences are time-consuming to run, and predicting the quality of the results (QoR) against the synthesis optimization sequence for a circuit can help engineers find a better optimization sequence faster. In this work, we propose a deep learning method to predict the QoR of unseen circuit-optimization sequences pairs. Specifically, the structure transformations are translated into vectors by embedding methods and advanced natural language processing (NLP) technology (Transformer) is used to extract the features of the optimization sequences. In addition, to enable the prediction process of the model to be generalized from circuit to circuit, the graph representation of the circuit is represented as an adjacency matrix and a feature matrix. Graph neural networks(GNN) are used to extract the structural features of the circuits. For this problem, the Transformer and three typical GNNs are used. Furthermore, the Transformer and GNNs are adopted as a joint learning policy for the QoR prediction of the unseen circuit-optimization sequences. The methods resulting from the combination of Transformer and GNNs are benchmarked. The experimental results show that the joint learning of Transformer and GraphSage gives the best results. The Mean Absolute Error (MAE) of the predicted result is 0.412.
翻訳日:2023-08-23 02:54:58 公開日:2023-08-21
# 差動的にプライベートな部分集合被覆と施設配置への応用

Differentially Private Partial Set Cover with Applications to Facility Location ( http://arxiv.org/abs/2207.10240v2 )

ライセンス: Link先を確認
George Z. Li and Dung Nguyen and Anil Vullikanti(参考訳) \citet{gupta2009differentially} において、集合被覆問題は微分プライバシー下で強い不可能性を持つことが観測された。 我々の研究では、これらの硬度結果は部分集合被覆問題に目を向けると解消され、そこでは、ある$\rho\in(0,1)$に対して、宇宙の要素の$\rho$-fractionをカバーしなければならない。 入力集合系上のゆるい条件下では、非自明な近似保証を持つ明示的な集合被覆を出力する微分プライベートアルゴリズムを与える。 特に、これは明示的な集合被覆を出力する最初の微分プライベートアルゴリズムである。 部分集合被覆のアルゴリズムをサブルーチンとして使用し,施設位置問題に対して微分プライベート(bicriteria)近似アルゴリズムを与え,異常値付き$k$-center/$k$-supplierを一般化する。 セットカバー問題と同様に、高い感度と不合理性の結果により、$k$-center/$k$-supplier型施設配置問題に対して非自明な保証を与えるアルゴリズムは存在しない。 我々のアルゴリズムは、人口の$\rho$-fractionを$$\rho\in(0,1)$とすることで、カバー要件を緩和することで、固有の硬さを回避することができることを示している。 全体として、我々の研究は、プライベートな組合せ最適化の結果を扱い、理解するための重要なステップである。

It was observed in \citet{gupta2009differentially} that the Set Cover problem has strong impossibility results under differential privacy. In our work, we observe that these hardness results dissolve when we turn to the Partial Set Cover problem, where we only need to cover a $\rho$-fraction of the elements in the universe, for some $\rho\in(0,1)$. We show that this relaxation enables us to avoid the impossibility results: under loose conditions on the input set system, we give differentially private algorithms which output an explicit set cover with non-trivial approximation guarantees. In particular, this is the first differentially private algorithm which outputs an explicit set cover. Using our algorithm for Partial Set Cover as a subroutine, we give a differentially private (bicriteria) approximation algorithm for a facility location problem which generalizes $k$-center/$k$-supplier with outliers. Like with the Set Cover problem, no algorithm has been able to give non-trivial guarantees for $k$-center/$k$-supplier-type facility location problems due to the high sensitivity and impossibility results. Our algorithm shows that relaxing the covering requirement to serving only a $\rho$-fraction of the population, for $\rho\in(0,1)$, enables us to circumvent the inherent hardness. Overall, our work is an important step in tackling and understanding impossibility results in private combinatorial optimization.
翻訳日:2023-08-23 02:54:26 公開日:2023-08-21
# パラメータプルーニングを用いたデータセット蒸留

Dataset Distillation Using Parameter Pruning ( http://arxiv.org/abs/2209.14609v6 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 本研究では,パラメータ抽出に基づく新しいデータセット蒸留法を提案する。 提案手法は, より堅牢な蒸留データセットを合成し, 蒸留過程での難解なパラメータを抽出することにより蒸留性能を向上させる。 2つのベンチマークデータセットの実験結果から,提案手法の優位性を示した。

In this study, we propose a novel dataset distillation method based on parameter pruning. The proposed method can synthesize more robust distilled datasets and improve distillation performance by pruning difficult-to-match parameters during the distillation process. Experimental results on two benchmark datasets show the superiority of the proposed method.
翻訳日:2023-08-23 02:46:47 公開日:2023-08-21
# フラストレーションの複雑さ:非局所的非安定性の新たな源

Complexity of frustration: a new source of non-local non-stabilizerness ( http://arxiv.org/abs/2209.10541v2 )

ライセンス: Link先を確認
J. Odavi\'c, T. Haug, G. Torre, A. Hamma, F. Franchini, S. M. Giampaolo(参考訳) 我々はスピン鎖に埋め込まれた$W$状態を調べることにより、量子多体系の複雑性のキャラクタリゼーションを進める。 このような状態は、量子ビット/スピンの数と対数的になる非安定化性あるいは「魔法」の量(安定化性R\'enyi Entropy - SRE-)を示す。 我々は、ハミルトニアンが広範な退化を伴う古典的点を認める系に焦点をあてる。 これらの点の近くでは、クリフォード回路は基底状態を$W$状態に変換することができ、古典的な点が属する位相の残りの部分は局所的な量子相関で表される。 位相的フラストレーションを持つ量子スピン鎖は、所望の現象学で位相をホストし、それらの基底状態のSREは、$W$状態の総和であり、局所的な貢献も大きいことを示す。 我々の研究によると、$W$状態/フラストレーション基底状態は、量子資源として収穫できる非局所的な複雑さを示し、GHZ状態/フラストレーション系にはない。

We advance the characterization of complexity in quantum many-body systems by examining $W$-states embedded in a spin chain. Such states show an amount of non-stabilizerness or "magic" (measured as the Stabilizer R\'enyi Entropy -SRE-) that grows logarithmic with the number of qubits/spins. We focus on systems whose Hamiltonian admits a classical point with an extensive degeneracy. Near these points, a Clifford circuit can convert the ground state into a $W$-state, while in the rest of the phase to which the classic point belongs, it is dressed with local quantum correlations. Topological frustrated quantum spin-chains host phases with the desired phenomenology, and we show that their ground state's SRE is the sum of that of the $W$-states plus an extensive local contribution. Our work reveals that $W$-states/frustrated ground states display a non-local degree of complexity that can be harvested as a quantum resource and has no counterpart in GHZ states/non-frustrated systems.
翻訳日:2023-08-23 02:46:30 公開日:2023-08-21
# FiBiNet++:CTR予測のための低ランク特徴相互作用層によるモデルサイズ削減

FiBiNet++: Reducing Model Size by Low Rank Feature Interaction Layer for CTR Prediction ( http://arxiv.org/abs/2209.05016v2 )

ライセンス: Link先を確認
Pengtao Zhang and Zheng Zheng and Junlin Zhang(参考訳) クリックスルー率(ctr)の推定は多くの実世界のアプリケーションにおいて最も基本的なタスクの一つとなり、様々な深層モデルが提案されている。 一部の研究では、FiBiNetは最高のパフォーマンスモデルの一つであり、Avazuデータセット上の他のモデルよりも優れていることが証明されている。 しかし、FiBiNetの大きなモデルサイズは、その幅広い応用を妨げる。 本稿では,FiBiNetのモデル構造を再設計する新しいFiBiNet++モデルを提案する。 主な手法の1つは、機能相互作用に焦点を当てた提案した「低ランク層」であり、モデルに対して優れた圧縮比を達成する上で重要な要因である。 3つの公開データセットに対する大規模な実験によると、FiBiNet++は3つのデータセットに対して、FiBiNetの非埋め込みモデルパラメータを12倍から16倍に効果的に削減する。 一方、FiBiNet++は、FiBiNetを含む最先端のCTRメソッドと比較して大幅にパフォーマンスが向上した。

Click-Through Rate (CTR) estimation has become one of the most fundamental tasks in many real-world applications and various deep models have been proposed. Some research has proved that FiBiNet is one of the best performance models and outperforms all other models on Avazu dataset. However, the large model size of FiBiNet hinders its wider application. In this paper, we propose a novel FiBiNet++ model to redesign FiBiNet's model structure, which greatly reduces model size while further improves its performance. One of the primary techniques involves our proposed "Low Rank Layer" focused on feature interaction, which serves as a crucial driver of achieving a superior compression ratio for models. Extensive experiments on three public datasets show that FiBiNet++ effectively reduces non-embedding model parameters of FiBiNet by 12x to 16x on three datasets. On the other hand, FiBiNet++ leads to significant performance improvements compared to state-of-the-art CTR methods, including FiBiNet.
翻訳日:2023-08-23 02:45:35 公開日:2023-08-21
# 限定スコープにおけるトップダウン自動開発に向けて:表現可能から実行可能までのニューロシンボリックフレームワーク

Towards Top-Down Automated Development in Limited Scopes: A Neuro-Symbolic Framework from Expressibles to Executables ( http://arxiv.org/abs/2209.01566v2 )

ライセンス: Link先を確認
Jian Gu, Harald C. Gall(参考訳) 深層コード生成はソフトウエアエンジニアリングのためのディープラーニング(DL4SE)のトピックであり、意図された機能のためのコードを生成するためにニューラルモデルを採用する。 エンドツーエンドのニューラルメソッドにはドメイン知識やソフトウェア階層の認識が欠けているため、プロジェクトレベルのタスクでは不十分である。 コード生成の潜在的な改善を体系的に検討するために、限定的なスコープで可能な、‘emph{presentibles} から‘emph{executables} まで、トップダウン開発全体に参加するようにします。 このプロセスでは、大量のサンプル、特徴、知識の恩恵を受けます。 基礎として,コード情報の分類を利用して,コードデータに基づく分類,すなわちコード分類を構築することを提案する。 さらに、テキストデータとコードデータを関連付ける3層セマンティックピラミッド(SP)を導入する。 異なる抽象化レベルの情報を識別し、開発におけるドメイン知識を導入し、ソフトウェアの階層を明らかにします。 さらに,高モジュール性と低複雑性のソフトウェアに焦点を当てた,セマンティック・ピラミッド・フレームワーク(SPF)をアプローチとして提案する。 SPFはコード生成プロセスを段階に分割し、潜在的な相互作用のためのスポットを予約する。 さらに,ニューロシンボリックフレームワークの検証のために,ソフトウェア開発における予備的応用を考案した。

Deep code generation is a topic of deep learning for software engineering (DL4SE), which adopts neural models to generate code for the intended functions. Since end-to-end neural methods lack domain knowledge and software hierarchy awareness, they tend to perform poorly w.r.t project-level tasks. To systematically explore the potential improvements of code generation, we let it participate in the whole top-down development from \emph{expressibles} to \emph{executables}, which is possible in limited scopes. In the process, it benefits from massive samples, features, and knowledge. As the foundation, we suggest building a taxonomy on code data, namely code taxonomy, leveraging the categorization of code information. Moreover, we introduce a three-layer semantic pyramid (SP) to associate text data and code data. It identifies the information of different abstraction levels, and thus introduces the domain knowledge on development and reveals the hierarchy of software. Furthermore, we propose a semantic pyramid framework (SPF) as the approach, focusing on software of high modularity and low complexity. SPF divides the code generation process into stages and reserves spots for potential interactions. In addition, we conceived preliminary applications in software development to confirm the neuro-symbolic framework.
翻訳日:2023-08-23 02:44:47 公開日:2023-08-21
# 神経マーケティングにおけるデータ融合: 生体信号, ライフサイクルステージ, 最新の進歩, データセット, トレンド, 課題のマルチモーダル分析

Data Fusion in Neuromarketing: Multimodal Analysis of Biosignals, Lifecycle Stages, Current Advances, Datasets, Trends, and Challenges ( http://arxiv.org/abs/2209.00993v2 )

ライセンス: Link先を確認
Mario Quiles P\'erez, Enrique Tom\'as Mart\'inez Beltr\'an, Sergio L\'opez Bernal, Eduardo Horna Prat, Luis Montesano Del Campo, Lorenzo Fern\'andez Maim\'o, Alberto Huertas Celdr\'an(参考訳) どの企業も、製品の品質と広告方法の両方を改善して利益を上げることが第一の目標だ。 この文脈では、ニューロマーケティングは製品の促進と、潜在的な買い手に対するより大きな受容を生み出すことを目指している。 伝統的に、神経マーケティング研究は提示された刺激からのフィードバックを得るために単一の生体信号に依存する。 しかし、この知識分野を研究する新しいデバイスや技術進歩のおかげで、最近の傾向は多様な生体信号の融合へのシフトを示している。 例えば、神経レベルでの広告の影響を理解するための脳波法や、そのような影響を誘発する刺激を特定するための視覚的追跡法がある。 この出現パターンは、特定の神経マーケティング目的を達成するためにどのバイオシグナルを使うかを決定する。 さらに、複数のソースからのデータの融合は高度な処理手法を必要とする。 これらの複雑さにもかかわらず、研究目的のために様々なデータソースと応用処理技術を適切に照合し整理する文献が不足している。 これらの課題に対処するため,本研究では,神経マーケティング研究における目的,生体信号,データ処理技術の包括的分析を行っている。 本研究は、リビジョン中の要素の技術的定義とグラフィカルな分布の両方を提供する。 さらに、研究目的に基づく分類を行い、採用する組合せ方法論の概要を提供する。 本稿は,神経マーケティングを主目的とせず,その目的に利用できる神経マーケティング研究のための一次データセットについて検討する。 最終的に、この研究は、近年の様々な段階にわたるテクニックの進化に関する歴史的視点を提供し、学んだ重要な教訓を列挙している。

The primary goal of any company is to increase its profits by improving both the quality of its products and how they are advertised. In this context, neuromarketing seeks to enhance the promotion of products and generate a greater acceptance on potential buyers. Traditionally, neuromarketing studies have relied on a single biosignal to obtain feedback from presented stimuli. However, thanks to new devices and technological advances studying this area of knowledge, recent trends indicate a shift towards the fusion of diverse biosignals. An example is the usage of electroencephalography for understanding the impact of an advertisement at the neural level and visual tracking to identify the stimuli that induce such impacts. This emerging pattern determines which biosignals to employ for achieving specific neuromarketing objectives. Furthermore, the fusion of data from multiple sources demands advanced processing methodologies. Despite these complexities, there is a lack of literature that adequately collates and organizes the various data sources and the applied processing techniques for the research objectives pursued. To address these challenges, the current paper conducts a comprehensive analysis of the objectives, biosignals, and data processing techniques employed in neuromarketing research. This study provides both the technical definition and a graphical distribution of the elements under revision. Additionally, it presents a categorization based on research objectives and provides an overview of the combinatory methodologies employed. After this, the paper examines primary public datasets designed for neuromarketing research together with others whose main purpose is not neuromarketing, but can be used for this matter. Ultimately, this work provides a historical perspective on the evolution of techniques across various phases over recent years and enumerates key lessons learned.
翻訳日:2023-08-23 02:44:19 公開日:2023-08-21
# Oracle の強化学習における不確実性指標によるポリシの導入

Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics ( http://arxiv.org/abs/2208.10533v3 )

ライセンス: Link先を確認
Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim Horri(参考訳) 強化学習の本質的な問題は、ランダムな行動を通じて環境を探索することであり、その大部分は非生産的である。 代わりに、学習ポリシーを既存の(学習あるいはハードコードされた)オラクルポリシー、オフラインデータ、あるいはデモで初期化することで、探索を改善することができる。 oracleのポリシを使用する場合、サンプル効率の学習を最大化する方法で、oracleのポリシの経験を学習ポリシに組み込む方法が明確になる可能性がある。 本稿では,このようなoracleポリシーを標準のアクタ-批判的強化学習アルゴリズムに組み込むための,批判的信頼度誘導探索(ccge)という手法を提案する。 より具体的には、CCGEは託宣方針の行動を提案として受け取り、不確実性が高ければ学習計画にこの情報を組み込むとともに、不確実性が低い場合は無視する。 CCGEは不確実性を推定する手法に非依存であり、2つの異なる手法でも同様に有効であることを示す。 CCGEが様々なベンチマーク強化学習タスクに与える影響を実証的に評価し、このアイデアがサンプル効率と最終性能の向上につながることを示す。 さらに、スパース報酬環境の評価において、CCGEは、オラクルポリシーも活用する隣接するアルゴリズムに対して競合的に実行することができる。 本実験は,不確実性をヒューリスティックとして活用して,強化学習におけるオラクルを用いた探索をガイドできることを示唆する。 さまざまなヒューリスティックを使って学習指導の方向性を決定することで、この方向にさらなる研究がもたらされることを期待する。

An inherent problem of reinforcement learning is performing exploration of an environment through random actions, of which a large portion can be unproductive. Instead, exploration can be improved by initializing the learning policy with an existing (previously learned or hard-coded) oracle policy, offline data, or demonstrations. In the case of using an oracle policy, it can be unclear how best to incorporate the oracle policy's experience into the learning policy in a way that maximizes learning sample efficiency. In this paper, we propose a method termed Critic Confidence Guided Exploration (CCGE) for incorporating such an oracle policy into standard actor-critic reinforcement learning algorithms. More specifically, CCGE takes in the oracle policy's actions as suggestions and incorporates this information into the learning scheme when uncertainty is high, while ignoring it when the uncertainty is low. CCGE is agnostic to methods of estimating uncertainty, and we show that it is equally effective with two different techniques. Empirically, we evaluate the effect of CCGE on various benchmark reinforcement learning tasks, and show that this idea can lead to improved sample efficiency and final performance. Furthermore, when evaluated on sparse reward environments, CCGE is able to perform competitively against adjacent algorithms that also leverage an oracle policy. Our experiments show that it is possible to utilize uncertainty as a heuristic to guide exploration using an oracle in reinforcement learning. We expect that this will inspire more research in this direction, where various heuristics are used to determine the direction of guidance provided to learning.
翻訳日:2023-08-23 02:43:48 公開日:2023-08-21
# 超対称性量子力学とリーマン仮説

Supersymmetric quantum mechanics and the Riemann hypothesis ( http://arxiv.org/abs/2211.04382v2 )

ライセンス: Link先を確認
Pushpa Kalauni and Kimball A Milton(参考訳) 我々は、ハミルトニアンのエネルギー固有値がリーマンゼータ関数の積となる超対称量子力学モデルを構築する。 リーマンゼータ函数の自明かつ非自明な零点は、このモデルにおける消える基底状態エネルギーと自然に一致することを示す。 このモデルは超対称性の自然な形を提供する。

We construct a supersymmetric quantum mechanical model in which the energy eigenvalues of the Hamiltonians are the products of Riemann zeta functions. We show that the trivial and nontrivial zeros of the Riemann zeta function naturally correspond to the vanishing ground state energies in this model. The model provides a natural form of supersymmetry.
翻訳日:2023-08-23 02:37:29 公開日:2023-08-21
# 電子商取引プラットフォーム上での広告収益最大化戦略

A Profit-Maximizing Strategy for Advertising on the e-Commerce Platforms ( http://arxiv.org/abs/2211.01160v2 )

ライセンス: Link先を確認
Lianghai Xiao, Yixing Zhao, Jiwei Chen(参考訳) このオンライン広告管理プラットフォームは、eコマースベンダー/広告業者の間でますます人気が高まり、ターゲット顧客へのリーチを合理化するアプローチを提供している。 アドバンテージにもかかわらず、広告戦略を正しく設定することは、オンラインベンダー、特に限られたリソースを持つ企業にとって課題である。 不効果的な戦略は、しばしば非生産的な「ただの」クリックが急増し、売上の成長と比べて広告費が不当に高くなる。 本稿では,オンライン広告をターゲットとする新たな収益最大化戦略を提案する。 提案モデルは,ターゲットとするオーディエンスを実際の購入者に変換する確率を最大化するために,最適な特徴集合を見つけることを目的としている。 本稿では,この最適化課題を,MCKP (Multiple-choice knapsack problem) として再検討する。 提案手法が予算制約で広告戦略を効果的に最適化できることを示すため,Tmall の現実データを用いた実証的研究を行った。

The online advertising management platform has become increasingly popular among e-commerce vendors/advertisers, offering a streamlined approach to reach target customers. Despite its advantages, configuring advertising strategies correctly remains a challenge for online vendors, particularly those with limited resources. Ineffective strategies often result in a surge of unproductive ``just looking'' clicks, leading to disproportionately high advertising expenses comparing to the growth of sales. In this paper, we present a novel profit-maximing strategy for targeting options of online advertising. The proposed model aims to find the optimal set of features to maximize the probability of converting targeted audiences into actual buyers. We address the optimization challenge by reformulating it as a multiple-choice knapsack problem (MCKP). We conduct an empirical study featuring real-world data from Tmall to show that our proposed method can effectively optimize the advertising strategy with budgetary constraints.
翻訳日:2023-08-23 02:37:05 公開日:2023-08-21
# ランダムユニタリ、ロバスト性、および絡み合いの複雑さ

Random unitaries, Robustness, and Complexity of Entanglement ( http://arxiv.org/abs/2210.13495v2 )

ライセンス: Link先を確認
J. Odavi\'c, G. Torre, N. Miji\'c, D. Davidovi\'c, F. Franchini, S. M. Giampaolo(参考訳) 一般回路の存在下での絡み合いのダイナミクスは、絡み合いスペクトルの統計的性質の知識によって予測できることが広く受け入れられている。 我々は、同じ統計値を共有する状態に対して、異なる局所ゲートセットによって生成されるメトロポリスのような絡み合い冷却アルゴリズムを適用して、この仮定を検証した。 我々は、一意的なモデル、すなわち横磁場を持つ一次元イジングチェーンの基底状態を用いるが、パラ磁性、磁気秩序、位相的フラストレーションのような異なる巨視的位相に属する。 極めて驚くべきことに、エンタングルメントダイナミクスは異なるゲートの集合だけでなく位相にも強く依存しており、異なる位相は冷却プロセスに対して異なる反発性を持つ異なる種類のエンタングルメント(純粋に局所的、ghz的、w状態的)を持つことができることを示している。 我々の研究は、絡み合いスペクトルの知識だけではその力学を決定できないという事実を強調し、その不完全性を評価ツールとして示す。 さらに、局所性と非局所的制約との間の微妙な相互作用を示す。

It is widely accepted that the dynamic of entanglement in presence of a generic circuit can be predicted by the knowledge of the statistical properties of the entanglement spectrum. We tested this assumption by applying a Metropolis-like entanglement cooling algorithm generated by different sets of local gates, on states sharing the same statistic. We employ the ground states of a unique model, namely the one-dimensional Ising chain with a transverse field, but belonging to different macroscopic phases such as the paramagnetic, the magnetically ordered, and the topological frustrated ones. Quite surprisingly, we observe that the entanglement dynamics are strongly dependent not just on the different sets of gates but also on the phase, indicating that different phases can possess different types of entanglement (which we characterize as purely local, GHZ-like, and W-state-like) with different degree of resilience against the cooling process. Our work highlights the fact that the knowledge of the entanglement spectrum alone is not sufficient to determine its dynamics, thereby demonstrating its incompleteness as a characterization tool. Moreover, it shows a subtle interplay between locality and non-local constraints.
翻訳日:2023-08-23 02:36:48 公開日:2023-08-21
# 一様系列回路の時間進化

Time Evolution of Uniform Sequential Circuits ( http://arxiv.org/abs/2210.03751v4 )

ライセンス: Link先を確認
Nikita Astrakhantsev, Sheng-Hsuan Lin, Frank Pollmann and Adam Smith(参考訳) 古典的数値的アプローチを用いた汎用量子多体系の時間進化のシミュレーションは、進化時間またはシステムサイズで指数関数的にコストが増大する。 本研究では,熱力学極限における一次元均一系の時間発展のための多項式スケーリングハイブリッド量子古典アルゴリズムを提案する。 このアルゴリズムは、階層化された一様量子回路を変分アンサッツとして、無限の翻訳不変量子状態を表す。 このアンザッツは、所定の精度でシミュレーション時間に複数のパラメータ多項式を必要とすることを数値的に示す。 さらに, このアンザッツのスケーリングは, 変分進化アルゴリズムにおいて維持される。 ハイブリッド最適化のすべてのステップは、短期的なデジタル量子コンピュータを念頭に設計されている。 古典的コンピュータ上で進化アルゴリズムをベンチマークした後、クラウドベースの量子処理ユニット上の有限個の量子ビットを用いて、この一様状態の可観測性の測定を実証する。 より効率的なテンソル収縮スキームにより、このアルゴリズムは古典的な数値アルゴリズムとして改善される可能性がある。

Simulating time evolution of generic quantum many-body systems using classical numerical approaches has an exponentially growing cost either with evolution time or with the system size. In this work, we present a polynomially scaling hybrid quantum-classical algorithm for time evolving a one-dimensional uniform system in the thermodynamic limit. This algorithm uses a layered uniform sequential quantum circuit as a variational ansatz to represent infinite translation-invariant quantum states. We show numerically that this ansatz requires a number of parameters polynomial in the simulation time for a given accuracy. Furthermore, this favourable scaling of the ansatz is maintained during our variational evolution algorithm. All steps of the hybrid optimization are designed with near-term digital quantum computers in mind. After benchmarking the evolution algorithm on a classical computer, we demonstrate the measurement of observables of this uniform state using a finite number of qubits on a cloud-based quantum processing unit. With more efficient tensor contraction schemes, this algorithm may also offer improvements as a classical numerical algorithm.
翻訳日:2023-08-23 02:35:17 公開日:2023-08-21
# 定常ステップを持つマルコフ線形確率近似におけるバイアスと外挿

Bias and Extrapolation in Markovian Linear Stochastic Approximation with Constant Stepsizes ( http://arxiv.org/abs/2210.00953v3 )

ライセンス: Link先を確認
Dongyan Huo, Yudong Chen, Qiaomin Xie(参考訳) 線形確率近似(LSA)を定常的なステップサイズとマルコフ的データで検討する。 データの結合過程と lsa iterate を時間均質なマルコフ連鎖として捉え,その収束をwasserstein距離における一意な制限と定常分布に証明し,非漸近的,幾何収束率を確立した。 さらに、この極限のバイアスベクトルは、ステップサイズに関して無限級数展開を持つことを示す。 したがって、バイアスは、より高い次数項までのステップに比例する。 この結果は、i.d.データの下でのLSAとは対照的であり、バイアスが消える。 可逆連鎖設定では、マルコフデータのバイアスと混合時間の関係を一般化し、それらが互いにほぼ比例することを示す。 Polyak-Rupperttail-averaging は LSA の分散を減少させるが、バイアスには影響しない。 上記の特徴付けにより、リチャードソン・ロームバーグ外挿法と$m\ge 2$ stepsizesを用いてバイアスを減らし、バイアス展開における$m-1$の項を排除できる。 この補間スキームは、理論と経験の両方において、指数的に小さなバイアスと平均二乗誤差の改善をもたらす。 この結果は,線形関数近似,マルコフデータ,定常ステップサイズを含む時間差分学習アルゴリズムに即時適用される。

We consider Linear Stochastic Approximation (LSA) with a constant stepsize and Markovian data. Viewing the joint process of the data and LSA iterate as a time-homogeneous Markov chain, we prove its convergence to a unique limiting and stationary distribution in Wasserstein distance and establish non-asymptotic, geometric convergence rates. Furthermore, we show that the bias vector of this limit admits an infinite series expansion with respect to the stepsize. Consequently, the bias is proportional to the stepsize up to higher order terms. This result stands in contrast with LSA under i.i.d. data, for which the bias vanishes. In the reversible chain setting, we provide a general characterization of the relationship between the bias and the mixing time of the Markovian data, establishing that they are roughly proportional to each other. While Polyak-Ruppert tail-averaging reduces the variance of the LSA iterates, it does not affect the bias. The above characterization allows us to show that the bias can be reduced using Richardson-Romberg extrapolation with $m\ge 2$ stepsizes, which eliminates the $m-1$ leading terms in the bias expansion. This extrapolation scheme leads to an exponentially smaller bias and an improved mean squared error, both in theory and empirically. Our results immediately apply to the Temporal Difference learning algorithm with linear function approximation, Markovian data, and constant stepsizes.
翻訳日:2023-08-23 02:34:39 公開日:2023-08-21
# スタイル空間における多方向部分空間編集

Multi-Directional Subspace Editing in Style-Space ( http://arxiv.org/abs/2211.11825v2 )

ライセンス: Link先を確認
Chen Naveh and Yacov Hel-Or(参考訳) 本稿では,StyleGANの潜在空間における不整合意味方向を求める新しい手法について述べる。 提案手法は,人間の顔属性の編集を可能にする有意義な直交部分空間を識別し,他の属性の望ましくない変更を最小限に抑える。 本モデルでは,複数方向に1つの属性を編集できるので,生成可能な画像の幅が広い。 提案手法を最先端の3つのモデルと比較し,顔の編集能力とアンタングル化能力で優れることを示す。 さらに, 属性分離・非絡合評価のための定量的尺度を提案し, それらの指標に対するモデルの優越性を示す。

This paper describes a new technique for finding disentangled semantic directions in the latent space of StyleGAN. Our method identifies meaningful orthogonal subspaces that allow editing of one human face attribute, while minimizing undesired changes in other attributes. Our model is capable of editing a single attribute in multiple directions, resulting in a range of possible generated images. We compare our scheme with three state-of-the-art models and show that our method outperforms them in terms of face editing and disentanglement capabilities. Additionally, we suggest quantitative measures for evaluating attribute separation and disentanglement, and exhibit the superiority of our model with respect to those measures.
翻訳日:2023-08-23 02:25:09 公開日:2023-08-21
# 時相論理パターンに基づく結果指向規範的プロセスモニタリング

Outcome-Oriented Prescriptive Process Monitoring Based on Temporal Logic Patterns ( http://arxiv.org/abs/2211.04880v3 )

ライセンス: Link先を確認
Ivan Donadello, Chiara Di Francescomarino, Fabrizio Maria Maggi, Francesco Ricci, Aladdin Shikhizada(参考訳) 規範的なプロセス監視システムは、ビジネスプロセスの実行中に、もし従えばプロセスのネガティブな結果を防ぐための介入を推奨します。 このような介入は信頼性があり、すなわち、望ましい結果やパフォーマンスの達成を保証する必要があり、柔軟性、すなわち、通常のプロセスの実行をひっくり返したり、特定のアクティビティの実行を強制するのを避ける必要がある。 しかし、既存のPrescriptive Process Monitoringソリューションのほとんどは、レコメンデーションの信頼性の観点からうまく機能する一方で、ユーザにはこれらのレコメンデーションの有効性を気にすることなく、実行しなければならない非常に具体的な(一連の)アクティビティを提供します。 そこで本研究では,プロセス実行中に保証されるべきアクティビティ間の時間的関係を推奨する,新たな成果指向規範的プロセス監視システムを提案する。 これにより、特定の時点におけるアクティビティの強制実行が軟化されるため、実施すべき介入を決定する際に、ユーザにより多くの自由が与えられる。 本稿では,これらの時間関係を有限トレースパターン上の線形時相論理と定義し,プロセス実行を支援する情報システムによってイベントログに記録された履歴プロセスデータを記述する特徴として用いる。 このようなエンコードされたログは、マシンラーニングの分類器をトレーニングして、時間パターンとプロセス実行結果のマッピングを学ぶために使用される。 分類器は実行時に照会され、入力中のプロセス実行に対する特定の結果の可能性を最大化するために満足すべき最も有意義な時間パターンとして返される。 提案システムは,プロセスマイニングコミュニティですでにベンチマークとして使用されている22のリアルタイムイベントログのプールを用いて評価する。

Prescriptive Process Monitoring systems recommend, during the execution of a business process, interventions that, if followed, prevent a negative outcome of the process. Such interventions have to be reliable, that is, they have to guarantee the achievement of the desired outcome or performance, and they have to be flexible, that is, they have to avoid overturning the normal process execution or forcing the execution of a given activity. Most of the existing Prescriptive Process Monitoring solutions, however, while performing well in terms of recommendation reliability, provide the users with very specific (sequences of) activities that have to be executed without caring about the feasibility of these recommendations. In order to face this issue, we propose a new Outcome-Oriented Prescriptive Process Monitoring system recommending temporal relations between activities that have to be guaranteed during the process execution in order to achieve a desired outcome. This softens the mandatory execution of an activity at a given point in time, thus leaving more freedom to the user in deciding the interventions to put in place. Our approach defines these temporal relations with Linear Temporal Logic over finite traces patterns that are used as features to describe the historical process data recorded in an event log by the information systems supporting the execution of the process. Such encoded log is used to train a Machine Learning classifier to learn a mapping between the temporal patterns and the outcome of a process execution. The classifier is then queried at runtime to return as recommendations the most salient temporal patterns to be satisfied to maximize the likelihood of a certain outcome for an input ongoing process execution. The proposed system is assessed using a pool of 22 real-life event logs that have already been used as a benchmark in the Process Mining community.
翻訳日:2023-08-23 02:23:19 公開日:2023-08-21
# モデルベースプリミティブを用いたワンショットインシシタブルアニマタブルアバター

One-shot Implicit Animatable Avatars with Model-based Priors ( http://arxiv.org/abs/2212.02469v3 )

ライセンス: Link先を確認
Yangyi Huang, Hongwei Yi, Weiyang Liu, Haofan Wang, Boxi Wu, Wenxiao Wang, Binbin Lin, Debing Zhang, Deng Cai(参考訳) 人間のアバターを作る既存のニューラルレンダリング手法は、ビデオやマルチビュー画像のような濃密な入力信号を必要とするか、あるいは大規模な3d人間のデータセットから学習された事前情報を活用して、スパースビュー入力で再構成することができる。 これらの手法のほとんどは、1つの画像しか利用できない場合に現実的な再構築を達成できない。 現実的なアニマタブルな3次元人間のデータ効率向上を実現するために,1つの画像から人間固有の神経放射場を学習する新しい手法であるELICITを提案する。 人間は身体の幾何学を熱心に推定し、1つの画像から全身の衣服を想像できるという事実に触発され、ELICITの2つの先行する3D幾何と視覚的セマンティクスを利用する。 特に、ELICITは、スキン付き頂点ベースのテンプレートモデル(SMPL)に先立って3次元の体形形状を利用しており、CLIPベースの事前訓練モデルに先立って視覚的な衣服のセマンティクスを実装している。 両方のプリエントは、不可視領域で実行可能なコンテンツを作成するための最適化を共同でガイドするために使用される。 CLIPモデルを活用することで、ELICITはテキスト記述を使用してテキスト条件の見えないリージョンを生成することができる。 視覚的詳細をさらに改善するために,アバターの異なる部分を局所的に洗練するセグメンテーションに基づくサンプリング戦略を提案する。 ZJU-MoCAP、Human3.6M、DeepFashionを含む複数の人気のあるベンチマークに関する総合的な評価は、ELICITが単一の画像しか利用できない場合、アバター生成の強力なベースライン手法よりも優れていることを示している。 コードは研究目的でhttps://huangyangyi.github.io/elicit/で公開されている。

Existing neural rendering methods for creating human avatars typically either require dense input signals such as video or multi-view images, or leverage a learned prior from large-scale specific 3D human datasets such that reconstruction can be performed with sparse-view inputs. Most of these methods fail to achieve realistic reconstruction when only a single image is available. To enable the data-efficient creation of realistic animatable 3D humans, we propose ELICIT, a novel method for learning human-specific neural radiance fields from a single image. Inspired by the fact that humans can effortlessly estimate the body geometry and imagine full-body clothing from a single image, we leverage two priors in ELICIT: 3D geometry prior and visual semantic prior. Specifically, ELICIT utilizes the 3D body shape geometry prior from a skinned vertex-based template model (i.e., SMPL) and implements the visual clothing semantic prior with the CLIP-based pretrained models. Both priors are used to jointly guide the optimization for creating plausible content in the invisible areas. Taking advantage of the CLIP models, ELICIT can use text descriptions to generate text-conditioned unseen regions. In order to further improve visual details, we propose a segmentation-based sampling strategy that locally refines different parts of the avatar. Comprehensive evaluations on multiple popular benchmarks, including ZJU-MoCAP, Human3.6M, and DeepFashion, show that ELICIT has outperformed strong baseline methods of avatar creation when only a single image is available. The code is public for research purposes at https://huangyangyi.github.io/ELICIT/.
翻訳日:2023-08-23 02:16:55 公開日:2023-08-21
# 次の位置予測のためのコンテキストアウェアマルチヘッド自己アテンショナルニューラルネットワークモデル

Context-aware multi-head self-attentional neural network model for next location prediction ( http://arxiv.org/abs/2212.01953v3 )

ライセンス: Link先を確認
Ye Hong, Yatao Zhang, Konrad Schindler, Martin Raubal(参考訳) 正確な活動位置予測は多くのモビリティアプリケーションにおいて重要な要素であり、特にパーソナライズされた持続可能な輸送システムを開発するために必要である。 ディープラーニングモデルの普及にもかかわらず、次の位置予測モデルは、モビリティに関連する時空間コンテキストの包括的な議論と統合を欠いている。 本稿では,マルチヘッド・セルフ・アテンション(mhsa)ニューラルネットワークを用いて,過去の場所訪問,訪問時間,活動時間,周辺の土地利用機能から位置遷移パターンを学習し,個人の次の位置を推定する。 具体的には,複数の空間的スケールで場所の土地利用コンテキストを表現し,時空間的特徴の埋め込みベクトルを生成し,mhsaネットワークを用いて次の位置を予測することを学ぶ。 2つの大規模GNSS追跡データセットの実験を通して、提案モデルが他の最先端予測モデルより優れており、様々な時空間がモデルの性能に与える影響を明らかにする。 さらに,集団行動パターンからの学習により,個体群データに基づくモデルが個人レベルでのモデルよりも少ないパラメータで高い予測性能を達成することがわかった。 また,過去および1週間前に実施したモビリティが現在の予測に最も大きな影響を与え,過去のモビリティのサブセットからの学習が正確な位置予測結果を得るために十分であることを示す。 我々は,提案モデルがコンテキスト認識モビリティ予測に不可欠であると考えている。 得られた洞察は、位置予測モデルを理解し、モビリティアプリケーションの実装を促進するのに役立つだろう。

Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
翻訳日:2023-08-23 02:16:22 公開日:2023-08-21
# SatlasPretrain: リモートセンシング画像理解のための大規模データセット

SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image Understanding ( http://arxiv.org/abs/2211.15660v3 )

ライセンス: Link先を確認
Favyen Bastani and Piper Wolters and Ritwik Gupta and Joe Ferdinando and Aniruddha Kembhavi(参考訳) リモートセンシング画像は、森林破壊の追跡から違法漁業への対処まで、幅広い惑星監視用途に有用である。 地球は極めて多様で、リモートセンシング画像における潜在的タスクの量は膨大であり、特徴の大きさは数kmから数十cm程度である。 しかしながら、汎用的なコンピュータビジョン手法を作成することは、多くのタスクのためにこれらの多様な特徴をキャプチャする大規模なデータセットが欠如していることによる課題である。 本稿では,SatlasPretrainを提案する。SatlasPretrainは,Sentinel-2とNAIP画像と,137カテゴリの302Mラベルと7種類のラベルを併用した,広帯域・広帯域のリモートセンシングデータセットである。 そこで我々は,SatlasPretrainの8つのベースラインと提案手法を評価し,センサの異なる画像からなる画像時系列処理や,長距離空間のコンテキストの活用など,リモートセンシング特有の研究課題に対処する上で,かなりの改善の余地があることを見出した。 さらに,satlaspretrainでの事前トレーニングにより,下流タスクのパフォーマンスが大幅に向上し,imagenetでは平均精度が18%向上し,次回のベストベースラインでは6%向上した。 データセット、事前トレーニングされたモデルウェイト、コードはhttps://satlas-pretrain.allen.ai/で入手できる。

Remote sensing images are useful for a wide variety of planet monitoring applications, from tracking deforestation to tackling illegal fishing. The Earth is extremely diverse -- the amount of potential tasks in remote sensing images is massive, and the sizes of features range from several kilometers to just tens of centimeters. However, creating generalizable computer vision methods is a challenge in part due to the lack of a large-scale dataset that captures these diverse features for many tasks. In this paper, we present SatlasPretrain, a remote sensing dataset that is large in both breadth and scale, combining Sentinel-2 and NAIP images with 302M labels under 137 categories and seven label types. We evaluate eight baselines and a proposed method on SatlasPretrain, and find that there is substantial room for improvement in addressing research challenges specific to remote sensing, including processing image time series that consist of images from very different types of sensors, and taking advantage of long-range spatial context. Moreover, we find that pre-training on SatlasPretrain substantially improves performance on downstream tasks, increasing average accuracy by 18% over ImageNet and 6% over the next best baseline. The dataset, pre-trained model weights, and code are available at https://satlas-pretrain.allen.ai/.
翻訳日:2023-08-23 02:15:42 公開日:2023-08-21
# PCT-CycleGAN:レーダ型降雨予報のための相補的テンポラルサイクル一貫性対向ネットワーク

PCT-CycleGAN: Paired Complementary Temporal Cycle-Consistent Adversarial Networks for Radar-Based Precipitation Nowcasting ( http://arxiv.org/abs/2211.15046v5 )

ライセンス: Link先を確認
Jaeho Choi, Yura Kim, Kwang-Ho Kim, Sung-Hwa Jung, Ikhyun Cho(参考訳) 降雨は人間の生活に重大な影響を与えるため、降雨のノキャスティング手法は数世紀にわたって精巧化されてきた。 定量的降水量予測(QPF)モデルと畳み込み長短期記憶(ConvLSTM)だけでなく、最新のMetNet-2のような高度な手法も登場している。 本稿では,画像から画像への変換において強力な性能を示すcyclegan(cycle- consistent adversarial networks)にインスパイアされた,レーダベースの降水ナキャスティングのための相補的な時間周期整合adversarial network(pct-cyclegan)を提案する。 PCT-CycleGANは、2つのジェネレータネットワークと2つの相補サイクルにおける前後時間ダイナミクスを用いて時間因果関係を生成する。 各ジェネレータネットワークは、時間依存レーダベースの降水データに関する大量の1対1マッピングを学習し、各方向の時間ダイナミクスを表すマッピング関数を近似する。 ペアの相補サイクル間のロバストな時間的因果関係を生み出すために,新たな接続損失を提案する。 また, 豪雨を補うための集中的損失も提案されている。 PCT-CycleGANのフォワード時間ダイナミクスを学習するジェネレータネットワークは、現在の時間からレーダーベースの降水データを生成する。 また、反復予測によって、最大2時間の信頼できる予測を提供する。 PCT-CycleGANの優位性は, 定性的, 定量的な比較によって示された。

The precipitation nowcasting methods have been elaborated over the centuries because rain has a crucial impact on human life. Not only quantitative precipitation forecast (QPF) models and convolutional long short-term memory (ConvLSTM), but also various sophisticated methods such as the latest MetNet-2 are emerging. In this paper, we propose a paired complementary temporal cycle-consistent adversarial networks (PCT-CycleGAN) for radar-based precipitation nowcasting, inspired by cycle-consistent adversarial networks (CycleGAN), which shows strong performance in image-to-image translation. PCT-CycleGAN generates temporal causality using two generator networks with forward and backward temporal dynamics in paired complementary cycles. Each generator network learns a huge number of one-to-one mappings about time-dependent radar-based precipitation data to approximate a mapping function representing the temporal dynamics in each direction. To create robust temporal causality between paired complementary cycles, novel connection loss is proposed. And torrential loss to cover exceptional heavy rain events is also proposed. The generator network learning forward temporal dynamics in PCT-CycleGAN generates radar-based precipitation data 10 minutes from the current time. Also, it provides a reliable prediction of up to 2 hours with iterative forecasting. The superiority of PCT-CycleGAN is demonstrated through qualitative and quantitative comparisons with several previous methods.
翻訳日:2023-08-23 02:15:18 公開日:2023-08-21
# オンラインアンサンブル学習のためのニューラルアーキテクチャ

Neural Architecture for Online Ensemble Continual Learning ( http://arxiv.org/abs/2211.14963v2 )

ライセンス: Link先を確認
Mateusz W\'ojcik, Witold Ko\'sciukiewicz, Tomasz Kajdanowicz, Adam Gonczarek(参考訳) クラス数の増加による継続的学習は難しい課題である。 それぞれの例が正確に1回提示されると、困難が高まり、モデルがオンラインで学ぶ必要がある。 古典的なパラメータ最適化手順を持つ最近の手法は、そのような設定に苦労するか、非微分不可能なコンポーネントやメモリバッファのような制限があることが示されている。 そこで本研究では,エンドツーエンドでニューラルネットワークのアンサンブルを効率的に学習できる完全微分可能なアンサンブル法を提案する。 提案手法は,メモリバッファを使わずにSOTA結果が得られ,参照手法よりも明らかに優れている。 実験により,小アンサンブルの性能も著しく向上し,分類器の数を減らして比較的高い分類精度が得られることを示した。

Continual learning with an increasing number of classes is a challenging task. The difficulty rises when each example is presented exactly once, which requires the model to learn online. Recent methods with classic parameter optimization procedures have been shown to struggle in such setups or have limitations like non-differentiable components or memory buffers. For this reason, we present the fully differentiable ensemble method that allows us to efficiently train an ensemble of neural networks in the end-to-end regime. The proposed technique achieves SOTA results without a memory buffer and clearly outperforms the reference methods. The conducted experiments have also shown a significant increase in the performance for small ensembles, which demonstrates the capability of obtaining relatively high classification accuracy with a reduced number of classifiers.
翻訳日:2023-08-23 02:14:23 公開日:2023-08-21
# セマンティックセグメンテーションにおける画素単位の分布検出のための残差パターン学習

Residual Pattern Learning for Pixel-wise Out-of-Distribution Detection in Semantic Segmentation ( http://arxiv.org/abs/2211.14512v3 )

ライセンス: Link先を確認
Yuyuan Liu, Choubo Ding, Yu Tian, Guansong Pang, Vasileios Belagiannis, Ian Reid and Gustavo Carneiro(参考訳) セマンティックセグメンテーションモデルは、ピクセルを既知の(`in-distribution'')視覚クラスに分類する。 オープンな世界に展開する場合、これらのモデルの信頼性は、分布内画素を分類するだけでなく、分布外画素(OoD)を検出する能力にも依存する。 歴史的に、これらのモデルのood検出性能の低さは、oodビジュアルオブジェクトを含む合成トレーニングイメージを用いたモデル再トレーニングに基づくメソッドの設計を動機付けた。 成功したとはいえ、これらの再訓練手法には2つの問題がある。 1)再訓練中に分配分節精度が低下し得る。 2) そのood検出精度は, 訓練施設外の新たな状況(例えば, 都市環境)にはあまり一般化しない。 本稿では,これらの問題を次のように緩和する。 (i)不規則なセグメンテーション性能に影響を与えることなく、セグメンテーションモデルによるood画素の検出を支援する新しい残差パターン学習(rpl)モジュール (ii)rplが様々な文脈でood画素を頑健に検出することを強制する新しいコンテキストロバストコントラスト学習(corocl)。 本手法は,魚類景観,セグメンテーション・ミー・イ・ユー・カン,ロードアノマリーデータセットにおいて,これまでの最先端技術であるfprと7-% auprcを約10-%改善する。 私たちのコードは、https://github.com/yyliu01/rplで利用可能です。

Semantic segmentation models classify pixels into a set of known (``in-distribution'') visual classes. When deployed in an open world, the reliability of these models depends on their ability not only to classify in-distribution pixels but also to detect out-of-distribution (OoD) pixels. Historically, the poor OoD detection performance of these models has motivated the design of methods based on model re-training using synthetic training images that include OoD visual objects. Although successful, these re-trained methods have two issues: 1) their in-distribution segmentation accuracy may drop during re-training, and 2) their OoD detection accuracy does not generalise well to new contexts (e.g., country surroundings) outside the training set (e.g., city surroundings). In this paper, we mitigate these issues with: (i) a new residual pattern learning (RPL) module that assists the segmentation model to detect OoD pixels without affecting the inlier segmentation performance; and (ii) a novel context-robust contrastive learning (CoroCL) that enforces RPL to robustly detect OoD pixels among various contexts. Our approach improves by around 10\% FPR and 7\% AuPRC the previous state-of-the-art in Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets. Our code is available at: https://github.com/yyliu01/RPL.
翻訳日:2023-08-23 02:14:12 公開日:2023-08-21
# 潜伏構造を有する抗菌ペプチド発見の加速

Accelerating Antimicrobial Peptide Discovery with Latent Structure ( http://arxiv.org/abs/2212.09450v2 )

ライセンス: Link先を確認
Danqing Wang, Zeyu Wen, Fei Ye, Lei Li, Hao Zhou(参考訳) 抗微生物ペプチド(AMP)は薬剤耐性の病原体に対する治療的アプローチを約束している。 近年、新しいAMPの発見に深層生成モデルが用いられている。 しかし、従来の研究は主にペプチド配列の属性に焦点を当てており、重要な構造情報を考慮していない。 本稿では,AMP(LSSAMP)設計のための潜在シーケンス構造モデルを提案する。 LSSAMPは二次構造(アルファヘリックスやベータシートなど)を表すために潜在空間における多スケールベクトル量子化を利用する。 潜伏空間でサンプリングすることにより、LSSAMPは理想的な配列属性と二次構造を持つペプチドを同時に生成することができる。 実験の結果,LSSAMPにより産生されるペプチドは抗菌活性が高い可能性が示唆された。 湿式実験では,21の候補のうち2つが強い抗菌活性を示した。 コードはhttps://github.com/dqwang122/lssampでリリースされる。

Antimicrobial peptides (AMPs) are promising therapeutic approaches against drug-resistant pathogens. Recently, deep generative models are used to discover new AMPs. However, previous studies mainly focus on peptide sequence attributes and do not consider crucial structure information. In this paper, we propose a latent sequence-structure model for designing AMPs (LSSAMP). LSSAMP exploits multi-scale vector quantization in the latent space to represent secondary structures (e.g. alpha helix and beta sheet). By sampling in the latent space, LSSAMP can simultaneously generate peptides with ideal sequence attributes and secondary structures. Experimental results show that the peptides generated by LSSAMP have a high probability of antimicrobial activity. Our wet laboratory experiments verified that two of the 21 candidates exhibit strong antimicrobial activity. The code is released at https://github.com/dqwang122/LSSAMP.
翻訳日:2023-08-23 02:05:54 公開日:2023-08-21
# sparf: 少数の入力画像からの3次元スパース放射の大規模学習

SPARF: Large-Scale Learning of 3D Sparse Radiance Fields from Few Input Images ( http://arxiv.org/abs/2212.09100v3 )

ライセンス: Link先を確認
Abdullah Hamdi, Bernard Ghanem, Matthias Nie{\ss}ner(参考訳) ニューラル・ラジアンス・フィールド(NeRF)の最近の進歩は、新しいビュー合成の問題をスパース・ラジアンス・フィールド(SRF)最適化として、効率的な高速レンダリング(プレノクセル、InstantNGP)のためにスパース・ボクセルを用いて扱っている。 機械学習とSRFを3D表現として採用するために、SPARFは、高解像度(400×400ピクセル)で4万近い形状からレンダリングされた1700万ドルの画像からなる、斬新なビュー合成のための大規模ShapeNetベースの合成データセットである。 このデータセットは、新しいビュー合成のための既存の合成データセットよりも桁違い大きく、複数のボクセル解像度を持つ100万以上の3D最適化放射場を含んでいる。 さらに,少数の視点からスパースボクセル放射場を生成することを学習する新しいパイプライン (SuRFNet) を提案する。 これは、密集したSPARFデータセットと3次元スパース畳み込みを用いて行われる。 SuRFNetは、少数の画像からの部分的なSRFと特別なSRF損失を用いて、新しい視点からレンダリングできる高品質なスパースボクセル放射場を生成する。 提案手法は,最近のベースラインと比較して,ShapeNetのビューがほとんどないため,制約のない新規ビュー合成作業における最先端の成果を実現する。 SPARFデータセットは、プロジェクトのWebサイトhttps://abdullahamdi.com/sparf/で、コードとモデルとともに公開されている。

Recent advances in Neural Radiance Fields (NeRFs) treat the problem of novel view synthesis as Sparse Radiance Field (SRF) optimization using sparse voxels for efficient and fast rendering (plenoxels,InstantNGP). In order to leverage machine learning and adoption of SRFs as a 3D representation, we present SPARF, a large-scale ShapeNet-based synthetic dataset for novel view synthesis consisting of $\sim$ 17 million images rendered from nearly 40,000 shapes at high resolution (400 X 400 pixels). The dataset is orders of magnitude larger than existing synthetic datasets for novel view synthesis and includes more than one million 3D-optimized radiance fields with multiple voxel resolutions. Furthermore, we propose a novel pipeline (SuRFNet) that learns to generate sparse voxel radiance fields from only few views. This is done by using the densely collected SPARF dataset and 3D sparse convolutions. SuRFNet employs partial SRFs from few/one images and a specialized SRF loss to learn to generate high-quality sparse voxel radiance fields that can be rendered from novel views. Our approach achieves state-of-the-art results in the task of unconstrained novel view synthesis based on few views on ShapeNet as compared to recent baselines. The SPARF dataset is made public with the code and models on the project website https://abdullahamdi.com/sparf/ .
翻訳日:2023-08-23 02:05:43 公開日:2023-08-21
# 直接フィードバックアライメントとモーメントを用いた低分散フォワード勾配

Low-Variance Forward Gradients using Direct Feedback Alignment and Momentum ( http://arxiv.org/abs/2212.07282v4 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) ディープニューラルネットワークにおける教師付き学習は、一般にエラーバックプロパゲーションを用いて行われる。 しかし、後方通過時のエラーの逐次伝播は、そのスケーラビリティと低出力ニューロモルフィックハードウェアへの適用性を制限している。 したがって、バックプロパゲーションのローカルな代替品を見つけることへの関心が高まっている。 近年, 前方モード自動微分に基づく手法は, 収束に影響を及ぼす大深度ニューラルネットワークの高分散に悩まされている。 本稿では,運動摂動型前方勾配と直接フィードバックアライメントと運動量を組み合わせたフォワード直接フィードバックアライメントアルゴリズムを提案する。 提案手法が前方勾配法よりも低い分散性を実現するという理論的証明と実証的証拠の両方を提供する。 このようにして,バックプロパゲーションの他のローカルな代替品と比較して,コンバージェンスを高速化し,パフォーマンスを向上させることが可能となり,ニューロモルフィックシステムと互換性のあるオンライン学習アルゴリズムの開発に新たな視点が開ける。

Supervised learning in deep neural networks is commonly performed using error backpropagation. However, the sequential propagation of errors during the backward pass limits its scalability and applicability to low-powered neuromorphic hardware. Therefore, there is growing interest in finding local alternatives to backpropagation. Recently proposed methods based on forward-mode automatic differentiation suffer from high variance in large deep neural networks, which affects convergence. In this paper, we propose the Forward Direct Feedback Alignment algorithm that combines Activity-Perturbed Forward Gradients with Direct Feedback Alignment and momentum. We provide both theoretical proofs and empirical evidence that our proposed method achieves lower variance than forward gradient techniques. In this way, our approach enables faster convergence and better performance when compared to other local alternatives to backpropagation and opens a new perspective for the development of online learning algorithms compatible with neuromorphic systems.
翻訳日:2023-08-23 02:04:51 公開日:2023-08-21
# DeepCut: グラフニューラルネットワーククラスタリングによる教師なしセグメンテーション

DeepCut: Unsupervised Segmentation using Graph Neural Networks Clustering ( http://arxiv.org/abs/2212.05853v3 )

ライセンス: Link先を確認
Amit Aflalo, Shai Bagon, Tamar Kashti, Yonina Eldar(参考訳) 画像分割はコンピュータビジョンの基本課題である。 教師なしメソッドをトレーニングするためのデータアノテーションは労働集約的であり、教師なしメソッドを動機付ける。 現在のアプローチでは、事前に訓練されたネットワークから深い特徴を抽出してグラフを構築することが多く、k平均や正規化カットといった古典的なクラスタリング手法が後処理のステップとして適用される。 しかし,本手法は特徴量に符号化された高次元情報をペアワイズスカラー親和性に還元する。 この制限に対処するために,従来のクラスタリング手法を置き換える軽量なグラフニューラルネットワーク(GNN)を導入し,同じクラスタリング対象関数を最適化する。 既存の手法とは異なり、GNNはローカル画像特徴と生特徴とのペアワイズ親和性の両方を入力とする。 この生の特徴とクラスタリングの目的との直接的な接続により、異なるグラフ間でクラスタの分類を暗黙的に実行することが可能となり、追加の処理ステップを必要とせずに、部分的なセマンティックセグメンテーションが実現されます。 画像セグメンテーションGNNを訓練するための自己教師付き損失関数として,古典的クラスタリングの目的を定式化する方法を実証する。 さらに、相関クラスタリング(CC)の目的を用いてクラスタ数を定義せずにクラスタリングを行い、kレスクラスタリングを可能にする。 提案手法は,複数のベンチマークにおいて最先端性能を上回って,オブジェクトのローカライゼーション,セグメンテーション,セマンティクス部分セグメンテーションタスクに適用する。

Image segmentation is a fundamental task in computer vision. Data annotation for training supervised methods can be labor-intensive, motivating unsupervised methods. Current approaches often rely on extracting deep features from pre-trained networks to construct a graph, and classical clustering methods like k-means and normalized-cuts are then applied as a post-processing step. However, this approach reduces the high-dimensional information encoded in the features to pair-wise scalar affinities. To address this limitation, this study introduces a lightweight Graph Neural Network (GNN) to replace classical clustering methods while optimizing for the same clustering objective function. Unlike existing methods, our GNN takes both the pair-wise affinities between local image features and the raw features as input. This direct connection between the raw features and the clustering objective enables us to implicitly perform classification of the clusters between different graphs, resulting in part semantic segmentation without the need for additional post-processing steps. We demonstrate how classical clustering objectives can be formulated as self-supervised loss functions for training an image segmentation GNN. Furthermore, we employ the Correlation-Clustering (CC) objective to perform clustering without defining the number of clusters, allowing for k-less clustering. We apply the proposed method for object localization, segmentation, and semantic part segmentation tasks, surpassing state-of-the-art performance on multiple benchmarks.
翻訳日:2023-08-23 02:03:44 公開日:2023-08-21
# 複数視点からの自己指導型学習に関する調査研究:アルゴリズム,応用,今後の展望

A Survey of Self-supervised Learning from Multiple Perspectives: Algorithms, Applications and Future Trends ( http://arxiv.org/abs/2301.05712v2 )

ライセンス: Link先を確認
Jie Gui, Tuo Chen, Jing Zhang, Qiong Cao, Zhenan Sun, Hao Luo, Dacheng Tao(参考訳) 深い教師付き学習アルゴリズムは通常、十分なパフォーマンスを達成するために多くのラベル付き例を必要とする。 しかし、あまりに多くのサンプルの収集とラベル付けはコストと時間を要する可能性がある。 教師なし学習のサブセットとして、自己教師付き学習(SSL)は、ラベル付きラベルなしでラベルなしのサンプルから有用な特徴を学ぶことを目的としている。 SSLは最近多くの注目を集め、関連する多くのアルゴリズムが開発されている。 しかし、SSLのさまざまなバリエーションの接続と進化を説明する包括的な研究はほとんどない。 本稿では,アルゴリズム,アプリケーション,3つの主要なトレンド,オープンな質問の観点から,さまざまなSSLメソッドのレビューを行う。 まず、ほとんどのSSLアルゴリズムのモチベーションを詳細に紹介し、共通点と相違点を比較した。 次に、画像処理やコンピュータビジョン(CV)、自然言語処理(NLP)といった分野におけるSSLの典型的な応用について論じる。 最後に、SSLの主な3つのトレンドとオープンな研究課題について論じる。 有用な資料のコレクションはhttps://github.com/guijiejie/sslで入手できる。

Deep supervised learning algorithms generally require large numbers of labeled examples to achieve satisfactory performance. However, collecting and labeling too many examples can be costly and time-consuming. As a subset of unsupervised learning, self-supervised learning (SSL) aims to learn useful features from unlabeled examples without any human-annotated labels. SSL has recently attracted much attention and many related algorithms have been developed. However, there are few comprehensive studies that explain the connections and evolution of different SSL variants. In this paper, we provide a review of various SSL methods from the perspectives of algorithms, applications, three main trends, and open questions. First, the motivations of most SSL algorithms are introduced in detail, and their commonalities and differences are compared. Second, typical applications of SSL in domains such as image processing and computer vision (CV), as well as natural language processing (NLP), are discussed. Finally, the three main trends of SSL and the open research questions are discussed. A collection of useful materials is available at https://github.com/guijiejie/SSL.
翻訳日:2023-08-23 01:57:26 公開日:2023-08-21
# 解釈可能な画像分類のための学習支援と試行プロトタイプ

Learning Support and Trivial Prototypes for Interpretable Image Classification ( http://arxiv.org/abs/2301.04011v3 )

ライセンス: Link先を確認
Chong Wang, Yuyuan Liu, Yuanhong Chen, Fengbei Liu, Yu Tian, Davis J. McCarthy, Helen Frazer, Gustavo Carneiro(参考訳) Prototypeal part network (ProtoPNet) 法は,特徴空間の分類境界から遠く離れた位置にあるように訓練されるため,一連のトレーニングプロトタイプと予測を関連付けることで,解釈可能な分類を実現するように設計されている。 両方の方法からの分類は、一連のトレーニングポイント(つまり、protopnetにおける自明なプロトタイプと、svmにおけるサポートベクター)との類似性を計算することに依存しているため、protopnetとサポートベクターマシン(svm)の類似化が可能である。 しかしながら、自明なプロトタイプは分類境界から遠く離れた位置にあるが、支持ベクトルはこの境界に近い位置にあり、よく確立されたSVM理論とのこの相違は、分類精度が劣るProtoPNetモデルをもたらすと論じる。 本稿では,SVM理論により提案される特徴空間の分類境界付近にある支援プロトタイプを学習するための新しい手法を用いて,ProtoPNetの分類を改善することを目的とする。 さらに,新しいモデル st-protopnet を用いて分類結果の改善を目標とし,サポートプロトタイプと自明なプロトタイプを活用し,より効果的な分類を提供する。 CUB-200-2011、Stanford Cars、Stanford Dogsのデータセットによる実験結果は、ST-ProtoPNetが最先端の分類精度と解釈可能性の達成を実証している。 また,提案するサポートプロトタイプは,背景領域よりも興味のある対象にローカライズされる傾向が強いことを示した。

Prototypical part network (ProtoPNet) methods have been designed to achieve interpretable classification by associating predictions with a set of training prototypes, which we refer to as trivial prototypes because they are trained to lie far from the classification boundary in the feature space. Note that it is possible to make an analogy between ProtoPNet and support vector machine (SVM) given that the classification from both methods relies on computing similarity with a set of training points (i.e., trivial prototypes in ProtoPNet, and support vectors in SVM). However, while trivial prototypes are located far from the classification boundary, support vectors are located close to this boundary, and we argue that this discrepancy with the well-established SVM theory can result in ProtoPNet models with inferior classification accuracy. In this paper, we aim to improve the classification of ProtoPNet with a new method to learn support prototypes that lie near the classification boundary in the feature space, as suggested by the SVM theory. In addition, we target the improvement of classification results with a new model, named ST-ProtoPNet, which exploits our support prototypes and the trivial prototypes to provide more effective classification. Experimental results on CUB-200-2011, Stanford Cars, and Stanford Dogs datasets demonstrate that ST-ProtoPNet achieves state-of-the-art classification accuracy and interpretability results. We also show that the proposed support prototypes tend to be better localised in the object of interest rather than in the background region.
翻訳日:2023-08-23 01:56:45 公開日:2023-08-21
# recomed: 総合的な製薬推薦システム

RECOMED: A Comprehensive Pharmaceutical Recommendation System ( http://arxiv.org/abs/2301.00280v2 )

ライセンス: Link先を確認
Mariam Zomorodi, Ismail Ghodsollahee, Jennifer H. Martin, Nicholas J. Talley, Vahid Salari, Pawel Plawiak, Kazem Rahimi, U. Rajendra Acharya(参考訳) drug.com と druglib.com から抽出した患者と薬剤の特徴に基づいて総合的な医薬品推奨システムを開発した。 まず、これらのデータベースからのデータを組み合わせて患者と薬物情報のデータセットを構築した。 第2に、患者と薬物のクラスター化を行い、患者によって提供された異なる格付け、および患者と薬物の仕様から得られた知識、および薬物の相互作用を考慮して推奨を行った。 我々の知識を最大限に活用するため,我々は,特定の患者に適した特定の薬剤を選択するための提案手法において,患者の状況と歴史を考察した最初のグループである。 提案手法は,人工知能(AI)モデルを実装に適用する。 自然言語処理アプローチを用いた知覚分析は、ニューラルネットワークベースの手法やシステムモデリングのためのレコメンダシステムアルゴリズムと共に、前処理に使用される。 本研究は, 患者条件と薬物の特徴をマトリックス因子化に基づく2つのモデル作成に利用した。 その後、薬物相互作用を用いて、他の薬物と重度または軽度に相互作用する薬物をろ過した。 トレーニングセットとして2304人のデータを用いて,薬物を推奨する深層学習モデルを開発し,検証セットとして660人のデータを用いた。 その後,薬物に関する重要な情報から得られた知識を用いて,モデルの結果を知識ベースシステムと,薬剤摂取の制約から得られたルールを組み合わせる。

A comprehensive pharmaceutical recommendation system was designed based on the patients and drugs features extracted from Drugs.com and Druglib.com. First, data from these databases were combined, and a dataset of patients and drug information was built. Secondly, the patients and drugs were clustered, and then the recommendation was performed using different ratings provided by patients, and importantly by the knowledge obtained from patients and drug specifications, and considering drug interactions. To the best of our knowledge, we are the first group to consider patients conditions and history in the proposed approach for selecting a specific medicine appropriate for that particular user. Our approach applies artificial intelligence (AI) models for the implementation. Sentiment analysis using natural language processing approaches is employed in pre-processing along with neural network-based methods and recommender system algorithms for modeling the system. In our work, patients conditions and drugs features are used for making two models based on matrix factorization. Then we used drug interaction to filter drugs with severe or mild interactions with other drugs. We developed a deep learning model for recommending drugs by using data from 2304 patients as a training set, and then we used data from 660 patients as our validation set. After that, we used knowledge from critical information about drugs and combined the outcome of the model into a knowledge-based system with the rules obtained from constraints on taking medicine.
翻訳日:2023-08-23 01:55:28 公開日:2023-08-21
# 量子思考への転換を促進する--知識の再編成・組織化・認識論的課題に取り組む中等教育コースの開発

Promoting the transition to quantum thinking: development of a secondary school course for addressing knowledge revision, organization, and epistemological challenges ( http://arxiv.org/abs/2301.00239v4 )

ライセンス: Link先を確認
Giacomo Zuccarini and Marisa Michelini(参考訳) 本稿では, 古典的知識の改訂, 十分に体系化された知識構造の構築, 量子世界の信頼性と信頼性の確保といった課題に対処するために設計された中等教育のための量子力学コースの開発について述べる。 このコースは概念変化に対する体系的なアプローチに基づいており、古典力学から量子力学への移行における解析に依存し、認知とてんかんの側面をコーディネートする。 このアプローチが設計原則の導出を助長する方法,これらの原則が指導シーケンスの開発とその戦略をいかに導くか,それらの実装が異なる研究視点と学習システムのブレンドを必要とするかを示す。 第1の課題は、理論変化の各概念のダイナミクスに従って事前知識を活用する古典的概念と構成の修正の道を通して解決される。 2つ目は、コンテキストをまたいだ量子計測の統一図の構築を促進するフレームワークの採用である。 3つ目は、学生が理論物理学者のエピステマティックな実践、例えば思考実験の生成や実行、純粋に理論的な環境での数学的モデリングなどに関わるモデリングプロセスに関するコースを設計することである。 すべては、学生が自分の探究のもっともらしい産物として世界の量子的記述を受け入れるのを助けることを目的としている。 このプロセスは、提案された解釈的選択のそれぞれによって引き起こされる基礎的な議論の側面の議論に助けられ、その文化的重要性、選択された立場の制限、オープンな問題に対する認識を促進することを目的としている。 改良のサイクルに関するデータは、一連のアクティビティがローカルレベルでの課題にどのように効果的に対処されたかを示しています。

We describe the development of a course of quantum mechanics for secondary school designed to address the challenges related to the revision of classical knowledge, to the building of a well-organized knowledge structure on the discipline, and to the development of a plausible and reliable picture of the quantum world. The course is based on a systemic approach to conceptual change, which relies on its analysis in the transition from classical to quantum mechanics, and coordinates cognitive and epistemic aspects. We show how our approach drives the derivation of design principles, how these principles guide the development of the instructional sequence and of its strategies, how their implementation requires the blending of different research perspectives and learning systems. The first challenge is addressed through a path of revision of classical concepts and constructs which leverages prior knowledge according to the dynamics of each notion in theory change. The second by adopting a framework that promotes the construction of a unifying picture of quantum measurement across contexts. The third by designing the course around a modelling process that engages students in epistemic practices of the theoretical physicist, such as generating and/or running thought experiments, and mathematical modelling in a purely theoretical setting. All is aimed to help students accept the quantum description of the world as a plausible product of their own inquiry. This process is assisted by the discussion of the facets of the foundational debate that are triggered by each of the suggested interpretive choices, with the goal to promote an awareness of its cultural significance, of the limits the chosen stance, of the open issues. Data on the cycles of refinement illustrate how a set of activities have been made effective in addressing the challenges at a local level.
翻訳日:2023-08-23 01:55:05 公開日:2023-08-21
# 単一RGB画像からのハンドリコンストラクションの非結合型反復リファインメントフレームワーク

Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image ( http://arxiv.org/abs/2302.02410v2 )

ライセンス: Link先を確認
Pengfei Ren, Chao Wen, Xiaozheng Zheng, Zhou Xue, Haifeng Sun, Qi Qi, Jingyu Wang, Jianxin Liao(参考訳) 単一のRGB画像から対話的な手を再構築するのは、非常に難しい作業です。 一方,両手の重度な相互咬合と類似した局所的外観は,視覚特徴の抽出を混乱させ,推定された手のメッシュと画像の不一致を生じさせる。 一方で、相互作用する手の間には複雑な空間的関係があり、手のポーズの解空間を大幅に増加させ、ネットワーク学習の難しさを増大させる。 本稿では,手間の空間的関係を効率的にモデル化しながら,画素調整ハンドリコンストラクションを実現するために,分離した反復的リファインメントフレームワークを提案する。 具体的には,2次元視覚特徴空間と3次元関節特徴空間の2つの特徴空間を定義する。 まず、視覚特徴マップから共同機能を取得し、グラフ畳み込みネットワークと変換器を用いて、それぞれ3次元関節特徴空間における手動情報と手動情報との相互作用を行う。 次に,2次元視覚特徴空間にグローバル情報を持つジョイント特徴を難読化のない方法で投影し,2次元畳み込みを画素分割強調に利用する。 2つの特徴空間で複数の代替機能拡張を行うことにより, インタラクションハンドの高精度かつロバストな再構築を実現する。 提案手法は,interhand2.6mデータセットにおいて,既存の2手法を大きなマージンで上回っている。

Reconstructing interacting hands from a single RGB image is a very challenging task. On the one hand, severe mutual occlusion and similar local appearance between two hands confuse the extraction of visual features, resulting in the misalignment of estimated hand meshes and the image. On the other hand, there are complex spatial relationship between interacting hands, which significantly increases the solution space of hand poses and increases the difficulty of network learning. In this paper, we propose a decoupled iterative refinement framework to achieve pixel-alignment hand reconstruction while efficiently modeling the spatial relationship between hands. Specifically, we define two feature spaces with different characteristics, namely 2D visual feature space and 3D joint feature space. First, we obtain joint-wise features from the visual feature map and utilize a graph convolution network and a transformer to perform intra- and inter-hand information interaction in the 3D joint feature space, respectively. Then, we project the joint features with global information back into the 2D visual feature space in an obfuscation-free manner and utilize the 2D convolution for pixel-wise enhancement. By performing multiple alternate enhancements in the two feature spaces, our method can achieve an accurate and robust reconstruction of interacting hands. Our method outperforms all existing two-hand reconstruction methods by a large margin on the InterHand2.6M dataset.
翻訳日:2023-08-23 01:46:05 公開日:2023-08-21
# 最小相補エネルギー原理を用いた固体力学の深い相補エネルギー法

A deep complementary energy method for solid mechanics using minimum complementary energy principle ( http://arxiv.org/abs/2302.01538v5 )

ライセンス: Link先を確認
Yizheng Wang, Jia Sun, Timon Rabczuk, Yinghua Liu(参考訳) 近年、ディープラーニングの急速な進歩は、特に固体力学の領域で偏微分方程式(PDE)を解く際に、様々な分野に大きな影響を与え、ニューラルネットワークの顕著な近似能力の恩恵を受けている。 PDEの解決において、物理情報ニューラルネットワーク(PINN)とDeep Energy Method(DEM)が注目されている。 最小ポテンシャルエネルギーと相補エネルギーの原理は、固体力学における2つの重要な変分原理である。 しかし、よく知られたDeep Energy Method(DEM)は最小ポテンシャルエネルギーの原理に基づいているが、最小補完エネルギーの重要な形態は欠いている。 このギャップを埋めるために、最小補間エネルギーの原理に基づく深部補間エネルギー法(DCEM)を提案する。 DCEMの出力関数は、本質的に平衡方程式を満たす応力関数である。 本稿では,Prandtl と Airy の応力関数を用いて数値計算を行い,典型的な機械的問題をモデル化する場合に既存の PINN および DEM アルゴリズムと比較する。 以上の結果から,DCEMはDEMよりも応力精度と効率が優れており,理論的解析や数値シミュレーションによって支持される複雑な変位境界条件に対処する上で有利であることが示された。 我々はDCEMをDCEM-Plus(DCEM-P)に拡張し、偏微分方程式を満たす項を追加する。 さらに,演算子学習と物理方程式を組み合わせることで,Deep complementary energy operator method (DCEM-O)を提案する。 当初,我々は高忠実度数値結果を用いてDCEM-Oを訓練し,補完エネルギーを取り入れた。 DCEM-PとDCEM-OはDCEMの精度と効率をさらに高める。

In recent years, the rapid advancement of deep learning has significantly impacted various fields, particularly in solving partial differential equations (PDEs) in the realm of solid mechanics, benefiting greatly from the remarkable approximation capabilities of neural networks. In solving PDEs, Physics-Informed Neural Networks (PINNs) and the Deep Energy Method (DEM) have garnered substantial attention. The principle of minimum potential energy and complementary energy are two important variational principles in solid mechanics. However, the well-known Deep Energy Method (DEM) is based on the principle of minimum potential energy, but there lacks the important form of minimum complementary energy. To bridge this gap, we propose the deep complementary energy method (DCEM) based on the principle of minimum complementary energy. The output function of DCEM is the stress function, which inherently satisfies the equilibrium equation. We present numerical results using the Prandtl and Airy stress functions, and compare DCEM with existing PINNs and DEM algorithms when modeling representative mechanical problems. The results demonstrate that DCEM outperforms DEM in terms of stress accuracy and efficiency and has an advantage in dealing with complex displacement boundary conditions, which is supported by theoretical analyses and numerical simulations. We extend DCEM to DCEM-Plus (DCEM-P), adding terms that satisfy partial differential equations. Furthermore, we propose a deep complementary energy operator method (DCEM-O) by combining operator learning with physical equations. Initially, we train DCEM-O using high-fidelity numerical results and then incorporate complementary energy. DCEM-P and DCEM-O further enhance the accuracy and efficiency of DCEM.
翻訳日:2023-08-23 01:45:42 公開日:2023-08-21
# 縮退光パラメトリック発振器ネットワークにおけるコヒーレントクラスター状態生成

Coherent-cluster-state generation in networks of degenerate optical parametric oscillators ( http://arxiv.org/abs/2301.13666v2 )

ライセンス: Link先を確認
Zheng-Yang Zhou, Clemens Gneiting, J.Q. You, and Franco Nori(参考訳) クラスター状態は万能な量子資源であり、測定ベースの量子コンピューティングに不可欠な構成要素である。 したがって、特定のシステムでクラスター状態を生成する可能性は、これらのシステムが量子技術や量子情報処理にどの程度活用できるかについての指標となる。 本稿では、この解析をコヒーレントイジングマシン(CIM)とも呼ばれる縮退型光パラメトリック発振器(DOPO)のネットワークに適用する。 cimは、非常に柔軟な結合機能によって区別され、例えば、大きなスピン系をエミュレートするためにそれらを使用することができる。 CIMは一般にコヒーレントな状態(およびその重畳)で作用するため、コヒーレントな状態、すなわちコヒーレントな状態の重畳によって形成されるクラスター状態を考えることは自然である。 このようなコヒーレントなクラスター状態は、ビームスプリッターと古典的なポンプの助けを借りて、理想的な条件下でdopoネットワークで生成することができる。 その後の数値解析は、現実的な条件下でのコヒーレントクラスタ状態の生成に対する最小要件を提供する。 さらに,非平衡ポンプがコヒーレントクラスター状態の生成をいかに改善できるかを考察する。 クラスタ状態生成の質を評価するために,モジュール変数を用いて生成した状態を有効スピン空間にマッピングし,スピンベースのクラスタ状態に適した絡み合い基準を適用する。

Cluster states are versatile quantum resources and an essential building block for measurement-based quantum computing. The possibility to generate cluster states in specific systems may thus serve as an indicator regarding if and to what extent these systems can be harnessed for quantum technologies and quantum information processing in particular. Here, we apply this analysis to networks of degenerate optical parametric oscillators (DOPOs), also called coherent Ising machines (CIMs). CIMs are distinguished by their highly flexible coupling capabilities, which makes it possible to use them, e.g., to emulate large spin systems. As CIMs typically operate with coherent states (and superpositions thereof), it is natural to consider cluster states formed by superpositions of coherent states, i.e., coherent cluster states. As we show, such coherent cluster states can, under ideal conditions, be generated in DOPO networks with the help of beam splitters and classical pumps. Our subsequent numerical analysis provides the minimum requirements for the generation of coherent cluster states under realistic conditions. Moreover, we discuss how nonequilibrium pumps can improve the generation of coherent cluster states. In order to assess the quality of the cluster-state generation, we map the generated states to an effective spin space using modular variables, which allows us to apply entanglement criteria tailored for spin-based cluster states.
翻訳日:2023-08-23 01:45:15 公開日:2023-08-21
# 港湾用デジタル双生児:スマートシティとサプライチェーン双生児の経験から

Digital Twins for Ports: Derived from Smart City and Supply Chain Twinning Experience ( http://arxiv.org/abs/2301.10224v3 )

ライセンス: Link先を確認
Robert Klar, Anna Fredriksson, Vangelis Angelakis(参考訳) 港湾は、輸送の増加に対処する革新的な技術ソリューションを模索しており、同時に環境のフットプリントも改善している。 多面的および相互接続されたポートプロセスの効率を大幅に向上させる可能性を持つ新興技術はデジタルツインである。 デジタル双生児は多くの産業でうまく統合されているが、デジタル双生児を構成するものに関するクロスドメインな理解はいまだに欠けている。 さらに、ポートのような複雑なシステムにおけるデジタルツインの実装は、まだ初期段階にある。 本稿では,本研究のギャップを埋めるために,デジタル双生児を構成するものを網羅したクロスドメイン文献レビューを実施し,各発見が港にどの程度適用できるかを留意する。 ポートのデジタル双対は、機能的関連性だけでなく、要求や特性の観点からも、スマートシティやサプライチェーンのような複雑なシステムに最も匹敵するものであることが判明した。 実施した文献レビューでは,異なるポートプロセスとポート特性を考慮した結果,デジタルポートツインの3つのコア要件が明確となった。 これには、状況認識、インテリジェントな意思決定のための包括的なデータ分析機能、マルチステークホルダーのガバナンスとコラボレーションを促進するインターフェースの提供が含まれる。 最後に、港のデジタル双生児が、港湾資源、設備、運用を改善することで省エネにどのように貢献できるかについて、具体的な運用シナリオが提案されている。

Ports are striving for innovative technological solutions to cope with the ever-increasing growth of transport, while at the same time improving their environmental footprint. An emerging technology that has the potential to substantially increase the efficiency of the multifaceted and interconnected port processes is the digital twin. Although digital twins have been successfully integrated in many industries, there is still a lack of cross-domain understanding of what constitutes a digital twin. Furthermore, the implementation of the digital twin in complex systems such as the port is still in its infancy. This paper attempts to fill this research gap by conducting an extensive cross-domain literature review of what constitutes a digital twin, keeping in mind the extent to which the respective findings can be applied to the port. It turns out that the digital twin of the port is most comparable to complex systems such as smart cities and supply chains, both in terms of its functional relevance as well as in terms of its requirements and characteristics. The conducted literature review, considering the different port processes and port characteristics, results in the identification of three core requirements of a digital port twin, which are described in detail. These include situational awareness, comprehensive data analytics capabilities for intelligent decision making, and the provision of an interface to promote multi-stakeholder governance and collaboration. Finally, specific operational scenarios are proposed on how the port's digital twin can contribute to energy savings by improving the use of port resources, facilities and operations.
翻訳日:2023-08-23 01:44:03 公開日:2023-08-21
# 並列化ブースティングの可能性

The Impossibility of Parallelizing Boosting ( http://arxiv.org/abs/2301.09627v3 )

ライセンス: Link先を確認
Amin Karbasi, Kasper Green Larsen(参考訳) 強化の目的は、弱い学習者の列を強い学習者に変換することである。 彼らの心では、これらの方法は完全にシーケンシャルです。 本稿では,並列化促進の可能性を検討する。 私たちの主な貢献は強い負の結果であり、トレーニングに必要なコンピューティングリソースの総量に対して、大幅な並列化が必要であることを示唆している。

The aim of boosting is to convert a sequence of weak learners into a strong learner. At their heart, these methods are fully sequential. In this paper, we investigate the possibility of parallelizing boosting. Our main contribution is a strong negative result, implying that significant parallelization of boosting requires an exponential blow-up in the total computing resources needed for training.
翻訳日:2023-08-23 01:43:39 公開日:2023-08-21
# 不均衡なコールドスタート勧告に対する適応重み付きメタラーニング

Meta-Learning with Adaptive Weighted Loss for Imbalanced Cold-Start Recommendation ( http://arxiv.org/abs/2302.14640v2 )

ライセンス: Link先を確認
Minchang Kim, Yongjin Yang, Jung Hyun Ryu, Taesup Kim(参考訳) 逐次的なレコメンデーションは、ユーザの好みをキャプチャする上で大きな進歩を遂げています。 それでも、コールドスタート推奨は、パーソナライズのためのユーザーとイテムのやりとりが制限されることが多いため、基本的な課題である。 近年,グラデーションに基づくメタラーニング手法が,適応の速さと統合性が容易であることから,逐次的レコメンデーション分野に登場している。 メタ学習アルゴリズムは、冷間開始推奨を数発の学習問題として定式化し、各ユーザが適応すべきタスクとして表現する。 メタラーニングアルゴリズムは一般に、タスクワイドのサンプルはクラスや値に均等に分散されていると仮定するが、現実世界のアプリケーションにおけるユーザー・イテムの相互作用はそのような分布に従わない(例えば、お気に入りのビデオを何回も視聴し、ネガティブな評価をせずに肯定的な評価を残す)。 その結果、タスクトレーニングデータの大部分を占める不均衡なユーザフィードバックが、ユーザ適応プロセスを支配し、パーソナライズされたレコメンデーションのためにメタ学習アルゴリズムが意味のあるメタ知識を学習するのを防ぐことができる。 この制限を緩和するために,各ユーザの不均衡な評価分布を捉え,ユーザ固有の学習における適応的損失を計算する,勾配に基づくメタ学習に基づく新しい逐次推奨フレームワークを提案する。 私たちの仕事は、コールドスタートシーケンシャルなレコメンデーションシナリオにおける不均衡な評価の影響に最初に取り組みます。 実世界のデータセット上で行った広範囲な実験を通じて,このフレームワークの有効性を実証する。

Sequential recommenders have made great strides in capturing a user's preferences. Nevertheless, the cold-start recommendation remains a fundamental challenge as they typically involve limited user-item interactions for personalization. Recently, gradient-based meta-learning approaches have emerged in the sequential recommendation field due to their fast adaptation and easy-to-integrate abilities. The meta-learning algorithms formulate the cold-start recommendation as a few-shot learning problem, where each user is represented as a task to be adapted. While meta-learning algorithms generally assume that task-wise samples are evenly distributed over classes or values, user-item interactions in real-world applications do not conform to such a distribution (e.g., watching favorite videos multiple times, leaving only positive ratings without any negative ones). Consequently, imbalanced user feedback, which accounts for the majority of task training data, may dominate the user adaptation process and prevent meta-learning algorithms from learning meaningful meta-knowledge for personalized recommendations. To alleviate this limitation, we propose a novel sequential recommendation framework based on gradient-based meta-learning that captures the imbalanced rating distribution of each user and computes adaptive loss for user-specific learning. Our work is the first to tackle the impact of imbalanced ratings in cold-start sequential recommendation scenarios. Through extensive experiments conducted on real-world datasets, we demonstrate the effectiveness of our framework.
翻訳日:2023-08-23 01:37:39 公開日:2023-08-21
# ライドバーグガスの低温におけるグリフィス相

Griffiths Phase in a Facilitated Rydberg Gas at Low Temperature ( http://arxiv.org/abs/2302.14145v2 )

ライセンス: Link先を確認
Daniel Brady, Jana Bender, Patrick Mischke, Thomas Niederpr\"um, Herwig Ott, and Michael Fleischhauer(参考訳) ライドベルクのファシリテーションによる引用の拡散は多くの疫病と類似している。 このようなシステムは、古典的レート方程式のモンテカルロシミュレーションでモデル化でき、高い評価結果、高い精度でモデル化することができる。 本稿では,Rydberg多体系の高温・低温限界におけるファシリテーション機構のダイナミクスを解析する。 高温域では均質な平均場挙動が回復するが、凍った気体では不均一性の特徴的な効果が見られる。 大きな温度では吸収状態の相転移を示し、追加の損失チャネルの存在下では、自己組織的な臨界性を示す。 冷凍または低温の気体では、励起はerd\"os-renyiグラフに似たネットワークに制限される。 我々は,吸収状態の相転移を拡張Griffiths相に置き換え,Rydberg ブロックを考慮した Erd\"os-Renyi ネットワーク上での感受性感染モデルにより正確に記述することを示した。 さらに、既設のマクロランジュバン方程式を拡張し、冷凍および有限温度領域におけるリドバーグ原子の密度をより正確に記述する。

The spread of excitations by Rydberg facilitation bears many similarities to epidemics. Such systems can be modeled with Monte-Carlo simulations of classical rate equations to great accuracy as a result of high dephasing. In this paper, we analyze the dynamics of a Rydberg many-body system in the facilitation regime in the limits of high and low temperatures. While in the high-temperature limit a homogeneous mean-field behaviour is recovered, characteristic effects of heterogeneity can be seen in a frozen gas. At large temperatures the system displays an absorbing-state phase transition and, in the presence of an additional loss channel, self-organized criticality. In a frozen or low-temperature gas, excitations are constrained to a network resembling an Erd\"os-Renyi graph. We show that the absorbing-state phase transition is replaced with an extended Griffiths phase, which we accurately describe by a susceptible-infected-susceptible model on the Erd\"os-Renyi network taking into account Rydberg blockade. Furthermore, we expand upon an existing macroscopic Langevin equation to more accurately describe the density of Rydberg atoms in the frozen and finite temperature regimes.
翻訳日:2023-08-23 01:36:41 公開日:2023-08-21
# ほぼ線形時間におけるロバスト交代最小化による低ランク行列補完

Low Rank Matrix Completion via Robust Alternating Minimization in Nearly Linear Time ( http://arxiv.org/abs/2302.11068v2 )

ライセンス: Link先を確認
Yuzhou Gu, Zhao Song, Junze Yin, Lichen Zhang(参考訳) 行列 $M\in \mathbb{R}^{m\times n}$ が与えられたとき、低階行列完備問題によりランク-k$$$M$ as $UV^\top$ for $U\in \mathbb{R}^{m\times k}$ と $V\in \mathbb{R}^{n\times k}$ を求めることができる。 特に,実際に広く使用されているアプローチである交代最小化フレームワークについて検討する。 Jain, Netrapalli and Sanghavi~\cite{jns13} は、もし$M$が不整列と列を持つなら、最小化の交互化は、$n$のエントリのほとんど線形を観察することによって、行列$M$を確実に回復することを示した。 サンプルの複雑さはその後、--\cite{glz17} が改善されたが、交代最小化ステップは正確に計算する必要がある。 これにより、より効率的なアルゴリズムの開発が妨げられ、更新がほぼ効率を優先して実行される交代最小化の実践的な実装を表現できない。 本稿では、より効率的でエラーロバストな代替最小化フレームワークに向けて大きな一歩を踏み出します。 そこで本研究では,近似更新による誤りの許容範囲を最小化するための解析フレームワークを開発した。 さらに、我々のアルゴリズムは時間$\widetilde O(|\Omega| k)$で実行され、これはサンプルの複雑さを保ちながら解を検証するのにほぼ線形である。 これは、$\widetilde O(|\Omega| k^2)$ time を必要とするすべての既知の交代最小化アプローチを改善する。

Given a matrix $M\in \mathbb{R}^{m\times n}$, the low rank matrix completion problem asks us to find a rank-$k$ approximation of $M$ as $UV^\top$ for $U\in \mathbb{R}^{m\times k}$ and $V\in \mathbb{R}^{n\times k}$ by only observing a few entries specified by a set of entries $\Omega\subseteq [m]\times [n]$. In particular, we examine an approach that is widely used in practice -- the alternating minimization framework. Jain, Netrapalli and Sanghavi~\cite{jns13} showed that if $M$ has incoherent rows and columns, then alternating minimization provably recovers the matrix $M$ by observing a nearly linear in $n$ number of entries. While the sample complexity has been subsequently improved~\cite{glz17}, alternating minimization steps are required to be computed exactly. This hinders the development of more efficient algorithms and fails to depict the practical implementation of alternating minimization, where the updates are usually performed approximately in favor of efficiency. In this paper, we take a major step towards a more efficient and error-robust alternating minimization framework. To this end, we develop an analytical framework for alternating minimization that can tolerate moderate amount of errors caused by approximate updates. Moreover, our algorithm runs in time $\widetilde O(|\Omega| k)$, which is nearly linear in the time to verify the solution while preserving the sample complexity. This improves upon all prior known alternating minimization approaches which require $\widetilde O(|\Omega| k^2)$ time.
翻訳日:2023-08-23 01:36:23 公開日:2023-08-21
# HLSDataset:高レベル合成を用いたML支援FPGA設計のためのオープンソースデータセット

HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High Level Synthesis ( http://arxiv.org/abs/2302.10977v2 )

ライセンス: Link先を確認
Zhigang Wei, Aman Arora, Ruihao Li, Lizy K. John(参考訳) 機械学習(ML)は、高レベル合成(HLS)を用いた設計探索において、FPGAベースの設計のごく初期段階において、より良く高速な性能とリソースと電力推定を提供するために広く採用されている。 mlモデルのトレーニングには、高精度かつ大容量のデータセットが必要となる。本論文は、hlsを用いたml支援fpga設計のためのデータセットであるhlsdatasetを提案する。 データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。 verilogのサンプルはループアンロール、ループパイプライン、配列パーティションなど様々なディレクティブで生成され、最適化され現実的なデザインがカバーされる。 生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。 本データセットの有効性を実証するため,本データセットで訓練したMLモデルを用いて,電力推定と資源使用量推定を行うケーススタディを行った。 すべてのコードとデータセットはgithubリポジトリで公開されています。HLSDatasetは、ツールの実行やスクリプティング、解析といった面倒なプロセスを回避し、データセットを生成することで、研究者にとって貴重な時間を節約できると考えています。

Machine Learning (ML) has been widely adopted in design exploration using high level synthesis (HLS) to give a better and faster performance, and resource and power estimation at very early stages for FPGA-based design. To perform prediction accurately, high-quality and large-volume datasets are required for training ML models.This paper presents a dataset for ML-assisted FPGA design using HLS, called HLSDataset. The dataset is generated from widely used HLS C benchmarks including Polybench, Machsuite, CHStone and Rossetta. The Verilog samples are generated with a variety of directives including loop unroll, loop pipeline and array partition to make sure optimized and realistic designs are covered. The total number of generated Verilog samples is nearly 9,000 per FPGA type. To demonstrate the effectiveness of our dataset, we undertake case studies to perform power estimation and resource usage estimation with ML models trained with our dataset. All the codes and dataset are public at the github repo.We believe that HLSDataset can save valuable time for researchers by avoiding the tedious process of running tools, scripting and parsing files to generate the dataset, and enable them to spend more time where it counts, that is, in training ML models.
翻訳日:2023-08-23 01:35:44 公開日:2023-08-21
# 感情推論を支援する感情概念知識の言語特異的表現

Language-Specific Representation of Emotion-Concept Knowledge Causally Supports Emotion Inference ( http://arxiv.org/abs/2302.09582v4 )

ライセンス: Link先を確認
Ming Li, Yusheng Su, Hsiu-Yuan Huang, Jiali Cheng, Xin Hu, Xinmiao Zhang, Huadong Wang, Yujia Qin, Xiaozhi Wang, Zhiyuan Liu, Dan Zhang(参考訳) 言語がどのように感情推論をサポートするかを理解することは、感情科学における議論のトピックである。 本研究では,言語固有の知識表現を大言語モデルで操作することで,言語由来の感情概念知識が感情推論を因果的に支援するかどうかを検討した。 プロンプト法を用いて、感情概念の14の属性が、異なる人工ニューロン集団によって表されることがわかった。 これらの属性関連ニューロンを操作することで、感情推論タスクの大半はランダム操作に比べて性能が低下することを示した。 属性特異的なパフォーマンス劣化は、人間の精神空間における異なる属性の重要性に関連していた。 本研究は感情推論のための言語に基づくメカニズムを支持する因果的証拠を提供し,感情概念知識の寄与を強調する。

Understanding how language supports emotion inference remains a topic of debate in emotion science. The present study investigated whether language-derived emotion-concept knowledge would causally support emotion inference by manipulating the language-specific knowledge representations in large language models. Using the prompt technique, 14 attributes of emotion concepts were found to be represented by distinct artificial neuron populations. By manipulating these attribute-related neurons, the majority of the emotion inference tasks showed performance deterioration compared to random manipulations. The attribute-specific performance deterioration was related to the importance of different attributes in human mental space. Our findings provide causal evidence in support of a language-based mechanism for emotion inference and highlight the contributions of emotion-concept knowledge.
翻訳日:2023-08-23 01:35:02 公開日:2023-08-21
# 脳卒中疑似脳卒中患者における4d cnnによるpenumbraとcoreの分画

CT Perfusion is All We Need: 4D CNN Segmentation of Penumbra and Core in Patients With Suspected Ischemic Stroke ( http://arxiv.org/abs/2303.08757v4 )

ライセンス: Link先を確認
Luca Tomasetti, Kjersti Engan, Liv Jorunn H{\o}llesli, Kathinka D{\ae}hli Kurz, Mahdieh Khanmohammadi(参考訳) 急性期脳卒中 (ais) 患者における死組織, コア, 回収可能組織, ペナンブラの虚血部位の精密かつ迅速な予測法が臨床的に重要な関心事である。 診断と治療計画の改善に不可欠な役割を担っている。 CTスキャンはAISを疑う患者の早期評価における主要な指標の1つである。 CT Perfusion (CTP) は脳卒中の位置, 重症度, および虚血性病変の容積を決定する一次評価としてしばしば用いられる。 現在のCTPの自動セグメンテーション法は, 従来, 放射線技師による臨床解釈に用いられていた3次元パラメトリックマップを入力として用いている。 また、生のctpデータを2d+time入力としてスライスバイスライスベースで使用し、ボリューム上の空間情報を無視する。 さらに、これらの手法はコア領域のセグメント化のみに関心を持ち、ペナンブラの予測は治療計画に不可欠である。 本稿では,4次元CTP全体を入力として活用し,時空間情報を完全に活用する方法について検討し,新しい4次元畳み込み層を提案する。 3つのグループに分けた152人のローカルデータセットに関する包括的実験により,提案手法は他の手法よりも精度の高い結果が得られた。 提案した4D mJ-Netを用いることで、ペニブラとコア領域の分割にそれぞれ0.53と0.23のDice係数が得られる。 コードはhttps://github.com/biomedical-data- analysis-laboratory/4d-mj-net.gitで入手できる。

Precise and fast prediction methods for ischemic areas comprised of dead tissue, core, and salvageable tissue, penumbra, in acute ischemic stroke (AIS) patients are of significant clinical interest. They play an essential role in improving diagnosis and treatment planning. Computed Tomography (CT) scan is one of the primary modalities for early assessment in patients with suspected AIS. CT Perfusion (CTP) is often used as a primary assessment to determine stroke location, severity, and volume of ischemic lesions. Current automatic segmentation methods for CTP mostly use already processed 3D parametric maps conventionally used for clinical interpretation by radiologists as input. Alternatively, the raw CTP data is used on a slice-by-slice basis as 2D+time input, where the spatial information over the volume is ignored. In addition, these methods are only interested in segmenting core regions, while predicting penumbra can be essential for treatment planning. This paper investigates different methods to utilize the entire 4D CTP as input to fully exploit the spatio-temporal information, leading us to propose a novel 4D convolution layer. Our comprehensive experiments on a local dataset of 152 patients divided into three groups show that our proposed models generate more precise results than other methods explored. Adopting the proposed 4D mJ-Net, a Dice Coefficient of 0.53 and 0.23 is achieved for segmenting penumbra and core areas, respectively. The code is available on https://github.com/Biomedical-Data-Analysis-Laboratory/4D-mJ-Net.git.
翻訳日:2023-08-23 01:26:12 公開日:2023-08-21
# 長距離2次リンドブラディアンにおける絡み合いと局在

Entanglement and localization in long-range quadratic Lindbladians ( http://arxiv.org/abs/2303.07070v3 )

ライセンス: Link先を確認
Alejandro Cros Carrillo de Albornoz, Dominic C. Rose and Arijeet Pal(参考訳) アンダーソン局在の存在は、無秩序系における古典波と量子波のコヒーレンスを示すものと考えられている。 環境への結合が著しく抑制されるが排除されない凝縮物や低温原子系では、局在のシグネチャが観察されている。 本研究では,開量子系を記述するランダム・リンドブラッド力学における局在現象を考察する。 浴槽の局所的なアンサンブルに結合した非相互作用性スピンレスフェルミオンの1次元連鎖モデルを提案する。 各サイトにリンクされた浴槽との相互作用を媒介するジャンプ演算子は、指数$p$のパワーローテールを有する。 系の定常状態は,コヒーレントホッピングの有無で安定な$p$をチューニングすることにより,局所的絡み合い相転移が進行することを示す。 開系の量子軌道における絡み合い遷移とは異なり、この遷移はリンドブレディアンの平均定常状態密度行列によって表される。 局所化相の定常状態は、局所的な人口不均衡の不均一性によって特徴づけられる一方、ジャンプ演算子は影響する部位の一定の参加率を示す。 我々の研究は、オープン量子システムにおける局在物理学の新たな実現を提供する。

Existence of Anderson localization is considered a manifestation of coherence of classical and quantum waves in disordered systems. Signatures of localization have been observed in condensed matter and cold atomic systems where the coupling to the environment can be significantly suppressed but not eliminated. In this work we explore the phenomena of localization in random Lindbladian dynamics describing open quantum systems. We propose a model of one-dimensional chain of non-interacting, spinless fermions coupled to a local ensemble of baths. The jump operator mediating the interaction with the bath linked to each site has a power-law tail with an exponent $p$. We show that the steady state of the system undergoes a localization entanglement phase transition by tuning $p$ which remains stable in the presence of coherent hopping. Unlike the entanglement transition in the quantum trajectories of open systems, this transition is exhibited by the averaged steady state density matrix of the Lindbladian. The steady state in the localized phase is characterised by a heterogeneity in local population imbalance, while the jump operators exhibit a constant participation ratio of the sites they affect. Our work provides a novel realisation of localization physics in open quantum systems.
翻訳日:2023-08-23 01:24:55 公開日:2023-08-21
# 非対角距離におけるスケーラブル確率勾配リーマンランゲインダイナミクス

Scalable Stochastic Gradient Riemannian Langevin Dynamics in Non-Diagonal Metrics ( http://arxiv.org/abs/2303.05101v3 )

ライセンス: Link先を確認
Hanlin Yu, Marcelo Hartmann, Bernardo Williams and Arto Klami(参考訳) 確率勾配サンプリング法は、ニューラルネットワーク上でベイズ推論を行うためにしばしば用いられる。 微分幾何学の概念を包含する手法は、リーマン計量が局所曲率を計算して後方探索を改善することにより、より優れた性能を持つ傾向があることが観察されている。 しかし、既存の手法は計算効率を維持するために単純な対角法を用いることが多い。 これは多少の利益を失う。 本稿では,2つの非対角的メトリクスを確率勾配サンプリング器で使用して収束と探索を改善するが,対角的メトリクスに対する計算オーバーヘッドはわずかである。 完全接続型ニューラルネットワーク(NN)と疎結合型プリエントと、相関したプリエントを持つ畳み込みNNでは、これらのメトリクスを用いることで改善が期待できることを示す。 他の選択肢では、後部は単純なメトリクスに対しても十分簡単である。

Stochastic-gradient sampling methods are often used to perform Bayesian inference on neural networks. It has been observed that the methods in which notions of differential geometry are included tend to have better performances, with the Riemannian metric improving posterior exploration by accounting for the local curvature. However, the existing methods often resort to simple diagonal metrics to remain computationally efficient. This loses some of the gains. We propose two non-diagonal metrics that can be used in stochastic-gradient samplers to improve convergence and exploration but have only a minor computational overhead over diagonal metrics. We show that for fully connected neural networks (NNs) with sparsity-inducing priors and convolutional NNs with correlated priors, using these metrics can provide improvements. For some other choices the posterior is sufficiently easy also for the simpler metrics.
翻訳日:2023-08-23 01:24:37 公開日:2023-08-21
# icl-d3ie: ドキュメント情報抽出のためのさまざまなデモによるインコンテキスト学習

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction ( http://arxiv.org/abs/2303.05063v4 )

ライセンス: Link先を確認
Jiabang He, Lei Wang, Yi Hu, Ning Liu, Hui Liu, Xing Xu, and Heng Tao Shen(参考訳) GPT-3 や ChatGPT のような大規模言語モデル (LLM) は、いくつかの実例に基づく推論を含む、文脈内学習を伴う様々な自然言語処理 (NLP) タスクにおいて顕著な結果を示している。 NLPタスクの成功にもかかわらず、LLMが文脈内学習を用いて文書情報抽出(DIE)を行う能力を評価するための調査は行われていない。 LLMをDIEに適用することは、モダリティとタスクギャップという2つの課題をもたらす。 そこで本研究では,様々な種類の実演例を用いてllmによるダイ実行を可能にするicl-d3ieという,シンプルかつ効果的なインコンテキスト学習フレームワークを提案する。 具体的には、すべてのテストインスタンスのメリットを享受するためのハードトレーニングドキュメントから、最も困難で明確なセグメントを抽出する。 我々は、LLMが位置関係を理解することができる関係を記述するデモンストレーションを設計する。 簡単な解答抽出のためのフォーマッティングデモを導入する。 さらに、フレームワークは繰り返し更新することで様々なデモを改善している。 ICL-D3IE フレームワークは,従来のトレーニング済み手法と比較して,分布内 (ID) 設定と分布外 (OOD) 設定の両方でフルトレーニングされた場合と比較して,優れた性能が得られることを示す。 コードはhttps://github.com/MAEHCM/ICL-D3IEで入手できる。

Large language models (LLMs), such as GPT-3 and ChatGPT, have demonstrated remarkable results in various natural language processing (NLP) tasks with in-context learning, which involves inference based on a few demonstration examples. Despite their successes in NLP tasks, no investigation has been conducted to assess the ability of LLMs to perform document information extraction (DIE) using in-context learning. Applying LLMs to DIE poses two challenges: the modality and task gap. To this end, we propose a simple but effective in-context learning framework called ICL-D3IE, which enables LLMs to perform DIE with different types of demonstration examples. Specifically, we extract the most difficult and distinct segments from hard training documents as hard demonstrations for benefiting all test instances. We design demonstrations describing relationships that enable LLMs to understand positional relationships. We introduce formatting demonstrations for easy answer extraction. Additionally, the framework improves diverse demonstrations by updating them iteratively. Our experiments on three widely used benchmark datasets demonstrate that the ICL-D3IE framework enables Davinci-003/ChatGPT to achieve superior performance when compared to previous pre-trained methods fine-tuned with full training in both the in-distribution (ID) setting and in the out-of-distribution (OOD) setting. Code is available at https://github.com/MAEHCM/ICL-D3IE.
翻訳日:2023-08-23 01:24:24 公開日:2023-08-21
# 規則に基づく分布外検出

Rule-based Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.01860v4 )

ライセンス: Link先を確認
Giacomo De Bernardi, Sara Narteni, Enrico Cambiaso, Maurizio Mongelli(参考訳) 分散検出は、マシンラーニングのデプロイメントにおいて最も重要な問題のひとつだ。 データアナリストは、運用中のデータがトレーニングフェーズに準拠していることと、自律的な決定がもはや安全でない方法で環境が変わったかどうかを理解することを保証する必要がある。 論文の方法はeXplainable Artificial Intelligence (XAI)に基づいており、XAIモデルに見られるように、分布内と外部との類似性を識別するために異なるメトリクスを考慮に入れている。 このアプローチは非パラメトリックかつ分布的仮定自由である。 複雑なシナリオ(予測的メンテナンス、車両小隊、サイバーセキュリティにおける隠密チャネル)の検証は、検出の精度とトレーニング運用条件の近接性の両方を裏付ける。 結果は、オープンソースとオープンデータを通じて、以下のリンクで入手できる。

Out-of-distribution detection is one of the most critical issue in the deployment of machine learning. The data analyst must assure that data in operation should be compliant with the training phase as well as understand if the environment has changed in a way that autonomous decisions would not be safe anymore. The method of the paper is based on eXplainable Artificial Intelligence (XAI); it takes into account different metrics to identify any resemblance between in-distribution and out of, as seen by the XAI model. The approach is non-parametric and distributional assumption free. The validation over complex scenarios (predictive maintenance, vehicle platooning, covert channels in cybersecurity) corroborates both precision in detection and evaluation of training-operation conditions proximity. Results are available via open source and open data at the following link: https://github.com/giacomo97cnr/Rule-based-ODD.
翻訳日:2023-08-23 01:23:46 公開日:2023-08-21
# コヒーレント励起輸送下におけるスピンリング用エネルギーランドスケープコントローラのロバスト性

Robustness of Energy Landscape Controllers for Spin Rings under Coherent Excitation Transport ( http://arxiv.org/abs/2303.00142v3 )

ライセンス: Link先を確認
Sean O'Neil, Frank Langbein, Edmond Jonckheere, and S Shermer(参考訳) 量子スピンリングにおける励起輸送を調節するコントローラの設計と解析は、古典的なフィードバック制御技術を用いて効果的な制御を合成し、古典的な制御理論の期待に反する結果をもたらす。 本稿では,システムおよび制御パラメータの不確実性に対する励振伝達の忠実性を最適化する制御器のロバスト性について検討する。 我々は,追跡誤差の感度を古典的制御アナログとして,ロバスト性尺度として忠実性誤差の対数感度を用いる。 本稿では,コヒーレントトランスポートに最適化された量子系が,正確な時間Tでの読み出しに最適化されているか,あるいはTのタイムウインドウで最適化されているかによって,誤差とログ感度の相関が著しく異なることを示した。

The design and analysis of controllers to regulate excitation transport in quantum spin rings presents challenges in the application of classical feedback control techniques to synthesize effective control, and generates results in contradiction to the expectations of classical control theory. In this paper, we examine the robustness of controllers designed to optimize the fidelity of an excitation transfer to uncertainty in system and control parameters. We use the logarithmic sensitivity of the fidelity error as the measure of robustness, drawing on the classical control analog of the sensitivity of the tracking error. In our analysis we demonstrate that quantum systems optimized for coherent transport demonstrate significantly different correlation between error and the log-sensitivity depending on whether the controller is optimized for readout at an exact time T or over a time-window about T.
翻訳日:2023-08-23 01:23:31 公開日:2023-08-21
# 安定化エントロピーと非安定化モノトン

Stabilizer entropies and nonstabilizerness monotones ( http://arxiv.org/abs/2303.10152v2 )

ライセンス: Link先を確認
Tobias Haug, Lorenzo Piroli(参考訳) 安定化エントロピー (ses) の異なる側面を研究し, ミン相関エントロピーや魔法のロバスト性などの既知の非安定性モノトンと比較した。 まず、明示的な例により、R\'enyi index $0\leq n<2$ に対して、SE は純粋状態に制限されたとしても(問題は$n\geq 2$ に対してオープンであるにもかかわらず)、計算基底の測定を含む安定化プロトコルに関して単調ではないことを示す。 次に、任意の R'enyi 指数に対して、SE は計算基底測定に関して強い単調性条件を満たさないことを示す。 さらに多体状態の異なるクラスでSEを研究する。 我々はSEと他の指標を比較し、それらの間の不等式を示す数値的な証拠を提供する。 最後に,多数のキュービットに対して行列生成状態(mpss)のsesを計算するための,厳密で効率的なテンソルネットワーク数値計算法について考察する。 従来開発されたR'enyi SEsを計算するための正確な方法に加えて、完全MPSサンプリングに基づくスキームも提案し、大きな結合次元のvon Neumann SEを効率的に計算できるようにした。

We study different aspects of the stabilizer entropies (SEs) and compare them against known nonstabilizerness monotones such as the min-relative entropy and the robustness of magic. First, by means of explicit examples, we show that, for R\'enyi index $0\leq n<2$, the SEs are not monotones with respect to stabilizer protocols which include computational-basis measurements, not even when restricting to pure states (while the question remains open for $n\geq 2$). Next, we show that, for any R\'enyi index, the SEs do not satisfy a strong monotonicity condition with respect to computational-basis measurements. We further study SEs in different classes of many-body states. We compare the SEs with other measures, either proving or providing numerical evidence for inequalities between them. Finally, we discuss exact or efficient tensor-network numerical methods to compute SEs of matrix-product states (MPSs) for large numbers of qubits. In addition to previously developed exact methods to compute the R\'enyi SEs, we also put forward a scheme based on perfect MPS sampling, allowing us to compute efficiently the von Neumann SE for large bond dimensions.
翻訳日:2023-08-23 00:46:22 公開日:2023-08-21
# GPTはGPTである:大規模言語モデルの労働市場影響の早期調査

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models ( http://arxiv.org/abs/2303.10130v5 )

ライセンス: Link先を確認
Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock(参考訳) 米国労働市場におけるジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)のような大規模言語モデル(LLM)の潜在的な影響について検討し,LSMによるソフトウェアによる能力向上に着目した。 新たなルーブリックを用いて,人間の専門知識とGPT-4の分類を統合し,LLM能力との整合性に基づく職業評価を行った。 調査の結果、米国の労働力の約80%が、LSMの導入によって影響を受ける仕事の少なくとも10%を、労働者の約19%が少なくとも50%が影響を受けていることがわかった。 このようなLCMの開発や採用スケジュールについては予測はしていません。 予測された効果は全賃金水準にまたがっており、高い収入の雇用はLLM能力やLLM搭載のソフトウェアにより大きな影響を受ける可能性がある。 これらの影響は、近年生産性が向上した産業に限ったものではない。 我々の分析は、LLMにアクセスすることで、米国の労働者のタスクの約15%が、同じレベルの品質で大幅に高速に完了できることを示唆している。 LLM上に構築されたソフトウェアとツールを統合すると、このシェアは全タスクの47~56%に増加する。 この発見は、LCMを利用したソフトウェアが、基礎となるモデルの経済的影響を拡大する上で大きな影響を与えることを示唆している。 GPTなどのLCMは汎用技術の特徴を示し,経済的,社会的,政策的な意味を持つ可能性が示唆された。

We investigate the potential implications of large language models (LLMs), such as Generative Pre-trained Transformers (GPTs), on the U.S. labor market, focusing on the increased capabilities arising from LLM-powered software compared to LLMs on their own. Using a new rubric, we assess occupations based on their alignment with LLM capabilities, integrating both human expertise and GPT-4 classifications. Our findings reveal that around 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of LLMs, while approximately 19% of workers may see at least 50% of their tasks impacted. We do not make predictions about the development or adoption timeline of such LLMs. The projected effects span all wage levels, with higher-income jobs potentially facing greater exposure to LLM capabilities and LLM-powered software. Significantly, these impacts are not restricted to industries with higher recent productivity growth. Our analysis suggests that, with access to an LLM, about 15% of all worker tasks in the US could be completed significantly faster at the same level of quality. When incorporating software and tooling built on top of LLMs, this share increases to between 47 and 56% of all tasks. This finding implies that LLM-powered software will have a substantial effect on scaling the economic impacts of the underlying models. We conclude that LLMs such as GPTs exhibit traits of general-purpose technologies, indicating that they could have considerable economic, social, and policy implications.
翻訳日:2023-08-23 00:45:58 公開日:2023-08-21
# 視覚と言語モデルを用いた統一視覚関係検出

Unified Visual Relationship Detection with Vision and Language Models ( http://arxiv.org/abs/2303.08998v2 )

ライセンス: Link先を確認
Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu(参考訳) この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。 異なるデータセットにまたがるラベルのマージは、一貫性のない分類が原因で困難になる可能性がある。 この問題は、対のオブジェクト間で二階のビジュアルセマンティクスが導入されたとき、視覚関係検出において悪化する。 この課題に対処するために、視覚と言語モデル(VLM)を活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。 VLMはよく整合したイメージとテキストの埋め込みを提供し、類似の関係はセマンティック統一のために互いに近接するように最適化される。 私たちのボトムアップ設計により、モデルがオブジェクト検出と視覚関連データセットの両方でトレーニングの利点を享受できます。 人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。 UniVRDはHICO-DETで38.07 mAPを達成し、現在の最高のボトムアップHOI検出器を14.26 mAPで上回っている。 さらに重要なことは、我々の統合検出器がmAPのデータセット固有のモデルと同様に機能し、モデルをスケールアップする際のさらなる改善を実現することを示しています。 私たちのコードはGitHubで公開されます。

This work focuses on training a single visual relationship detector predicting over the union of label spaces from multiple datasets. Merging labels spanning different datasets could be challenging due to inconsistent taxonomies. The issue is exacerbated in visual relationship detection when second-order visual semantics are introduced between pairs of objects. To address this challenge, we propose UniVRD, a novel bottom-up method for Unified Visual Relationship Detection by leveraging vision and language models (VLMs). VLMs provide well-aligned image and text embeddings, where similar relationships are optimized to be close to each other for semantic unification. Our bottom-up design enables the model to enjoy the benefit of training with both object detection and visual relationship datasets. Empirical results on both human-object interaction detection and scene-graph generation demonstrate the competitive performance of our model. UniVRD achieves 38.07 mAP on HICO-DET, outperforming the current best bottom-up HOI detector by 14.26 mAP. More importantly, we show that our unified detector performs as well as dataset-specific models in mAP, and achieves further improvements when we scale up the model. Our code will be made publicly available on GitHub.
翻訳日:2023-08-23 00:44:19 公開日:2023-08-21
# Tube-Link: ユニバーサルビデオセグメンテーションのための柔軟なクロスチューブフレームワーク

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation ( http://arxiv.org/abs/2303.12782v3 )

ライセンス: Link先を確認
Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, Chen Change Loy(参考訳) ビデオセグメンテーションは、さまざまなシナリオで各ピクセルを正確にセグメンテーションし、追跡することを目的としている。 本稿では,ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークであるTube-Linkを提案する。 我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。 クロスチューブ関係のモデリングを強化するために,クエリに沿って注目してチューブレベルのリンクを行う効果的な方法を提案する。 さらに, 時間的コントラスト学習を, チューブレベルの関連性に対するインスタンス単位の識別的特徴に導入する。 我々のアプローチは、データセットやシナリオのニーズに応じて各サブクリップの長さを変更できるため、短いビデオ入力と長いビデオ入力の両方に柔軟性と効率性を提供します。 Tube-Linkは5つのビデオセグメンテーションデータセットにおいて、既存の特殊なアーキテクチャよりも優れたパフォーマンスを示している。 具体的には、VIPSegの相対的な13%の改善と、強力なベースラインであるVideo K-NetよりもKITTI-STEPの4%改善を実現している。 Youtube-VIS-2019 と 2021 で ResNet50 のバックボーンを使用する場合、Tune-Link は IDOL を 3% と 4% に向上させる。

Video segmentation aims to segment and track every pixel in diverse scenarios accurately. In this paper, we present Tube-Link, a versatile framework that addresses multiple core tasks of video segmentation with a unified architecture. Our framework is a near-online approach that takes a short subclip as input and outputs the corresponding spatial-temporal tube masks. To enhance the modeling of cross-tube relationships, we propose an effective way to perform tube-level linking via attention along the queries. In addition, we introduce temporal contrastive learning to instance-wise discriminative features for tube-level association. Our approach offers flexibility and efficiency for both short and long video inputs, as the length of each subclip can be varied according to the needs of datasets or scenarios. Tube-Link outperforms existing specialized architectures by a significant margin on five video segmentation datasets. Specifically, it achieves almost 13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019 and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively.
翻訳日:2023-08-23 00:35:27 公開日:2023-08-21
# Vox-E:3DオブジェクトのテキストガイドによるVoxel編集

Vox-E: Text-guided Voxel Editing of 3D Objects ( http://arxiv.org/abs/2303.12048v2 )

ライセンス: Link先を確認
Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor(参考訳) 複雑な視覚概念を伝達する多様な画像を合成する能力から,大規模テキスト誘導拡散モデルが注目されている。 この生成能力は近年、テキストから3d合成に活用されている。 本研究では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。 提案手法は,3次元オブジェクトの2次元画像を入力として用いて,グリッドベースのボリューム表現を学習する。 目的のテキストプロンプトに適合するように容積表現を導くため、無条件のテキストから3D手法に従い、スコア蒸留サンプリング(SDS)損失を最適化する。 しかし,この拡散誘導損失と,入力対象から過度に逸脱しない表現を奨励するイメージベース正規化損失の組み合わせは,構造と外観を結合した2次元投影のみを見ながら2つの相反する目標を達成する必要があるため,困難である。 そこで本研究では,3次元表現の明示的な性質を活かし,直接3次元空間で操作する新たな体積正規化損失を導入することにより,オリジナルオブジェクトと編集オブジェクトの全体構造との相関性を実現する。 さらに,編集の空間的範囲を改良するために,クロスアテンションボリュームグリッドを最適化する手法を提案する。 広範な実験と比較は,先行作品では達成できない無数の編集を作成するためのアプローチの有効性を示している。

Large scale text-guided diffusion models have garnered significant attention due to their ability to synthesize diverse images that convey complex visual concepts. This generative power has more recently been leveraged to perform text-to-3D synthesis. In this work, we present a technique that harnesses the power of latent diffusion models for editing existing 3D objects. Our method takes oriented 2D images of a 3D object as input and learns a grid-based volumetric representation of it. To guide the volumetric representation to conform to a target text prompt, we follow unconditional text-to-3D methods and optimize a Score Distillation Sampling (SDS) loss. However, we observe that combining this diffusion-guided loss with an image-based regularization loss that encourages the representation not to deviate too strongly from the input object is challenging, as it requires achieving two conflicting goals while viewing only structure-and-appearance coupled 2D projections. Thus, we introduce a novel volumetric regularization loss that operates directly in 3D space, utilizing the explicit nature of our 3D representation to enforce correlation between the global structure of the original and edited object. Furthermore, we present a technique that optimizes cross-attention volumetric grids to refine the spatial extent of the edits. Extensive experiments and comparisons demonstrate the effectiveness of our approach in creating a myriad of edits which cannot be achieved by prior works.
翻訳日:2023-08-23 00:34:07 公開日:2023-08-21
# TMA:イベントベース光流の時間的運動集約

TMA: Temporal Motion Aggregation for Event-based Optical Flow ( http://arxiv.org/abs/2303.11629v2 )

ライセンス: Link先を確認
Haotian Liu, Guang Chen, Sanqing Qu, Yanping Zhang, Zhijun Li, Alois Knoll and Changjun Jiang(参考訳) イベントカメラは、時間分解能の高いオブジェクトの連続的かつ詳細な軌跡を記録できるので、光学的フロー推定のための直感的なモーションキューを提供する。 それにもかかわらず、イベント光フロー推定のための既存の学習ベースのアプローチは、連続するイベントストリームを静的なフレームとして表現し、イベントデータ固有の時間的連続性を無視して、従来の画像のパラダイムを直接的に取り除く。 本稿では、時間的連続性が事象ベースの光フローの重要な要素であり、その可能性を解き放つための新しい時間運動集約(TMA)アプローチを提案する。 技術的には、TMAは、時間的背景にある中間動作情報を組み込むイベント分割戦略と、時間的微細な運動特徴を整列する線形ルックアップ戦略と、動き特徴強調のための一貫したパターンを強調する新しい動きパターン集約モジュールとからなる。 時間的にきめ細かな運動情報を組み込むことで、TMAは既存の方法よりも早い段階でより良い流量推定を導出できるため、TMAがより正確な最終予測を得るだけでなく、多くの改良の需要を大幅に削減できる。 DSEC-FlowとMVSECデータセットに関する大規模な実験は、我々のTMAの有効性と優位性を検証する。 注目すべきは、E-RAFTと比較して、TMAは精度を6倍改善し、DSEC-Flow上での推論時間を40倍短縮する。 コードは \url{https://github.com/ispc-lab/TMA} で入手できる。

Event cameras have the ability to record continuous and detailed trajectories of objects with high temporal resolution, thereby providing intuitive motion cues for optical flow estimation. Nevertheless, most existing learning-based approaches for event optical flow estimation directly remould the paradigm of conventional images by representing the consecutive event stream as static frames, ignoring the inherent temporal continuity of event data. In this paper, we argue that temporal continuity is a vital element of event-based optical flow and propose a novel Temporal Motion Aggregation (TMA) approach to unlock its potential. Technically, TMA comprises three components: an event splitting strategy to incorporate intermediate motion information underlying the temporal context, a linear lookup strategy to align temporally fine-grained motion features and a novel motion pattern aggregation module to emphasize consistent patterns for motion feature enhancement. By incorporating temporally fine-grained motion information, TMA can derive better flow estimates than existing methods at early stages, which not only enables TMA to obtain more accurate final predictions, but also greatly reduces the demand for a number of refinements. Extensive experiments on DSEC-Flow and MVSEC datasets verify the effectiveness and superiority of our TMA. Remarkably, compared to E-RAFT, TMA achieves a 6\% improvement in accuracy and a 40\% reduction in inference time on DSEC-Flow. Code will be available at \url{https://github.com/ispc-lab/TMA}.
翻訳日:2023-08-23 00:33:19 公開日:2023-08-21
# 量子コンピュータにおける混合量子-古典力学

Mixed Quantum-Classical Dynamics for Near Term Quantum Computers ( http://arxiv.org/abs/2303.11375v2 )

ライセンス: Link先を確認
Daniel Bultrini, Oriol Vendrell(参考訳) 混合量子古典力学(Mixed quantum-classical dynamics)は、完全に量子力学的に扱うには複雑すぎるシステムを理解するためにしばしば用いられる一連の方法である。 量子コンピュータ上での完全な量子力学的進化には多くの技術が存在するが、混合量子古典力学は研究されていない。 量子サブシステムと古典的サブシステムとを結合した一般混合量子古典力学のモジュラーアルゴリズムを提案する。 エレンフェスト伝播による第1量子化において,修正新メティウモデルを用いて実験を行った。 時間依存変動時間伝搬アルゴリズムは、短時間の進化に対してよく機能し、長期の進化に対して定性的な結果を保持する。

Mixed quantum-classical dynamics is a set of methods often used to understand systems too complex to treat fully quantum mechanically. Many techniques exist for full quantum mechanical evolution on quantum computers, but mixed quantum-classical dynamics are less explored. We present a modular algorithm for general mixed quantum-classical dynamics where the quantum subsystem is coupled with the classical subsystem. We test it on a modified Shin-Metiu model in the first quantization through Ehrenfest propagation. We find that the Time-Dependent Variational Time Propagation algorithm performs well for short-time evolutions and retains qualitative results for longer-time evolutions.
翻訳日:2023-08-23 00:32:34 公開日:2023-08-21
# 動きからの音像定位:音像方向とカメラ回転の協調学習

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation ( http://arxiv.org/abs/2303.11329v2 )

ライセンス: Link先を確認
Ziyang Chen, Shengyi Qian, Andrew Owens(参考訳) 私たちが知覚するイメージと音は、頭を回転させながら微妙だが幾何学的に一貫した変化をもたらす。 本稿では,音像定位法(SLfM: Sound Localization from Motion, SLfM: Sound Localization from Motion, SLfM: Sound Localization from Motion, SLfM)をカメラの回転と音源の定位を共同で推定する手法を提案する。 我々はこれらの課題を自己監督のみで解決することを学ぶ。 視覚モデルは一対の画像からカメラの回転を予測し、音声モデルはバイノーラル音から音源の方向を予測する。 これらのモデルをトレーニングして、互いに一致する予測を生成します。 テスト時には、モデルは独立してデプロイできる。 また,この課題を解決するのに適した特徴表現を得るために,一視点のバイノーラル化による音声視覚表現の学習手法を提案する。 本モデルでは, 実シーンと合成シーンの両方で正確な回転を推定し, 最先端の自己監督手法と競合する精度で音源をローカライズすることができる。 プロジェクトサイト: https://ificl.github.io/slfm/

The images and sounds that we perceive undergo subtle but geometrically consistent changes as we rotate our heads. In this paper, we use these cues to solve a problem we call Sound Localization from Motion (SLfM): jointly estimating camera rotation and localizing sound sources. We learn to solve these tasks solely through self-supervision. A visual model predicts camera rotation from a pair of images, while an audio model predicts the direction of sound sources from binaural sounds. We train these models to generate predictions that agree with one another. At test time, the models can be deployed independently. To obtain a feature representation that is well-suited to solving this challenging problem, we also propose a method for learning an audio-visual representation through cross-view binauralization: estimating binaural sound from one view, given images and sound from another. Our model can successfully estimate accurate rotations on both real and synthetic scenes, and localize sound sources with accuracy competitive with state-of-the-art self-supervised approaches. Project site: https://ificl.github.io/SLfM/
翻訳日:2023-08-23 00:32:23 公開日:2023-08-21
# AvatarCraft: パラメータ化された形状と詩制御によるテキストをニューラルヒューマンアバターに変換する

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control ( http://arxiv.org/abs/2303.17606v2 )

ライセンス: Link先を確認
Ruixiang Jiang and Can Wang and Jingbo Zhang and Menglei Chai and Mingming He and Dongdong Chen and Jing Liao(参考訳) ニューラル暗黙のフィールドは、3Dシーンを表現し、高品質なノベルビューを生成するのに強力だが、そのような暗黙の表現を用いて、特定のアイデンティティと芸術的なスタイルでアニメーションできる3D人間のアバターを作成することは、依然として困難である。 提案手法であるAvatarCraftは,1つのテキストプロンプトに基づく神経アバターの形状とテクスチャの学習を誘導するために拡散モデルを用いてこの問題に対処する。 我々は,粗大から細かなマルチバウンディングボックストレーニング戦略,形状規則化,拡散に基づく制約を含む,ニューラルネットワークの暗黙的場の最適化フレームワークを慎重に設計し,高品質な幾何学とテクスチャを作り出す。 さらに、対象の人間のメッシュをテンプレートヒューマンメッシュにマッピングする明示的なワーピングフィールドによって、神経暗黙のフィールドを変形させることで、人間のアバターをアニメーション化します。 これにより、ポーズや形状パラメータを制御して、生成されたアバターのアニメーションやリシェープが簡単になる。 様々なテキスト記述に関する広範囲な実験により、アバタークラフトは人間のアバターを創造し、新しいビュー、ポーズ、形状をレンダリングするのに効果的で堅牢であることが示されている。 プロジェクトページはhttps://avatar-craft.github.io/。

Neural implicit fields are powerful for representing 3D scenes and generating high-quality novel views, but it remains challenging to use such implicit representations for creating a 3D human avatar with a specific identity and artistic style that can be easily animated. Our proposed method, AvatarCraft, addresses this challenge by using diffusion models to guide the learning of geometry and texture for a neural avatar based on a single text prompt. We carefully design the optimization framework of neural implicit fields, including a coarse-to-fine multi-bounding box training strategy, shape regularization, and diffusion-based constraints, to produce high-quality geometry and texture. Additionally, we make the human avatar animatable by deforming the neural implicit field with an explicit warping field that maps the target human mesh to a template human mesh, both represented using parametric human models. This simplifies animation and reshaping of the generated avatar by controlling pose and shape parameters. Extensive experiments on various text descriptions show that AvatarCraft is effective and robust in creating human avatars and rendering novel views, poses, and shapes. Our project page is: https://avatar-craft.github.io/.
翻訳日:2023-08-23 00:26:41 公開日:2023-08-21
# セマンティックセグメンテーションにおける能動学習のための適応スーパーピクセル

Adaptive Superpixel for Active Learning in Semantic Segmentation ( http://arxiv.org/abs/2303.16817v2 )

ライセンス: Link先を確認
Hoyoung Kim, Minhyeon Oh, Sehyun Hwang, Suha Kwak, Jungseul Ok(参考訳) 意味のセグメンテーションを学ぶにはピクセル単位でのアノテーションが必要です。 アノテーションのコストを削減するため,スーパーピクセル単位の上位ラベルを収集する,スーパーピクセルベースのアクティブラーニング(AL)フレームワークを提案する。 具体的には、al専用の適応型スーパーピクセルとシービング機構で構成されている。 ALの各ラウンドで、類似の学習特徴の隣接画素をスーパーピクセルに適応的にマージする。 次に、一様スーパーピクセルサイズを仮定した取得関数を用いて、選択されたスーパーピクセルのサブセットをクエリする。 このアプローチは既存の手法よりも効率的であり、RGB色のような固有の特徴にのみ依存し、均一なスーパーピクセルサイズを仮定する。 スーパーピクセルごとに支配的なラベルを得ると、クリック数が少なくなるため、アノテーションの負担が劇的に軽減される。 しかし、スーパーピクセルとグランド真実セグメンテーションのミスマッチにより、必然的に騒がしい注釈を導入する。 この問題に対処するため、私たちはさらに、潜在的に騒がしいアノテーションを学習から識別し排除するシービングメカニズムを考案します。 都市景観とPASCALVOCデータセットを用いた実験により,適応型スーパーピクセルとシービング機構の有効性が示された。

Learning semantic segmentation requires pixel-wise annotations, which can be time-consuming and expensive. To reduce the annotation cost, we propose a superpixel-based active learning (AL) framework, which collects a dominant label per superpixel instead. To be specific, it consists of adaptive superpixel and sieving mechanisms, fully dedicated to AL. At each round of AL, we adaptively merge neighboring pixels of similar learned features into superpixels. We then query a selected subset of these superpixels using an acquisition function assuming no uniform superpixel size. This approach is more efficient than existing methods, which rely only on innate features such as RGB color and assume uniform superpixel sizes. Obtaining a dominant label per superpixel drastically reduces annotators' burden as it requires fewer clicks. However, it inevitably introduces noisy annotations due to mismatches between superpixel and ground truth segmentation. To address this issue, we further devise a sieving mechanism that identifies and excludes potentially noisy annotations from learning. Our experiments on both Cityscapes and PASCAL VOC datasets demonstrate the efficacy of adaptive superpixel and sieving mechanisms.
翻訳日:2023-08-23 00:26:18 公開日:2023-08-21
# 野生動物における実時間マルチパーソンアイブリンク検出

Real-time Multi-person Eyeblink Detection in the Wild for Untrimmed Video ( http://arxiv.org/abs/2303.16053v2 )

ライセンス: Link先を確認
Wenzheng Zeng, Yang Xiao, Sicheng Wei, Jinfang Gan, Xintao Zhang, Zhiguo Cao, Zhiwen Fang, Joey Tianyi Zhou(参考訳) 野生のリアルタイムアイブリンク検出は、疲労検出、顔の反偽造、感情分析などに広く役立ちます。 既存の研究は、トリミングビデオに対して単身のケースに焦点を当てている。 しかし、未トリミングビデオ内のマルチパーソンシナリオは、まだあまり関心が持たない実用アプリケーションにおいても重要である。 これに対処するため、私たちはこの研究分野に初めて光を当て、データセット、理論、実践に本質的な貢献をした。 8748のアイブリンクイベントを含む686の未トリミングビデオを含むmpeblinkと呼ばれる大規模データセットがマルチパーソン条件下で提案されている。 サンプルは無拘束のフィルムから撮影され、"in the wild"の特徴を明らかにする。 また,リアルタイムなマルチパーソンアイブリンク検出手法を提案する。 既存のものと異なるので、私たちの提案は、エンドツーエンドの学習能力を持つ、一段階の時空間的な方法で実行されます。 具体的には、顔検出、顔追跡、および人間のインスタンスレベルのアイブリンク検出のサブタスクを同時に処理する。 1) 顔のグローバルコンテキスト(例えば頭部のポーズや照明条件など)を通じて、協調的な最適化と相互作用によってアイブリンク機能が容易になり、(2) これらのサブタスクをシーケンシャルな方法で並列に処理することで、リアルタイムな実行要件を満たすための時間を著しく節約できる。 MPEblinkの実験は、非トリミングビデオのための野生におけるリアルタイム多対人アイブリンク検出の必須課題を検証する。 また,提案手法は既存の手法よりも大きなマージンと高い推論速度で性能を向上する。

Real-time eyeblink detection in the wild can widely serve for fatigue detection, face anti-spoofing, emotion analysis, etc. The existing research efforts generally focus on single-person cases towards trimmed video. However, multi-person scenario within untrimmed videos is also important for practical applications, which has not been well concerned yet. To address this, we shed light on this research field for the first time with essential contributions on dataset, theory, and practices. In particular, a large-scale dataset termed MPEblink that involves 686 untrimmed videos with 8748 eyeblink events is proposed under multi-person conditions. The samples are captured from unconstrained films to reveal "in the wild" characteristics. Meanwhile, a real-time multi-person eyeblink detection method is also proposed. Being different from the existing counterparts, our proposition runs in a one-stage spatio-temporal way with end-to-end learning capacity. Specifically, it simultaneously addresses the sub-tasks of face detection, face tracking, and human instance-level eyeblink detection. This paradigm holds 2 main advantages: (1) eyeblink features can be facilitated via the face's global context (e.g., head pose and illumination condition) with joint optimization and interaction, and (2) addressing these sub-tasks in parallel instead of sequential manner can save time remarkably to meet the real-time running requirement. Experiments on MPEblink verify the essential challenges of real-time multi-person eyeblink detection in the wild for untrimmed video. Our method also outperforms existing approaches by large margins and with a high inference speed.
翻訳日:2023-08-23 00:25:59 公開日:2023-08-21
# 局所双曲系における局所化から一様スクランブルへの動的遷移

Dynamical transition from localized to uniform scrambling in locally hyperbolic systems ( http://arxiv.org/abs/2303.14839v3 )

ライセンス: Link先を確認
Mathias Steinhuber, Peter Schlagheck, Juan-Diego Urbina, Klaus Richter(参考訳) 量子相関の高速スクランブルは、短いehrenfest時間スケールでの時間外相関子(otocs)の指数的成長に反映され、古典的限界を持つ量子系における不安定なダイナミクスの主要な量子署名と見なされる。 最近の2つの研究 (Phys. Lett. 123, 160401 (2019)) と [Phys. Lett. 124, 140602 (2020)] において、不安定な定点付近に半古典的に局在しているか、完全に非局在化されているかによって、可積分(多体)系の揺らぎ速度に大きな差が観測された。 具体的には、量子 Lyapunov exponent $\lambda_{\rm q}$ OTOC の成長を定量化する量子 Lyapunov exponent $\lambda_{\rm q}=2\lambda_{\rm s}$ または $\lambda_{\rm q}=\lambda_{\rm s}$ により、双曲固定点の安定性指数 $\lambda_{\rm s}$ で与えられる。 ここで、波束は、この不動点の周りに最初に局在化され、これらの2つの領域間で異なる動的遷移を示す。 本稿では,この現象の物理像を提供する解析的半古典的アプローチを提案し,Bose-Hubbardダイマーの局所不安定なダイナミクスのパラメータ範囲全体における広範な数値シミュレーションにより,我々の研究結果を支援する。 以上の結果から,このクロスオーバーの存在は可積分系における不安定なセパラトリクスダイナミクスの指標であり,この特別な観測可能性に基づいて,オトックの均一な指数的成長を特徴とする真のカオスダイナミクスと後者を区別する可能性を開くことを示唆する。

Fast scrambling of quantum correlations, reflected by the exponential growth of Out-of-Time-Order Correlators (OTOCs) on short pre-Ehrenfest time scales, is commonly considered as a major quantum signature of unstable dynamics in quantum systems with a classical limit. In two recent works [Phys. Rev. Lett. 123, 160401 (2019)] and [Phys. Rev. Lett. 124, 140602 (2020)], a significant difference in the scrambling rate of integrable (many-body) systems was observed, depending on the initial state being semiclassically localized around unstable fixed points or fully delocalized (infinite temperature). Specifically, the quantum Lyapunov exponent $\lambda_{\rm q}$ quantifying the OTOC growth is given, respectively, by $\lambda_{\rm q}=2\lambda_{\rm s}$ or $\lambda_{\rm q}=\lambda_{\rm s}$ in terms of the stability exponent $\lambda_{\rm s}$ of the hyperbolic fixed point. Here we show that a wave packet, initially localized around this fixed point, features a distinct dynamical transition between these two regions. We present an analytical semiclassical approach providing a physical picture of this phenomenon and support our findings by extensive numerical simulations in the whole parameter range of locally unstable dynamics of a Bose-Hubbard dimer. Our results suggest that the existence of this crossover is a hallmark of unstable separatrix dynamics in integrable systems, thus opening the possibility to distinguish the latter, on the basis of this particular observable, from genuine chaotic dynamics generally featuring uniform exponential growth of the OTOC.
翻訳日:2023-08-23 00:24:32 公開日:2023-08-21
# ブラックホール真空からの3成分の絡み合い抽出

Tripartite Entanglement Extraction from the Black Hole Vacuum ( http://arxiv.org/abs/2304.07847v2 )

ライセンス: Link先を確認
Ireneo James Membrere and Kensuke Gallock-Yoshimura and Laura J. Henderson and Robert B. Mann(参考訳) ブラックホール近傍で収穫される三成分の絡み合いに関する第1の調査を行う。 静的なBa\~{n}ados-Teitelboim-Zanelli (BTZ) ブラックホール時空の文脈で働くと、強いホーキング放射のために二分極の絡み合いの収穫が不可能であることが分かっている地域で三分極の絡み合いを収穫することは可能である。 これらの状況下では、収穫された絡み合いはグリーンベルガー・ホーネ・ザイリンガー(GHZ)型であることが示唆される。

The first investigation of tripartite entanglement harvesting in the vicinity of a black hole is carried out. Working in the context of a static Ba\~{n}ados-Teitelboim-Zanelli (BTZ) black hole spacetime we find that it is possible to harvest tripartite entanglement in regions where harvesting of bipartite entanglement is known to be impossible due to intense Hawking radiation. In these situations, it implies that the harvested entanglement is of the Greenberger-Horne-Zeilinger (GHZ) type.
翻訳日:2023-08-23 00:14:24 公開日:2023-08-21
# satr: 3d形状のゼロショット意味セグメンテーション

SATR: Zero-Shot Semantic Segmentation of 3D Shapes ( http://arxiv.org/abs/2304.04909v2 )

ライセンス: Link先を確認
Ahmed Abdelreheem, Ivan Skorokhodov, Maks Ovsjanikov, Peter Wonka(参考訳) 3次元形状のゼロショット意味セグメンテーションの課題を,大規模市販2次元画像認識モデルを用いて検討する。 驚くべきことに、現代のゼロショット2dオブジェクト検出器は、現代のテキスト/画像類似性予測器やゼロショット2dセグメンテーションネットワークよりもこのタスクに適している。 我々の重要な発見は、基底表面の位相特性を用いて、多視点境界ボックス予測から正確な3次元セグメンテーションマップを抽出できることである。 そこで我々は,Segmentation Assignment with Topological Reweighting (SATR)アルゴリズムを開発し,ShapeNetPartと提案したFAUSTベンチマークを用いて評価を行った。 SATRは最先端のパフォーマンスを達成し、FAUST粗度ベンチマークでは平均mIoUが1.3%、微粒度ベンチマークでは平均mIoUが4%、ShapeNetPartベンチマークでは平均mIoUが5.2%向上する。 ソースコードとデータは公開される予定だ。 プロジェクトWebページ: https://samir55.github.io/SATR/。

We explore the task of zero-shot semantic segmentation of 3D shapes by using large-scale off-the-shelf 2D image recognition models. Surprisingly, we find that modern zero-shot 2D object detectors are better suited for this task than contemporary text/image similarity predictors or even zero-shot 2D segmentation networks. Our key finding is that it is possible to extract accurate 3D segmentation maps from multi-view bounding box predictions by using the topological properties of the underlying surface. For this, we develop the Segmentation Assignment with Topological Reweighting (SATR) algorithm and evaluate it on ShapeNetPart and our proposed FAUST benchmarks. SATR achieves state-of-the-art performance and outperforms a baseline algorithm by 1.3% and 4% average mIoU on the FAUST coarse and fine-grained benchmarks, respectively, and by 5.2% average mIoU on the ShapeNetPart benchmark. Our source code and data will be publicly released. Project webpage: https://samir55.github.io/SATR/.
翻訳日:2023-08-23 00:13:53 公開日:2023-08-21
# b meson flavour tagging用量子ビット・連続可変量子サポートベクトルマシンの高速化

Boosted Ensembles of Qubit and Continuous Variable Quantum Support Vector Machines for B Meson Flavour Tagging ( http://arxiv.org/abs/2305.02729v3 )

ライセンス: Link先を確認
Maxwell T. West, Martin Sevior and Muhammad Usman(参考訳) 最近、数十から数百のノイズ量子ビットを持つ量子コンピュータの物理的実現は、そのユニークな能力の有用な応用を強く探究するきっかけとなった。 特に注目されている分野は、量子コンピュータ上でネイティブに実行される機械学習アルゴリズムの研究であるquantum machine learning(qml)である。 このようなアルゴリズムは、量子コンピュータのパターン認識能力の向上が期待される粒子物理学におけるデータ集約的な問題に応用され始めている。 本研究では,宇宙で観測される物質-反物質非対称性をよりよく理解するために,重クォーク混合とcp違反を探索する粒子物理学実験の重要な要素であるb meson flavour tagging法を開発,応用する。 量子サポートベクトルマシン(qsvm)を従来の量子ビットベースのアーキテクチャと連続変数アーキテクチャの両方に基づいて拡張したアンサンブルをシミュレートし,従来の機械学習アルゴリズムを用いた30.0%の結果に匹敵する28.0%と29.2%の効果的なタグ付け効率を実現する。 分類器のアンサンブルの性質は特に重要であり、単一のQSVMの効果的なタグ付け効率を2倍にしている。 これらの結果は、古典的にシミュレート可能なQSVMアーキテクチャを扱うという強い制約にもかかわらず得られ、古典的にシミュレート可能なシミュレートを超えた連続変数QSVMが、十分に強力な量子ハードウェアを開発すれば、報告された古典的な結果を超え、さらに高いパフォーマンスを実現することができることを示す。

The recent physical realisation of quantum computers with dozens to hundreds of noisy qubits has given birth to an intense search for useful applications of their unique capabilities. One area that has received particular attention is quantum machine learning (QML), the study of machine learning algorithms running natively on quantum computers. Such algorithms have begun to be applied to data intensive problems in particle physics, driven by the expected increased capacity for pattern recognition of quantum computers. In this work we develop and apply QML methods to B meson flavour tagging, an important component of experiments in particle physics which probe heavy quark mixing and CP violation in order to obtain a better understanding of the matter-antimatter asymmetry observed in the universe. We simulate boosted ensembles of quantum support vector machines (QSVMs) based on both conventional qubit-based and continuous variable architectures, attaining effective tagging efficiencies of 28.0% and 29.2% respectively, comparable with the leading published result of 30.0% using classical machine learning algorithms. The ensemble nature of our classifier is of particular importance, doubling the effective tagging efficiency of a single QSVM, which we find to be highly prone to overfitting. These results are obtained despite the strong constraint of working with QSVM architectures that are classically simulable, and we find evidence that continuous variable QSVMs beyond the classically simulable regime may be able to realise even higher performance, surpassing the reported classical results, when sufficiently powerful quantum hardware is developed to execute them.
翻訳日:2023-08-23 00:07:20 公開日:2023-08-21
# 大規模言語モデル:LLMの理論言語能力の解析

Large Linguistic Models: Analyzing theoretical linguistic abilities of LLMs ( http://arxiv.org/abs/2305.00948v2 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s} and Maksymilian D\k{a}bkowski and Ryan Rhodes(参考訳) 大規模言語モデル(llms)のパフォーマンスは、最近改善され、多くの言語タスクでモデルがうまく機能するようになりました。 そこで本研究では,このモデルが初めて言語データのコヒーレントかつ妥当な形式的分析を生成できることを示し,そのメタリング能力の分析における大規模言語モデルの可能性を示す。 LLMは、主にテキスト形式で言語データに基づいて訓練されており、それらの金属工学的能力を分析し評価することで、一般的な能力に対する理解が向上し、言語学における理論モデルに新たな光を放つ。 本稿では,文法,音韻学,意味論の3つのサブフィールドに着目し,GPT-4のメタ言語機能について検討する。 本稿では,大規模言語モデルの金属学的解析のための研究プログラムを概説し,実験設計の提案,一般ガイドラインの提示,限界の議論,今後の方向性について述べる。 この調査の行はまた、モデル表現が内部表現よりも明示的なプロンプトによってアクセスされる深層学習の行動解釈可能性を示している。

The performance of large language models (LLMs) has recently improved to the point where the models can perform well on many language tasks. We show here that for the first time, the models can also generate coherent and valid formal analyses of linguistic data and illustrate the vast potential of large language models for analyses of their metalinguistic abilities. LLMs are primarily trained on language data in the form of text; analyzing and evaluating their metalinguistic abilities improves our understanding of their general capabilities and sheds new light on theoretical models in linguistics. In this paper, we probe into GPT-4's metalinguistic capabilities by focusing on three subfields of formal linguistics: syntax, phonology, and semantics. We outline a research program for metalinguistic analyses of large language models, propose experimental designs, provide general guidelines, discuss limitations, and offer future directions for this line of research. This line of inquiry also exemplifies behavioral interpretability of deep learning, where models' representations are accessed by explicit prompting rather than internal representations.
翻訳日:2023-08-23 00:05:38 公開日:2023-08-21
# SelfDocSeg: ドキュメントセグメンテーションへの自己監督型ビジョンベースのアプローチ

SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation ( http://arxiv.org/abs/2305.00795v3 )

ライセンス: Link先を確認
Subhajit Maity, Sanket Biswas, Siladittya Manna, Ayan Banerjee, Josep Llad\'os, Saumik Bhattacharya, Umapada Pal(参考訳) 文書レイアウト分析は文書研究コミュニティにとって既知の問題であり,テキストマイニング,認識,グラフベース表現,視覚的特徴抽出など,多岐にわたるソリューションの提供が検討されている。 しかし、既存の作品の多くはラベル付きデータの不足に関する重要な事実を無視している。 個人生活へのインターネット接続の増大に伴い、パブリックドメインでは膨大な量のドキュメントが利用可能となり、データアノテーションは面倒な作業となった。 テキストマイニングやテキストラベルを用いた既存の文書セグメンテーションアプローチとは異なり,我々は,接地ラベルやその派生性のない事前学習において,完全な視覚に基づくアプローチを用いる。 代わりに、文書画像から擬似レイアウトを生成し、画像エンコーダを事前訓練し、文書オブジェクト表現とローカライゼーションを自己教師付きフレームワークで学習し、オブジェクト検出モデルで微調整する。 当社のパイプラインでは、このコンテキストで新たなベンチマークを設定し、既存のメソッドや監視対象のものと同等のパフォーマンスを実現しています。 コードは、https://github.com/MaitySubhajit/SelfDocSegで公開されている。

Document layout analysis is a known problem to the documents research community and has been vastly explored yielding a multitude of solutions ranging from text mining, and recognition to graph-based representation, visual feature extraction, etc. However, most of the existing works have ignored the crucial fact regarding the scarcity of labeled data. With growing internet connectivity to personal life, an enormous amount of documents had been available in the public domain and thus making data annotation a tedious task. We address this challenge using self-supervision and unlike, the few existing self-supervised document segmentation approaches which use text mining and textual labels, we use a complete vision-based approach in pre-training without any ground-truth label or its derivative. Instead, we generate pseudo-layouts from the document images to pre-train an image encoder to learn the document object representation and localization in a self-supervised framework before fine-tuning it with an object detection model. We show that our pipeline sets a new benchmark in this context and performs at par with the existing methods and the supervised counterparts, if not outperforms. The code is made publicly available at: https://github.com/MaitySubhajit/SelfDocSeg
翻訳日:2023-08-23 00:05:19 公開日:2023-08-21
# ACR放射線オンコロジー試験(TXIT)におけるChatGPT-4のベンチマーク:放射線オンコロジーにおけるAI支援医療教育と意思決定の可能性と課題

Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted Medical Education and Decision Making in Radiation Oncology ( http://arxiv.org/abs/2304.11957v4 )

ライセンス: Link先を確認
Yixing Huang, Ahmed Gomaa, Sabine Semrau, Marlen Haderlein, Sebastian Lettmaier, Thomas Weissmann, Johanna Grigo, Hassen Ben Tkhayat, Benjamin Frey, Udo S. Gaipl, Luitpold V. Distel, Andreas Maier, Rainer Fietkau, Christoph Bert, and Florian Putz(参考訳) 教育と意思決定のための医学における大規模言語モデルの可能性は、米国医療ライセンス試験(usmle)やメダカ試験などの医学試験で十分なスコアを得られることから証明されている。 本研究は,第38回アメリカ放射線科大学(acr)放射線腫瘍学研修試験(txit)と2022年のレッド・ジャーナル・グレイゾーン試験を用いて,特殊放射線腫瘍学分野におけるchatgpt-4の性能を評価する。 TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。 TXIT試験に基づき、ChatGPT-4の放射線腫瘍学における強弱領域をある程度同定した。 特にChatGPT-4は、ACRの知識ドメインによれば、骨や軟組織、婦人科の知識よりも統計学、CNS & Eye、小児科、生物学、物理学の知識が優れている。 治療経路に関して、chatgpt-4はブラキセラピーやドシメトリーよりも診断、予後、毒性が良好である。 臨床試験の詳細な詳細には熟練していない。 グレーゾーンの場合、ChatGPT-4は、高い正確性と包括性を持つ各ケースに対してパーソナライズされた治療アプローチを提案することができる。 重要なのは、人間の専門家が示唆しないような、多くのケースで新しい治療法を提供することだ。 どちらの評価も、一般およびがん患者に対する医学教育におけるchatgpt-4の可能性と、特定の領域におけるその限界を認めつつ、臨床意思決定を支援する可能性を示している。 幻覚の危険性のため、ChatGPTが提供する事実は必ず検証する必要がある。

The potential of large language models in medicine for education and decision making purposes has been demonstrated as they achieve decent scores on medical exams such as the United States Medical Licensing Exam (USMLE) and the MedQA exam. In this work, we evaluate the performance of ChatGPT-4 in the specialized field of radiation oncology using the 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) exam and the 2022 Red Journal Gray Zone cases. For the TXIT exam, ChatGPT-3.5 and ChatGPT-4 have achieved the scores of 63.65% and 74.57%, respectively, highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4's strong and weak areas in radiation oncology are identified to some extent. Specifically, ChatGPT-4 demonstrates better knowledge of statistics, CNS & eye, pediatrics, biology, and physics than knowledge of bone & soft tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs better in diagnosis, prognosis, and toxicity than brachytherapy and dosimetry. It lacks proficiency in in-depth details of clinical trials. For the Gray Zone cases, ChatGPT-4 is able to suggest a personalized treatment approach to each case with high correctness and comprehensiveness. Importantly, it provides novel treatment aspects for many cases, which are not suggested by any human experts. Both evaluations demonstrate the potential of ChatGPT-4 in medical education for the general public and cancer patients, as well as the potential to aid clinical decision-making, while acknowledging its limitations in certain domains. Because of the risk of hallucination, facts provided by ChatGPT always need to be verified.
翻訳日:2023-08-23 00:04:33 公開日:2023-08-21
# 異なる言語からの音声を用いたパーキンソン病検出のためのaiモデルの安全な開発のための連合学習

Federated learning for secure development of AI models for Parkinson's disease detection using speech from different languages ( http://arxiv.org/abs/2305.11284v2 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Cristian David Rios-Urrego, Elmar Noeth, Andreas Maier, Seung Hee Yang, Jan Rusz, Juan Rafael Orozco-Arroyave(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、人の発話に影響を与える神経疾患である。 pd自動評価手法では,ディープラーニングモデルが特に注目されている。 近年,診断精度をさらに向上させるクロスパス学とクロス言語モデルが検討されている。 しかし、厳格な患者データプライバシー規制は、医療機関が患者データの共有をほとんど妨げている。 本稿では,ドイツ,スペイン,チェコの3つの実世界の言語コーパスから発せられる音声信号を用いて,PD検出にフェデレートラーニング(FL)を用いる。 その結果, FLモデルでは, 全局所モデルで診断精度が向上する一方で, 協調作業者間のデータ共有を不要とする利点もあり, 集中的に組み合わせた学習セットに基づくモデルとは全く異なる性能が得られないことが示唆された。 これにより、制度間協力が簡単になり、患者の成果が向上する。

Parkinson's disease (PD) is a neurological disorder impacting a person's speech. Among automatic PD assessment methods, deep learning models have gained particular interest. Recently, the community has explored cross-pathology and cross-language models which can improve diagnostic accuracy even further. However, strict patient data privacy regulations largely prevent institutions from sharing patient speech data with each other. In this paper, we employ federated learning (FL) for PD detection using speech signals from 3 real-world language corpora of German, Spanish, and Czech, each from a separate institution. Our results indicate that the FL model outperforms all the local models in terms of diagnostic accuracy, while not performing very differently from the model based on centrally combined training sets, with the advantage of not requiring any data sharing among collaborators. This will simplify inter-institutional collaborations, resulting in enhancement of patient outcomes.
翻訳日:2023-08-22 23:55:59 公開日:2023-08-21
# 何が問題なのか、Linda? フェアネス問題としての接続不良

What's the Problem, Linda? The Conjunction Fallacy as a Fairness Problem ( http://arxiv.org/abs/2305.09535v2 )

ライセンス: Link先を確認
Jose Alvarez Colmenares(参考訳) 人工知能(AI)の分野は、人間のような知性に可能な限り近い自動意思決定(ADM)システムを作ることに注力している。 この取り組みにより、AI研究者は心理学のような認知分野を探求した。 ダニエル・カーネマン(Daniel Kahneman)とアモス・トヴェルスキー(Amos Tversky)の研究は、共同誤認の研究を含む偏見のある人間の意思決定に関するものである。 合理化の失敗の下では、人間の意思決定者は基本的確率法に反し、その部分の1つよりも協力的になる可能性が高い。 リンダ問題を最も有名な問題とする一連の実験によって、残業が証明されている。 この学際的な取り組みは歓迎されているが、我々はai研究者がリンダ問題によって捉えられた結合誤認の背後にある駆動力を無視していることを恐れている。 本稿では,リンダ問題を再検討し,公平性問題として定式化する。 そこで我々は,構造的因果知覚の枠組みを通して,関心のパラメータとして知覚を導入する。 実証的意思決定例を用いて,提案する概念枠組みとそのfair admシステム開発への潜在的影響について紹介する。

The field of Artificial Intelligence (AI) is focusing on creating automated decision-making (ADM) systems that operate as close as possible to human-like intelligence. This effort has pushed AI researchers into exploring cognitive fields like psychology. The work of Daniel Kahneman and the late Amos Tversky on biased human decision-making, including the study of the conjunction fallacy, has experienced a second revival because of this. Under the conjunction fallacy a human decision-maker will go against basic probability laws and rank as more likely a conjunction over one of its parts. It has been proven overtime through a set of experiments with the Linda Problem being the most famous one. Although this interdisciplinary effort is welcomed, we fear that AI researchers ignore the driving force behind the conjunction fallacy as captured by the Linda Problem: the fact that Linda must be stereotypically described as a woman. In this paper we revisit the Linda Problem and formulate it as a fairness problem. In doing so we introduce perception as a parameter of interest through the structural causal perception framework. Using an illustrative decision-making example, we showcase the proposed conceptual framework and its potential impact for developing fair ADM systems.
翻訳日:2023-08-22 23:55:03 公開日:2023-08-21
# IVP-VAE:初期値問題解を用いたEHR時系列モデリング

IVP-VAE: Modeling EHR Time Series with Initial Value Problem Solvers ( http://arxiv.org/abs/2305.06741v2 )

ライセンス: Link先を確認
Jingge Xiao, Leonie Basso, Wolfgang Nejdl, Niloy Ganguly, Sandipan Sikdar(参考訳) Neural ODEsやNeural Flowsのような連続した時間モデルでは、電子健康記録で頻繁に遭遇する不規則にサンプリングされた時系列を分析して有望な結果を示している。 これらのモデルに基づいて、時系列は通常、変分オートエンコーダアーキテクチャ内の初期値問題(ivp)ソルバと再帰ニューラルネットワークのハイブリッドで処理される。 IVPを逐次解くことで、そのようなモデルは計算効率が低下する。 本稿では,状態変化をivpsで直接近似できる連続プロセスを用いて,時系列をモデル化することを提案する。 これにより、反復計算が不要になり、複数の状態が並列に進化することが可能になる。 さらに、その可逆性を利用して1つのippソルバにエンコーダとデコーダを融合させることにより、パラメータの削減と収束の高速化を図る。 実世界の3つのデータセットの実験から,提案手法は先進国を体系的に上回り,最先端の結果が得られ,データ効率の面で大きな優位性を持つことが示された。

Continuous-time models such as Neural ODEs and Neural Flows have shown promising results in analyzing irregularly sampled time series frequently encountered in electronic health records. Based on these models, time series are typically processed with a hybrid of an initial value problem (IVP) solver and a recurrent neural network within the variational autoencoder architecture. Sequentially solving IVPs makes such models computationally less efficient. In this paper, we propose to model time series purely with continuous processes whose state evolution can be approximated directly by IVPs. This eliminates the need for recurrent computation and enables multiple states to evolve in parallel. We further fuse the encoder and decoder with one IVP solver utilizing its invertibility, which leads to fewer parameters and faster convergence. Experiments on three real-world datasets show that the proposed method can systematically outperform its predecessors, achieve state-of-the-art results, and have significant advantages in terms of data efficiency.
翻訳日:2023-08-22 23:54:07 公開日:2023-08-21
# WeditGAN: ラテント・スペース・リロケーションによる画像生成

WeditGAN: Few-shot Image Generation via Latent Space Relocation ( http://arxiv.org/abs/2305.06671v2 )

ライセンス: Link先を確認
Yuxuan Duan, Li Niu, Yan Hong, Liqing Zhang(参考訳) 少数の画像生成では、少数の画像上でGANモデルを直接訓練することは、過度に適合するリスクに直面している。 一般的な解決策は、大きなソースドメインで事前訓練されたモデルを小さなターゲットに転送することである。 本研究はWeditGANを導入し、StyleGANの中間潜伏符号$w$を学習定数オフセット($\Delta w$)で編集し、ソース潜伏空間の分布を単純に移動させることで、目標潜伏空間を発見し、構築することでモデル転送を実現する。 潜在空間間の1対1マッピングが確立されると、自然にモードの崩壊やオーバーフィットを防止できる。 さらに,方向を定式化したり,$\delta w$ の強度を微調整することにより,再配置プロセスをさらに強化するために,weditgan の変種も提案する。 広く使われているソース/ターゲットデータセットの集合に関する実験では、現実的で多様な画像を生成するためのweditganの能力が示されている。

In few-shot image generation, directly training GAN models on just a handful of images faces the risk of overfitting. A popular solution is to transfer the models pretrained on large source domains to small target ones. In this work, we introduce WeditGAN, which realizes model transfer by editing the intermediate latent codes $w$ in StyleGANs with learned constant offsets ($\Delta w$), discovering and constructing target latent spaces via simply relocating the distribution of source latent spaces. The established one-to-one mapping between latent spaces can naturally prevents mode collapse and overfitting. Besides, we also propose variants of WeditGAN to further enhance the relocation process by regularizing the direction or finetuning the intensity of $\Delta w$. Experiments on a collection of widely used source/target datasets manifest the capability of WeditGAN in generating realistic and diverse images, which is simple yet highly effective in the research area of few-shot image generation.
翻訳日:2023-08-22 23:53:50 公開日:2023-08-21
# 幾何学的量子ディスコード信号非分解

Geometric Quantum Discord Signals Non-Factorization ( http://arxiv.org/abs/2305.04952v3 )

ライセンス: Link先を確認
Souvik Banerjee, Pablo Basteiro, Rathindra Nath Das, Moritz Dorband(参考訳) 本稿では,与えられた量子システムの因子分解特性の指標として,幾何量子ディスコード(gqd)の情報理論量を提案する。 特に,AdS/CFT対応に照らして既知の幾何双対を持つ状態として,一般純状態と熱場二重状態の両方に対して,非消滅不協和関数が分解されないことを示す。 この分析により、アインシュタイン・ローゼン橋の最適純粋古典近似として熱混合二重状態の新たな解釈を与える。 我々は、GQDの非消滅とワームホールマイクロステートの存在を結びつける。

We propose the information-theoretic quantity of geometric quantum discord (GQD) as an indicator of the factorization properties of a given quantum system. In particular, we show how non-vanishing discord implies that the corresponding partition function does not factorize, both for generic pure states and the thermofield double state as a state with a known geometric dual in light of the AdS/CFT correspondence. Via this analysis, we give a novel interpretation to the thermomixed double state as the best purely classical approximation of the Einstein-Rosen bridge. We connect the non-vanishing of GQD with the existence of wormhole microstates.
翻訳日:2023-08-22 23:53:29 公開日:2023-08-21
# ZeroPose:CADモデルに基づくゼロショットポス推定

ZeroPose: CAD-Model-based Zero-Shot Pose Estimation ( http://arxiv.org/abs/2305.17934v2 )

ライセンス: Link先を確認
Jianqiu Chen, Mingshan Sun, Tianpeng Bao, Rui Zhao, Liwei Wu, Zhenyu He(参考訳) 本稿では,ZeroPoseと呼ばれるCADモデルに基づくゼロショットポーズ推定パイプラインを提案する。 既存のポーズ推定手法は、未発見のオブジェクトに適用される場合、高価なトレーニングを必要とするため、産業の実用的な応用においてスケーラビリティが著しく阻害される。 対照的に,提案手法では,学習を必要とせず,未発見物体のポーズパラメータを高精度に推定できる。 具体的には,cadモデルに基づくゼロショットインスタンスセグメンテーションとゼロショットポーズ推定器からなる2ステップパイプラインを設計する。 最初のステップでは、CADモデルとビジュアルファンデーションモデルを活用するためのシンプルだが効果的な方法があります。 第2段階として,剛体物体のcadモデルにおける集中幾何情報に基づいて,ゼロショットポーズ推定を実現する軽量な階層幾何構造マッチング機構を提案する。 BOPチャレンジにおける7つのコアデータセットの大規模な実験結果から、提案手法は教師付きMaskRCNNと同等の性能を達成し、ゼロショットポーズ推定結果はSOTAのポーズ推定を効率良く上回ることを示した。

In this paper, we present a CAD model-based zero-shot pose estimation pipeline called ZeroPose. Existing pose estimation methods remain to require expensive training when applied to an unseen object, which greatly hinders their scalability in the practical application of industry. In contrast, the proposed method enables the accurate estimation of pose parameters for previously unseen objects without the need for training. Specifically, we design a two-step pipeline consisting of CAD model-based zero-shot instance segmentation and a zero-shot pose estimator. For the first step, there is a simple but effective way to leverage CAD models and visual foundation models SAM and Imagebind to segment the interest unseen object at the instance level. For the second step, we based on the intensive geometric information in the CAD model of the rigid object to propose a lightweight hierarchical geometric structure matching mechanism achieving zero-shot pose estimation. Extensive experimental results on the seven core datasets on the BOP challenge show that the proposed zero-shot instance segmentation methods achieve comparable performance with supervised MaskRCNN and the zero-shot pose estimation results outperform the SOTA pose estimators with better efficiency.
翻訳日:2023-08-22 23:46:43 公開日:2023-08-21
# 言語変化における選択的力の検出と定量化

Reliable Detection and Quantification of Selective Forces in Language Change ( http://arxiv.org/abs/2305.15914v2 )

ライセンス: Link先を確認
Juan Guerrero Montero, Andres Karjus, Kenny Smith, Richard A. Blythe(参考訳) 言語変化(英: language change)は、言語変数の変異が突然変異、選択、遺伝的ドリフトに類似した過程を通じて頻度で変化する文化進化過程である。 本研究では,最近導入された手法をコーパスデータに適用し,歴史的言語変化の特定の事例における選択の強さを定量化する。 まず, 英語不規則動詞の文脈において, この手法が, 従来適用されていた同様の方法よりも信頼性が高く, 解釈可能であることを示す。 この研究をさらに拡張して、音韻学的単純さに対する偏見が、それらが矛盾しているときに文法的単純さを好むことを実証する。 最後に,スペイン語の綴り改革を参考に,社会的動機付け言語変化に期待される特徴である,選択の強みが変化する時点の点を検出できることを示す。 これらの結果は, 歴史的コーパスデータを用いて, 言語変化のメカニズムに関する仮説を定量的に検証できることを示す。

Language change is a cultural evolutionary process in which variants of linguistic variables change in frequency through processes analogous to mutation, selection and genetic drift. In this work, we apply a recently-introduced method to corpus data to quantify the strength of selection in specific instances of historical language change. We first demonstrate, in the context of English irregular verbs, that this method is more reliable and interpretable than similar methods that have previously been applied. We further extend this study to demonstrate that a bias towards phonological simplicity overrides that favouring grammatical simplicity when these are in conflict. Finally, with reference to Spanish spelling reforms, we show that the method can also detect points in time at which selection strengths change, a feature that is generically expected for socially-motivated language change. Together, these results indicate how hypotheses for mechanisms of language change can be tested quantitatively using historical corpus data.
翻訳日:2023-08-22 23:45:43 公開日:2023-08-21
# 階層型統合拡散モデルによる実像分解

Hierarchical Integration Diffusion Model for Realistic Image Deblurring ( http://arxiv.org/abs/2305.12966v3 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Ding Liu, Bin Xia, Jinjin Gu, Linghe Kong, Xin Yuan(参考訳) 拡散モデル (DM) は近年, 画像劣化において導入され, 特に細部再構成において有望な性能を示した。 しかし、拡散モデルは、大量の計算資源を消費する純粋なガウスノイズからクリーンなイメージを復元するために、多数の推論反復を必要とする。 さらに、拡散モデルにより合成された分布は、しばしば対象結果と不一致であり、歪みに基づくメトリクスの制限につながる。 上記の問題に対処するために,実像デブラリングのための階層的統合拡散モデル(hi-diff)を提案する。 具体的には、高いコンパクト化された潜在空間でDMを実行し、デブロアリングプロセスの前の特徴を生成する。 退化処理は回帰法により実施され、歪み精度が向上する。 一方、非常にコンパクトな潜在空間は、DMの効率性を保証する。 さらに,複数スケールの回帰モデルに事前を融合させる階層型統合モジュールを設計し,複雑なぼやけたシナリオにおけるより優れた一般化を実現する。 人工的および実世界のぼかしデータセットに関する総合的な実験は、HI-Diffが最先端の手法より優れていることを示す。 コードとトレーニングされたモデルはhttps://github.com/zhengchen1999/hi-diffで入手できる。

Diffusion models (DMs) have recently been introduced in image deblurring and exhibited promising performance, particularly in terms of details reconstruction. However, the diffusion model requires a large number of inference iterations to recover the clean image from pure Gaussian noise, which consumes massive computational resources. Moreover, the distribution synthesized by the diffusion model is often misaligned with the target results, leading to restrictions in distortion-based metrics. To address the above issues, we propose the Hierarchical Integration Diffusion Model (HI-Diff), for realistic image deblurring. Specifically, we perform the DM in a highly compacted latent space to generate the prior feature for the deblurring process. The deblurring process is implemented by a regression-based method to obtain better distortion accuracy. Meanwhile, the highly compact latent space ensures the efficiency of the DM. Furthermore, we design the hierarchical integration module to fuse the prior into the regression-based model from multiple scales, enabling better generalization in complex blurry scenarios. Comprehensive experiments on synthetic and real-world blur datasets demonstrate that our HI-Diff outperforms state-of-the-art methods. Code and trained models are available at https://github.com/zhengchen1999/HI-Diff.
翻訳日:2023-08-22 23:44:19 公開日:2023-08-21
# 室内3次元シーンにおける異種人間の動作の合成

Synthesizing Diverse Human Motions in 3D Indoor Scenes ( http://arxiv.org/abs/2305.12411v3 )

ライセンス: Link先を確認
Kaifeng Zhao, Yan Zhang, Shaofei Wang, Thabo Beeler, and Siyu Tang(参考訳) 本稿では,室内を仮想人間で移動し,現実的に物体と対話できる,新しい3次元室内シーンの配置法を提案する。 既存のアプローチでは、キャプチャされた人間の動きと相互作用する3dシーンを含むトレーニングシーケンスに依存している。 しかし、このような相互作用データはコストがかかり、捕獲が困難であり、複雑な環境下での人間とシーンの相互作用を全てカバーすることはほとんどできない。 これらの課題に対処するために,我々は,仮想人間が3dシーンをナビゲートし,学習したモーションコントロールポリシーにより,現実的かつ自律的に物体と対話できる強化学習ベースアプローチを提案する。 運動制御の方針は、現実的な動きプリミティブに対応し、強力な生成的動きモデルを用いて大規模モーションキャプチャデータから学習される潜在的なモーションアクションスペースを用いる。 3次元環境におけるナビゲーションのために,新しい状態と衝突回避のための報酬設計を備えたシーン認識ポリシーを提案する。 ナビゲーションメッシュに基づく経路探索アルゴリズムと組み合わせて中間経路点を生成することにより,3次元屋内シーンをナビゲートする多様な人間の動きを合成し,障害物を回避する。 微粒な人間と物体の相互作用を生成するため,マーカーに基づく身体表現を用いてインタラクション目標指導を慎重にキュレートし,署名された距離場(SDF)に基づく特徴を利用して人間とシーンの近接関係を符号化する。 本手法は,物体形状,方向,開始位置,ポーズの異なる分散テストシナリオにおいても,現実的かつ多様な物体間相互作用(椅子に着座して起立するなど)を合成することができる。 実験の結果,本手法は運動の自然性と多様性の両面で最先端手法よりも優れていることがわかった。 コードとビデオの結果は、https://zkf1997.github.io/dimosで入手できる。

We present a novel method for populating 3D indoor scenes with virtual humans that can navigate in the environment and interact with objects in a realistic manner. Existing approaches rely on training sequences that contain captured human motions and the 3D scenes they interact with. However, such interaction data are costly, difficult to capture, and can hardly cover all plausible human-scene interactions in complex environments. To address these challenges, we propose a reinforcement learning-based approach that enables virtual humans to navigate in 3D scenes and interact with objects realistically and autonomously, driven by learned motion control policies. The motion control policies employ latent motion action spaces, which correspond to realistic motion primitives and are learned from large-scale motion capture data using a powerful generative motion model. For navigation in a 3D environment, we propose a scene-aware policy with novel state and reward designs for collision avoidance. Combined with navigation mesh-based path-finding algorithms to generate intermediate waypoints, our approach enables the synthesis of diverse human motions navigating in 3D indoor scenes and avoiding obstacles. To generate fine-grained human-object interactions, we carefully curate interaction goal guidance using a marker-based body representation and leverage features based on the signed distance field (SDF) to encode human-scene proximity relations. Our method can synthesize realistic and diverse human-object interactions (e.g.,~sitting on a chair and then getting up) even for out-of-distribution test scenarios with different object shapes, orientations, starting body positions, and poses. Experimental results demonstrate that our approach outperforms state-of-the-art methods in terms of both motion naturalness and diversity. Code and video results are available at: https://zkf1997.github.io/DIMOS.
翻訳日:2023-08-22 23:43:58 公開日:2023-08-21
# 大規模言語モデル時代のAutoML:現在の課題、将来の可能性、リスク

AutoML in the Age of Large Language Models: Current Challenges, Future Opportunities and Risks ( http://arxiv.org/abs/2306.08107v2 )

ライセンス: Link先を確認
Alexander Tornede, Difan Deng, Theresa Eimer, Joseph Giovanelli, Aditya Mohan, Tim Ruhkopf, Sarah Segel, Daphne Theodorakopoulos, Tanja Tornede, Henning Wachsmuth, Marius Lindauer(参考訳) 自然言語処理(NLP)と自動機械学習(Automated Machine Learning)の両方の分野は、ここ数年で顕著な成果を上げてきた。 NLPでは、特にLarge Language Models (LLM) は、最近、急激なブレークスルーを経験している。 2つのフィールドが緊密な統合によって相互の境界を根本的に押し付けることができると私たちは考えています。 このビジョンを実証するために、AutoMLとLLMの共生関係の可能性を探り、相互に利益をもたらす方法について光を当てる。 特に、異なる視点からLLMでAutoMLアプローチを強化する機会と、LLMをさらに改善するためにAutoMLを活用することの課題について検討する。 この目的のために、既存の作業を調査し、リスクを批判的に評価する。 2つのフィールドの統合は、NLPとAutoMLの両方のフィールドをディスラプトする可能性があると強く信じています。 認識可能な相乗効果だけでなくリスクも強調することにより、AutoMLとLCMの交差点でのさらなる探索を促進することを目指している。

The fields of both Natural Language Processing (NLP) and Automated Machine Learning (AutoML) have achieved remarkable results over the past years. In NLP, especially Large Language Models (LLMs) have experienced a rapid series of breakthroughs very recently. We envision that the two fields can radically push the boundaries of each other through tight integration. To showcase this vision, we explore the potential of a symbiotic relationship between AutoML and LLMs, shedding light on how they can benefit each other. In particular, we investigate both the opportunities to enhance AutoML approaches with LLMs from different perspectives and the challenges of leveraging AutoML to further improve LLMs. To this end, we survey existing work, and we critically assess risks. We strongly believe that the integration of the two fields has the potential to disrupt both fields, NLP and AutoML. By highlighting conceivable synergies, but also risks, we aim to foster further exploration at the intersection of AutoML and LLMs.
翻訳日:2023-08-22 23:36:55 公開日:2023-08-21
# ブラックボックス最適化のための拡散モデル

Diffusion Models for Black-Box Optimization ( http://arxiv.org/abs/2306.07180v2 )

ライセンス: Link先を確認
Siddarth Krishnamoorthy, Satvik Mehul Mashkaria, Aditya Grover(参考訳) オフラインブラックボックス最適化(BBO)の目的は、関数評価の固定データセットを使用して高価なブラックボックス関数を最適化することである。 先行研究では、ブラックボックス関数へのサロゲートを学ぶ前方のアプローチと、ブラックボックス関数の入力領域内の対応する点に直接関数値をマッピングする逆のアプローチを検討する。 これらのアプローチは、オフラインデータセットの品質と、1対1のマッピングを高次元で学ぶことの難しさによって制限される。 拡散モデルに基づくオフラインブラックボックス最適化のための新しい逆アプローチであるDDOM(Denoising Diffusion Optimization Models)を提案する。 オフラインデータセットが与えられた場合、DDOMは関数値に基づいて条件付き生成モデルをブラックボックス関数のドメイン上で学習する。 DDOMでは,データセットを高機能値に再重み付けしたり,テスト時に分類子フリーガイダンスを使用したりすることで,データセットの最大値を超える関数値への一般化を実現している。 実験により,ddomが最先端のベースラインと競合する結果を達成することを示す。

The goal of offline black-box optimization (BBO) is to optimize an expensive black-box function using a fixed dataset of function evaluations. Prior works consider forward approaches that learn surrogates to the black-box function and inverse approaches that directly map function values to corresponding points in the input domain of the black-box function. These approaches are limited by the quality of the offline dataset and the difficulty in learning one-to-many mappings in high dimensions, respectively. We propose Denoising Diffusion Optimization Models (DDOM), a new inverse approach for offline black-box optimization based on diffusion models. Given an offline dataset, DDOM learns a conditional generative model over the domain of the black-box function conditioned on the function values. We investigate several design choices in DDOM, such as re-weighting the dataset to focus on high function values and the use of classifier-free guidance at test-time to enable generalization to function values that can even exceed the dataset maxima. Empirically, we conduct experiments on the Design-Bench benchmark and show that DDOM achieves results competitive with state-of-the-art baselines.
翻訳日:2023-08-22 23:36:40 公開日:2023-08-21
# マルチパーソンポーズトラッキングのためのゲーテッドアテンション変換器

A Gated Attention Transformer for Multi-Person Pose Tracking ( http://arxiv.org/abs/2306.05807v2 )

ライセンス: Link先を確認
Andreas Doering and Juergen Gall(参考訳) マルチパーソンのポーズトラッキングは多くのアプリケーションにとって重要な要素であり、ビデオ内のすべての人のポーズを推定し、時間とともに追跡する必要がある。 フレーム間のポーズの関連性は、特に動きのぼやけや混みのあるシーン、オクルージョンなどによるオンライントラッキング手法において、オープンな研究課題である。 学会の課題に対処するため,Gated Attention Transformerを提案する。 我々のモデルの中核的な側面は、注意層における時間的ポーズ類似性に基づく外観埋め込みと埋め込みの影響を自動的に適応するゲーティング機構である。 被検者を再特定するために, フレーム間で目に見える関節の数が異なる場合でも, 初期埋め込みを提供し, 人物とのマッチングを可能にするポーズ条件付き再識別ネットワークを組み込んだ。 さらに,ポーズ・トラック間関係と重複除去のためのゲート付き注意に基づくマッチング層を提案する。 PoseTrack 2018とPoseTrack21のアプローチを評価します。

Multi-person pose tracking is an important element for many applications and requires to estimate the human poses of all persons in a video and to track them over time. The association of poses across frames remains an open research problem, in particular for online tracking methods, due to motion blur, crowded scenes and occlusions. To tackle the association challenge, we propose a Gated Attention Transformer. The core aspect of our model is the gating mechanism that automatically adapts the impact of appearance embeddings and embeddings based on temporal pose similarity in the attention layers. In order to re-identify persons that have been occluded, we incorporate a pose-conditioned re-identification network that provides initial embeddings and allows to match persons even if the number of visible joints differ between frames. We further propose a matching layer based on gated attention for pose-to-track association and duplicate removal. We evaluate our approach on PoseTrack 2018 and PoseTrack21.
翻訳日:2023-08-22 23:36:20 公開日:2023-08-21
# 車両メタバースにおけるセマンティクスコミュニケーションの敵意攻撃と防御

Adversarial Attacks and Defenses for Semantic Communication in Vehicular Metaverses ( http://arxiv.org/abs/2306.03528v2 )

ライセンス: Link先を確認
Jiawen Kang, Jiayi He, Hongyang Du, Zehui Xiong, Zhaohui Yang, Xumin Huang, Shengli Xie(参考訳) 車載メタバースでは、究極的なユーザ中心の目標の1つは、ユーザの没入的なエクスペリエンスとQuality of Service(QoS)を最適化することである。 セマンティック・コミュニケーション (Semantic Communication, SemCom) はこの目的を達成するために、車載メタバースアプリケーションにおける通信リソースの圧力を大幅に緩和する革命的パラダイムとして導入された。 SemComは、車両間のデータトラフィックが爆発的に増加しても、高品質で超効率的な車両通信を可能にする。 本稿では,グローバルメタバース,ローカルメタバース,セムコムモジュール,リソースプールからなる階層型セムコム対応車両メタバースフレームワークを提案する。 グローバルメタバースとローカルメタバースはメタバースの分布の観点から新しい概念である。 ユーザのqosを考慮して,提案フレームワークの潜在的なセキュリティ脆弱性について検討する。 この目的のために、本研究ではフレームワークのSemComモジュールに対する特定のセキュリティリスクを強調し、実行可能な防御ソリューションを提供する。 最後に, 車両メタバースにおけるセキュアsemcomのオープンイシューの概要, 特に今後の研究方向性について述べる。

For vehicular metaverses, one of the ultimate user-centric goals is to optimize the immersive experience and Quality of Service (QoS) for users on board. Semantic Communication (SemCom) has been introduced as a revolutionary paradigm that significantly eases communication resource pressure for vehicular metaverse applications to achieve this goal. SemCom enables high-quality and ultra-efficient vehicular communication, even with explosively increasing data traffic among vehicles. In this article, we propose a hierarchical SemCom-enabled vehicular metaverses framework consisting of the global metaverse, local metaverses, SemCom module, and resource pool. The global and local metaverses are brand-new concepts from the metaverse's distribution standpoint. Considering the QoS of users, this article explores the potential security vulnerabilities of the proposed framework. To that purpose, this study highlights a specific security risk to the framework's SemCom module and offers a viable defense solution, so encouraging community researchers to focus more on vehicular metaverse security. Finally, we provide an overview of the open issues of secure SemCom in the vehicular metaverses, notably pointing out potential future research directions.
翻訳日:2023-08-22 23:35:46 公開日:2023-08-21
# タスク関係を意識したユーザ表現学習

Task Relation-aware Continual User Representation Learning ( http://arxiv.org/abs/2306.01792v2 )

ライセンス: Link先を確認
Sein Kim, Namkyeong Lee, Donghyun Kim, Minchul Yang, Chanyoung Park(参考訳) ユーザを過去の行動に基づいて低次元表現空間に表現することを学ぶユーザモデリングは、ユーザにパーソナライズされたサービスを提供する業界から注目を集めている。 ユーザモデリングにおける以前の取り組みは、主に1つのタスク用に設計されたタスク固有のユーザ表現の学習に焦点を当てていた。 しかし、タスク固有のユーザ表現を学習することは不可能であるため、近年の研究では、様々なタスクに関連するユーザのより一般化された表現であるユニバーサルユーザ表現の概念を導入している。 その効果にもかかわらず、データ要求、破滅的な忘れ込み、継続的な追加タスクの限られた学習能力のために、ユーザ表現を学習するための既存のアプローチは現実のアプリケーションでは実用的ではない。 本稿では,タスク間の関係を捉えながら,学習数が増加するにつれて学習能力が制限されない,TERACONと呼ばれる新しいユーザ表現学習手法を提案する。 主なアイデアは、各タスク、すなわちタスク埋め込みへの埋め込みを導入することである。これは、トレーニングシーケンスの終了までモデルパラメータ全体を更新できるだけでなく、キャプチャされるタスク間の関係を容易にするタスク固有のソフトマスクを生成するために使用される。 さらに,継続学習の長年の問題,すなわち破滅的な忘れ込みを解消する疑似ラベル戦略を備えた新しい知識保持モジュールを導入する。 パブリックおよびプロプライエタリな実世界のデータセットに関する大規模な実験は、TERACONの優位性と実用性を示している。 私たちのコードはhttps://github.com/Sein-Kim/TERACONで公開されています。

User modeling, which learns to represent users into a low-dimensional representation space based on their past behaviors, got a surge of interest from the industry for providing personalized services to users. Previous efforts in user modeling mainly focus on learning a task-specific user representation that is designed for a single task. However, since learning task-specific user representations for every task is infeasible, recent studies introduce the concept of universal user representation, which is a more generalized representation of a user that is relevant to a variety of tasks. Despite their effectiveness, existing approaches for learning universal user representations are impractical in real-world applications due to the data requirement, catastrophic forgetting and the limited learning capability for continually added tasks. In this paper, we propose a novel continual user representation learning method, called TERACON, whose learning capability is not limited as the number of learned tasks increases while capturing the relationship between the tasks. The main idea is to introduce an embedding for each task, i.e., task embedding, which is utilized to generate task-specific soft masks that not only allow the entire model parameters to be updated until the end of training sequence, but also facilitate the relationship between the tasks to be captured. Moreover, we introduce a novel knowledge retention module with pseudo-labeling strategy that successfully alleviates the long-standing problem of continual learning, i.e., catastrophic forgetting. Extensive experiments on public and proprietary real-world datasets demonstrate the superiority and practicality of TERACON. Our code is available at https://github.com/Sein-Kim/TERACON.
翻訳日:2023-08-22 23:35:25 公開日:2023-08-21
# TACOformer:マルチモーダル感情認識のためのTokenチャネル合成クロスアテンション

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition ( http://arxiv.org/abs/2306.13592v2 )

ライセンス: Link先を確認
Xinda Li(参考訳) 近年,生理的信号に基づく感情認識が,集中研究の分野として浮上している。 マルチモーダル・マルチチャネル生理信号の利用は,その相補性から感情認識システムの性能を著しく向上させた。 しかし、感情に関連したセマンティクス情報を異なるモダリティから効果的に統合し、モダリティ間の依存関係を捉えることは難しい課題である。 多くの既存のマルチモーダル融合法は、異なるモダリティのマルチチャネル信号のトークン対トケンまたはチャネル対チャネル相関を無視しており、モデルの分類能力はある程度制限されている。 本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。 具体的には,マルチモーダル融合を実現するために,token-channel compound (taco) と呼ばれる統一クロスアテンションモジュールを導入して,チャネルレベルとトークンレベルのモダリティ間の依存関係を同時にモデル化する。 さらに,脳波信号チャネルの空間分布に関する情報を保存する2次元位置符号化法を提案し,融合モジュールに先立つ2つのトランスエンコーダを用いて,脳波信号と周辺生理信号からの長期的時間依存性をそれぞれ捉える。 感情データセットDEAPとDreamerの被験者非依存実験は、提案モデルが最先端のパフォーマンスを達成することを示す。

Recently, emotion recognition based on physiological signals has emerged as a field with intensive research. The utilization of multi-modal, multi-channel physiological signals has significantly improved the performance of emotion recognition systems, due to their complementarity. However, effectively integrating emotion-related semantic information from different modalities and capturing inter-modal dependencies remains a challenging issue. Many existing multimodal fusion methods ignore either token-to-token or channel-to-channel correlations of multichannel signals from different modalities, which limits the classification capability of the models to some extent. In this paper, we propose a comprehensive perspective of multimodal fusion that integrates channel-level and token-level cross-modal interactions. Specifically, we introduce a unified cross attention module called Token-chAnnel COmpound (TACO) Cross Attention to perform multimodal fusion, which simultaneously models channel-level and token-level dependencies between modalities. Additionally, we propose a 2D position encoding method to preserve information about the spatial distribution of EEG signal channels, then we use two transformer encoders ahead of the fusion module to capture long-term temporal dependencies from the EEG signal and the peripheral physiological signal, respectively. Subject-independent experiments on emotional dataset DEAP and Dreamer demonstrate that the proposed model achieves state-of-the-art performance.
翻訳日:2023-08-22 23:27:19 公開日:2023-08-21
# フラグフォールトトレラント誤り訂正のための距離保存ツール

Optimization tools for distance-preserving flag fault-tolerant error correction ( http://arxiv.org/abs/2306.12862v2 )

ライセンス: Link先を確認
Balint Pato, Theerapat Tansuwannont, Shilin Huang, Kenneth R. Brown(参考訳) ルックアップテーブルの復号化は高速かつ距離を保ち、最小距離の量子誤り訂正符号を持つ短期量子コンピュータアーキテクチャにとって魅力的である。 本研究では,Calderbank-Shor-Steane (CSS) 符号のルックアップテーブルデコードにより,フラグフォールトトレラントエラー訂正 (FTEC) に必要な時間的オーバーヘッドを低減できる最適化ツールを開発した。 我々の技術には、コンパクトなルックアップテーブルの構築、Meet-in-the-Middle技術、フラグFTECの適応時間デコード、フラグ情報のための古典的処理技術、分離された$X$と$Z$カウント技術が含まれる。 距離3, 5, 7, 9の六角形カラーコードの回路レベルの雑音下での数値シミュレーションにより, ツールの性能評価を行った。 すべてのツールを組み合わせると、長さ9の六角形の色符号の擬似閾値が1.34 \pm 0.01 \times 10^{-4}$から$(1.42 \pm 0.12) \times 10^{-3}$へと大幅に増加する。

Lookup table decoding is fast and distance preserving, making it attractive for near-term quantum computer architectures with small-distance quantum error correcting codes. In this work, we develop several optimization tools which can potentially reduce the space and time overhead required for flag fault-tolerant error correction (FTEC) with lookup table decoding on Calderbank-Shor-Steane (CSS) codes. Our techniques include the compact lookup table construction, the Meet-in-the-Middle technique, the adaptive time decoding for flag FTEC, the classical processing technique for flag information, and the separated $X$ and $Z$ counting technique. We evaluate the performance of our tools using numerical simulation of hexagonal color codes of distances 3, 5, 7, and 9 under circuit-level noise. Combining all tools can result in more than an order of magnitude increase in pseudothreshold for the hexagonal color code of distance 9, from $(1.34 \pm 0.01) \times 10^{-4}$ to $(1.42 \pm 0.12) \times 10^{-3}$.
翻訳日:2023-08-22 23:26:54 公開日:2023-08-21
# 遠方VAEを用いたMCI検出のための構造・機能接続

Fusing Structural and Functional Connectivities using Disentangled VAE for Detecting MCI ( http://arxiv.org/abs/2306.09629v2 )

ライセンス: Link先を確認
Qiankun Zuo, Yanfei Zhu, Libin Lu, Zhi Yang, Yuhui Li, Ning Zhang(参考訳) 脳ネットワーク解析は、異常なつながりを検出することで患者と健常者を区別できるため、ヒト脳疾患の研究に有用なアプローチである。 複数のモーダル神経画像からの補完的な情報により、マルチモーダル融合技術は予測性能を向上させる可能性がある。 しかし,相補性を実現するためのマルチモーダル医用画像の効果的な融合は依然として課題である。 本稿では,脳構造機能結合行列を構築し,機能的磁気共鳴イメージング(fmri)と拡散テンソルイメージング(dti)に基づいて異常脳結合を予測するための新しい階層的構造機能結合fusing(hscf)モデルを提案する。 具体的には、先行知識を、グラフ畳み込みネットワーク(GCN)によって情報の各モダリティを分離するセパレータに組み込む。 そして、この不絡の有効性を確保するために、不絡のコサイン距離損失を考案する。 さらに、階層的表現融合モジュールは、モダリティ間の関連性と効果的な特徴の組み合わせを効果的に最大化するために設計されており、それによって生成された構造機能接続が認知疾患解析においてより堅牢で差別的になる。 The public Alzheimer's Disease Neuroimaging Initiative (ADNI) databaseで実施された幅広い試験の結果、提案モデルは分類評価において競合するアプローチよりも優れた性能を示した。 一般に、提案するhscfモデルは、脳の構造-機能的結合を生成し、認知疾患が進行するにつれて異常な脳結合を同定するための有望なモデルである。

Brain network analysis is a useful approach to studying human brain disorders because it can distinguish patients from healthy people by detecting abnormal connections. Due to the complementary information from multiple modal neuroimages, multimodal fusion technology has a lot of potential for improving prediction performance. However, effective fusion of multimodal medical images to achieve complementarity is still a challenging problem. In this paper, a novel hierarchical structural-functional connectivity fusing (HSCF) model is proposed to construct brain structural-functional connectivity matrices and predict abnormal brain connections based on functional magnetic resonance imaging (fMRI) and diffusion tensor imaging (DTI). Specifically, the prior knowledge is incorporated into the separators for disentangling each modality of information by the graph convolutional networks (GCN). And a disentangled cosine distance loss is devised to ensure the disentanglement's effectiveness. Moreover, the hierarchical representation fusion module is designed to effectively maximize the combination of relevant and effective features between modalities, which makes the generated structural-functional connectivity more robust and discriminative in the cognitive disease analysis. Results from a wide range of tests performed on the public Alzheimer's Disease Neuroimaging Initiative (ADNI) database show that the proposed model performs better than competing approaches in terms of classification evaluation. In general, the proposed HSCF model is a promising model for generating brain structural-functional connectivities and identifying abnormal brain connections as cognitive disease progresses.
翻訳日:2023-08-22 23:25:11 公開日:2023-08-21
# 量子ゼノと反ゼノ効果に基づくコヒーレント制御:コヒーレンスとタイミングの役割

Coherent control based on quantum Zeno and anti-Zeno effects: Role of coherences and timing ( http://arxiv.org/abs/2306.08311v2 )

ライセンス: Link先を確認
Jacob Levitt and Artur F. Izmaylov(参考訳) 量子ゼーノ効果と反ゼーノ効果(QZE/AZE)は長い間知られており、結合レベルを持つ量子系では、特定のレベルの集団の測定は、その集団の他のレベルへの移動の加速(AZE)または遅延(QZE)をもたらす可能性がある。 ここでは,結合した量子状態から特定の時間における計測によって人口の流れを制御する方法と,それに対するシステムパラメータについて考察する。 本稿では,時間依存密度行列摂動理論に基づく量子ゼノダイナミクス解析の枠組みを提案する。 この枠組みにより、国家の人口をコヒーレンスから明確に分離し、QZEまたはAZEの出現を予測することができる。 2つのモデルシステムについて分析する。 1)2つの結合レベルと 2)連続体に結合したレベル。 どちらの場合も、量子コヒーレンスのダイナミクスは重要な役割を担い、摂動的考慮によって射影測定の効果を予測することができる。 さらに,系の波動関数を記述するコヒーレント重ね合わせにおいて,状態の符号を反転させるユニタリ変換であるコヒーレント制御シナリオについても考察した。

The quantum-Zeno and anti-Zeno effects (QZE/AZE) are known for a long time, in a quantum system with coupled levels, the measurement of a particular level population can lead to either acceleration (i.e. AZE) or retardation (i.e. QZE) of its population transfer to other levels. Here we consider how one can control the population flow from a coupled quantum state by measurement at a particular time, and what system parameters are responsible for that. We propose a framework for analysis of quantum Zeno dynamics based on time-dependent density matrix perturbation theory. This framework allows us to clearly separate state populations from their coherences and to predict appearance of either QZE or AZE. We illustrate our analysis on two model systems: 1) two coupled levels and 2) a level coupled to a continuum. In both cases dynamics of quantum coherences play a crucial role, and perturbative considerations allow us to predict the effect of projective measurements. In addition, we have extended our consideration to a closely related coherent control scenario, a unitary transformation flipping a sign of a state in a coherent superposition describing the system wavefunction.
翻訳日:2023-08-22 23:24:44 公開日:2023-08-21
# マルチモーダル分類のためのバランスの取れたアクティブラーニングに向けて

Towards Balanced Active Learning for Multimodal Classification ( http://arxiv.org/abs/2306.08306v2 )

ライセンス: Link先を確認
Meng Shen, Yizheng Huang, Jianxiong Yin, Heqing Zou, Deepu Rajan, Simon See(参考訳) マルチモーダルネットワークのトレーニングには、ユニモーダルネットワークに比べてパラメータ空間が大きいため、膨大なデータが必要である。 アクティブラーニングは、モデルの性能向上に寄与するサンプルのみを選択することで、データアノテーションコストを削減するために広く使われているテクニックである。 しかし、現在のアクティブラーニング戦略は、主に一助的なタスクのために設計されており、マルチモーダルデータに適用すると、支配的なモダリティからのサンプル選択がバイアスとなることが多い。 この不公平さは、最適なパフォーマンスを達成するために重要なマルチモーダル学習のバランスを妨げる。 本稿では,よりバランスの取れたマルチモーダルアクティブラーニング戦略を設計するための3つのガイドラインを提案する。 これらのガイドラインに従うと、モダリティ間の優越度で勾配埋め込みを変調することにより、より公平なデータ選択を実現する新しい手法が提案される。 本研究は,支配的モダリティから欲深いサンプル選択を回避し,よりバランスのとれたマルチモーダル学習を実現することを実証する。 提案手法は,様々なマルチモーダル分類タスクにおいて,既存のアクティブラーニング戦略より優れている。 本研究は,マルチモーダル能動学習におけるサンプル選択のバランスをとることの重要性を強調し,マルチモーダル分類のためのよりバランスの取れた能動学習を実現するための実践的ソリューションを提供する。

Training multimodal networks requires a vast amount of data due to their larger parameter space compared to unimodal networks. Active learning is a widely used technique for reducing data annotation costs by selecting only those samples that could contribute to improving model performance. However, current active learning strategies are mostly designed for unimodal tasks, and when applied to multimodal data, they often result in biased sample selection from the dominant modality. This unfairness hinders balanced multimodal learning, which is crucial for achieving optimal performance. To address this issue, we propose three guidelines for designing a more balanced multimodal active learning strategy. Following these guidelines, a novel approach is proposed to achieve more fair data selection by modulating the gradient embedding with the dominance degree among modalities. Our studies demonstrate that the proposed method achieves more balanced multimodal learning by avoiding greedy sample selection from the dominant modality. Our approach outperforms existing active learning strategies on a variety of multimodal classification tasks. Overall, our work highlights the importance of balancing sample selection in multimodal active learning and provides a practical solution for achieving more balanced active learning for multimodal classification.
翻訳日:2023-08-22 23:24:22 公開日:2023-08-21
# レビューはより良い学習に役立つ: 時間的教師付き知識蒸留

Review helps learn better: Temporal Supervised Knowledge Distillation ( http://arxiv.org/abs/2307.00811v2 )

ライセンス: Link先を確認
Dongwei Wang, Zhi Han, Yanmei Wang, Xiai Chen, Baichen Liu and Yandong Tang(参考訳) レビューは知識を学ぶ上で重要な役割を果たす。 ある時点における知識獲得は、以前の経験の助けによって強くインスパイアされるかもしれない。 したがって、知識の育成手順は時間次元に沿って強い関係を示すべきである。 本研究では,ネットワークトレーニング中に特徴地図の進化が時間系列特性に従うことを見出した。 適切な時間的監督は、ネットワークトレーニング性能をさらに向上させる可能性がある。 この観察に触発されて、時間的監視知識蒸留(TSKD)を提案する。 具体的には、畳み込み長短期記憶ネットワーク(Conv-LSTM)を用いて、学生の異なる訓練段階における時空間的特徴を抽出する。 次に,静的な教師ネットワーク機能ではなく,動的ターゲットを通じて学生ネットをトレーニングする。 このプロセスは,学生ネットワークにおける古知識の洗練を実現し,現在の学習を支援する。 様々なネットワークアーキテクチャや様々なタスク(画像分類とオブジェクト検出)を含む既存の知識蒸留法に対して,本手法の有効性とメリットを検証した。

Reviewing plays an important role when learning knowledge. The knowledge acquisition at a certain time point may be strongly inspired with the help of previous experience. Thus the knowledge growing procedure should show strong relationship along the temporal dimension. In our research, we find that during the network training, the evolution of feature map follows temporal sequence property. A proper temporal supervision may further improve the network training performance. Inspired by this observation, we propose Temporal Supervised Knowledge Distillation (TSKD). Specifically, we extract the spatiotemporal features in the different training phases of student by convolutional Long Short-term memory network (Conv-LSTM). Then, we train the student net through a dynamic target, rather than static teacher network features. This process realizes the refinement of old knowledge in student network, and utilizes it to assist current learning. Extensive experiments verify the effectiveness and advantages of our method over existing knowledge distillation methods, including various network architectures and different tasks (image classification and object detection) .
翻訳日:2023-08-22 23:15:34 公開日:2023-08-21
# OBELICS: インターリーブされた画像テキストドキュメントのオープンなWebスケールフィルタリングデータセット

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents ( http://arxiv.org/abs/2306.16527v2 )

ライセンス: Link先を確認
Hugo Lauren\c{c}on, Lucile Saulnier, L\'eo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh(参考訳) 画像とテキストをインターリーブする自然文書でトレーニングされた大規模マルチモーダルモデルは、様々なマルチモーダルベンチマークで画像-テキストペアでトレーニングされたモデルを上回っている。 しかし、これらのモデルのトレーニングに使われるデータセットはリリースされておらず、収集プロセスは完全に特定されていない。 我々は,Common Crawlから抽出された1億1100万のWebページ,3億3300万の関連画像,および1150億のテキストトークンからなる,オープンなWebスケールの画像テキスト文書のフィルタリングデータセットであるOBELICSデータセットを紹介する。 本稿では,データセット作成プロセスを説明し,包括的フィルタリングルールを提示し,データセットの内容の分析を行う。 OBELICSの有効性を示すため、IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。 データセット、モデル、コードをリリースします。

Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.
翻訳日:2023-08-22 23:14:15 公開日:2023-08-21
# 視覚言語事前学習モデルに対する近似的プロンプトチューニング

Approximated Prompt Tuning for Vision-Language Pre-trained Models ( http://arxiv.org/abs/2306.15706v2 )

ライセンス: Link先を確認
Qiong Wu, Shubin Huang, Yiyi Zhou, Pingyang Dai, Annan Shu, Guannan Jiang, Rongrong Ji(参考訳) プロンプトチューニングは、タスク固有のトークンを追加することで、大規模な事前訓練されたモデルを下流タスクにデプロイするパラメータ効率のよい方法である。 視覚言語事前学習モデル(vlp)の観点では、プロンプトチューニングは、事前学習と下流タスクの間のギャップを埋めるために、多くの学習可能なトークンを必要とすることが多い。 本稿では,変圧器を用いたvlpモデルのプロンプトチューニングの原理を再検討し,ソフト・プロンプト・トークンの影響を,独立した情報拡散ステップによって実際に近似できることを明らかにし,費用のかかるグローバル・アテンション・モデリングを回避し,計算量を大幅に削減する。 そこで本研究では,効率的なVL転送学習へのAPT(Approximated Prompt Tuning)アプローチを提案する。 APTを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、下流タスクの広範な実験を行う。 一方、aptの一般化は、画像分類のためのクリップやテキスト対画像生成のための安定拡散でも検証される。 実験の結果、従来のプロンプトチューニング法(+7.01%の精度と-82.30%の計算オーバーヘッド)に対するaptの性能向上と計算効率を示すだけでなく、他のパラメータ効率の高い転送学習手法に対するメリットも確認できた。

Prompt tuning is a parameter-efficient way to deploy large-scale pre-trained models to downstream tasks by adding task-specific tokens. In terms of vision-language pre-trained (VLP) models, prompt tuning often requires a large number of learnable tokens to bridge the gap between the pre-training and downstream tasks, which greatly exacerbates the already high computational overhead. In this paper, we revisit the principle of prompt tuning for Transformer-based VLP models, and reveal that the impact of soft prompt tokens can be actually approximated via independent information diffusion steps, thereby avoiding the expensive global attention modeling and reducing the computational complexity to a large extent. Based on this finding, we propose a novel Approximated Prompt Tuning (APT) approach towards efficient VL transfer learning. To validate APT, we apply it to two representative VLP models, namely ViLT and METER, and conduct extensive experiments on a bunch of downstream tasks. Meanwhile, the generalization of APT is also validated on CLIP for image classification and StableDiffusion for text-to-image generation. The experimental results not only show the superior performance gains and computation efficiency of APT against the conventional prompt tuning methods, e.g., +7.01% accuracy and -82.30% additional computation overhead on METER, but also confirm its merits over other parameter-efficient transfer learning approaches.
翻訳日:2023-08-22 23:13:43 公開日:2023-08-21
# グラフ反事実による公正グラフニューラルネットワークを目指して

Towards Fair Graph Neural Networks via Graph Counterfactual ( http://arxiv.org/abs/2307.04937v2 )

ライセンス: Link先を確認
Zhimeng Guo, Jialiang Li, Teng Xiao, Yao Ma, Suhang Wang(参考訳) グラフニューラルネットワークは、グラフ上での表現(GNN)学習の優れた能力を示し、さまざまなタスクを容易にしている。 グラフのモデリングにおける優れたパフォーマンスにもかかわらず、最近の研究は、GNNがトレーニングデータからバイアスを継承し、増幅する傾向があることを示している。 したがって、公正を意識したGNNには多くの取り組みがなされている。 しかし、既存の多くの公正なGNNは、統計的公正の概念を採用して公正なノード表現を学習し、統計的異常が存在する場合のバイアスを軽減することができない。 因果理論によって動機づけられたグラフ反事実公正を利用して不公平の根本原因を緩和する試みはいくつかある。 しかし、これらの手法は摂動や生成によって得られる非現実的な反事実に苦しむ。 本稿では,公平なグラフ学習問題の因果的考察を行う。 そこで本研究では,非現実的偽物を避けるために訓練データから偽物を選択し,選択した偽物を用いてノード分類タスクの公平なノード表現を学ぶ新しいフレームワークcafを提案する。 合成および実世界のデータセットに関する広範な実験は、cafの有効性を示している。 私たちのコードはhttps://github.com/TimeLovercc/CAF-GNNで公開されています。

Graph neural networks have shown great ability in representation (GNNs) learning on graphs, facilitating various tasks. Despite their great performance in modeling graphs, recent works show that GNNs tend to inherit and amplify the bias from training data, causing concerns of the adoption of GNNs in high-stake scenarios. Hence, many efforts have been taken for fairness-aware GNNs. However, most existing fair GNNs learn fair node representations by adopting statistical fairness notions, which may fail to alleviate bias in the presence of statistical anomalies. Motivated by causal theory, there are several attempts utilizing graph counterfactual fairness to mitigate root causes of unfairness. However, these methods suffer from non-realistic counterfactuals obtained by perturbation or generation. In this paper, we take a causal view on fair graph learning problem. Guided by the casual analysis, we propose a novel framework CAF, which can select counterfactuals from training data to avoid non-realistic counterfactuals and adopt selected counterfactuals to learn fair node representations for node classification task. Extensive experiments on synthetic and real-world datasets show the effectiveness of CAF. Our code is available at https://github.com/TimeLovercc/CAF-GNN.
翻訳日:2023-08-22 23:05:20 公開日:2023-08-21
# DENCLUEアルゴリズムの最適帯域選択

Optimal Bandwidth Selection for DENCLUE Algorithm ( http://arxiv.org/abs/2307.03206v2 )

ライセンス: Link先を確認
Hao Wang(参考訳) 現代の業界では、クラスタリングアルゴリズムはアルゴリズムエンジニアの日常的なルーチンである。 クラスタリングアルゴリズムは2010年以前に急速に成長した。 ディープラーニングが機械学習アプリケーションのデファクト産業標準となった後、研究トピックに関連するイノベーションは停滞している。 2007年、非線形データ構造に対するクラスタリング問題を解決するために密度に基づくクラスタリングアルゴリズムDENCLUEが発明された。 しかし、パラメータ選択問題は2011年までほとんど無視された。 本稿では,denclueアルゴリズムの最適パラメータを計算する新しい手法を提案し,その性能を実験部で検討する。

In modern day industry, clustering algorithms are daily routines of algorithm engineers. Although clustering algorithms experienced rapid growth before 2010. Innovation related to the research topic has stagnated after deep learning became the de facto industrial standard for machine learning applications. In 2007, a density-based clustering algorithm named DENCLUE was invented to solve clustering problem for nonlinear data structures. However, its parameter selection problem was largely neglected until 2011. In this paper, we propose a new approach to compute the optimal parameters for the DENCLUE algorithm, and discuss its performance in the experiment section.
翻訳日:2023-08-22 23:04:41 公開日:2023-08-21
# デザインと最適化によるQ-Learningの安定性

Stability of Q-Learning Through Design and Optimism ( http://arxiv.org/abs/2307.02632v2 )

ライセンス: Link先を確認
Sean Meyn(参考訳) q-learningは1980年代にchris watkinsの論文で紹介されて以来、強化学習ツールキットの重要な部分となっている。 本論文の目的は,2023年6月にナンシー・フランスで発表されたINFORMS APS inaugural Applied Probability Trust Plenary Lectureに関する,確率近似とQ-ラーニングに関するチュートリアルである。 また,これらのアルゴリズムの安定性を確保するための新しい手法と,他の設定での確率近似を提案する。 1. 線形関数近似を用いたQ-ラーニングの安定性は、30年以上にわたって研究のトピックとして公開されてきた。 修正ギブスポリシーの形で適切な楽観的なトレーニングを行うことで、予想されるベルマン方程式の解が存在し、アルゴリズムは(有界パラメータ推定の観点から)安定であることを示す。 コンバージェンスは研究のための多くのオープンなトピックの1つだ。 2. 新しいzap zeroアルゴリズムは、行列反転を伴わないニュートン-ラフソン流を近似するように設計されている。 アルゴリズムの平均フローベクトル場に対する軽度の仮定の下で安定で収束し、基礎となるマルコフ連鎖上の互換性のある統計的仮定である。 このアルゴリズムは確率近似に対する一般的なアプローチであり、特に非線形関数近似においても「oblivious」トレーニングを伴うQ-ラーニングに適用できる。

Q-learning has become an important part of the reinforcement learning toolkit since its introduction in the dissertation of Chris Watkins in the 1980s. The purpose of this paper is in part a tutorial on stochastic approximation and Q-learning, providing details regarding the INFORMS APS inaugural Applied Probability Trust Plenary Lecture, presented in Nancy France, June 2023. The paper also presents new approaches to ensure stability and potentially accelerated convergence for these algorithms, and stochastic approximation in other settings. Two contributions are entirely new: 1. Stability of Q-learning with linear function approximation has been an open topic for research for over three decades. It is shown that with appropriate optimistic training in the form of a modified Gibbs policy, there exists a solution to the projected Bellman equation, and the algorithm is stable (in terms of bounded parameter estimates). Convergence remains one of many open topics for research. 2. The new Zap Zero algorithm is designed to approximate the Newton-Raphson flow without matrix inversion. It is stable and convergent under mild assumptions on the mean flow vector field for the algorithm, and compatible statistical assumption on an underlying Markov chain. The algorithm is a general approach to stochastic approximation which in particular applies to Q-learning with "oblivious" training even with non-linear function approximation.
翻訳日:2023-08-22 23:04:12 公開日:2023-08-21
# BoxDiff: トレーニング不要なボックス制約拡散を用いたテキスト・画像合成

BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion ( http://arxiv.org/abs/2307.10816v4 )

ライセンス: Link先を確認
Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng and Mike Zheng Shou(参考訳) 最近のテキストから画像への拡散モデルは、高品質な画像を生成する驚くべき能力を示している。 しかし、研究者は主にテキストプロンプトだけで画像の合成方法を研究した。 他のモダリティを条件として利用する研究もあるが、箱/マスク画像ペアや微調整時間など、かなりのペアデータが必要となる。 このようなペアデータには時間と労力がかかり、クローズドセットに制限されるため、オープンワールドにおけるアプリケーションのボトルネックになる可能性がある。 本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。 上記の問題を緩和するために,与えられた空間条件に固執する合成画像内のオブジェクトやコンテキストを制御するためのトレーニングフリーな手法を提案する。 具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約は、追加のトレーニングや大量のアノテートレイアウトデータを必要としない拡散モデルのデノイングステップにシームレスに統合される。 広範な実験結果から,提案する制約は,拡散モデルが高忠実度かつ多様な概念範囲で合成する能力を維持しつつ,画像に何とどこに存在するかを制御できることが示された。 コードはhttps://github.com/showlab/boxdiffで公開されている。

Recent text-to-image diffusion models have demonstrated an astonishing capacity to generate high-quality images. However, researchers mainly studied the way of synthesizing images with only text prompts. While some works have explored using other modalities as conditions, considerable paired data, e.g., box/mask-image pairs, and fine-tuning time are required for nurturing models. As such paired data is time-consuming and labor-intensive to acquire and restricted to a closed set, this potentially becomes the bottleneck for applications in an open world. This paper focuses on the simplest form of user-provided conditions, e.g., box or scribble. To mitigate the aforementioned problem, we propose a training-free method to control objects and contexts in the synthesized images adhering to the given spatial conditions. Specifically, three spatial constraints, i.e., Inner-Box, Outer-Box, and Corner Constraints, are designed and seamlessly integrated into the denoising step of diffusion models, requiring no additional training and massive annotated layout data. Extensive experimental results demonstrate that the proposed constraints can control what and where to present in the images while retaining the ability of Diffusion models to synthesize with high fidelity and diverse concept coverage. The code is publicly available at https://github.com/showlab/BoxDiff.
翻訳日:2023-08-22 22:55:44 公開日:2023-08-21
# 弱測定を用いたユニバーサル量子テレポーテーションの実現に向けて

Towards realization of universal quantum teleportation using weak measurements ( http://arxiv.org/abs/2307.09231v3 )

ライセンス: Link先を確認
Vivek Balasaheb Sabale, Atul Kumar, Subhashish Banerjee(参考訳) ノイズは、テレポーテーションや高密度符号化のような量子プロトコルに影響を与えるため、量子技術を実現する上で大きなハードルとなる。 弱い測定のような手法を用いてノイズ効果を低減し、量子相関を保護することができる。 この研究は、量子テレポーテーションの普遍性を目指して、ノイズ量子チャネルを介して量子ビットの量子テレポーテーションの効率を高めるための弱い測定の適用可能性の度合いに対処する。 ノイズの影響により、平均的なテレポーテーションの忠実度は変化しがちであり、弱い測定により、これらの忠実度偏差はゼロに近い値に減少する。 また,提案するテレポーテーションプロトコルにおける記憶の影響と忠実性と忠実性の偏差について検討した。 弱い測定と反転の助けを借りて、記憶効果はテレポーテーションのより良い結果をもたらすことが示されている。 本研究では, 異なるノイズチャネルの影響下において, 量子相関を保護するためのプロトコルの適用性について検討した。

Noise is a major hurdle in realizing quantum technologies as it affects quantum protocols like teleportation, dense coding. It is possible to use techniques like weak measurements to reduce the noise effect and protect quantum correlations. This work addresses the extent of applicability of weak measurements to enhance the efficiency of the quantum teleportation of a qubit through a noisy quantum channel, aiming towards universal quantum teleportation. Due to the effects of noise, the average fidelity of teleportation tends to vary; weak measurements can reduce these fidelity deviations to a value close to zero. We also study the effect of memory and its impact on fidelity and fidelity deviations in the proposed teleportation protocol. The memory effects, with the aid of weak measurement and its reversal, are shown to give better results for teleportation. The extent of applicability of the proposed protocol for protecting quantum correlations, under the influence of different noise channels, are studied in the present work.
翻訳日:2023-08-22 22:54:19 公開日:2023-08-21
# 文化的視点の前提としての大規模言語モデル

Large Language Models as Superpositions of Cultural Perspectives ( http://arxiv.org/abs/2307.07870v2 )

ライセンス: Link先を確認
Grgur Kova\v{c}, Masataka Sawayama, R\'emy Portelas, C\'edric Colas, Peter Ford Dominey, Pierre-Yves Oudeyer(参考訳) 大きな言語モデル(LLM)は、しばしば個性や値の集合を持つものとして誤解を招く。 LLMは、異なる価値観と性格特性を持つ視点の重ね合わせとみなすことができる。 LLMは、文脈に依存した価値観と人格特性を示す(人間とは対照的に、コンテキスト間でより一貫性のある価値観と人格特性を持つ傾向がある)。 本稿では,異なる価値観と性格特性を持つ様々な視点を取り入れるためのモデルとして,視点制御可能性の概念を紹介する。 実験では,心理学(PVQ,VSM,IPIP)の質問紙を用いて,様々な視点から評価値と性格特性がどう変化するかを検討した。 質的実験により,プロンプトに(単純にあるいは明示的に)意味がある場合,llm が異なる値を示すこと,また,(文脈に依存しない)意味を示さない場合であっても llm が異なる値を示すことを示す。 次に、異なるモデルの可制御性(GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM)、視点を誘導する様々な方法の有効性、モデルの乾燥性について定量的に検討する。 我々は、我々の研究のより広範な意味を調べ、様々な科学的疑問を概説する。 プロジェクトのwebサイトはhttps://sites.google.com/view/llm-superpositionsで入手できる。

Large Language Models (LLMs) are often misleadingly recognized as having a personality or a set of values. We argue that an LLM can be seen as a superposition of perspectives with different values and personality traits. LLMs exhibit context-dependent values and personality traits that change based on the induced perspective (as opposed to humans, who tend to have more coherent values and personality traits across contexts). We introduce the concept of perspective controllability, which refers to a model's affordance to adopt various perspectives with differing values and personality traits. In our experiments, we use questionnaires from psychology (PVQ, VSM, IPIP) to study how exhibited values and personality traits change based on different perspectives. Through qualitative experiments, we show that LLMs express different values when those are (implicitly or explicitly) implied in the prompt, and that LLMs express different values even when those are not obviously implied (demonstrating their context-dependent nature). We then conduct quantitative experiments to study the controllability of different models (GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM), the effectiveness of various methods for inducing perspectives, and the smoothness of the models' drivability. We conclude by examining the broader implications of our work and outline a variety of associated scientific questions. The project website is available at https://sites.google.com/view/llm-superpositions .
翻訳日:2023-08-22 22:53:19 公開日:2023-08-21
# 3DPortraitGAN: シングルビュー・ポートレート・データセットから1Qヘッドショット3D GANを学習

3DPortraitGAN: Learning One-Quarter Headshot 3D GANs from a Single-View Portrait Dataset with Diverse Body Poses ( http://arxiv.org/abs/2307.14770v2 )

ライセンス: Link先を確認
Yiqian Wu, Hao Xu, Xiangjun Tang, Hongbo Fu, Xiaogang Jin(参考訳) 3d対応顔画像生成装置は、主に正面に近い顔データからなる2d実生活用顔画像データセットで訓練されているため、頭部、首、肩の形状を完備した1/4の3dポートレートを構築することができない。 まず、既存の顔認識手法では、大きなカメラアングルやバックビューから捉えた顔データを抽出するのに苦労しています。 第2に,身体の多様なポーズによる幾何学的変形により,単眼データから1/4の頭部領域を覆う3次元ポートレートの分布を知ることが困難である。 この目的のために、まず、360{\deg}-Portrait-HQ (略して360{\deg}PHQ) というデータセットを作成し、それは、様々なカメラパラメータ(360{\deg}の範囲全体にわたるヨーアングル)とボディポーズを付加した高品質のシングルビューリアルポートレートからなる。 次に,3DPortraitGANを提案する。この3DPortraitGANは,360{\deg}PHQデータセットから3Dアバター分布を学習し,ボディポーズの自己学習を行う。 本モデルでは、全カメラアングルから4分の1のヘッドショット3D表現でビュー一貫性のポートレート画像を生成することができる。 提案手法は,全カメラアングルから完全形状のポートレート画像を正確に予測し,ビュー一貫性のあるリアルなポートレート画像を生成することができることを示す。

3D-aware face generators are typically trained on 2D real-life face image datasets that primarily consist of near-frontal face data, and as such, they are unable to construct one-quarter headshot 3D portraits with complete head, neck, and shoulder geometry. Two reasons account for this issue: First, existing facial recognition methods struggle with extracting facial data captured from large camera angles or back views. Second, it is challenging to learn a distribution of 3D portraits covering the one-quarter headshot region from single-view data due to significant geometric deformation caused by diverse body poses. To this end, we first create the dataset 360{\deg}-Portrait-HQ (360{\deg}PHQ for short) which consists of high-quality single-view real portraits annotated with a variety of camera parameters (the yaw angles span the entire 360{\deg} range) and body poses. We then propose 3DPortraitGAN, the first 3D-aware one-quarter headshot portrait generator that learns a canonical 3D avatar distribution from the 360{\deg}PHQ dataset with body pose self-learning. Our model can generate view-consistent portrait images from all camera angles with a canonical one-quarter headshot 3D representation. Our experiments show that the proposed framework can accurately predict portrait body poses and generate view-consistent, realistic portrait images with complete geometry from all camera angles.
翻訳日:2023-08-22 22:47:58 公開日:2023-08-21
# FLARE:Universal Adversarial Masksを用いた深部強化学習エージェントの指紋化

FLARE: Fingerprinting Deep Reinforcement Learning Agents using Universal Adversarial Masks ( http://arxiv.org/abs/2307.14751v2 )

ライセンス: Link先を確認
Buse G. A. Tekgul, N. Asokan(参考訳) 疑わしいDeep Reinforcement Learning(DRL)ポリシーが、他の(被害者)ポリシーの不正コピーであるかどうかを検証するための最初の指紋認証機構であるFLAREを提案する。 まず,非伝達性で普遍的な敵マスク(摂動)を見つけることで,被害者の方針から修正版への移行を成功させるが,個別に訓練された方針には適用できない敵の例を生成できることを示す。 フレアはこれらのマスクを指紋として使用し、そのようなマスクによって引き起こされた状態に対する行動合意値を測定することにより、盗まれたdrlポリシーの真の所有権を検証する。 実験により,FLAREが有効であること(盗難コピーに対する100%のアクション合意)と,独立政策を誤認しないこと(偽陽性)が示唆された。 flareはモデル修正攻撃にも頑健であり、エージェントのパフォーマンスに悪影響を及ぼすことなく、よりインフォームドな敵に簡単に回避できない。 また,drlポリシーの特徴から,すべての普遍的な敵用マスクが指紋の候補であるとは限らない。 DRL問題と逐次決定過程の時空間的ダイナミクスは、DRLポリシーの決定境界をより困難にし、また、その幾何学を捉える普遍マスクを探索する。

We propose FLARE, the first fingerprinting mechanism to verify whether a suspected Deep Reinforcement Learning (DRL) policy is an illegitimate copy of another (victim) policy. We first show that it is possible to find non-transferable, universal adversarial masks, i.e., perturbations, to generate adversarial examples that can successfully transfer from a victim policy to its modified versions but not to independently trained policies. FLARE employs these masks as fingerprints to verify the true ownership of stolen DRL policies by measuring an action agreement value over states perturbed via such masks. Our empirical evaluations show that FLARE is effective (100% action agreement on stolen copies) and does not falsely accuse independent policies (no false positives). FLARE is also robust to model modification attacks and cannot be easily evaded by more informed adversaries without negatively impacting agent performance. We also show that not all universal adversarial masks are suitable candidates for fingerprints due to the inherent characteristics of DRL policies. The spatio-temporal dynamics of DRL problems and sequential decision-making process make characterizing the decision boundary of DRL policies more difficult, as well as searching for universal masks that capture the geometry of it.
翻訳日:2023-08-22 22:47:29 公開日:2023-08-21
# YOLOBench: 組み込みシステム上での効率的なオブジェクト検出器のベンチマーク

YOLOBench: Benchmarking Efficient Object Detectors on Embedded Systems ( http://arxiv.org/abs/2307.13901v2 )

ライセンス: Link先を確認
Ivan Lazarevich and Matteo Grimaldi and Ravish Kumar and Saptarshi Mitra and Shahrukh Khan and Sudhakar Sah(参考訳) これは4つの異なるデータセットと4つの組み込みハードウェアプラットフォーム(x86 cpu, arm cpu, nvidia gpu, npu)上の550以上のyoloベースのオブジェクト検出モデルで構成されるベンチマークである。 異なるモデルスケールで様々なヨーロベースの1段検出器の精度と待ち時間数を、固定されたトレーニング環境(コードとトレーニングハイパーパラメータ)との公正な比較により収集する。 収集したデータのパレート最適分析により、現代の検出ヘッドとトレーニング技術が学習プロセスに組み込まれている場合、YOLOシリーズの複数のアーキテクチャは、YOLOv3やYOLOv4といった古いモデルを含む、良好な精度とレイテンシのトレードオフを実現することが明らかになった。 また、yolobenchのニューラルアーキテクチャ探索で使用されるトレーニングフリー精度推定器を評価し、最先端のゼロコスト精度推定器はmacカウントのような単純なベースラインよりも優れているが、そのいくつかはパレート最適検出モデルの予測に効果的に使用できることを示した。 Raspberry Pi 4 CPU上での最先端のYOLOv8モデルと競合するYOLOアーキテクチャを,ゼロコストプロキシを用いて識別できることを示します。 コードとデータはhttps://github.com/deeplite/deeplite-torch-zooで入手できる。

We present YOLOBench, a benchmark comprised of 550+ YOLO-based object detection models on 4 different datasets and 4 different embedded hardware platforms (x86 CPU, ARM CPU, Nvidia GPU, NPU). We collect accuracy and latency numbers for a variety of YOLO-based one-stage detectors at different model scales by performing a fair, controlled comparison of these detectors with a fixed training environment (code and training hyperparameters). Pareto-optimality analysis of the collected data reveals that, if modern detection heads and training techniques are incorporated into the learning process, multiple architectures of the YOLO series achieve a good accuracy-latency trade-off, including older models like YOLOv3 and YOLOv4. We also evaluate training-free accuracy estimators used in neural architecture search on YOLOBench and demonstrate that, while most state-of-the-art zero-cost accuracy estimators are outperformed by a simple baseline like MAC count, some of them can be effectively used to predict Pareto-optimal detection models. We showcase that by using a zero-cost proxy to identify a YOLO architecture competitive against a state-of-the-art YOLOv8 model on a Raspberry Pi 4 CPU. The code and data are available at https://github.com/Deeplite/deeplite-torch-zoo
翻訳日:2023-08-22 22:46:56 公開日:2023-08-21
# 標準表現を用いた領域独立プランナーによるルービックキューブの解法について

On Solving the Rubik's Cube with Domain-Independent Planners Using Standard Representations ( http://arxiv.org/abs/2307.13552v2 )

ライセンス: Link先を確認
Bharath Muppasani, Vishal Pallagani, Biplav Srivastava, Forest Agostinelli(参考訳) ルービックキューブ(英: Rubik's Cube、RC)は、AI研究者が効率的な代替表現や問題解決方法を探求する動機となった、よく知られた、計算的に難しいパズルである。 ここでの計画の理想的な状況は、問題を汎用的な解法とヒューリスティックスを用いて標準表記で最適かつ効率的に表現することである。 rcで現在最も高速に解決できるのは、カスタム表現のdeepcubeaであり、もう1つのアプローチは状態-action-space+ (sas+)表現のscorpion plannerである。 本稿では,PDDL言語における最初のRC表現を提示し,PDDLプランナやコンペティション,知識工学ツールにドメインがよりアクセスしやすくし,より可読性が高いことを示す。 その後、既存のアプローチをブリッジしてパフォーマンスを比較します。 1つの比較実験では、DeepCubeA (12 RC アクションで訓練) は様々な複雑さを持つ全ての問題を解くが、78.5%しか最適計画ではない。 SAS+表現とパターンデータベースヒューリスティックスを備えたScorpionは61.50%の問題を最適に解き、PDDL表現とFFヒューリスティックを備えたFastDownwardは56.50%の問題を解き、うち79.64%が最適である。 本研究は,汎用解法(計画,強化学習),ヒューリスティックス,表現(標準あるいは習慣)を組み合わせた課題領域における今後の戦略設計を支援する,表現選択と計画最適性のトレードオフに関する貴重な知見を提供する。

Rubik's Cube (RC) is a well-known and computationally challenging puzzle that has motivated AI researchers to explore efficient alternative representations and problem-solving methods. The ideal situation for planning here is that a problem be solved optimally and efficiently represented in a standard notation using a general-purpose solver and heuristics. The fastest solver today for RC is DeepCubeA with a custom representation, and another approach is with Scorpion planner with State-Action-Space+ (SAS+) representation. In this paper, we present the first RC representation in the popular PDDL language so that the domain becomes more accessible to PDDL planners, competitions, and knowledge engineering tools, and is more human-readable. We then bridge across existing approaches and compare performance. We find that in one comparable experiment, DeepCubeA (trained with 12 RC actions) solves all problems with varying complexities, albeit only 78.5% are optimal plans. For the same problem set, Scorpion with SAS+ representation and pattern database heuristics solves 61.50% problems optimally, while FastDownward with PDDL representation and FF heuristic solves 56.50% problems, out of which 79.64% of the plans generated were optimal. Our study provides valuable insights into the trade-offs between representational choice and plan optimality that can help researchers design future strategies for challenging domains combining general-purpose solving methods (planning, reinforcement learning), heuristics, and representations (standard or custom).
翻訳日:2023-08-22 22:45:41 公開日:2023-08-21
# データ蒸留再考:キャリブレーションを見過ごさない

Rethinking Data Distillation: Do Not Overlook Calibration ( http://arxiv.org/abs/2307.12463v2 )

ライセンス: Link先を確認
Dongyao Zhu, Bowen Lei, Jie Zhang, Yanbo Fang, Ruqi Zhang, Yiqun Xie, Dongkuan Xu(参考訳) 蒸留データに基づいてトレーニングされたニューラルネットワークは、しばしば過信出力を生成し、校正法による補正を必要とする。 温度スケーリングやミックスアップといった既存のキャリブレーション手法は、元の大規模データでトレーニングされたネットワークに対してうまく機能する。 しかし,これらの手法は,大規模なデータセットから抽出したデータに基づいてトレーニングされたネットワークの校正に失敗する。 本稿では, 蒸留したデータが, 校正不能なネットワークにつながることを示す。 (i)最大ロジット及び最大ロジットのより集中した分布 (ii)意味的に意味があるが分類課題とは無関係な情報の喪失。 この問題を解決するために, 蒸留データの限界を緩和し, データセット蒸留の効率を維持しつつ, キャリブレーションの精度を向上するMasked Temperature Scaling (MTS) と Masked Distillation Training (MDT) を提案する。

Neural networks trained on distilled data often produce over-confident output and require correction by calibration methods. Existing calibration methods such as temperature scaling and mixup work well for networks trained on original large-scale data. However, we find that these methods fail to calibrate networks trained on data distilled from large source datasets. In this paper, we show that distilled data lead to networks that are not calibratable due to (i) a more concentrated distribution of the maximum logits and (ii) the loss of information that is semantically meaningful but unrelated to classification tasks. To address this problem, we propose Masked Temperature Scaling (MTS) and Masked Distillation Training (MDT) which mitigate the limitations of distilled data and achieve better calibration results while maintaining the efficiency of dataset distillation.
翻訳日:2023-08-22 22:44:34 公開日:2023-08-21
# 量子符号からのnaranin cftとその$\mathbb{z}_2$ gauging

Narain CFTs from quantum codes and their $\mathbb{Z}_2$ gauging ( http://arxiv.org/abs/2308.01579v2 )

ライセンス: Link先を確認
Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda(参考訳) ナライン共形場理論 (cfts) における qudit 安定化符号を用いた $\mathbb{z}_2$ 対称性の観測について検討した。 オービフォールドとフェルミオン化の両方を考えると、$\mathbb{z}_2$ ゲージ手順と$\mathbb{z}_2$ 対称性を特徴づけるベクトルによる運動量格子の修正との接続を確立する。 また、対称位相場理論として作用するアーベル・チャーン・サイモンズ理論を通じて、{\mathbb{z}_2$ gaugings の三次元的解釈も提供する。

We investigate the gauging of a $\mathbb{Z}_2$ symmetry in Narain conformal field theories (CFTs) constructed from qudit stabilizer codes. Considering both orbifold and fermionization, we establish a connection between $\mathbb{Z}_2$ gauging procedures and modifications of the momentum lattice by vectors characterizing the $\mathbb{Z}_2$ symmetry. We also provide three-dimensional interpretations of $\mathbb{Z}_2$ gaugings through abelian Chern-Simons theories, which act as symmetry topological field theories.
翻訳日:2023-08-22 22:35:31 公開日:2023-08-21
# VAPI:パフォーマンス向上のためのアルゴリズムのベクトル化

VAPI: Vectorization of Algorithm for Performance Improvement ( http://arxiv.org/abs/2308.01269v2 )

ライセンス: Link先を確認
Mahmood Yashar and Tarik A. Rashid(参考訳) 本研究では,メタヒューリスティックアルゴリズムのベクトル化をベクトル化最適化の第一段階として提案する。 ベクトル化(Vectorization)は、一度に1つの値で動作するアルゴリズムを、一度に1つの値のコレクションで動作して高速に実行するアルゴリズムに変換するテクニックである。 ベクトル化技術は、複数のイテレーションを1つの操作に置き換えることで、アルゴリズムのパフォーマンスを向上し、アルゴリズムをよりシンプルに実装しやすくする。 ベクタライズ手法を実装してアルゴリズムを最適化することが重要であり、これによりプログラムのパフォーマンスが向上し、長いテスト関数を高速に実行でき、非ベクトル化アルゴリズムでは実装できないテスト関数を実行し、イテレーションや時間の複雑さを低減できる。 ベクトル化に変換して複数の値を一度に操作し、アルゴリズムの速度と効率を高めることは、長い実行時間と複雑なアルゴリズムの解決策である。 本研究の目的は,メタヒューリスティックアルゴリズムの1つにベクトル化手法を用い,ベクトル化アルゴリズムの結果を非ベクトル化アルゴリズムと比較することである。

This study presents the vectorization of metaheuristic algorithms as the first stage of vectorized optimization implementation. Vectorization is a technique for converting an algorithm, which operates on a single value at a time to one that operates on a collection of values at a time to execute rapidly. The vectorization technique also operates by replacing multiple iterations into a single operation, which improves the algorithm's performance in speed and makes the algorithm simpler and easier to be implemented. It is important to optimize the algorithm by implementing the vectorization technique, which improves the program's performance, which requires less time and can run long-running test functions faster, also execute test functions that cannot be implemented in non-vectorized algorithms and reduces iterations and time complexity. Converting to vectorization to operate several values at once and enhance algorithms' speed and efficiency is a solution for long running times and complicated algorithms. The objective of this study is to use the vectorization technique on one of the metaheuristic algorithms and compare the results of the vectorized algorithm with the algorithm which is non-vectorized.
翻訳日:2023-08-22 22:35:18 公開日:2023-08-21
# より小さな言語モデルを使って作曲の疑問を一般化する

Teaching Smaller Language Models To Generalise To Unseen Compositional Questions ( http://arxiv.org/abs/2308.00946v2 )

ライセンス: Link先を確認
Tim Hartill, Neset Tan, Michael Witbrock, Patricia J. Riddle(参考訳) より小さな言語モデルを用いて、トレーニングで見たことのない難解な構成質問への回答を一般化する。 そこで本稿では,多種多様な推論能力を具現化する最大93のタスクを事前訓練するマルチタスクと,段落フラグメントの集合を検索する高密度検索システムの組み合わせを提案する。 質問応答の最近の進歩は、ゼロショットまたは少数ショットの非常に大きな事前学習された言語モデルに対する提案方法や、時には情報検索と組み合わせて、より小さなモデルを微調整することで達成されている。 我々は、特定の問題に答える十分な情報が存在しないコーパスに対して検索を行う小さなモデルにおいて、ゼロショットの一般化がどこまで可能かという未検討の問題に焦点を当てる。 今回我々は,様々な評価データセット(strategyqa,commonsenseqa,iirc,drop,musique,arc-da)に対する強力なベースラインを確立し,モデルに部分的証拠の重み付けや無関係な文脈の無視など,さまざまなヒューリスティックな推論戦略を露出するように設計された検索型トレーニングデータセットを追加することで,パフォーマンスが大幅に向上することを示す。

We equip a smaller Language Model to generalise to answering challenging compositional questions that have not been seen in training. To do so we propose a combination of multitask supervised pretraining on up to 93 tasks designed to instill diverse reasoning abilities, and a dense retrieval system that aims to retrieve a set of evidential paragraph fragments. Recent progress in question-answering has been achieved either through prompting methods against very large pretrained Language Models in zero or few-shot fashion, or by fine-tuning smaller models, sometimes in conjunction with information retrieval. We focus on the less explored question of the extent to which zero-shot generalisation can be enabled in smaller models with retrieval against a corpus within which sufficient information to answer a particular question may not exist. We establish strong baselines in this setting for diverse evaluation datasets (StrategyQA, CommonsenseQA, IIRC, DROP, Musique and ARC-DA), and show that performance can be significantly improved by adding retrieval-augmented training datasets which are designed to expose our models to a variety of heuristic reasoning strategies such as weighing partial evidence or ignoring an irrelevant context.
翻訳日:2023-08-22 22:34:58 公開日:2023-08-21
# 微調整OpenAI LLMを用いたMT出力の完全品質セグメント予測:履歴データから編集距離パターンをキャプチャすることは可能か?

Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data? ( http://arxiv.org/abs/2308.00158v3 )

ライセンス: Link先を確認
Serge Gladkoff, Gleb Erofeev, Lifeng Han, Goran Nenadic(参考訳) 翻訳品質推定(TQE)は、出力翻訳を使用にデプロイする前に必須のステップである。 TQEは、参照翻訳を見ることなく機械翻訳(MT)と人間翻訳(HT)の品質を評価する上でも重要である。 本研究は,TQEタスクとその機能に対して,最先端の大規模言語モデル(LLM)を微調整できるかどうかを検討する。 本稿ではChatGPTを例として、TQEをバイナリ分類タスクとしてアプローチする。 日本語,イタリア語,ドイツ語,フランス語,日本語,オランダ語,ポルトガル語,トルコ語,中国語の学習コーパスを含む‘textbf{eight language pairs’を用いて,そのAPIによる微調整ChatGPTは,翻訳品質の予測において比較的高いスコア,すなわち翻訳を編集する必要がある場合,高いスコアが得られることを示す。 しかし、実験的な設定でそれぞれ英語とイタリア語とドイツ語で 82.42\% と 883.69\% のモデル精度を改善する余地は間違いなくある。 English-Italiano bilingual Abstractが論文で公開されている。

Translation Quality Estimation (TQE) is an essential step before deploying the output translation into usage. TQE is also critical in assessing machine translation (MT) and human translation (HT) quality without seeing the reference translations. This work examines whether the state-of-the-art large language models (LLMs) can be fine-tuned for the TQE task and their capability. We take ChatGPT as one example and approach TQE as a binary classification task. Using \textbf{eight language pairs} including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese training corpora, our experimental results show that fine-tuned ChatGPT via its API can achieve a relatively high score on predicting translation quality, i.e. \textit{if the translation needs to be edited}. However, there is definitely much space to improve the model accuracy, e.g. they are 82.42\% and 83.69\% for English-Italian and English-German respectively using our experimental settings. English-Italiano bilingual Abstract is available in the paper.
翻訳日:2023-08-22 22:34:30 公開日:2023-08-21
# DoDo学習: パブリックな図形をターゲットとした乱用検出のための言語モデルにおけるDomain-Demographic Transfer

DoDo Learning: DOmain-DemOgraphic Transfer in Language Models for Detecting Abuse Targeted at Public Figures ( http://arxiv.org/abs/2307.16811v2 )

ライセンス: Link先を確認
Hannah Rose Kirk, Angus R. Williams, Liam Burke, Yi-Ling Chung, Ivan Debono, Pica Johansson, Francesca Stevens, Jonathan Bright, and Scott A. Hale(参考訳) 市民はソーシャルメディア上で乱暴な乱用を受け、公共生活への積極的な参加に影響を及ぼす。 自動システムは大規模な乱用を識別できるが、トレーニングデータのラベル付けは高価で複雑で潜在的に有害である。 したがって、システムは効率的で汎用的であり、オンライン虐待の共有と特定の側面の両方を扱うことが望ましい。 我々は,より一般化可能な乱用分類器の構築を目的として,あるドメインや人口階層で訓練された分類器が他へどのように移行できるかを理解するために,グループ間テキスト分類のダイナミクスを探求する。 28,000のラベル付きエントリを含む新しいDODOデータセットを使用して、DOmains(スポーツと政治)とDemOgraphics(女性と男性)のパブリックな人物を対象にしたつぶやきを分類する言語モデルを微調整する。 私たちはそれを見つけ (i)少量の多様なデータは、一般化及びモデル適応に非常に有益である。 (ii)モデルは人口統計学的に容易に伝達できるが、ドメイン間データに基づいて訓練されたモデルはより一般化できる。 (iii)あるグループは、他のグループよりも汎用性に寄与する。 (iv)データセットの類似性は転送可能性の信号である。

Public figures receive a disproportionate amount of abuse on social media, impacting their active participation in public life. Automated systems can identify abuse at scale but labelling training data is expensive, complex and potentially harmful. So, it is desirable that systems are efficient and generalisable, handling both shared and specific aspects of online abuse. We explore the dynamics of cross-group text classification in order to understand how well classifiers trained on one domain or demographic can transfer to others, with a view to building more generalisable abuse classifiers. We fine-tune language models to classify tweets targeted at public figures across DOmains (sport and politics) and DemOgraphics (women and men) using our novel DODO dataset, containing 28,000 labelled entries, split equally across four domain-demographic pairs. We find that (i) small amounts of diverse data are hugely beneficial to generalisation and model adaptation; (ii) models transfer more easily across demographics but models trained on cross-domain data are more generalisable; (iii) some groups contribute more to generalisability than others; and (iv) dataset similarity is a signal of transferability.
翻訳日:2023-08-22 22:34:07 公開日:2023-08-21
# 画像逆問題に対するコンディショニング生成潜時最適化

Conditioning Generative Latent Optimization to solve Imaging Inverse Problems ( http://arxiv.org/abs/2307.16670v2 )

ライセンス: Link先を確認
Thomas Braure, K\'evin Ginsburger(参考訳) CT(Computed Tomography)はイメージング逆問題(IIP)の顕著な例であり、スパースX線プロジェクションのような劣化した測定設定におけるデータ駆動手法の非分散性能を強調している。 ディープラーニングアプローチのかなりの割合は、実験的な測定結果を医療スキャンに直接マッピングする大規模な教師付きデータセットの恩恵を受けているが、未知の取得設定に一般化することはできない。 対照的に、特にスコアベースの生成モデルを用いた完全に教師なしのテクニックは、画像設定に関するテスト時に柔軟でありながらiipsを解決する教師付きアプローチと比較して、最近、類似またはより良い性能を示している。 しかし、ユースケースは2つの要因に制限されている。 (a)優れた一般化特性を持つためには、かなりの量のトレーニングデータが必要である。 (b)CTの場合のフィルタバックプロジェクションのような後方演算子が必要であり、医学スキャンの学習前の分布を実験的な測定に適応させる。 これらの問題を克服するために,デコーダネットワークのパラメータを教師なしデータセット上で初期化する生成的潜在最適化フレームワーク (cglo) に対する教師なし条件付きアプローチを提案する。 次に、デコーダは、提案された再構成から実験的な測定へのシミュレーション測定を直接比較する損失関数による生成的潜在最適化を行うことで、再構成目的に使用される。 結果として得られたアプローチは、複数のトレーニングデータセットサイズを使用してスパースビューctでテストされ、ほとんどのデータレジームで最先端のスコアベース戦略よりも優れた再構成品質を示し、より小さなトレーニングデータセットのパフォーマンスアドバンテージと投影角の低下を示している。 さらに、cGLOは後方演算子を必要としないため、ユースケースを非線形IPにも拡張することができる。

Computed Tomography (CT) is a prominent example of Imaging Inverse Problem (IIP), highlighting the unrivalled performances of data-driven methods in degraded measurements setups like sparse X-ray projections. Although a significant proportion of deep learning approaches benefit from large supervised datasets to directly map experimental measurements to medical scans, they cannot generalize to unknown acquisition setups. In contrast, fully unsupervised techniques, most notably using score-based generative models, have recently demonstrated similar or better performances compared to supervised approaches to solve IIPs while being flexible at test time regarding the imaging setup. However, their use cases are limited by two factors: (a) they need considerable amounts of training data to have good generalization properties and (b) they require a backward operator, like Filtered-Back-Projection in the case of CT, to condition the learned prior distribution of medical scans to experimental measurements. To overcome these issues, we propose an unsupervised conditional approach to the Generative Latent Optimization framework (cGLO), in which the parameters of a decoder network are initialized on an unsupervised dataset. The decoder is then used for reconstruction purposes, by performing Generative Latent Optimization with a loss function directly comparing simulated measurements from proposed reconstructions to experimental measurements. The resulting approach, tested on sparse-view CT using multiple training dataset sizes, demonstrates better reconstruction quality compared to state-of-the-art score-based strategies in most data regimes and shows an increasing performance advantage for smaller training datasets and reduced projection angles. Furthermore, cGLO does not require any backward operator and could expand use cases even to non-linear IIPs.
翻訳日:2023-08-22 22:33:45 公開日:2023-08-21
# セマンティックセグメンテーションのためのトランスファタブルアタック

Transferable Attack for Semantic Segmentation ( http://arxiv.org/abs/2307.16572v2 )

ライセンス: Link先を確認
Mengqi He, Jing Zhang, Zhaoyuan Yang, Mingyi He, Nick Barnes, Yuchao Dai(参考訳) 意味セグメンテーションモデルwrtの性能解析を行った。 敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。 すなわち、PGDやFGSMのような従来の攻撃方法は、ターゲットモデルにうまく移行せず、転送可能な攻撃、特にセマンティックセグメンテーションのための転送可能な攻撃を研究する必要がある。 移動可能な攻撃を実現するための2つの主要な要因を見出す。 まず、この攻撃は、目に見えないモデルに対処する効果的なデータ拡張と翻訳不変の機能を備えるべきである。 第2に、最適な攻撃方向を見つけるためには、安定化した最適化戦略が必要である。 そこで本研究では,より高い転送性を有する効果的な攻撃を実現するために,セマンティクスセグメンテーションに対するアンサンブル攻撃を提案する。 ソースコードと実験結果は、プロジェクトページで公開されています。

We analysis performance of semantic segmentation models wrt. adversarial attacks, and observe that the adversarial examples generated from a source model fail to attack the target models. i.e The conventional attack methods, such as PGD and FGSM, do not transfer well to target models, making it necessary to study the transferable attacks, especially transferable attacks for semantic segmentation. We find two main factors to achieve transferable attack. Firstly, the attack should come with effective data augmentation and translation-invariant features to deal with unseen models. Secondly, stabilized optimization strategies are needed to find the optimal attack direction. Based on the above observations, we propose an ensemble attack for semantic segmentation to achieve more effective attacks with higher transferability. The source code and experimental results are publicly available via our project page: https://github.com/anucvers/TASS.
翻訳日:2023-08-22 22:33:15 公開日:2023-08-21
# きめ細かいシーングラフ生成のための環境不変カリキュラム関係学習

Environment-Invariant Curriculum Relation Learning for Fine-Grained Scene Graph Generation ( http://arxiv.org/abs/2308.03282v2 )

ライセンス: Link先を確認
Yukuan Min and Aming Wu and Cheng Deng(参考訳) シーングラフ生成(SGG)タスクは、対象と対象のペアに基づいて述語を特定するように設計されているが、既存のデータセットには、予測された述語からのクラス不均衡と、与えられた対象と対象のペアからのコンテキスト不均衡という2つの不均衡ケースが含まれている。 既存の手法のほとんどは予測された述語の不均衡に焦点を合わせ、対象と対象のペアの不均衡を無視する。 この2つの不均衡なケースに対処するために,既存のSGG手法にプラグイン・アンド・プレイ方式で適用可能な,環境不変なカリキュラム関係学習(EICR)手法を提案する。 具体的には、対象物対の不均衡を取り除くために、まず対象物対に対する異なる分布環境を構築し、環境変化に不変なモデルを学ぶ。 そして, 異なる環境のバランスをとり, 述語不均衡を解消するために, クラスバランスのカリキュラム学習戦略を構築する。 VGおよびGQAデータセットを用いた総合的な実験により、我々のEICRフレームワークは様々なSGGモデルの一般的な戦略として捉えることができ、大幅な改善が達成できることが示された。

The scene graph generation (SGG) task is designed to identify the predicates based on the subject-object pairs.However,existing datasets generally include two imbalance cases: one is the class imbalance from the predicted predicates and another is the context imbalance from the given subject-object pairs, which presents significant challenges for SGG. Most existing methods focus on the imbalance of the predicted predicate while ignoring the imbalance of the subject-object pairs, which could not achieve satisfactory results. To address the two imbalance cases, we propose a novel Environment Invariant Curriculum Relation learning (EICR) method, which can be applied in a plug-and-play fashion to existing SGG methods. Concretely, to remove the imbalance of the subject-object pairs, we first construct different distribution environments for the subject-object pairs and learn a model invariant to the environment changes. Then, we construct a class-balanced curriculum learning strategy to balance the different environments to remove the predicate imbalance. Comprehensive experiments conducted on VG and GQA datasets demonstrate that our EICR framework can be taken as a general strategy for various SGG models, and achieve significant improvements.
翻訳日:2023-08-22 22:27:10 公開日:2023-08-21
# セルフ教師付き食品プレトレーニングのための特徴抑制コントラスト

Feature-Suppressed Contrast for Self-Supervised Food Pre-training ( http://arxiv.org/abs/2308.03272v2 )

ライセンス: Link先を確認
Xinda Liu, Yaohui Zhu, Linhu Liu, Jiang Tian, Lili Wang(参考訳) 食品画像分析における従来のアプローチは、広範囲な注釈付きデータセットに依存しており、このような画像の多様性と複雑な性質により、人間のラベル付け費用が大幅に削減されている。 コントラッシブな自己監督手法の非ラベルデータ利用効果に触発されて、Weiqingはこれらの手法を非ラベル食品画像に活用することを探る。 対照的な自己監督手法では、データ拡張によって画像からランダムに2つのビューが生成される。 しかし, 食品画像に関しては, 類似した情報を含む傾向があり, 相互情報が多く, コントラスト的自己教師付き学習の効果を阻害している。 この問題に対処するために,ビュー間の相互情報を減らすための機能抑制コントラスト(feasc)を提案する。 この2つのビューの類似した内容は特徴マップにおいて高度または高度に応答するため、提案されたferscは応答認識スキームを使用して、教師なしの方法でサルエント特徴をローカライズする。 他方のコントラストビューを変更せず、一方の視点に有意な特徴を抑圧することにより、2つの視点間の相互情報を低減し、自己教師付き食品事前学習におけるコントラスト学習の有効性を高める。 プラグアンドプレイモジュールとして提案手法は,BYOLとSimSiamを1.70 %$\sim$ 6.69 %の分類精度で改良する。 また,提案手法の有効性を実証し,下流のセグメンテーションタスクにおいて上向きの結果が得られた。

Most previous approaches for analyzing food images have relied on extensively annotated datasets, resulting in significant human labeling expenses due to the varied and intricate nature of such images. Inspired by the effectiveness of contrastive self-supervised methods in utilizing unlabelled data, weiqing explore leveraging these techniques on unlabelled food images. In contrastive self-supervised methods, two views are randomly generated from an image by data augmentations. However, regarding food images, the two views tend to contain similar informative contents, causing large mutual information, which impedes the efficacy of contrastive self-supervised learning. To address this problem, we propose Feature Suppressed Contrast (FeaSC) to reduce mutual information between views. As the similar contents of the two views are salient or highly responsive in the feature map, the proposed FeaSC uses a response-aware scheme to localize salient features in an unsupervised manner. By suppressing some salient features in one view while leaving another contrast view unchanged, the mutual information between the two views is reduced, thereby enhancing the effectiveness of contrast learning for self-supervised food pre-training. As a plug-and-play module, the proposed method consistently improves BYOL and SimSiam by 1.70\% $\sim$ 6.69\% classification accuracy on four publicly available food recognition datasets. Superior results have also been achieved on downstream segmentation tasks, demonstrating the effectiveness of the proposed method.
翻訳日:2023-08-22 22:26:48 公開日:2023-08-21
# PaniniQa:対話型質問応答による患者教育の強化

PaniniQA: Enhancing Patient Education Through Interactive Question Answering ( http://arxiv.org/abs/2308.03253v2 )

ライセンス: Link先を確認
Pengshan Cai, Zonghai Yao, Fei Liu, Dakuo Wang, Meghan Reilly, Huixue Zhou, Lingxi Li, Yi Cao, Alok Kapoor, Adarsha Bajracharya, Dan Berlowitz, Hong Yu(参考訳) 患者ポータルは、退院した患者が電子健康記録(EHR)でパーソナライズされた退院指示にアクセスできるようにする。 しかし,多くの患者は退院指示の理解や記憶が困難である。 本稿では,患者が退院指示を理解するのに役立つ,患者中心の対話型質問応答システムpaniniqaを提案する。 パニーニQAはまず患者の退院指示から重要な臨床内容を特定し、次に患者固有の教育的質問を定式化する。 さらに、パニーニQAは、患者の誤解を訂正するためのタイムリーなフィードバックを提供する回答検証機能も備えている。 パニーニQAが効果的な相互作用を通じて患者の医療指導の熟達を向上できることを示す総合的自動的・人的評価結果

Patient portal allows discharged patients to access their personalized discharge instructions in electronic health records (EHRs). However, many patients have difficulty understanding or memorizing their discharge instructions. In this paper, we present PaniniQA, a patient-centric interactive question answering system designed to help patients understand their discharge instructions. PaniniQA first identifies important clinical content from patients' discharge instructions and then formulates patient-specific educational questions. In addition, PaniniQA is also equipped with answer verification functionality to provide timely feedback to correct patients' misunderstandings. Our comprehensive automatic and human evaluation results demonstrate our PaniniQA is capable of improving patients' mastery of their medical instructions through effective interactions
翻訳日:2023-08-22 22:26:23 公開日:2023-08-21
# マルチパーティライト量子相関とその3種類の測定方法

Multipartite Bipartite Quantum Correlation and Its Three Types of Measures ( http://arxiv.org/abs/2308.03044v2 )

ライセンス: Link先を確認
Jing-Min Zhu(参考訳) MQC(Multipartite Quantum correlation)は多くの新しい微視的およびマクロ的な量子現象を説明できるだけでなく、より優れた特定の潜在的な量子技術にも関係している。 mqcの組織と構造は非常に豊かで複雑であるため、その説明と測定は常にオープントピックである。 We fundamentally reconsider MQC descriptions and their practical applications in quantum technologies, propose multipartite bipartite QC with intuitive and clear physical image, and specifically give three types of measures: one class based on minimal entropy-like difference of local measurement fore-and-aft multipartite bipartite density matrix such as multipartite bipartite quantum discord(QD),the other based on minimal trace-like geometric distance such as multipartite bipartite Hilbert-Schmidt distance(HSD), and another based on decoherence such as Multipartite Bipartite Local Measurement-Induced Minimal Decoherence(LMIMD) and Local Eigen-Measurement-Induced Decoherence(LEMID). それらの計算は単純であり、これらの事実は、より優れた特定の潜在的なアプリケーションを実現することが容易であることを示している。 次に、3種類の尺度を用いて、典型的な有名な本物のmqcの組織と構造を探索し、それらの利点と欠点を物理的意味と数学的構造から分析する。

Multipartite Quantum Correlation(MQC) not only explains many novel microscopic and macroscopic quantum phenomena; but also concerns specific potential quantum technologies with superiorities. The MQC organization and structure are extremely rich and complex, hence their descriptions and measures have always been an open topic. We fundamentally reconsider MQC descriptions and their practical applications in quantum technologies, propose multipartite bipartite QC with intuitive and clear physical image, and specifically give three types of measures: one class based on minimal entropy-like difference of local measurement fore-and-aft multipartite bipartite density matrix such as multipartite bipartite quantum discord(QD),the other based on minimal trace-like geometric distance such as multipartite bipartite Hilbert-Schmidt distance(HSD), and another based on decoherence such as Multipartite Bipartite Local Measurement-Induced Minimal Decoherence(LMIMD) and Local Eigen-Measurement-Induced Decoherence(LEMID). Their computations are simple, and these facts show that the realization of their specific potential applications with superiorities would be easy. Then we usethree types of measures to explore the organization and structure of some typical well-known genuine MQCs, and analyze their advantages and disadvantages from their physical connotation and mathematical structure.
翻訳日:2023-08-22 22:25:27 公開日:2023-08-21
# ハイブリッド量子古典的アプローチによるロジスティック指向結合包装問題の解法

Solving Logistic-Oriented Bin Packing Problems Through a Hybrid Quantum-Classical Approach ( http://arxiv.org/abs/2308.02787v2 )

ライセンス: Link先を確認
Sebasti\'an V. Romero, Eneko Osaba, Esther Villar-Rodriguez and Ant\'on Asla(参考訳) Bin Packing Problemは産業応用の古典的な問題である。 実際、アイテムをビンに効率的に詰め込むことは、多くのロジスティックな企業において最も難しい課題の一つであり、ストレージコストの削減や車両のスペース割り当ての改善にとって重要な課題である。 本稿では、以前に公表したQ4RealBPPと呼ばれる量子古典的フレームワークを活用し、Bin Packing Problemの現実指向のインスタンスの解決について詳しく述べる。 この目的から,本論文は以下の特徴を概説する。 一 異質なビンの存在 二 問題の3次元だけでなく、1次元及び2次元の事例を解決するための枠組みの拡張 三 商品ビン協会の要件及び iv) 納品の優先順位。 これらの機能はすべて本論文でテストされており、Q4RealBPPが現実のオブジェクト指向のインスタンスを解くことができる。

The Bin Packing Problem is a classic problem with wide industrial applicability. In fact, the efficient packing of items into bins is one of the toughest challenges in many logistic corporations and is a critical issue for reducing storage costs or improving vehicle space allocation. In this work, we resort to our previously published quantum-classical framework known as Q4RealBPP, and elaborate on the solving of real-world oriented instances of the Bin Packing Problem. With this purpose, this paper gravitates on the following characteristics: i) the existence of heterogeneous bins, ii) the extension of the framework to solve not only three-dimensional, but also one- and two-dimensional instances of the problem, iii) requirements for item-bin associations, and iv) delivery priorities. All these features have been tested in this paper, as well as the ability of Q4RealBPP to solve real-world oriented instances.
翻訳日:2023-08-22 22:24:49 公開日:2023-08-21
# 分布認識を考慮した適応型優先度付きkNNグラフ

Adaptive Preferential Attached kNN Graph with Distribution-Awareness ( http://arxiv.org/abs/2308.02442v2 )

ライセンス: Link先を確認
Shaojie Min, Ji Liu(参考訳) グラフベースのkNNアルゴリズムは、その単純さと有効性から、機械学習タスクで広く普及している。 しかし、実データはしばしば複雑な分布を継承するので、従来のkNNグラフが統一k値に依存しているため、その性能は低下する。 この課題の背後にある重要な要因は、不明瞭なサンプルが決定境界に沿って存在することである。 そこで本稿では,分布認識適応型kをグラフ構築に応用した優先付きk-nearest近傍グラフ(panng)を提案する。 分散情報を凝集体として組み込むことにより、paNNGはそれらを元のクラスに"プッシュ"することで、あいまいなサンプルの性能を大幅に向上し、全体的な一般化能力を高めることができる。 多様なデータセットに対する厳密な評価を通じて、paNNGは最先端のアルゴリズムを上回り、その適応性と実世界のさまざまなシナリオにおける有効性を示している。

Graph-based kNN algorithms have garnered widespread popularity for machine learning tasks due to their simplicity and effectiveness. However, as factual data often inherit complex distributions, the conventional kNN graph's reliance on a unified k-value can hinder its performance. A crucial factor behind this challenge is the presence of ambiguous samples along decision boundaries that are inevitably more prone to incorrect classifications. To address the situation, we propose the Preferential Attached k-Nearest Neighbors Graph (paNNG), which adopts distribution-aware adaptive-k into graph construction. By incorporating distribution information as a cohesive entity, paNNG can significantly improve performance on ambiguous samples by "pulling" them towards their original classes and hence enhance overall generalization capability. Through rigorous evaluations on diverse datasets, paNNG outperforms state-of-the-art algorithms, showcasing its adaptability and efficacy across various real-world scenarios.
翻訳日:2023-08-22 22:24:08 公開日:2023-08-21
# 量子力学系の隠れテンソル構造:単一粒子量子計算を目指して

Hidden tensor structures of any quantum mechanical system: Towards single-particle quantum computation ( http://arxiv.org/abs/2308.04202v2 )

ライセンス: Link先を確認
Marek Czachor(参考訳) 量子情報処理の標準的なアーキテクチャはボトムアップ設計に基づいている: 1桁の1粒子システムから始まり、マルチ桁の量子レジスタは1つの量子桁のテンソル積によって数学的にモデル化されたマルチ粒子構成を要求する。 ここでは、量子情報処理の単一粒子トップダウン設計を可能にする隠れテンソル構造を、任意の単一量子システムが自動的に備えていることを示す。 隠れテンソル構造は、単一の1次元調和振動子のように単純な量子系を任意の数のサブシステムに分解できることを意味する。 結果として生じる構造は、量子計算、ベルの不等式違反、普遍量子ゲートの定式化を可能にするのに十分なリッチである。 原則として、単一粒子量子コンピュータは可能である。 さらに、これらの隠れた構造は、ブラント・グリーンバーグによる生成消滅作用素のマルチボゾン表現のような、いくつかのよく知られた理論構成のルーツであり、高次または分数次スクイージングの文脈で集中的に研究されていることが示されている。 事実上、文献から知られているかなり退屈な標準的な証明は、文字通り1行に単純化することができる。 一般的な構成は具体例で示される。

Standard architecture of quantum information processing is based on bottom-up design: One begins with a one-digit one-particle system, while multi-digit quantum registers demand multi-particle configurations, mathematically modeled by tensor products of single quantum digits. Here we show that any single quantum system is automatically equipped with hidden tensor structures that allow for single-particle top-down designs of quantum information processing. Hidden tensor structures imply that any quantum system, even as simple as a single one-dimensional harmonic oscillator, can be decomposed into an arbitrary number of subsystems. The resulting structure is rich enough to enable quantum computation, violation of Bell's inequalities, and formulation of universal quantum gates. In principle, a single-particle quantum computer is possible. Moreover, it is shown that these hidden structures are at the roots of some well known theoretical constructions, such as the Brandt-Greenberg multi-boson representation of creation-annihilation operators, intensively investigated in the context of higher-order or fractional-order squeezing. In effect, certain rather tedious standard proofs known from the literature can be simplified to literally one line. The general construction is illustrated by concrete examples.
翻訳日:2023-08-22 22:14:17 公開日:2023-08-21
# 状態準備のための多段階確率アルゴリズムの2次加速度

Quadratic acceleration of multi-step probabilistic algorithms for state preparation ( http://arxiv.org/abs/2308.03605v2 )

ライセンス: Link先を確認
Hirofumi Nishi and Taichi Kosugi and Yusuke Nishiya and Yu-ichiro Matsushita(参考訳) 量子状態の合成では、非ユニタリ作用素は通常、アンシラ量子ビットと確率的作用を用いて初期状態に含まれる望ましくない状態を破壊するように設計される。 確率的アルゴリズムは古典的アルゴリズムに比べて計算過程を加速しない。 本研究では,量子振幅増幅(qaa)と多段階確率アルゴリズムを組み合わせて二次加速度を実現する。 この手法は不忠実性の観点から量子位相推定より優れる。 二次加速度は確率的想像時間進化(PITE)法で確認された。

For quantum state preparation, a non-unitary operator is typically designed to decay undesirable states contained in an initial state using ancilla qubits and a probabilistic action. Probabilistic algorithms do not accelerate the computational process compared to classical ones. In this study, quantum amplitude amplification (QAA) and multi-step probabilistic algorithms are combined to achieve quadratic acceleration. This method outperforms quantum phase estimation in terms of infidelity. The quadratic acceleration was confirmed by the probabilistic imaginary-time evolution (PITE) method.
翻訳日:2023-08-22 22:13:25 公開日:2023-08-21
# 多世界解釈学習のための自己教師付きハイパーグラフ

Self-supervised Hypergraphs for Learning Multiple World Interpretations ( http://arxiv.org/abs/2308.07615v2 )

ライセンス: Link先を確認
Alina Marcu, Mihai Pirvu, Dragos Costea, Emanuela Haller, Emil Slusanschi, Ahmed Nabil Belbachir, Rahul Sukthankar, Marius Leordeanu(参考訳) マルチタスクハイパーグラフの形式で,これらの表現間の関係を利用して,小さなラベル付き集合を与えられた複数のシーン表現を学習する手法を提案する。 また、ラベル付きデータを追加せずに、ハイパーグラフを使って強力なトレーニング済みVisTransformerモデルを改善する方法を示す。 私たちのハイパーグラフでは、各ノードはシーンの解釈層(例えば、深さやセグメンテーション)です。 各ハイパーエッジ内では、1つまたは複数の入力ノードが出力ノードの層を予測する。 したがって、各ノードはハイパーエッジの入力ノードであり、他のノードの出力ノードである。 このように、複数の経路が同じノードに到達し、そこからロバストな擬似ラベルを得るアンサンブルを形成し、ハイパーグラフで自己教師付き学習を可能にする。 異なるアンサンブルモデルと異なるタイプのハイパーエッジをテストし、フィールド内の他のマルチタスクグラフモデルよりも優れたパフォーマンスを示す。 マルチタスク学習に適した複数の表現を備えた,複雑な実世界のシーンでuavでキャプチャされた大規模なビデオデータセットであるdronescapesも紹介する。

We present a method for learning multiple scene representations given a small labeled set, by exploiting the relationships between such representations in the form of a multi-task hypergraph. We also show how we can use the hypergraph to improve a powerful pretrained VisTransformer model without any additional labeled data. In our hypergraph, each node is an interpretation layer (e.g., depth or segmentation) of the scene. Within each hyperedge, one or several input nodes predict the layer at the output node. Thus, each node could be an input node in some hyperedges and an output node in others. In this way, multiple paths can reach the same node, to form ensembles from which we obtain robust pseudolabels, which allow self-supervised learning in the hypergraph. We test different ensemble models and different types of hyperedges and show superior performance to other multi-task graph models in the field. We also introduce Dronescapes, a large video dataset captured with UAVs in different complex real-world scenes, with multiple representations, suitable for multi-task learning.
翻訳日:2023-08-22 20:31:13 公開日:2023-08-21
# 畳み込みニューラルネットワークを用いた血球画像の自動分類

Automatic Classification of Blood Cell Images Using Convolutional Neural Network ( http://arxiv.org/abs/2308.06300v2 )

ライセンス: Link先を確認
Rabia Asghar, Sanjay Kumar, Paul Hynds, Abeera Mahfooz(参考訳) ヒトの血液は主に血漿、赤血球、白血球、血小板から構成される。 栄養素を異なる臓器に輸送する上で重要な役割を担っており、人体に関する健康関連データを保存している。 血液細胞は、菌類、ウイルス、細菌など様々な感染症から体を守るために利用される。 したがって、血液分析は医師が個人の生理状態を評価するのに役立つ。 血液細胞は、好中球、好酸球、好塩基球、リンパ球、単球、未熟な顆粒球(骨髄細胞、骨髄細胞、メタ骨髄細胞)、赤血球、血小板または血小板の8つのグループに分類されている。 伝統的に、実験室の病理学者や血液学者は、手動で分類する前に顕微鏡を用いてこれらの血液細胞を調べてきた。 手動のアプローチは遅くなり、ヒューマンエラーを起こしやすい。 そのため、このプロセスを自動化することが不可欠である。 本稿では,CNN事前学習モデルを用いたトランスファーラーニングについて述べる。 VGG16、VGG19、ResNet-50、ResNet-101、ResNet-152、InceptionV3、MobileNetV2、DenseNet-20はPBCデータセットの通常のDIBに適用された。 これらのモデルで得られた全体的な精度は91.375から94.72%である。 したがって、これらの事前訓練されたアーキテクチャにインスパイアされたモデルが提案され、精度を高めて10種類の血液細胞を自動分類する。 CNNベースの新しいフレームワークが提示され、精度が向上した。 提案したCNNモデルはPBCデータセット正規DIB上でテストされている。 実験の結果、血液細胞分類用に設計されたCNNベースのフレームワークがPBCデータセットで99.91%の精度を達成できた。 提案する畳み込みニューラルネットワークモデルは,文献で報告された結果と比較して,競合的に動作する。

Human blood primarily comprises plasma, red blood cells, white blood cells, and platelets. It plays a vital role in transporting nutrients to different organs, where it stores essential health-related data about the human body. Blood cells are utilized to defend the body against diverse infections, including fungi, viruses, and bacteria. Hence, blood analysis can help physicians assess an individual's physiological condition. Blood cells have been sub-classified into eight groups: Neutrophils, eosinophils, basophils, lymphocytes, monocytes, immature granulocytes (promyelocytes, myelocytes, and metamyelocytes), erythroblasts, and platelets or thrombocytes on the basis of their nucleus, shape, and cytoplasm. Traditionally, pathologists and hematologists in laboratories have examined these blood cells using a microscope before manually classifying them. The manual approach is slower and more prone to human error. Therefore, it is essential to automate this process. In our paper, transfer learning with CNN pre-trained models. VGG16, VGG19, ResNet-50, ResNet-101, ResNet-152, InceptionV3, MobileNetV2, and DenseNet-20 applied to the PBC dataset's normal DIB. The overall accuracy achieved with these models lies between 91.375 and 94.72%. Hence, inspired by these pre-trained architectures, a model has been proposed to automatically classify the ten types of blood cells with increased accuracy. A novel CNN-based framework has been presented to improve accuracy. The proposed CNN model has been tested on the PBC dataset normal DIB. The outcomes of the experiments demonstrate that our CNN-based framework designed for blood cell classification attains an accuracy of 99.91% on the PBC dataset. Our proposed convolutional neural network model performs competitively when compared to earlier results reported in the literature.
翻訳日:2023-08-22 20:28:42 公開日:2023-08-21
# 機械学習モデルと深層学習モデルを用いた白血球の分類

Classification of White Blood Cells Using Machine and Deep Learning Models: A Systematic Review ( http://arxiv.org/abs/2308.06296v2 )

ライセンス: Link先を確認
Rabia Asghar, Sanjay Kumar, Paul Hynds, Arslan Shaukat(参考訳) 機械学習(ML)とディープラーニング(DL)モデルは、予測と分類の精度を高めるために、医療画像の分析を大幅に改善するために使われてきた。 モデル予測と分類は、様々ながんや腫瘍の診断を支援する。 本総説では, 白血球分類の医用画像解析領域に応用される最新の技術について詳細に分析する。 血液スミア画像、MRI(MRI)、X線、および類似の医用画像領域を使用する手法を同定し、レビューの主焦点となる白血球(WBC)の分類に応用したML/DL技術について詳細に分析した。 この研究で活用されたデータは、2006年から2023年の間に出版された136の論文から抽出された。 最も広く使われている技術と最も優れた白血球分類法が同定される。 白血球分類におけるmlとdlの利用は,近年増加・改善が進んでいるが,1) 適切なデータセットの可用性が依然として大きな課題であり,データ拡張技術によって解決される可能性がある。 2) 白血球構造の現在の理解と適切な分類モデルの選択を改善するため, 研究者の医療訓練を推奨する。 3)ジェネレーティブ・アドバイサル・ネットワーク,R-CNN,Fast R-CNN,そして高速なR-CNNを含む先進的なDLネットワークは,現在の技術の補充や置き換えのためにますます採用されていくだろう。

Machine learning (ML) and deep learning (DL) models have been employed to significantly improve analyses of medical imagery, with these approaches used to enhance the accuracy of prediction and classification. Model predictions and classifications assist diagnoses of various cancers and tumors. This review presents an in-depth analysis of modern techniques applied within the domain of medical image analysis for white blood cell classification. The methodologies that use blood smear images, magnetic resonance imaging (MRI), X-rays, and similar medical imaging domains are identified and discussed, with a detailed analysis of ML/DL techniques applied to the classification of white blood cells (WBCs) representing the primary focus of the review. The data utilized in this research has been extracted from a collection of 136 primary papers that were published between the years 2006 and 2023. The most widely used techniques and best-performing white blood cell classification methods are identified. While the use of ML and DL for white blood cell classification has concurrently increased and improved in recent year, significant challenges remain - 1) Availability of appropriate datasets remain the primary challenge, and may be resolved using data augmentation techniques. 2) Medical training of researchers is recommended to improve current understanding of white blood cell structure and subsequent selection of appropriate classification models. 3) Advanced DL networks including Generative Adversarial Networks, R-CNN, Fast R-CNN, and faster R-CNN will likely be increasingly employed to supplement or replace current techniques.
翻訳日:2023-08-22 20:28:11 公開日:2023-08-21
# Polyak StepizeとLine-searchによる適応SGD:ロバスト収束と可変化

Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction ( http://arxiv.org/abs/2308.06058v2 )

ライセンス: Link先を確認
Xiaowen Jiang and Sebastian U. Stich(参考訳) 近年提案された確率的ポリアックステップズ (sps) と確率的直線探索 (sls) は, 過パラメータモデルのトレーニングにおいて顕著な効果を示した。 しかし、非補間設定では、どちらのアルゴリズムも解の近傍への収束を保証し、最初の推測よりも悪い出力をもたらす可能性がある。 適応的なステップサイズを人工的に減少させる手法が提案されている(Orvieto et al. [2022])が、このアプローチは凸および過パラメータ化モデルの収束速度を遅くする。 本稿では,まず,非補間条件下での収束を保証するSPSとSLSの2つの新しい変種,AdaSPSとAdaSLSを提案する。 AdaSLSは問題依存パラメータの知識を必要とせず、AdaSPSは入力として最適関数値の下位境界のみを必要とする。 次に、adasps と adasls を新しい分散還元法で満たし、非補間領域の分散還元なしで adasps と adasls のレートを低下させるような凸関数に対する $\mathcal{o}(\epsilon)$-suboptimality を達成するために、$\smash{\widetilde{\mathcal{o}}}(n+1/\epsilon)$gradient evaluations を必要とするアルゴリズムを得る。 さらに,本結果はAdaSVRGの速度と一致するが,実装や解析が容易な内外ループ構造を除去する。 最後に、合成および実データセットに関する数値実験により、我々の理論を検証し、アルゴリズムの有効性と堅牢性を示す。

The recently proposed stochastic Polyak stepsize (SPS) and stochastic line-search (SLS) for SGD have shown remarkable effectiveness when training over-parameterized models. However, in non-interpolation settings, both algorithms only guarantee convergence to a neighborhood of a solution which may result in a worse output than the initial guess. While artificially decreasing the adaptive stepsize has been proposed to address this issue (Orvieto et al. [2022]), this approach results in slower convergence rates for convex and over-parameterized models. In this work, we make two contributions: Firstly, we propose two new variants of SPS and SLS, called AdaSPS and AdaSLS, which guarantee convergence in non-interpolation settings and maintain sub-linear and linear convergence rates for convex and strongly convex functions when training over-parameterized models. AdaSLS requires no knowledge of problem-dependent parameters, and AdaSPS requires only a lower bound of the optimal function value as input. Secondly, we equip AdaSPS and AdaSLS with a novel variance reduction technique and obtain algorithms that require $\smash{\widetilde{\mathcal{O}}}(n+1/\epsilon)$ gradient evaluations to achieve an $\mathcal{O}(\epsilon)$-suboptimality for convex functions, which improves upon the slower $\mathcal{O}(1/\epsilon^2)$ rates of AdaSPS and AdaSLS without variance reduction in the non-interpolation regimes. Moreover, our result matches the fast rates of AdaSVRG but removes the inner-outer-loop structure, which is easier to implement and analyze. Finally, numerical experiments on synthetic and real datasets validate our theory and demonstrate the effectiveness and robustness of our algorithms.
翻訳日:2023-08-22 20:27:47 公開日:2023-08-21
# クラスタ制約による二層グラフェンの対称性破壊の理解

Understanding Symmetry Breaking in Twisted Bilayer Graphene from Cluster Constraints ( http://arxiv.org/abs/2308.08590v2 )

ライセンス: Link先を確認
Nikita Astrakhantsev, Glenn Wagner, Tom Westerhout, Titus Neupert and Mark H. Fischer(参考訳) ツイスト二層グラフェンは相関量子位相を探求するためのエキサイティングなプラットフォームであり、単粒子バンドと電子の相互作用プロファイルの両方について非常に調整可能である。 ここでは, ハニカム格子上の拡張ハバードモデルを用いて, 2つのフェルミオン軌道 (バルブ) を持つ二層グラフェンの相図について検討した。 特別な拡張 {\it cluster interaction} $Q$の他に、オンサイトHubbard-interaction$U$を通じてゲーティングの効果を取り入れます。 量子モンテカルロ(QMC)では、価結合固体、N'eel-valley反強磁性または電荷密度波相が見つかる。 さらに、これらの位相の競合は、クラスター相互作用がヒルベルト空間上のエキゾチックな制約を誘導し、有名なピロクロアのスピン-アイス則に類似させることによって解明する。 クラスタルール多様体に射影して摂動ハミルトニアンを定式化し、正確な対角化を行い、観測された位相の固定点状態を構築する。 最後に, 走査型トンネル顕微鏡で観察できる局所電子密度パターンを, これらの位相を識別するシグネチャとして計算した。 本研究は, ツイスト二層グラフェンの拡張ハバードモデルにおけるクラスタ制約の概念を活かし, ツイスト二層グラフェンシートにおけるいくつかの対称性破断絶縁相の実現に向けたスキームを提案する。

Twisted bilayer graphene is an exciting platform for exploring correlated quantum phases, extremely tunable with respect to both the single-particle bands and the interaction profile of electrons. Here, we investigate the phase diagram of twisted bilayer graphene as described by an extended Hubbard model on the honeycomb lattice with two fermionic orbitals (valleys) per site. Besides the special extended {\it cluster interaction} $Q$, we incorporate the effect of gating through an onsite Hubbard-interaction $U$. Within Quantum Monte Carlo (QMC), we find valence-bond-solid, N\'eel-valley antiferromagnetic or charge-density wave phases. Further, we elucidate the competition of these phases by noticing that the cluster interaction induces an exotic constraint on the Hilbert space, which we dub {\it the cluster rule}, in analogy to the famous pyrochlore spin-ice rule. Formulating the perturbative Hamiltonian by projecting into the cluster-rule manifold, we perform exact diagonalization and construct the fixed-point states of the observed phases. Finally, we compute the local electron density patterns as signatures distinguishing these phases, which could be observed with scanning tunneling microscopy. Our work capitalizes on the notion of cluster constraints in the extended Hubbard model of twisted bilayer graphene, and suggests a scheme towards realization of several symmetry-breaking insulating phases in a twisted-bilayer graphene sheet.
翻訳日:2023-08-22 20:19:04 公開日:2023-08-21
# 中国におけるAIGCの現状と今後の展望

AIGC In China: Current Developments And Future Outlook ( http://arxiv.org/abs/2308.08451v2 )

ライセンス: Link先を確認
Xiangyu Li, Yuqing Fan, Shenghui Cheng(参考訳) AI生成コンテンツ(AIGC)への注目が高まり、日常生活、工業生産、学術分野の様々な側面に大きな影響を与えている。 本研究は,AIGC開発における国際的動向と競争性を認識し,中国の現状の分析を目的とする。 調査はAIGCの基礎技術と現在の応用の概要から始まる。 その後、中国におけるAIGCの市場状況、政策状況、開発軌跡を考察し、関連する学術論文の特定にキーワード検索を利用した。 さらに,本論文は,AIGCの生態学的構成を強調するとともに,AIGC製品とその対応するエコシステムを包括的に調査する。 最後に,AIGC産業が直面する課題とリスクについて論じるとともに,AIGCの競争的洞察に基づく業界の将来に対する先見的な展望を示す。

The increasing attention given to AI Generated Content (AIGC) has brought a profound impact on various aspects of daily life, industrial manufacturing, and the academic sector. Recognizing the global trends and competitiveness in AIGC development, this study aims to analyze China's current status in the field. The investigation begins with an overview of the foundational technologies and current applications of AIGC. Subsequently, the study delves into the market status, policy landscape, and development trajectory of AIGC in China, utilizing keyword searches to identify relevant scholarly papers. Furthermore, the paper provides a comprehensive examination of AIGC products and their corresponding ecosystem, emphasizing the ecological construction of AIGC. Finally, this paper discusses the challenges and risks faced by the AIGC industry while presenting a forward-looking perspective on the industry's future based on competitive insights in AIGC.
翻訳日:2023-08-22 20:17:40 公開日:2023-08-21
# 相互相似性による車線検出のコントラスト学習

Contrastive Learning for Lane Detection via Cross-Similarity ( http://arxiv.org/abs/2308.08242v2 )

ライセンス: Link先を確認
Ali Zoljodi, Sadegh Abadijou, Mina Alibeigi, Masoud Daneshtalab(参考訳) 道路レーンの検出は、不利な状況に弱い複雑なマーキングのため困難である。 レーンマーキングは以前の形状が強いが、視認性は容易に損なわれる。 照明、天気、車両、歩行者、老朽化した色などの要因は、検出に挑戦する。 低可視性に起因する自然変動に耐えられるレーン検出アプローチの訓練には大量のデータが必要である。 これは、多数の車線形状と自然変化が存在するためである。 我々のソリューションであるCLLD(Contrastive Learning for Lane Detection via cross-similarity)は、車線検出モデルレジリエンスを現実の環境に拡張し、車線視認性を低下させる自己教師付き学習手法である。 CLLDは,低可視環境下でも車線検出アプローチを訓練し,局所特徴コントラスト学習(CL)と新たな操作相似性を統合することで,車線検出アプローチを訓練する,新しいマルチタスクコントラスト学習である。 局所的な特徴clは、レーンセグメントをローカライズするために必要な小さな画像部分の抽出に重点を置いているが、クロス類似性は、周囲の不明瞭なレーンセグメントを検出するためにグローバルな特徴をキャプチャする。 入力画像の一部をランダムにマスキングすることで類似性を高める。 ベンチマークデータセットで評価すると、clldは最先端のコントラスト学習、特にシャドウのような可視性障害条件よりも優れている。 教師付き学習と比較して、CLLDは影や混雑したシーンのようなシナリオに優れています。

Detecting road lanes is challenging due to intricate markings vulnerable to unfavorable conditions. Lane markings have strong shape priors, but their visibility is easily compromised. Factors like lighting, weather, vehicles, pedestrians, and aging colors challenge the detection. A large amount of data is required to train a lane detection approach that can withstand natural variations caused by low visibility. This is because there are numerous lane shapes and natural variations that exist. Our solution, Contrastive Learning for Lane Detection via cross-similarity (CLLD), is a self-supervised learning method that tackles this challenge by enhancing lane detection models resilience to real-world conditions that cause lane low visibility. CLLD is a novel multitask contrastive learning that trains lane detection approaches to detect lane markings even in low visible situations by integrating local feature contrastive learning (CL) with our new proposed operation cross-similarity. Local feature CL focuses on extracting features for small image parts, which is necessary to localize lane segments, while cross-similarity captures global features to detect obscured lane segments using their surrounding. We enhance cross-similarity by randomly masking parts of input images for augmentation. Evaluated on benchmark datasets, CLLD outperforms state-of-the-art contrastive learning, especially in visibility-impairing conditions like shadows. Compared to supervised learning, CLLD excels in scenarios like shadows and crowded scenes.
翻訳日:2023-08-22 20:17:02 公開日:2023-08-21
# 低光画像強調のための自己参照深部適応曲線推定

Self-Reference Deep Adaptive Curve Estimation for Low-Light Image Enhancement ( http://arxiv.org/abs/2308.08197v2 )

ライセンス: Link先を確認
Jianyu Wen, Chenhao Wu, Tong Zhang, Yixuan Yu, Piotr Swierczynski(参考訳) 本稿では,自己参照深度適応曲線推定(Self-DACE)と呼ばれる2段階の低照度画像強調手法を提案する。 第1段階では,直感的,軽量,高速,教師なしの輝度強調アルゴリズムを提案する。 このアルゴリズムは、画像の輝度を局所的に増やすために使用できる新しい低光度強調曲線に基づいている。 また,自然画像の色,構造,忠実度を保存するために,物理モデルを単純化した新たな損失関数を提案する。 バニラCNNを用いて各画素を局所的な画像構造を保ちながら、AAC(Adaptive Adjustment Curves)の深部をマッピングする。 第2に,暗黒の潜在雑音を除去すべく,対応する消音方式を導入する。 暗黒環境でのノイズを概ねモデル化し,第1段階以降のノイズを推定および除去するためにDenoising-Netをデプロイする。 探索的定性的および定量的分析により,本手法は複数の実世界のデータセット上で,既存の最先端アルゴリズムよりも優れていることが示された。

In this paper, we propose a 2-stage low-light image enhancement method called Self-Reference Deep Adaptive Curve Estimation (Self-DACE). In the first stage, we present an intuitive, lightweight, fast, and unsupervised luminance enhancement algorithm. The algorithm is based on a novel low-light enhancement curve that can be used to locally boost image brightness. We also propose a new loss function with a simplified physical model designed to preserve natural images' color, structure, and fidelity. We use a vanilla CNN to map each pixel through deep Adaptive Adjustment Curves (AAC) while preserving the local image structure. Secondly, we introduce the corresponding denoising scheme to remove the latent noise in the darkness. We approximately model the noise in the dark and deploy a Denoising-Net to estimate and remove the noise after the first stage. Exhaustive qualitative and quantitative analysis shows that our method outperforms existing state-of-the-art algorithms on multiple real-world datasets.
翻訳日:2023-08-22 20:16:36 公開日:2023-08-21
# CLIPモデルをシーンテキストスポッターに変換する

Turning a CLIP Model into a Scene Text Spotter ( http://arxiv.org/abs/2308.10408v1 )

ライセンス: Link先を確認
Wenwen Yu, Yuliang Liu, Xingkui Zhu, Haoyu Cao, Xing Sun, Xiang Bai(参考訳) 我々は,大規模コントラスト言語イメージプリトレーニング(clip)モデルの可能性を活用し,シーンテキストの検出とタスク検出を強化し,堅牢なバックボーンであるfasttcm-cr50へ変換する。 このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。 事前定義された学習可能なプロンプトを使用して、FastTCM-CR50はインスタンス言語マッチングプロセスを導入し、画像とテキストの埋め込みのシナジーを強化し、テキスト領域を精製する。 bsm(bimodal similarity matching)モジュールは動的言語プロンプト生成を容易にし,オフライン計算を可能にし,パフォーマンスを向上させる。 FastTCM-CR50にはいくつかの利点がある。 1)既存のテキスト検出器とスポッターを改良し,平均1.7%,1.5%の性能向上を図る。 2) 以前のTCM-CR50のバックボーンよりも優れており、テキスト検出やスポッティングタスクでは平均0.2%と0.56%の改善、推論速度は48.5%向上した。 3) 堅牢な少数ショットトレーニング能力を示す。 教師付きデータの10%しか利用せず、FastTCM-CR50は平均26.5%と5.5%のパフォーマンス向上を実現している。 4) ICDAR2019-ArTのNightTime-ArTサブセットやオブジェクト指向オブジェクト検出用のDOTAデータセットなど,配布外テキストの検出とスポッティングデータセットのパフォーマンスを継続的に向上させる。 コードはhttps://github.com/wenwenyu/TCMで入手できる。

We exploit the potential of the large-scale Contrastive Language-Image Pretraining (CLIP) model to enhance scene text detection and spotting tasks, transforming it into a robust backbone, FastTCM-CR50. This backbone utilizes visual prompt learning and cross-attention in CLIP to extract image and text-based prior knowledge. Using predefined and learnable prompts, FastTCM-CR50 introduces an instance-language matching process to enhance the synergy between image and text embeddings, thereby refining text regions. Our Bimodal Similarity Matching (BSM) module facilitates dynamic language prompt generation, enabling offline computations and improving performance. FastTCM-CR50 offers several advantages: 1) It can enhance existing text detectors and spotters, improving performance by an average of 1.7% and 1.5%, respectively. 2) It outperforms the previous TCM-CR50 backbone, yielding an average improvement of 0.2% and 0.56% in text detection and spotting tasks, along with a 48.5% increase in inference speed. 3) It showcases robust few-shot training capabilities. Utilizing only 10% of the supervised data, FastTCM-CR50 improves performance by an average of 26.5% and 5.5% for text detection and spotting tasks, respectively. 4) It consistently enhances performance on out-of-distribution text detection and spotting datasets, particularly the NightTime-ArT subset from ICDAR2019-ArT and the DOTA dataset for oriented object detection. The code is available at https://github.com/wenwenyu/TCM.
翻訳日:2023-08-22 15:39:34 公開日:2023-08-21
# 自律走行車のための連帯学習--既存手法と課題の検討

Federated Learning for Connected and Automated Vehicles: A Survey of Existing Approaches and Challenges ( http://arxiv.org/abs/2308.10407v1 )

ライセンス: Link先を確認
Vishnu Pandi Chellapandi and Liangqi Yuan and Christopher G. Brinton and Stanislaw H Zak and Ziran Wang(参考訳) 機械学習(ml)は、知覚、計画、制御を含む、コネクテッドおよび自動車両(cav)における重要なタスクに広く使われている。 しかし、モデルトレーニングにおける車両データへの依存は、車内ユーザのプライバシと大量のデータボリュームが生み出す通信オーバーヘッドに重大な課題をもたらす。 フェデレートラーニング(FL)は、複数の車両が協力してモデルを開発し、さまざまな運転環境からの学習を拡大し、全体的なパフォーマンスを高め、ローカル車両のデータプライバシとセキュリティを同時に確保する、分散MLアプローチである。 本報告では, FL の CAV (FL4CAV) への適用における進歩について概説する。 まず、flの集中型フレームワークと分散フレームワークを分析し、その重要な特徴と方法論を強調する。 次に、CAVにおけるFLに関連する多様なデータソース、モデル、およびデータセキュリティ技術についてレビューし、プライバシーと機密性を保証することの重要性を強調した。 第3に、FLの具体的かつ重要な応用を探求し、各アプリケーションに使用されるベースモデルとデータセットに関する洞察を提供する。 最後に、FL4CAVの既存の課題をリストアップし、CAVの文脈におけるFLの有効性と効率をさらに高めるための今後の取り組みの可能性について論じる。

Machine learning (ML) is widely used for key tasks in Connected and Automated Vehicles (CAV), including perception, planning, and control. However, its reliance on vehicular data for model training presents significant challenges related to in-vehicle user privacy and communication overhead generated by massive data volumes. Federated learning (FL) is a decentralized ML approach that enables multiple vehicles to collaboratively develop models, broadening learning from various driving environments, enhancing overall performance, and simultaneously securing local vehicle data privacy and security. This survey paper presents a review of the advancements made in the application of FL for CAV (FL4CAV). First, centralized and decentralized frameworks of FL are analyzed, highlighting their key characteristics and methodologies. Second, diverse data sources, models, and data security techniques relevant to FL in CAVs are reviewed, emphasizing their significance in ensuring privacy and confidentiality. Third, specific and important applications of FL are explored, providing insight into the base models and datasets employed for each application. Finally, existing challenges for FL4CAV are listed and potential directions for future work are discussed to further enhance the effectiveness and efficiency of FL in the context of CAV.
翻訳日:2023-08-22 15:39:04 公開日:2023-08-21
# 質問と回答を伴うインタラクティブビデオ検索のための簡易ベースライン

Simple Baselines for Interactive Video Retrieval with Questions and Answers ( http://arxiv.org/abs/2308.10402v1 )

ライセンス: Link先を確認
Kaiqu Liang, Samuel Albanie(参考訳) これまで、ほとんどのビデオ検索システムは、ユーザが単独でクエリを提出する「単発」シナリオに最適化されており、システムとの以前のインタラクションを無視している。 近年,検索機能向上のためのインタラクティブシステムへの関心が高まっているが,既存のアプローチは複雑であり,性能的にも限界がある。 本稿では,このトピックを再考し,質問応答によるインタラクティブなビデオ検索のための,シンプルかつ効果的なベースラインを提案する。 本研究では,ユーザインタラクションをシミュレートするvideoqaモデルを用いて,対話的な検索タスクを,真理対話データにアクセスせずに生産的に研究できることを示す。 MSR-VTT, MSVD, AVSDによる実験により, 問合せに基づくインタラクションにより, テキストベースのビデオ検索システムの性能が大幅に向上することが示された。

To date, the majority of video retrieval systems have been optimized for a "single-shot" scenario in which the user submits a query in isolation, ignoring previous interactions with the system. Recently, there has been renewed interest in interactive systems to enhance retrieval, but existing approaches are complex and deliver limited gains in performance. In this work, we revisit this topic and propose several simple yet effective baselines for interactive video retrieval via question-answering. We employ a VideoQA model to simulate user interactions and show that this enables the productive study of the interactive retrieval task without access to ground truth dialogue data. Experiments on MSR-VTT, MSVD, and AVSD show that our framework using question-based interaction significantly improves the performance of text-based video retrieval systems.
翻訳日:2023-08-22 15:38:41 公開日:2023-08-21
# FairBench: 大規模言語モデルにおけるステレオタイプとバイアスを検出する4段階の自動フレームワーク

FairBench: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models ( http://arxiv.org/abs/2308.10397v1 )

ライセンス: Link先を確認
Yanhong Bai and Jiabao Zhao and Jinxin Shi and Tingjiang Wei and Xingjiao Wu and Liang He(参考訳) 大規模言語モデル(llm)におけるステレオタイプやバイアスの検出は、公平性を高め、これらのllmを適用する際に個人やグループへの悪影響を減らすことができる。 しかし、既存の手法の大半は、データセット内のバイアスやステレオタイプを含む文に対するモデルの好みを測定することに集中しており、解釈可能性に欠け、現実世界では暗黙のバイアスやステレオタイプを検出できない。 このギャップに対処するために,本論文では,直接照会テスト,連続的あるいは適応的ストーリーテスト,暗黙的関連テスト,未知の状況テストなど,llm の生成するコンテンツのステレオタイプやバイアスを直接評価する 4段階フレームワークを提案する。 さらに,自動評価のための多次元評価指標と説明可能なゼロショットプロンプトを提案する。 教育部門を事例研究として、4段階の枠組みに基づくEdu-FairBenchを構築した。 実験結果から, Edu-FairBench で評価した5つの LLM のステレオタイプとバイアスの程度が異なっていた。 さらに,提案手法による自動評価の結果は,人間のアノテーションと高い相関関係を示した。

Detecting stereotypes and biases in Large Language Models (LLMs) can enhance fairness and reduce adverse impacts on individuals or groups when these LLMs are applied. However, the majority of existing methods focus on measuring the model's preference towards sentences containing biases and stereotypes within datasets, which lacks interpretability and cannot detect implicit biases and stereotypes in the real world. To address this gap, this paper introduces a four-stage framework to directly evaluate stereotypes and biases in the generated content of LLMs, including direct inquiry testing, serial or adapted story testing, implicit association testing, and unknown situation testing. Additionally, the paper proposes multi-dimensional evaluation metrics and explainable zero-shot prompts for automated evaluation. Using the education sector as a case study, we constructed the Edu-FairBench based on the four-stage framework, which encompasses 12,632 open-ended questions covering nine sensitive factors and 26 educational scenarios. Experimental results reveal varying degrees of stereotypes and biases in five LLMs evaluated on Edu-FairBench. Moreover, the results of our proposed automated evaluation method have shown a high correlation with human annotations.
翻訳日:2023-08-22 15:38:28 公開日:2023-08-21
# 群衆から学ぶためのラベル選択アプローチ

Label Selection Approach to Learning from Crowds ( http://arxiv.org/abs/2308.10396v1 )

ライセンス: Link先を確認
Kosuke Yoshimura and Hisashi Kashima(参考訳) 監視された学習、特に教師付きディープラーニングは大量のラベル付きデータを必要とする。 大量のラベル付きデータを収集するひとつのアプローチは、多数のワーカーがアノテーションタスクを実行するクラウドソーシングプラットフォームを使用することだ。 しかし,注意力は群集作業者やタスクを正しく完了させる能力によって異なるため,注意力はラベルノイズを含むことが多い。 Crowdsからの学習は、群衆労働者のラベル付きデータを使ってモデルを直接訓練するフレームワークである。 本研究では,選択予測問題に対するselectivenetからヒントを得た,群衆モデルによる新しい学習を提案する。 提案手法は,作業者のラベルをセレクタネットワークを用いたトレーニングに使用するかどうかを自動的に判定することにより,予測モデルをトレーニングする。 提案手法の主な利点は,セレクタネットワークの追加や既存モデルの目的関数の変更によって,クラウドアノテーションのノイズモデルを明確に仮定することなく,教師付き学習問題のほとんどすべての変種に適用できる点である。 実験の結果,回帰問題を除いて,群集からの深層学習の最先端手法の一つである群集層とほぼ同等あるいはそれ以上の性能を示すことがわかった。

Supervised learning, especially supervised deep learning, requires large amounts of labeled data. One approach to collect large amounts of labeled data is by using a crowdsourcing platform where numerous workers perform the annotation tasks. However, the annotation results often contain label noise, as the annotation skills vary depending on the crowd workers and their ability to complete the task correctly. Learning from Crowds is a framework which directly trains the models using noisy labeled data from crowd workers. In this study, we propose a novel Learning from Crowds model, inspired by SelectiveNet proposed for the selective prediction problem. The proposed method called Label Selection Layer trains a prediction model by automatically determining whether to use a worker's label for training using a selector network. A major advantage of the proposed method is that it can be applied to almost all variants of supervised learning problems by simply adding a selector network and changing the objective function for existing models, without explicitly assuming a model of the noise in crowd annotations. The experimental results show that the performance of the proposed method is almost equivalent to or better than the Crowd Layer, which is one of the state-of-the-art methods for Deep Learning from Crowds, except for the regression problem case.
翻訳日:2023-08-22 15:38:09 公開日:2023-08-21
# ツイスト二層グラフェンにおける電子力学のモデリング

Modeling of electronic dynamics in twisted bilayer graphene ( http://arxiv.org/abs/2308.10430v1 )

ライセンス: Link先を確認
Tianyu Kong, Diyi Liu, Mitchell Luskin, Alexander B. Watson(参考訳) 二層グラフェンのねじれにおける電子の量子力学を数値計算する問題を考える。 問題なのは、ダイナミクスの原子スケールモデルが、層の非可換性のため、一般的なねじれ角に対して非周期的であることである。 Bistritzer-MacDonald PDEモデル(英語版)は、2層のmoir\'eパターンに対して周期的であるが、最近パラメータ構造においてこれらのダイナミクスを厳密に記述することが示されている。 本研究では, 有限領域上の計算により非共役ツイスト二層グラフェンの密結合モデルのダイナミクスを近似できることを最初に証明する。 この証明の主な要素は、Combes-Thomas推定を用いて証明された伝播推定速度である。 次に,Bistritzer-MacDonaldモデルの有効性の範囲を明らかにする。

We consider the problem of numerically computing the quantum dynamics of an electron in twisted bilayer graphene. The challenge is that atomic-scale models of the dynamics are aperiodic for generic twist angles because of the incommensurability of the layers. The Bistritzer-MacDonald PDE model, which is periodic with respect to the bilayer's moir\'e pattern, has recently been shown to rigorously describe these dynamics in a parameter regime. In this work, we first prove that the dynamics of the tight-binding model of incommensurate twisted bilayer graphene can be approximated by computations on finite domains. The main ingredient of this proof is a speed of propagation estimate proved using Combes-Thomas estimates. We then provide extensive numerical computations which clarify the range of validity of the Bistritzer-MacDonald model.
翻訳日:2023-08-22 15:30:08 公開日:2023-08-21
# ビザンチン攻撃に頑健な連合学習: ゼロ最適ギャップの達成

Federated Learning Robust to Byzantine Attacks: Achieving Zero Optimality Gap ( http://arxiv.org/abs/2308.10427v1 )

ライセンス: Link先を確認
Shiyuan Zuo, Rongfei Fan, Han Hu, Ning Zhang, and Shimin Gong(参考訳) 本稿では,悪質なビザンツ人攻撃に効果的に対処できる,連邦学習(FL)のための頑健な集約手法を提案する。 各ユーザでは、まずモデルパラメータを複数のステップで更新し、イテレーションで調整可能となり、アグリゲーションセンターに直接プッシュする。 これにより、アグリゲーションセンタとユーザ間のインタラクション数が減少し、各ユーザがフレキシブルな方法でトレーニングパラメータを設定することができ、複数の履歴モデルパラメータを組み合わせる必要のある既存の作業と比べて計算負担が軽減される。 集約センタでは、幾何学的中央値を利用して、各ユーザから受信したモデルパラメータを組み合わせる。 厳密な証明は、ビザンティン攻撃者の比率が半分以下である限り、線形収束を伴う提案手法によってゼロ最適性ギャップが達成されることを示す。 提案手法の有効性を数値的に検証した。

In this paper, we propose a robust aggregation method for federated learning (FL) that can effectively tackle malicious Byzantine attacks. At each user, model parameter is firstly updated by multiple steps, which is adjustable over iterations, and then pushed to the aggregation center directly. This decreases the number of interactions between the aggregation center and users, allows each user to set training parameter in a flexible way, and reduces computation burden compared with existing works that need to combine multiple historical model parameters. At the aggregation center, geometric median is leveraged to combine the received model parameters from each user. Rigorous proof shows that zero optimality gap is achieved by our proposed method with linear convergence, as long as the fraction of Byzantine attackers is below half. Numerical results verify the effectiveness of our proposed method.
翻訳日:2023-08-22 15:29:55 公開日:2023-08-21
# 時空間適応埋め込みによる交通予測のためのバニラ変圧器soma

Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting ( http://arxiv.org/abs/2308.10425v1 )

ライセンス: Link先を確認
Hangchen Liu, Zheng Dong, Renhe Jiang, Jiewen Deng, Jinliang Deng, Quanjun Chen and Xuan Song(参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な発展に伴い、正確な交通予測が重要な課題となっている。 重要なボトルネックは、複雑な時空間的トラフィックパターンを捉えることだ。 近年、この問題に対処するために複雑なアーキテクチャを持つ多数のニューラルネットワークが提案されている。 しかし、ネットワークアーキテクチャの進歩は性能向上に遭遇している。 本研究では,バニラ変圧器において優れた結果が得られる時空間適応埋め込みと呼ばれる新しい成分を提案する。 提案した時空間適応型エンベディングトランス (STAEformer) は, 5つの実世界の交通予測データセットに対して最先端の性能を実現する。 さらに,交通時系列の時空間関係と時系列情報を効果的に把握することにより,時空間適応埋め込みが交通予測において重要な役割を果たすことを示した。

With the rapid development of the Intelligent Transportation System (ITS), accurate traffic forecasting has emerged as a critical challenge. The key bottleneck lies in capturing the intricate spatio-temporal traffic patterns. In recent years, numerous neural networks with complicated architectures have been proposed to address this issue. However, the advancements in network architectures have encountered diminishing performance gains. In this study, we present a novel component called spatio-temporal adaptive embedding that can yield outstanding results with vanilla transformers. Our proposed Spatio-Temporal Adaptive Embedding transformer (STAEformer) achieves state-of-the-art performance on five real-world traffic forecasting datasets. Further experiments demonstrate that spatio-temporal adaptive embedding plays a crucial role in traffic forecasting by effectively capturing intrinsic spatio-temporal relations and chronological information in traffic time series.
翻訳日:2023-08-22 15:29:39 公開日:2023-08-21
# UniM$^2$AE: 自律運転における3次元認識のための統一3次元表現付きマルチモーダルマスク付きオートエンコーダ

UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving ( http://arxiv.org/abs/2308.10421v1 )

ライセンス: Link先を確認
Jian Zou, Tianyu Huang, Guanglei Yang, Zhenhua Guo, Wangmeng Zuo(参考訳) Masked Autoencoders (MAE) は、強力な表現の学習において重要な役割を担い、自律運転に必要な様々な3D知覚タスクに優れた結果をもたらす。 現実の運転シナリオでは、包括的な環境認識のために複数のセンサーをデプロイするのが一般的です。 これらのセンサからマルチモーダル機能を統合することで、リッチで強力な機能を実現することができるが、この統合に対処するMAEメソッドには顕著なギャップがある。 この研究は、自律運転における統一表現空間に適したマルチモーダルマスクオートエンコーダに発展し、2つの異なるモダリティのより効率的な融合を開拓することを目的としている。 画像に固有の意味論とLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$^2$AEを提案する。 このモデルは主に2つの設計からなる、強力で単純でマルチモーダルな自己教師付き事前学習フレームワークである。 まず、両モードの特徴を密集した3Dボリューム空間に投影し、鳥の目視(BEV)から高さの寸法を含むように巧みに拡張する。 この拡張により、両方のモダリティの特徴をネイティブモダリティに融合して得られた情報的特徴を、複数のマスクされた入力を再構築するためのバックプロジェクトが可能になる。 第2に,Multi-modal 3D Interactive Module (MMIM) が起動され,対話プロセス中の効率的なモーダル間相互作用が促進される。 unim$^2$aeの有効性を検証するために,nuscenesデータセットを用いた広範な実験を行い,それぞれ1.2\%(nds)と6.5\%(miou)の3dオブジェクト検出とbevマップ分割の強化が示された。 コードはhttps://github.com/hollow-503/UniM2AEで入手できる。

Masked Autoencoders (MAE) play a pivotal role in learning potent representations, delivering outstanding results across various 3D perception tasks essential for autonomous driving. In real-world driving scenarios, it's commonplace to deploy multiple sensors for comprehensive environment perception. While integrating multi-modal features from these sensors can produce rich and powerful features, there is a noticeable gap in MAE methods addressing this integration. This research delves into multi-modal Masked Autoencoders tailored for a unified representation space in autonomous driving, aiming to pioneer a more efficient fusion of two distinct modalities. To intricately marry the semantics inherent in images with the geometric intricacies of LiDAR point clouds, the UniM$^2$AE is proposed. This model stands as a potent yet straightforward, multi-modal self-supervised pre-training framework, mainly consisting of two designs. First, it projects the features from both modalities into a cohesive 3D volume space, ingeniously expanded from the bird's eye view (BEV) to include the height dimension. The extension makes it possible to back-project the informative features, obtained by fusing features from both modalities, into their native modalities to reconstruct the multiple masked inputs. Second, the Multi-modal 3D Interactive Module (MMIM) is invoked to facilitate the efficient inter-modal interaction during the interaction process. Extensive experiments conducted on the nuScenes Dataset attest to the efficacy of UniM$^2$AE, indicating enhancements in 3D object detection and BEV map segmentation by 1.2\%(NDS) and 6.5\% (mIoU), respectively. Code is available at https://github.com/hollow-503/UniM2AE.
翻訳日:2023-08-22 15:29:26 公開日:2023-08-21
# 偶数個の暗号に対する鍵リカバリ攻撃に対する量子クエリ下限

Quantum Query Lower Bounds for Key Recovery Attacks on the Even-Mansour Cipher ( http://arxiv.org/abs/2308.10418v1 )

ライセンス: Link先を確認
Akinori Kawachi and Yuki Naito(参考訳) Even-Mansour (EM)暗号はブロック暗号の有名な構成の一つである。 クワカドとモリイは、量子敵が$n$-bit秘密鍵を$O(n)$非適応量子クエリで回収できることを実証した。 EM暗号とその変種のセキュリティは、古典的な敵に対してよく理解されているが、量子セキュリティについてはほとんど知られていない。 EM暗号の量子セキュリティや量子反転の限界をよりよく理解するために、EM暗号のキーリカバリのための量子クエリ複雑性を研究し、適応的なクエリが可能であるとしても、全ての量子アルゴリズムがキーリカバリのために$\Omega(n)$の量子クエリを必要とすることを証明した。 したがって, クワカドとモリイの量子攻撃は, 最適クエリ複雑性を定数まで持ち, 適応的な量子クエリにおいても漸近的に改善することはできない。

The Even-Mansour (EM) cipher is one of the famous constructions for a block cipher. Kuwakado and Morii demonstrated that a quantum adversary can recover its $n$-bit secret keys only with $O(n)$ nonadaptive quantum queries. While the security of the EM cipher and its variants is well-understood for classical adversaries, very little is currently known of their quantum security. Towards a better understanding of the quantum security, or the limits of quantum adversaries for the EM cipher, we study the quantum query complexity for the key recovery of the EM cipher and prove every quantum algorithm requires $\Omega(n)$ quantum queries for the key recovery even if it is allowed to make adaptive queries. Therefore, the quantum attack of Kuwakado and Morii has the optimal query complexity up to a constant factor, and we cannot asymptotically improve it even with adaptive quantum queries.
翻訳日:2023-08-22 15:28:51 公開日:2023-08-21
# 3Dで見たくなる変化(動画あり)

The Change You Want to See (Now in 3D) ( http://arxiv.org/abs/2308.10417v1 )

ライセンス: Link先を確認
Ragav Sachdeva, Andrew Zisserman(参考訳) この論文の目的は、異なるカメラ位置から取得した同じ3dシーンの2つの「野生の」画像と、異なる時間的インスタンスで何が変わったかを検出することである。 この問題のオープンセットの性質、視点の変化によるオクルージョン/ディクルージョン、適切なトレーニングデータセットの欠如は、ソリューションを開発する上で大きな課題となっている。 この問題に対処するために,我々は,合成データに基づいて完全にトレーニングされ,クラスに依存しない変更検出モデルを提案する。 我々のソリューションは、自己教師付き凍結埋め込みと特徴差を利用した「登録と差異」アプローチを伴い、モデルが様々な場面や領域に一般化できるようにする。 このモデルでは、2つのRGB画像を直接操作することが可能で、地平線カメラの内在性、外在性、深度マップ、点雲、追加の事前画像にアクセスする必要はない。 最後に,人間に注釈を付けた実世界のイメージペアからなる新しい評価データセットを収集し,本手法の有効性を実証する。 コード、データセット、事前トレーニングされたモデルは以下の通りである。

The goal of this paper is to detect what has changed, if anything, between two "in the wild" images of the same 3D scene acquired from different camera positions and at different temporal instances. The open-set nature of this problem, occlusions/dis-occlusions due to the shift in viewpoint, and the lack of suitable training datasets, presents substantial challenges in devising a solution. To address this problem, we contribute a change detection model that is trained entirely on synthetic data and is class-agnostic, yet it is performant out-of-the-box on real world images without requiring fine-tuning. Our solution entails a "register and difference" approach that leverages self-supervised frozen embeddings and feature differences, which allows the model to generalise to a wide variety of scenes and domains. The model is able to operate directly on two RGB images, without requiring access to ground truth camera intrinsics, extrinsics, depth maps, point clouds, or additional before-after images. Finally, we collect and release a new evaluation dataset consisting of real-world image pairs with human-annotated differences and demonstrate the efficacy of our method. The code, datasets and pre-trained model can be found at: https://github.com/ragavsachdeva/CYWS-3D
翻訳日:2023-08-22 15:28:32 公開日:2023-08-21
# TokenSplit: 直接, 精製, トランスクリプトによる音声分離・認識のための離散音声表現

TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition ( http://arxiv.org/abs/2308.10415v1 )

ライセンス: Link先を確認
Hakan Erdogan, Scott Wisdom, Xuankai Chang, Zal\'an Borsos, Marco Tagliasacchi, Neil Zeghidour, John R. Hershey(参考訳) 本研究では,離散トークン列に作用する音声分離モデルであるtokensplitを提案する。 モデルは複数のタスクで同時にトレーニングされ、各音声ソースを分離して書き起こし、テキストから音声を生成する。 このモデルは書き起こしとオーディオトークンシーケンスで動作し、入力をマスキングすることで複数のタスクを達成する。 このモデルはTransformerアーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。 また,従来の分離モデルにより分離された音声の音声トークンから,拡張された音声トークンを予測するモデルの改良版も提示する。 客観的指標と主観的mushraリスニングテストの両方を用いて,本モデルが書き起こし条件付けの有無に関わらず,分離の観点から優れた性能が得られることを示す。 また、自動音声認識(ASR)の性能を測定し、音声合成のサンプルを提供し、我々のモデルの有用性を実証する。

We present TokenSplit, a speech separation model that acts on discrete token sequences. The model is trained on multiple tasks simultaneously: separate and transcribe each speech source, and generate speech from text. The model operates on transcripts and audio token sequences and achieves multiple tasks through masking of inputs. The model is a sequence-to-sequence encoder-decoder model that uses the Transformer architecture. We also present a "refinement" version of the model that predicts enhanced audio tokens from the audio tokens of speech separated by a conventional separation model. Using both objective metrics and subjective MUSHRA listening tests, we show that our model achieves excellent performance in terms of separation, both with or without transcript conditioning. We also measure the automatic speech recognition (ASR) performance and provide audio samples of speech synthesis to demonstrate the additional utility of our model.
翻訳日:2023-08-22 15:28:10 公開日:2023-08-21
# コインを投げるのではなく、ゲームをするメカニズム

Mechanisms that play a game, not toss a coin ( http://arxiv.org/abs/2308.10413v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) ランダム化機構は、決定論的機構と比較して良い規範的特性を持つことができる。 しかし、ランダム化されたメカニズムは、検証可能性などいくつかの方法で問題となる。 ここでは,コインを投げるのではなく,エージェントにゲームをさせる仕組みを提案する。 ゲームはエージェントの最善のアクションがランダムにプレイするように設計され、このプレイはメカニズムに ``randomness'' を注入する。 この非ランダム化は、元のランダム化機構の良質な規範的性質の多くを保ちながら、決定論的で、例えば監査が容易なメカニズムを与える。 ランダム化メカニズムを6つの異なる領域でデランドマイズする方法として,投票,施設配置,タスク割り当て,学校選択,ピア選択,リソース割り当ての3つを検討した。 本稿では,この6つの領域において,ノルマ的性質に優れた非ランダム化機構をいくつか提案する。 各機構は混合ナッシュ平衡を持ち、エージェントは一様混合戦略を持つモジュラーな算術ゲームを行う。 1つの混合ナッシュ均衡を除いて、エージェントは元の問題を誠実に報告する。 分割された方法は ``quasi-strategy proof''' である。 1つの領域において、さらに、新しい望ましい規範的性質が非ランダム化の結果出現することを示す。

Randomized mechanisms can have good normative properties compared to their deterministic counterparts. However, randomized mechanisms are problematic in several ways such as in their verifiability. We propose here to derandomize such mechanisms by having agents play a game instead of tossing a coin. The game is designed so an agent's best action is to play randomly, and this play then injects ``randomness'' into the mechanism. This derandomization retains many of the good normative properties of the original randomized mechanism but gives a mechanism that is deterministic and easy, for instance, to audit. We consider three related methods to derandomize randomized mechanism in six different domains: voting, facility location, task allocation, school choice, peer selection, and resource allocation. We propose a number of novel derandomized mechanisms for these six domains with good normative properties. Each mechanism has a mixed Nash equilibrium in which agents play a modular arithmetic game with an uniform mixed strategy. In all but one mixed Nash equilibrium, agents report their preferences over the original problem sincerely. The derandomized methods are thus ``quasi-strategy proof''. In one domain, we additionally show that a new and desirable normative property emerges as a result of derandomization.
翻訳日:2023-08-22 15:27:54 公開日:2023-08-21
# RGB-Dデータを用いた試験管内位置推定

In-Rack Test Tube Pose Estimation Using RGB-D Data ( http://arxiv.org/abs/2308.10411v1 )

ライセンス: Link先を確認
Hao Chen, Weiwei Wan, Masaki Matsushita, Takeyuki Kotaka, Kensuke Harada(参考訳) 生物・医療産業における試験管の正確なロボット操作は、労働力不足に対処し、労働者の安全を改善するためにますます重要になっている。 試験管の検出と位置決めはロボットが試験管をうまく操作するのに不可欠である。 本稿では,色と深度データを用いたインラック試験管のポーズの検出と推定を行うフレームワークを提案する。 この手法は、提供された画像データ内の試験管と管ラックの両方を効果的に分類し、ローカライズするために、YOLOオブジェクト検出器を利用する。 その後、点雲登録技術によりチューブラックのポーズを推定する。 実験管のポーズを推定する過程で,ラックスロットの配置から導かれる制約を考慮に入れた。 最適化に基づくアルゴリズムを用いることで,実験管のポーズを効果的に評価・改善する。 この戦略的アプローチは、ノイズと不完全なポイントクラウドデータに直面した場合でも、ポーズ推定の堅牢性を保証する。

Accurate robotic manipulation of test tubes in biology and medical industries is becoming increasingly important to address workforce shortages and improve worker safety. The detection and localization of test tubes are essential for the robots to successfully manipulate test tubes. In this paper, we present a framework to detect and estimate poses for the in-rack test tubes using color and depth data. The methodology involves the utilization of a YOLO object detector to effectively classify and localize both the test tubes and the tube racks within the provided image data. Subsequently, the pose of the tube rack is estimated through point cloud registration techniques. During the process of estimating the poses of the test tubes, we capitalize on constraints derived from the arrangement of rack slots. By employing an optimization-based algorithm, we effectively evaluate and refine the pose of the test tubes. This strategic approach ensures the robustness of pose estimation, even when confronted with noisy and incomplete point cloud data.
翻訳日:2023-08-22 15:27:36 公開日:2023-08-21
# ウィキペディアスタイルサーベイ生成における大規模言語モデル:NLP概念の評価

Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts ( http://arxiv.org/abs/2308.10410v1 )

ライセンス: Link先を確認
Fan Gao, Hang Jiang, Moritz Blum, Jinghui Lu, Yuang Jiang, Irene Li(参考訳) 大規模言語モデル(LLM)は、質問応答、要約、機械翻訳などを含む様々な自然言語処理(NLP)タスクで大きな成功を収めている。 LLMは一般的なタスクでは優れているが、ドメイン固有のアプリケーションでの有効性は検討中である。 加えて、LLM生成したテキストは幻覚や偽情報などの問題を示すこともある。 本研究では,コンピュータサイエンス-NLP領域におけるLLMの簡潔な調査項目作成能力について,20のトピックに焦点をあてて評価する。 自動評価は、GPT-4がGPT-3.5より優れていることを示している。 さらに、4人の人間評価者が4つのモデル構成の6つの視点から洞察を提供する。 ケーススタディを通して、gptはしばしば賞賛すべき結果をもたらすが、不完全な情報や事実の正確さの欠落の展示のような欠点の例があることを示す。

Large Language Models (LLMs) have achieved significant success across various natural language processing (NLP) tasks, encompassing question-answering, summarization, and machine translation, among others. While LLMs excel in general tasks, their efficacy in domain-specific applications remains under exploration. Additionally, LLM-generated text sometimes exhibits issues like hallucination and disinformation. In this study, we assess LLMs' capability of producing concise survey articles within the computer science-NLP domain, focusing on 20 chosen topics. Automated evaluations indicate that GPT-4 outperforms GPT-3.5 when benchmarked against the ground truth. Furthermore, four human evaluators provide insights from six perspectives across four model configurations. Through case studies, we demonstrate that while GPT often yields commendable results, there are instances of shortcomings, such as incomplete information and the exhibition of lapses in factual accuracy.
翻訳日:2023-08-22 15:27:21 公開日:2023-08-21
# LDCSF:マルチラベル病理像の分類のための局所深度畳み込みに基づくSwimフレームワーク

LDCSF: Local depth convolution-based Swim framework for classifying multi-label histopathology images ( http://arxiv.org/abs/2308.10446v1 )

ライセンス: Link先を確認
Liangrui Pan, Yutao Dou, Zhichao Feng, Liwen Xu, Shaoliang Peng(参考訳) 病理組織像は肝癌診断の金本位制である。 しかし、計算病理学における完全デジタル診断の精度は向上する必要がある。 本稿では, マルチラベル画像の分類精度の低さを解消するために, 多ラベル画像の分類を行うための局所的深層畳み込みスイムフレームワーク(LDCSF)を提案する。 スウィントランスモジュール,ローカル深度畳み込み(LDC)モジュール,特徴再構成(FR)モジュール,ResNetモジュールで構成されるLCCSFモデルを提案する。 Swin変換モジュールは、各ウィンドウへの注意を制限することにより、注意機構によって生成される計算量を削減する。 ldcはアテンションマップを再構築し、複数のチャネルで畳み込み操作を行い、次のレイヤに特徴マップを渡す。 FRモジュールは、チャネルから得られる対応する重み係数ベクトルを元の特徴写像ベクトル行列と共にドット積とし、代表特徴写像を生成する。 最後に、残差ネットワークが最終分類タスクを実行する。 その結果,間質領域,壊死,非腫瘍,腫瘍のLCCSFの分類精度は0.9460,0.9960,0.9808,0.9847であった。 最後に,肝癌病理像の微小環境解析の基礎となる腫瘍と間質の比を計算するために,多層病理像分類の結果を用いた。 第2に,肝癌のマルチラベル病理像,コードとデータはhttps://github.com/panliangrui/LSFで公開されている。

Histopathological images are the gold standard for diagnosing liver cancer. However, the accuracy of fully digital diagnosis in computational pathology needs to be improved. In this paper, in order to solve the problem of multi-label and low classification accuracy of histopathology images, we propose a locally deep convolutional Swim framework (LDCSF) to classify multi-label histopathology images. In order to be able to provide local field of view diagnostic results, we propose the LDCSF model, which consists of a Swin transformer module, a local depth convolution (LDC) module, a feature reconstruction (FR) module, and a ResNet module. The Swin transformer module reduces the amount of computation generated by the attention mechanism by limiting the attention to each window. The LDC then reconstructs the attention map and performs convolution operations in multiple channels, passing the resulting feature map to the next layer. The FR module uses the corresponding weight coefficient vectors obtained from the channels to dot product with the original feature map vector matrix to generate representative feature maps. Finally, the residual network undertakes the final classification task. As a result, the classification accuracy of LDCSF for interstitial area, necrosis, non-tumor and tumor reached 0.9460, 0.9960, 0.9808, 0.9847, respectively. Finally, we use the results of multi-label pathological image classification to calculate the tumor-to-stromal ratio, which lays the foundation for the analysis of the microenvironment of liver cancer histopathological images. Second, we released a multilabel histopathology image of liver cancer, our code and data are available at https://github.com/panliangrui/LSF.
翻訳日:2023-08-22 15:20:04 公開日:2023-08-21
# プロンプトベースインクリメンタル学習が強い事前学習を満たさない場合

When Prompt-based Incremental Learning Does Not Meet Strong Pretraining ( http://arxiv.org/abs/2308.10445v1 )

ライセンス: Link先を確認
Yu-Ming Tang, Yi-Xing Peng, Wei-Shi Zheng(参考訳) インクリメンタル学習は、シーケンシャルなタスクからディープネットワークを学ぶ際の破滅的な忘れを克服することを目的としている。 優れた学習効率と性能により、プロンプトベースのメソッドはタスク固有のプロンプトを学習することで、シーケンシャルなタスクに固定されたバックボーンを採用する。 しかし、既存のプロンプトベースの手法は強い事前学習(通常はimagenet-21kで訓練されている)に大きく依存しており、事前学習タスクと未知の将来のタスクの間の潜在的なギャップが大きい場合、モデルが捕捉される可能性がある。 本研究では,学習可能な適応型プロンプトジェネレータ(APG)を開発した。 鍵となるのは、プロンプト検索と学習プロセスを学習可能なプロンプトジェネレータに統一することである。 したがって、タスク間のギャップの悪影響を効果的に低減するために、プロンプトプロセス全体を最適化することができる。 APGが非効率な知識を学習することを避けるため、各クラスの特徴分布に合わせてAPGを正規化するための知識プールを維持します。 大規模な実験により,本手法は事前学習を伴わずに,先進的な漸進的学習法よりも優れていることが示された。 さらに,強いリトレーニングの下では,既存のプロンプトベースモデルと同等の性能を持つため,プリトレーニングによるメリットも期待できる。 コードはhttps://github.com/TOM-tym/APGで見ることができる。

Incremental learning aims to overcome catastrophic forgetting when learning deep networks from sequential tasks. With impressive learning efficiency and performance, prompt-based methods adopt a fixed backbone to sequential tasks by learning task-specific prompts. However, existing prompt-based methods heavily rely on strong pretraining (typically trained on ImageNet-21k), and we find that their models could be trapped if the potential gap between the pretraining task and unknown future tasks is large. In this work, we develop a learnable Adaptive Prompt Generator (APG). The key is to unify the prompt retrieval and prompt learning processes into a learnable prompt generator. Hence, the whole prompting process can be optimized to reduce the negative effects of the gap between tasks effectively. To make our APG avoid learning ineffective knowledge, we maintain a knowledge pool to regularize APG with the feature distribution of each class. Extensive experiments show that our method significantly outperforms advanced methods in exemplar-free incremental learning without (strong) pretraining. Besides, under strong retraining, our method also has comparable performance to existing prompt-based models, showing that our method can still benefit from pretraining. Codes can be found at https://github.com/TOM-tym/APG
翻訳日:2023-08-22 15:19:35 公開日:2023-08-21
# ダイナミックストラテジーチェーン:長期メンタルヘルス支援のための動的ゼロショットCoT

Dynamic Strategy Chain: Dynamic Zero-Shot CoT for Long Mental Health Support Generation ( http://arxiv.org/abs/2308.10444v1 )

ライセンス: Link先を確認
Qi Chen, Dexi Liu(参考訳) 長期カウンセリング・テキスト・ジェネレーション・フォー・メンタル・ヘルス・サポート(LTGM)は、革新的で挑戦的な課題であり、より包括的で受け入れられる応答を通じて、メンタル・ヘルス・サポートを提供する。 chain-of-thought (cot) プロンプトと large language model (llms) の組み合わせを採用し、様々な nlp タスク、特にテキスト生成タスクで sota のパフォーマンスを得る。 ゼロショットCoTプロンプトは、CoTプロンプトで最も一般的な方法の1つである。 しかし、LTGMタスクでは、ゼロショットCoTプロンプトは、効果的なメンタルヘルスカウンセリング戦略プロンプトなしでカウンセラーをシミュレートしたり、パーソナライズされた戦略を提供できない。 この課題に取り組むために,ゼロショット動的戦略チェイン(dsc)プロンプト手法を提案する。 まず,GPT2を用いてメンタルヘルスカウンセラーの回答を学習し,支援者のニーズに合わせたメンタルヘルスカウンセリング戦略を動的に生成する。 第2に、Zero-shot DSCプロンプトはメンタルヘルスカウンセリング戦略とヘルプシーカーの投稿に基づいて構築される。 最後に、Zero-shot DSCプロンプトを使用して、LLMをガイドし、ヘルプシーカーに対してより人間的な応答を生成する。 自動評価と手動評価の両方で、Zero-shot DSCプロンプトは、LTGMタスク上のCoTプロンプトメソッドよりも人間的な応答を提供する。

Long counseling Text Generation for Mental health support (LTGM), an innovative and challenging task, aims to provide help-seekers with mental health support through a comprehensive and more acceptable response. The combination of chain-of-thought (CoT) prompting and Large Language Models (LLMs) is employed and get the SOTA performance on various NLP tasks, especially on text generation tasks. Zero-shot CoT prompting is one of the most common methods in CoT prompting. However, in the LTGM task, Zero-shot CoT prompting can not simulate a counselor or provide personalized strategies without effective mental health counseling strategy prompts. To tackle this challenge, we propose a zero-shot Dynamic Strategy Chain (DSC) prompting method. Firstly, we utilize GPT2 to learn the responses written by mental health counselors and dynamically generate mental health counseling strategies tailored to the help-seekers' needs. Secondly, the Zero-shot DSC prompting is constructed according to mental health counseling strategies and the help-seekers' post. Finally, the Zero-shot DSC prompting is employed to guide LLMs in generating more human-like responses for the help-seekers. Both automatic and manual evaluations demonstrate that Zero-shot DSC prompting can deliver more human-like responses than CoT prompting methods on LTGM tasks.
翻訳日:2023-08-22 15:19:12 公開日:2023-08-21
# 大規模言語モデルを用いたサイバーセキュリティキャプチャー-フラッグ問題と認定問題

Using Large Language Models for Cybersecurity Capture-The-Flag Challenges and Certification Questions ( http://arxiv.org/abs/2308.10443v1 )

ライセンス: Link先を確認
Wesley Tann, Yuancheng Liu, Jun Heng Sim, Choon Meng Seah, Ee-Chien Chang(参考訳) cybersecurity capture-the-flag(ctf)エクササイズの評価は、システムの脆弱性を悪用することで、参加者がテキスト文字列や ``flags'' を見つけることを伴う。 大規模言語モデル(英語版)(llm)は、テキストを理解し、生成するために膨大な量の単語で訓練された自然言語モデルである。 このようなLSMは学生に無料で提供される。 教室でのCTF演習の文脈において、これは学術的整合性に関する懸念を提起する。 教育者は、ジェネレーティブAI支援に対応するために、LLMが教えを変更する能力を理解する必要がある。 本研究では,LCMの有効性,特にCTFの課題と課題の領域において検討する。 ここでは、OpenAI ChatGPT、Google Bard、Microsoft Bingの3つの人気のあるLCMを評価します。 まず,難易度が異なる5つのCisco認定試験において,LLMの質問応答性能を評価する。 次に,その限界を理解するために CTF 課題を解決するための LLM の能力について質的に検討する。 5種類のctf課題すべてにおいて,7つのテストケースでllmを使用した経験について報告する。 さらに, 脱獄プロンプトが LLM の倫理的保護をバイパスし, 破壊する様子を実証する。 本稿は、LCMがCTF運動に与える影響とその影響について論じる。

The assessment of cybersecurity Capture-The-Flag (CTF) exercises involves participants finding text strings or ``flags'' by exploiting system vulnerabilities. Large Language Models (LLMs) are natural-language models trained on vast amounts of words to understand and generate text; they can perform well on many CTF challenges. Such LLMs are freely available to students. In the context of CTF exercises in the classroom, this raises concerns about academic integrity. Educators must understand LLMs' capabilities to modify their teaching to accommodate generative AI assistance. This research investigates the effectiveness of LLMs, particularly in the realm of CTF challenges and questions. Here we evaluate three popular LLMs, OpenAI ChatGPT, Google Bard, and Microsoft Bing. First, we assess the LLMs' question-answering performance on five Cisco certifications with varying difficulty levels. Next, we qualitatively study the LLMs' abilities in solving CTF challenges to understand their limitations. We report on the experience of using the LLMs for seven test cases in all five types of CTF challenges. In addition, we demonstrate how jailbreak prompts can bypass and break LLMs' ethical safeguards. The paper concludes by discussing LLM's impact on CTF exercises and its implications.
翻訳日:2023-08-22 15:18:43 公開日:2023-08-21
# Dysuse: 動的ソーシャルネットワークにおけるサセプティビリティ推定

DySuse: Susceptibility Estimation in Dynamic Social Networks ( http://arxiv.org/abs/2308.10442v1 )

ライセンス: Link先を確認
Yingdan Shi, Jingya Zhou, Congcong Zhang(参考訳) 影響推定はソーシャルネットワークにおける影響全体の予測を目的としており、近年は注目を集めている。 最近の研究は、ソーシャルネットワークにおける影響ユーザの総数の推定と、個々の視点から影響されたユーザの確率を予測することを目的とした感受性推定を無視することに焦点を当てている。 よりきめ細かな見積もりタスクとして、感受性評価は魅力と実用的価値に満ちている。 本稿では,ソーシャルネットワークにおける感受性推定と動的特性の意義に基づいて,動的ソーシャルネットワークにおける感受性推定という課題を提案する。 動的ネットワークの感受性推定は未だ検討されておらず,モンテカルロシミュレーションを適用して結果を得るには,計算上難解である。 そこで本稿では,動的グラフ埋め込み技術に基づく新しいエンドツーエンドフレームワークDySuseを提案する。 具体的には、構造的特徴モジュールを利用して、各グラフスナップショットに対する影響拡散の構造情報を独立に取得する。 さらに, 影響拡散の特性に応じた進行的メカニズムを提案し, 拡散中の構造的情報と時間的情報を密に結合する。 さらに, 過去のタイムスタンプを柔軟に重み付けすることにより, 時間依存性を更に捉えるように自己付着ブロックが設計されている。 実験により,本フレームワークは既存の動的グラフ埋め込みモデルよりも優れ,複数の影響拡散モデルにおいて良好な予測性能を有することが示された。

Influence estimation aims to predict the total influence spread in social networks and has received surged attention in recent years. Most current studies focus on estimating the total number of influenced users in a social network, and neglect susceptibility estimation that aims to predict the probability of each user being influenced from the individual perspective. As a more fine-grained estimation task, susceptibility estimation is full of attractiveness and practical value. Based on the significance of susceptibility estimation and dynamic properties of social networks, we propose a task, called susceptibility estimation in dynamic social networks, which is even more realistic and valuable in real-world applications. Susceptibility estimation in dynamic networks has yet to be explored so far and is computationally intractable to naively adopt Monte Carlo simulation to obtain the results. To this end, we propose a novel end-to-end framework DySuse based on dynamic graph embedding technology. Specifically, we leverage a structural feature module to independently capture the structural information of influence diffusion on each single graph snapshot. Besides, {we propose the progressive mechanism according to the property of influence diffusion,} to couple the structural and temporal information during diffusion tightly. Moreover, a self-attention block {is designed to} further capture temporal dependency by flexibly weighting historical timestamps. Experimental results show that our framework is superior to the existing dynamic graph embedding models and has satisfactory prediction performance in multiple influence diffusion models.
翻訳日:2023-08-22 15:18:23 公開日:2023-08-21
# x-voe: 物理的事象における期待の説明的違反の測定

X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events ( http://arxiv.org/abs/2308.10441v1 )

ライセンス: Link先を確認
Bo Dai, Linge Wang, Baoxiong Jia, Zeyu Zhang, Song-Chun Zhu, Chi Zhang, Yixin Zhu(参考訳) 直観物理学は物理的世界に対する人間の理解にとって重要なものであり、幼少期でさえ出来事の予測と解釈を可能にする。 それでも、このレベルの直感的な物理学を人工知能(AI)で再現することは、まだまだ難しい課題だ。 本研究では,aiエージェントによる直感的物理学の把握を評価するために,総合ベンチマークデータセットであるx-voeを導入する。 発達心理学に基づく期待の違反(voe)パラダイムに基づいて、x-voeは直感的物理学モデルの説明能力のより高いバーを確立する。 X-VoE内の各VoEシナリオは、3つの異なる設定を含んでおり、モデルによるイベントの理解とその基礎となる説明を探索している。 モデル評価以外にも, 物理力学をキャプチャし, 明示的なオクルージョンラベルを使わずに, 視覚シーケンスのみからオクルードされた物体状態を推定する説明ベース学習システムを提案する。 実験結果は、X-VoEに対してテストした場合、モデルと人間の常識との整合性を強調します。 特筆すべき特徴は、隠れたシーンを再構築することでVoEイベントを視覚的に説明できることです。 結論として,調査結果の意義を議論し,今後の研究の方向性を概説する。 X-VoEを通じて、人間のような直感的な物理能力を備えたAIの進歩を触媒する。

Intuitive physics is pivotal for human understanding of the physical world, enabling prediction and interpretation of events even in infancy. Nonetheless, replicating this level of intuitive physics in artificial intelligence (AI) remains a formidable challenge. This study introduces X-VoE, a comprehensive benchmark dataset, to assess AI agents' grasp of intuitive physics. Built on the developmental psychology-rooted Violation of Expectation (VoE) paradigm, X-VoE establishes a higher bar for the explanatory capacities of intuitive physics models. Each VoE scenario within X-VoE encompasses three distinct settings, probing models' comprehension of events and their underlying explanations. Beyond model evaluation, we present an explanation-based learning system that captures physics dynamics and infers occluded object states solely from visual sequences, without explicit occlusion labels. Experimental outcomes highlight our model's alignment with human commonsense when tested against X-VoE. A remarkable feature is our model's ability to visually expound VoE events by reconstructing concealed scenes. Concluding, we discuss the findings' implications and outline future research directions. Through X-VoE, we catalyze the advancement of AI endowed with human-like intuitive physics capabilities.
翻訳日:2023-08-22 15:18:02 公開日:2023-08-21
# ディープニューラルネットワークにおける層適応重みプルーニングの効率的統合最適化

Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep Neural Networks ( http://arxiv.org/abs/2308.10438v1 )

ライセンス: Link先を確認
Kaixin Xu, Zhe Wang, Xue Geng, Min Wu, Xiaoli Li, Weisi Lin(参考訳) 本稿では,ニューラルネットワーク(dnn)の層適応型重み追従手法を提案し,目標追従比制約に固執しながら出力歪み最小化を最適化する課題を解決する。 当社のアプローチでは,層適応型刈り取り方式の設計におけるすべてのレイヤの集団的影響を考慮に入れる。 複数の層に重みをまき散らすことによって生じる出力歪みの非常に重要な付加性を発見し,活用する。 この特性により、組合せ最適化問題としてプルーニングを定式化し、動的プログラミングにより効率よく解くことができる。 問題を部分問題に分解することで、線形時間複雑性を実現し、最適化アルゴリズムを高速かつcpu上で実行可能にする。 我々は,imagenet および cifar-10 データセットの既存手法に対するアプローチの優位性を示す実験を行った。 CIFAR-10では,ResNet-32では最大1.0%,VGG-16では0.5%,DenseNet-121では0.7%に向上した。 ImageNetでは、VGG-16とResNet-50の他の手法と比較して最大4.7%、トップ1の精度が4.6%向上した。 これらの結果はDNN性能向上のための手法の有効性と実用性を強調した。 コードはhttps://github.com/Akimoto-Cris/RD_VIT_PRUNEで入手できる。

In this paper, we propose a novel layer-adaptive weight-pruning approach for Deep Neural Networks (DNNs) that addresses the challenge of optimizing the output distortion minimization while adhering to a target pruning ratio constraint. Our approach takes into account the collective influence of all layers to design a layer-adaptive pruning scheme. We discover and utilize a very important additivity property of output distortion caused by pruning weights on multiple layers. This property enables us to formulate the pruning as a combinatorial optimization problem and efficiently solve it through dynamic programming. By decomposing the problem into sub-problems, we achieve linear time complexity, making our optimization algorithm fast and feasible to run on CPUs. Our extensive experiments demonstrate the superiority of our approach over existing methods on the ImageNet and CIFAR-10 datasets. On CIFAR-10, our method achieves remarkable improvements, outperforming others by up to 1.0% for ResNet-32, 0.5% for VGG-16, and 0.7% for DenseNet-121 in terms of top-1 accuracy. On ImageNet, we achieve up to 4.7% and 4.6% higher top-1 accuracy compared to other methods for VGG-16 and ResNet-50, respectively. These results highlight the effectiveness and practicality of our approach for enhancing DNN performance through layer-adaptive weight pruning. Code will be available on https://github.com/Akimoto-Cris/RD_VIT_PRUNE.
翻訳日:2023-08-22 15:17:41 公開日:2023-08-21
# ダイヤモンド中の窒素空洞中心を用いた交流磁界検出のための逐次読み出しの周波数制限

Frequency limits of sequential readout for sensing AC magnetic fields using nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2308.10437v1 )

ライセンス: Link先を確認
Santosh Ghimire and Seong-Joo Lee and Sangwon Oh and Jeong Hyun Shim(参考訳) ダイヤモンド中の窒素空隙(nv)中心は、高空間分解能の交流電流(ac)磁場を感知する能力を有する。 しかし, 動的デカップリング(DD)配列に基づく交流検出プロトコルの周波数範囲は, 実験的に検討されていない。 本研究では,逐次読み出し法を用いて交流磁界の感度を周波数関数として決定することを目的とした。 高周波における上限は、有限DDパルス幅の期待効果に従って、Rabi周波数によって明確に決定される。 対照的に、低い周波数制限は、主にNVスピンのデコヒーレンス時間(T$_2$)ではなく、光再分極の持続時間によって支配される。 これは、取得帯域幅を維持するためにシーケンシャルな読み出しの反復時間(dwell)が固定されると、特に重要になる。 提案する方程式は周波数依存性の傾向をうまく記述する。 さらに1mhzに近い周波数でxy4-(4) dd系列を用いて最大感度を229 pt/$\sqrt{\mathrm{hz}}$とした。

The nitrogen-vacancy (NV) centers in diamond have ability to sense alternating-current (AC) magnetic fields with high spatial resolution. However, the frequency range of AC sensing protocols based on dynamical decoupling (DD) sequences has not been thoroughly explored experimentally. In this work, we aimed to determine the sensitivity of ac magnetic field as a function of frequency using sequential readout method. The upper limit at high frequency is clearly determined by Rabi frequency, in line with the expected effect of finite DD-pulse width. In contrast, the lower frequency limit is primarily governed by the duration of optical repolarization rather than the decoherence time (T$_2$) of NV spins. This becomes particularly crucial when the repetition (dwell) time of the sequential readout is fixed to maintain the acquisition bandwidth. The equation we provide successfully describes the tendency in the frequency dependence. In addition, at the near-optimal frequency of 1 MHz, we reached a maximum sensitivity of 229 pT/$\sqrt{\mathrm{Hz}}$ by employing the XY4-(4) DD sequence.
翻訳日:2023-08-22 15:17:20 公開日:2023-08-21
# 近似等変グラフネットワーク

Approximately Equivariant Graph Networks ( http://arxiv.org/abs/2308.10436v1 )

ライセンス: Link先を確認
Ningyuan Huang, Ron Levie, Soledad Villar(参考訳) グラフニューラルネットワーク(GNN)は一般的に、グラフ内のノードレバーベリングに対する置換同変として記述される。 GNNのこの対称性はユークリッド畳み込みニューラルネットワーク(CNN)の翻訳同値対称性と比較されることが多い。 しかし、これらの2つの対称性は根本的に異なる: cnnの変換同分散は画像信号に作用する固定領域の対称性(しばしばアクティブ対称性と呼ばれる)に対応し、gnnでは任意の置換がグラフ信号とグラフ領域の両方に作用する(しばしばパッシブ対称性と呼ばれる)。 本研究では,GNNのアクティブな対称性に着目し,信号が固定されたグラフ上でサポートされる学習環境を検討する。 この場合、GNNの自然な対称性はグラフの自己同型である。 実世界のグラフは非対称である傾向があるので、グラフの粗化によって近似対称性を形式化することで対称性の概念を緩和する。 選択した対称性群に応じて,表現率の損失と学習推定器の正則性の利得とのトレードオフを定量化するバイアス分散式を提案する。 提案手法を説明するために, 画像の塗り絵, 交通流予測, および, 対称性の異なる人間のポーズ推定に関する広範な実験を行った。 グラフ自己同型群よりも好ましく、全置換群より小さい群を選択することにより、最適一般化性能が達成できることを理論的かつ実証的に示す。

Graph neural networks (GNNs) are commonly described as being permutation equivariant with respect to node relabeling in the graph. This symmetry of GNNs is often compared to the translation equivariance symmetry of Euclidean convolution neural networks (CNNs). However, these two symmetries are fundamentally different: The translation equivariance of CNNs corresponds to symmetries of the fixed domain acting on the image signal (sometimes known as active symmetries), whereas in GNNs any permutation acts on both the graph signals and the graph domain (sometimes described as passive symmetries). In this work, we focus on the active symmetries of GNNs, by considering a learning setting where signals are supported on a fixed graph. In this case, the natural symmetries of GNNs are the automorphisms of the graph. Since real-world graphs tend to be asymmetric, we relax the notion of symmetries by formalizing approximate symmetries via graph coarsening. We present a bias-variance formula that quantifies the tradeoff between the loss in expressivity and the gain in the regularity of the learned estimator, depending on the chosen symmetry group. To illustrate our approach, we conduct extensive experiments on image inpainting, traffic flow prediction, and human pose estimation with different choices of symmetries. We show theoretically and empirically that the best generalization performance can be achieved by choosing a suitably larger group than the graph automorphism group, but smaller than the full permutation group.
翻訳日:2023-08-22 15:17:00 公開日:2023-08-21
# GPT-in-the-Loop:マルチエージェントシステムのための適応的意思決定

GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems ( http://arxiv.org/abs/2308.10435v1 )

ライセンス: Link先を確認
Nathalia Nascimento and Paulo Alencar and Donald Cowan(参考訳) 本稿では,GPT(Generative Pre-trained Transformer)のような大規模言語モデル(LLM)の高度な推論機能とマルチエージェント(MAS)システムを組み合わせた,GPT-in-the-loopアプローチを提案する。 我々のフレームワークは、通常、長いトレーニングプロセスを必要とする従来の適応的アプローチを超えて、問題解決と説明能力の向上にGPT-4を使用している。 実験的な背景は、スマートな街灯IoT(Internet of Things)アプリケーションです。 ここでは、センサー、アクチュエータ、ニューラルネットワークを使ってエネルギー効率の良い照明システムを作る。 GPT-4を統合することで、広範囲な訓練を必要とせず、優れた意思決定と適応性が得られる。 このアプローチを従来の神経進化的手法とソフトウェアエンジニアが提供するソリューションの両方と比較し、iotにおけるgpt駆動マルチエージェントシステムの可能性を概説する。 構造的には、エージェント駆動型モノのインターネットフレームワーク(FIoT)へのGPTの組み入れについて概説し、提案したGPT-in-the-loopアプローチを導入し、IoTコンテキストで比較結果を提示し、洞察と今後の方向性で結論付ける。

This paper introduces the "GPT-in-the-loop" approach, a novel method combining the advanced reasoning capabilities of Large Language Models (LLMs) like Generative Pre-trained Transformers (GPT) with multiagent (MAS) systems. Venturing beyond traditional adaptive approaches that generally require long training processes, our framework employs GPT-4 for enhanced problem-solving and explanation skills. Our experimental backdrop is the smart streetlight Internet of Things (IoT) application. Here, agents use sensors, actuators, and neural networks to create an energy-efficient lighting system. By integrating GPT-4, these agents achieve superior decision-making and adaptability without the need for extensive training. We compare this approach with both traditional neuroevolutionary methods and solutions provided by software engineers, underlining the potential of GPT-driven multiagent systems in IoT. Structurally, the paper outlines the incorporation of GPT into the agent-driven Framework for the Internet of Things (FIoT), introduces our proposed GPT-in-the-loop approach, presents comparative results in the IoT context, and concludes with insights and future directions.
翻訳日:2023-08-22 15:16:38 公開日:2023-08-21
# 超次元空間における教師なし対話トピックセグメンテーション

Unsupervised Dialogue Topic Segmentation in Hyperdimensional Space ( http://arxiv.org/abs/2308.10464v1 )

ライセンス: Link先を確認
Seongmin Park, Jinkyu Seo, Jihwa Lee(参考訳) 教師なし対話トピックセグメンテーションに対する超次元計算(HDC)アプローチであるHyperSegを提案する。 HDCは、非常に高次元(典型的には10,000以上)でランダムに描画されたベクトルの確率論的直交性を利用するベクトル記号アーキテクチャのクラスである。 HDCは、多くの無関係ベクトルを低コストで初期化することで、豊富なトークン表現を生成する。 これは特にトピックセグメンテーションにおいて有益であり、しばしば下流の転写理解タスクのためのリソース制約付き事前処理ステップとして機能する。 hypersegは、5つのセグメンテーションベンチマークのうち4つ(ベースラインが基礎的真実への部分的アクセスを与えられたとしても)で現在の最先端を上回り、平均で10倍高速である。 HyperSegは下流の要約精度も向上することを示す。 HyperSegでは、主要な言語タスクにおけるHDCの生存可能性を示す。 教師なしトピックセグメンテーションのための強力なベースラインを提供するために、HyperSegをオープンソースにしました。

We present HyperSeg, a hyperdimensional computing (HDC) approach to unsupervised dialogue topic segmentation. HDC is a class of vector symbolic architectures that leverages the probabilistic orthogonality of randomly drawn vectors at extremely high dimensions (typically over 10,000). HDC generates rich token representations through its low-cost initialization of many unrelated vectors. This is especially beneficial in topic segmentation, which often operates as a resource-constrained pre-processing step for downstream transcript understanding tasks. HyperSeg outperforms the current state-of-the-art in 4 out of 5 segmentation benchmarks -- even when baselines are given partial access to the ground truth -- and is 10 times faster on average. We show that HyperSeg also improves downstream summarization accuracy. With HyperSeg, we demonstrate the viability of HDC in a major language task. We open-source HyperSeg to provide a strong baseline for unsupervised topic segmentation.
翻訳日:2023-08-22 15:11:08 公開日:2023-08-21
# 大規模言語モデルを用いたコード生成のためのパラメータ効率の良い微調整手法の探索

Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models ( http://arxiv.org/abs/2308.10462v1 )

ライセンス: Link先を確認
Martin Weyssow, Xin Zhou, Kisub Kim, David Lo and Houari Sahraoui(参考訳) 大型言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられた意味のあるコードスニペットを生成する能力を持っている。 彼らの潜在能力を解き放つという観点から、先行研究は、モデルをタスク固有のデータに微調整する利点を実証してきた。 しかし、微調整プロセスは計算コストが重く、資源が不足している場合、特に数十億のパラメータを持つモデルでは難解である。 これらの課題を踏まえて、過去の研究では、微調整なしで文脈的に適切なコードを生成する効果的な戦略として、インコンテキスト学習(ICL)を探求した。 しかし、推論時に動作し、タスク固有のパラメータの学習を伴わないため、下流タスクでのモデルの性能が制限される可能性がある。 この文脈では、パラメータ効率の良い細調整(PEFT)技術は、タスク固有のデータにLLMを効率的に専門化するための高い可能性を持っている。 本稿では,自動化コード生成シナリオにおけるpeft技術の影響について,llmの総合的な研究を行う。 実験結果から, 計算負荷低減と性能向上のため, 広範囲のLCMにおいてICLよりも優れた技術と可能性を示した。 そこで本研究は,ソフトウェア工学のシナリオにおけるPEFTの幅広い応用の機会を開放する。

Large Language Models (LLMs) possess impressive capabilities to generate meaningful code snippets given natural language intents in zero-shot, i.e., without the need for specific fine-tuning. In the perspective of unleashing their full potential, prior work has demonstrated the benefits of fine-tuning the models to task-specific data. However, fine-tuning process demands heavy computational costs and is intractable when resources are scarce, especially for models with billions of parameters. In light of these challenges, previous studies explored In-Context Learning (ICL) as an effective strategy to generate contextually appropriate code without fine-tuning. However, it operates at inference time and does not involve learning task-specific parameters, potentially limiting the model's performance on downstream tasks. In this context, we foresee that Parameter-Efficient Fine-Tuning (PEFT) techniques carry a high potential for efficiently specializing LLMs to task-specific data. In this paper, we deliver a comprehensive study of LLMs with the impact of PEFT techniques under the automated code generation scenario. Our experimental results reveal the superiority and potential of such techniques over ICL on a wide range of LLMs in reducing the computational burden and improving performance. Therefore, the study opens opportunities for broader applications of PEFT in software engineering scenarios.
翻訳日:2023-08-22 15:10:52 公開日:2023-08-21
# ランダム周波数成分を用いたプライバシー保護顔認証

Privacy-Preserving Face Recognition Using Random Frequency Components ( http://arxiv.org/abs/2308.10461v1 )

ライセンス: Link先を確認
Yuxi Mi, Yuge Huang, Jiazhen Ji, Minyi Zhao, Jiaxiang Wu, Xingkun Xu, Shouhong Ding, Shuigeng Zhou(参考訳) 顔認識のユビキタスな利用はプライバシーの懸念を増し、機密性の高い顔画像への不正アクセスは個人の情報を侵害する可能性がある。 本稿では,顔画像の視覚情報のプライバシー保護と回復防止に関する詳細な研究について述べる。 本研究では,人間とモデルとの知覚の差に着目し,人間の知覚可能な低周波成分を刈り取ることにより視覚情報を隠蔽する手法を提案する。 回復を妨げるため,まず,モデル展開可能な情報の減少と高い認識精度の保持のパラドックスを解明した。 近年の理論的知見とモデル注意に関する考察に基づいて、ランダムに選択された周波数成分に対する認識モデルのトレーニングと推論を提唱し、ジレンマに対する解法を提案する。 我々はこの知見を,新たなプライバシー保護型顔認識法であるpartmentfaceに当てはめる。 大規模な実験では、PartialFaceはプライバシー保護目標と認識精度を効果的にバランスしている。 コードはhttps://github.com/tencent/tface.com/。

The ubiquitous use of face recognition has sparked increasing privacy concerns, as unauthorized access to sensitive face images could compromise the information of individuals. This paper presents an in-depth study of the privacy protection of face images' visual information and against recovery. Drawing on the perceptual disparity between humans and models, we propose to conceal visual information by pruning human-perceivable low-frequency components. For impeding recovery, we first elucidate the seeming paradox between reducing model-exploitable information and retaining high recognition accuracy. Based on recent theoretical insights and our observation on model attention, we propose a solution to the dilemma, by advocating for the training and inference of recognition models on randomly selected frequency components. We distill our findings into a novel privacy-preserving face recognition method, PartialFace. Extensive experiments demonstrate that PartialFace effectively balances privacy protection goals and recognition accuracy. Code is available at: https://github.com/Tencent/TFace.
翻訳日:2023-08-22 15:10:32 公開日:2023-08-21
# コンバージェンス解析による差分プライバシを用いた適応型局所学習

Adaptive Local Steps Federated Learning with Differential Privacy Driven by Convergence Analysis ( http://arxiv.org/abs/2308.10457v1 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Zhili Chen(参考訳) Federated Learning(FL)は、複数のデバイスや組織間でデータを共有せずにモデルトレーニングを可能にする分散機械学習技術である。 しかし、flは生データは外部の敵に直接アクセスできないことを保証しているが、敵は差動攻撃によってデータに関する統計情報を得ることができる。 ディファレンシャルプライバシ(dp)が提案されており、モデルや勾配にノイズを追加して、送信されたパラメータからプライベート情報を推測することを防止する。 資源制約のあるシナリオ(民間予算と通信資源)における差分プライバシーフェデレーション学習の枠組みを再考する。 本稿では,資源制約のあるシナリオにおけるフェデレーション学習と微分プライバシ(DPFL)の収束を解析し,適応的局所ステップ微分プライバシフェデレート学習(ALS-DPFL)アルゴリズムを提案する。 fashionmnist と cifar-10 のデータセットでアルゴリズムを実験し,従来よりも優れた性能を実現する。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations without sharing data. However, while FL ensures that the raw data is not directly accessible to external adversaries, adversaries can still obtain some statistical information about the data through differential attacks. Differential Privacy (DP) has been proposed, which adds noise to the model or gradients to prevent adversaries from inferring private information from the transmitted parameters. We reconsider the framework of differential privacy federated learning in resource-constrained scenarios (privacy budget and communication resources). We analyze the convergence of federated learning with differential privacy (DPFL) on resource-constrained scenarios and propose an Adaptive Local Steps Differential Privacy Federated Learning (ALS-DPFL) algorithm. We experiment our algorithm on the FashionMNIST and Cifar-10 datasets and achieve quite good performance relative to previous work.
翻訳日:2023-08-22 15:10:16 公開日:2023-08-21
# 生成AIによるSTEM概念の解明 : アナロジカル推論のマルチモーダル探索

Elucidating STEM Concepts through Generative AI: A Multi-modal Exploration of Analogical Reasoning ( http://arxiv.org/abs/2308.10454v1 )

ライセンス: Link先を確認
Chen Cao, Zijian Ding, Gyeong-Geon Lee, Jiajun Jiao, Jionghao Lin, Xiaoming Zhai(参考訳) 本研究では,科学,技術,工学,数学(STEM)教育を強化する革新的なアプローチとして,生成人工知能(AI),特に大規模言語モデルの統合について検討する。 我々は、生成AIの能力を利用して、数学、物理学、プログラミングの複雑な原理を理解可能な比喩に変換する新しいシステムを開発した。 教育経験をさらに強化するために、これらのメタファーは後に視覚形式に変換される。 本研究の目的は,視覚的メタファーを用いて学習者のSTEM概念の理解を深めることである。 本システムの有効性をランダム化a/b/cテストで検証し,学習者間の学習成果とモチベーションシフトを評価した。 本研究では,STEMにおける教育実践に大規模言語モデルを適用する可能性を示す。 結果は、AIが教育関係者に力を与える可能性を活用するという観点から、教育システムの設計に光を当てることになる。

This study explores the integration of generative artificial intelligence (AI), specifically large language models, with multi-modal analogical reasoning as an innovative approach to enhance science, technology, engineering, and mathematics (STEM) education. We have developed a novel system that utilizes the capacities of generative AI to transform intricate principles in mathematics, physics, and programming into comprehensible metaphors. To further augment the educational experience, these metaphors are subsequently converted into visual form. Our study aims to enhance the learners' understanding of STEM concepts and their learning engagement by using the visual metaphors. We examine the efficacy of our system via a randomized A/B/C test, assessing learning gains and motivation shifts among the learners. Our study demonstrates the potential of applying large language models to educational practice on STEM subjects. The results will shed light on the design of educational system in terms of harnessing AI's potential to empower educational stakeholders.
翻訳日:2023-08-22 15:10:00 公開日:2023-08-21
# domino++: ディープラーニングの一般化のためのドメインアウェアロス正規化

DOMINO++: Domain-aware Loss Regularization for Deep Learning Generalizability ( http://arxiv.org/abs/2308.10453v1 )

ライセンス: Link先を確認
Skylar E. Stolte, Kyle Volle, Aprinda Indahlastari, Alejandro Albizu, Adam J. Woods, Kevin Brink, Matthew Hale, and Ruogu Fang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、現代のディープラーニング(DL)に深刻な課題をもたらす。 OODデータは、モデルのトレーニングデータと大きく異なるテストデータで構成される。 ドメイン内のテストデータでうまく機能するDLモデルは、OODデータで苦労する可能性がある。 この矛盾を克服することは、DLの信頼性の確保に不可欠である。 適切なモデルキャリブレーションは、モデル特徴とクラス出力の間に作られるスプリアス接続の数を減らす。 したがって、校正されたDLは、各クラスに真に適応する特徴のみを学習することで、OODの一般化を改善することができる。 以前の研究では、dlキャリブレーションを改善するためにドメインアウェアモデルキャリブレーション(domino)を提案したが、oodデータのモデル一般化設計に欠けていた。 本研究では,OODの一般化性に着目した動的ドメイン認識損失正規化であるDOMINO++を提案する。 DOMINO++はその正規化において専門家誘導とデータ誘導の知識を統合している。 固定スケーリングと正規化レートを課したDOMINOとは異なり、DOMINO++は動的スケーリング係数と適応正規化レートを設計した。 総合的な評価は、DOMINO++とDOMINOを比較し、OODデータ上の磁気共鳴画像(MRI)から頭部組織セグメンテーションのベースラインモデルと比較する。 OODデータは合成ノイズと回転したデータセットと、別の場所から異なるMRIスキャナを使用して実際のデータで構成される。 DOMINO++の優れたパフォーマンスは、実際の臨床データに対するDLの信頼性の高い展開を改善する可能性を示している。

Out-of-distribution (OOD) generalization poses a serious challenge for modern deep learning (DL). OOD data consists of test data that is significantly different from the model's training data. DL models that perform well on in-domain test data could struggle on OOD data. Overcoming this discrepancy is essential to the reliable deployment of DL. Proper model calibration decreases the number of spurious connections that are made between model features and class outputs. Hence, calibrated DL can improve OOD generalization by only learning features that are truly indicative of the respective classes. Previous work proposed domain-aware model calibration (DOMINO) to improve DL calibration, but it lacks designs for model generalizability to OOD data. In this work, we propose DOMINO++, a dual-guidance and dynamic domain-aware loss regularization focused on OOD generalizability. DOMINO++ integrates expert-guided and data-guided knowledge in its regularization. Unlike DOMINO which imposed a fixed scaling and regularization rate, DOMINO++ designs a dynamic scaling factor and an adaptive regularization rate. Comprehensive evaluations compare DOMINO++ with DOMINO and the baseline model for head tissue segmentation from magnetic resonance images (MRIs) on OOD data. The OOD data consists of synthetic noisy and rotated datasets, as well as real data using a different MRI scanner from a separate site. DOMINO++'s superior performance demonstrates its potential to improve the trustworthy deployment of DL on real clinical data.
翻訳日:2023-08-22 15:09:45 公開日:2023-08-21
# 国別地域におけるソーシャルメディア言語データと国勢調査データ間の言語多様性の比較

Comparing Measures of Linguistic Diversity Across Social Media Language Data and Census Data at Subnational Geographic Areas ( http://arxiv.org/abs/2308.10452v1 )

ライセンス: Link先を確認
Sidney G.-J. Wong, Jonathan Dunn and Benjamin Adams(参考訳) 本稿では,ニュージーランドのAotearoaにおける,オンライン空間(ソーシャルメディア言語データ)と実世界空間(サブナショナル行政区域)の比較言語生態学に関する予備的研究について述べる。 これらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディア利用者が現実世界の人口とどのように連携するかについて議論する。 本研究の結果は, オンラインソーシャルメディア言語データを用いて, 亜国の地理的領域における言語多様性の空間的・時間的変化を観察できる可能性が示唆されているが, ソーシャルメディアが実際の行動をどのように表現しているかを理解するためには, さらなる研究が必要である。

This paper describes a preliminary study on the comparative linguistic ecology of online spaces (i.e., social media language data) and real-world spaces in Aotearoa New Zealand (i.e., subnational administrative areas). We compare measures of linguistic diversity between these different spaces and discuss how social media users align with real-world populations. The results from the current study suggests that there is potential to use online social media language data to observe spatial and temporal changes in linguistic diversity at subnational geographic areas; however, further work is required to understand how well social media represents real-world behaviour.
翻訳日:2023-08-22 15:09:25 公開日:2023-08-21
# COCA: テキストプロトタイプによるソースフリーユニバーサルドメイン適応のための分類器指向キャリブレーション

COCA: Classifier-Oriented Calibration for Source-Free Universal Domain Adaptation via Textual Prototype ( http://arxiv.org/abs/2308.10450v1 )

ライセンス: Link先を確認
Xinghong Liu, Yi Zhou, Tao Zhou, Chun-Mei Feng, Ling Shao(参考訳) Universal Domain Adaptation (UniDA)は、ドメインシフトが存在するソースドメインとターゲットドメインの共通クラスとプライベートクラスを区別することを目的としている。 最近、より厳密なデータ制限のため、研究者はより現実的なシナリオでSource-Free UniDA (SF-UniDA)を導入した。 sf-unidaメソッドは、ターゲットドメインに適応するときにソースサンプルに直接アクセスする必要がない。 しかし、既存のsf-unidaメソッドは、ソースモデルをトレーニングするために大量のラベル付きソースサンプルを必要とするため、かなりのラベルコストがかかる。 そこで本研究では,新しい分類器指向キャリブレーション(coca)法を提案する。 テキストプロトタイプを活用したこの手法は,少人数学習に基づくソースモデルに対して定式化されている。 具体的には、ソースドメインとターゲットドメインの間に大きなドメインシフトがあるにも拘わらず、共通クラスとドメインプライベートクラスを識別するために、通常クローズドセットのシナリオのために研究される少数ショット学習を提案する。 本質的には、SF-UniDAを学習し、ソースドメインのラベリングコストを大幅に削減するビジョン言語モデルに基づく新しいパラダイムを提案する。 実験の結果,本手法は最先端のUniDAモデルとSF-UniDAモデルより優れていた。

Universal Domain Adaptation (UniDA) aims to distinguish common and private classes between the source and target domains where domain shift exists. Recently, due to more stringent data restrictions, researchers have introduced Source-Free UniDA (SF-UniDA) in more realistic scenarios. SF-UniDA methods eliminate the need for direct access to source samples when performing adaptation to the target domain. However, existing SF-UniDA methods still require an extensive quantity of labeled source samples to train a source model, resulting in significant labeling costs. To tackle this issue, we present a novel Classifier-Oriented Calibration (COCA) method. This method, which leverages textual prototypes, is formulated for the source model based on few-shot learning. Specifically, we propose studying few-shot learning, usually explored for closed-set scenarios, to identify common and domain-private classes despite a significant domain shift between source and target domains. Essentially, we present a novel paradigm based on the vision-language model to learn SF-UniDA and hugely reduce the labeling costs on the source domain. Experimental results demonstrate that our approach outperforms state-of-the-art UniDA and SF-UniDA models.
翻訳日:2023-08-22 15:09:09 公開日:2023-08-21
# CVFC: 病理画像の微視的セグメント化のための注意型クロスビュー機能整合性

CVFC: Attention-Based Cross-View Feature Consistency for Weakly Supervised Semantic Segmentation of Pathology Images ( http://arxiv.org/abs/2308.10449v1 )

ライセンス: Link先を確認
Liangrui Pan, Lian Wang, Zhichao Feng, Liwen Xu, Shaoliang Peng(参考訳) 病理組織像分割はがんの診断における金の基準であり、癌予後を示すことができる。 しかし、病理組織像のセグメンテーションは高品質なマスクを必要とするため、多くの研究が画像レベルのラベルを使用してピクセルレベルのセグメンテーションを実現し、細かいアノテーションの必要性を減らすことができる。 そこで本研究では,アテンション機構に基づくCVFCという,アテンションベースのクロスビュー特徴整合性を持つ疑似マスク生成フレームワークを提案する。 Specifically, CVFC is a three-branch joint framework composed of two Resnet38 and one Resnet50, and the independent branch multi-scale integrated feature map to generate a class activation map (CAM); in each branch, through down-sampling and The expansion method adjusts the size of the CAM; the middle branch projects the feature matrix to the query and key feature spaces, and generates a feature space perception matrix through the connection layer and inner product to adjust and refine the CAM of each branch; finally, through the feature consistency loss and feature cross loss to optimize the parameters of CVFC in co-training mode. 多数の実験の後、WSSS4LUADデータセットで0.7122のAn IoUと0.7018のfwIoUが得られ、それぞれHistoSegNet、SEAM、C-CAM、WSSS-Tissue、OEEMを上回っている。

Histopathology image segmentation is the gold standard for diagnosing cancer, and can indicate cancer prognosis. However, histopathology image segmentation requires high-quality masks, so many studies now use imagelevel labels to achieve pixel-level segmentation to reduce the need for fine-grained annotation. To solve this problem, we propose an attention-based cross-view feature consistency end-to-end pseudo-mask generation framework named CVFC based on the attention mechanism. Specifically, CVFC is a three-branch joint framework composed of two Resnet38 and one Resnet50, and the independent branch multi-scale integrated feature map to generate a class activation map (CAM); in each branch, through down-sampling and The expansion method adjusts the size of the CAM; the middle branch projects the feature matrix to the query and key feature spaces, and generates a feature space perception matrix through the connection layer and inner product to adjust and refine the CAM of each branch; finally, through the feature consistency loss and feature cross loss to optimize the parameters of CVFC in co-training mode. After a large number of experiments, An IoU of 0.7122 and a fwIoU of 0.7018 are obtained on the WSSS4LUAD dataset, which outperforms HistoSegNet, SEAM, C-CAM, WSSS-Tissue, and OEEM, respectively.
翻訳日:2023-08-22 15:08:36 公開日:2023-08-21
# Explore and Tell: 3D環境における身体的視覚的キャプション

Explore and Tell: Embodied Visual Captioning in 3D Environments ( http://arxiv.org/abs/2308.10447v1 )

ライセンス: Link先を確認
Anwen Hu, Shizhe Chen, Liang Zhang, Qin Jin(参考訳) 現在の視覚的なキャプションモデルは印象的なパフォーマンスを達成したが、画像はよく撮影され、シーンの完全なビューを提供すると仮定することが多い。 しかし、現実世界のシナリオでは、単一の画像が良い視点を提供しず、きめ細かいシーン理解を妨げる可能性がある。 この制限を克服するために,視覚的キャプションモデルにナビゲーション機能を持たせる新しいタスクであるEmbodied Captioningを提案する。 具体的には、ランダムな視点から始めると、エージェントは環境をナビゲートし、異なる視点から情報を収集し、シーン内のすべてのオブジェクトを記述する包括的な段落を生成する必要がある。 このタスクをサポートするために,我々はkubricシミュレータを用いてet-capデータセットを構築した。 本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。 ナビゲータは、どのアクションを環境に取り入れるかを予測し、キャプタは、ナビゲーション軌跡全体に基づいて段落記述を生成する。 大規模な実験は、我々のモデルが他の慎重に設計されたベースラインより優れていることを示す。 私たちのデータセット、コード、モデルはhttps://aim3-ruc.github.io/exploreandtellで利用可能です。

While current visual captioning models have achieved impressive performance, they often assume that the image is well-captured and provides a complete view of the scene. In real-world scenarios, however, a single image may not offer a good viewpoint, hindering fine-grained scene understanding. To overcome this limitation, we propose a novel task called Embodied Captioning, which equips visual captioning models with navigation capabilities, enabling them to actively explore the scene and reduce visual ambiguity from suboptimal viewpoints. Specifically, starting at a random viewpoint, an agent must navigate the environment to gather information from different viewpoints and generate a comprehensive paragraph describing all objects in the scene. To support this task, we build the ET-Cap dataset with Kubric simulator, consisting of 10K 3D scenes with cluttered objects and three annotated paragraphs per scene. We propose a Cascade Embodied Captioning model (CaBOT), which comprises of a navigator and a captioner, to tackle this task. The navigator predicts which actions to take in the environment, while the captioner generates a paragraph description based on the whole navigation trajectory. Extensive experiments demonstrate that our model outperforms other carefully designed baselines. Our dataset, codes and models are available at https://aim3-ruc.github.io/ExploreAndTell.
翻訳日:2023-08-22 15:07:46 公開日:2023-08-21
# 手書き数式認識のための意味グラフ表現学習

Semantic Graph Representation Learning for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2308.10493v1 )

ライセンス: Link先を確認
Zhuang Liu and Ye Yuan and Zhilong Ji and Jingfeng Bai and Xiang Bai(参考訳) 近年,手書き数式認識(hmer)が注目されている。 しかし、現在の方法では異なるシンボル間の相互作用を明示的に研究することはできない。 この問題を軽減するために,セマンティックインタラクション学習(SIL)の簡易かつ効率的な手法を提案する。 具体的には,まず統計的記号共起確率に基づく意味グラフを構築する。 次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。 異なる射影ベクトル間のコサイン距離は、シンボル間の相関を示す。 また,HMERとSILを協調的に最適化することで,シンボル関係の理解を深めることができる。 加えて、SAMはHMERの既存の注意ベースのモデルに簡単にプラグインでき、一貫して改善をもたらすことができる。 公開ベンチマークデータセットの大規模な実験により,提案モジュールは認識性能を効果的に向上できることが示された。 この手法はcrohmeおよびhme100kデータセットの先行技術よりも優れた認識性能を実現する。

Handwritten mathematical expression recognition (HMER) has attracted extensive attention recently. However, current methods cannot explicitly study the interactions between different symbols, which may fail when faced similar symbols. To alleviate this issue, we propose a simple but efficient method to enhance semantic interaction learning (SIL). Specifically, we firstly construct a semantic graph based on the statistical symbol co-occurrence probabilities. Then we design a semantic aware module (SAM), which projects the visual and classification feature into semantic space. The cosine distance between different projected vectors indicates the correlation between symbols. And jointly optimizing HMER and SIL can explicitly enhances the model's understanding of symbol relationships. In addition, SAM can be easily plugged into existing attention-based models for HMER and consistently bring improvement. Extensive experiments on public benchmark datasets demonstrate that our proposed module can effectively enhance the recognition performance. Our method achieves better recognition performance than prior arts on both CROHME and HME100K datasets.
翻訳日:2023-08-22 15:00:01 公開日:2023-08-21
# SynDrone - 都市シナリオのためのマルチモーダルUAVデータセット

SynDrone -- Multi-modal UAV Dataset for Urban Scenarios ( http://arxiv.org/abs/2308.10491v1 )

ライセンス: Link先を確認
Giulia Rizzoli, Francesco Barbato, Matteo Caligiuri, Pietro Zanuttigh(参考訳) 無人航空機(UAV)画像のためのコンピュータビジョンアルゴリズムの開発は、注釈付き高解像度空中データの利用に大きく依存している。 しかし、ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、既存のデータセットの限られた数の画像が大量のトレーニングデータを必要とするディープラーニングモデルの有効性を妨げるため、研究者にとって重大な課題となっている。 本稿では,複数の飛行高度で撮影された画像と3dデータの両方を含むマルチモーダル合成データセットを提案する。 オブジェクトレベルのアノテーションに加えて、28クラスのピクセルレベルのラベリングも含まれており、セマンティックセグメンテーションのようなタスクの潜在的な利点を探求することができる。 我々のデータセットには72kのラベル付きサンプルが含まれており、合成から現実への適応において有望な結果を示すディープアーキテクチャの効果的なトレーニングを可能にしている。 データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。

The development of computer vision algorithms for Unmanned Aerial Vehicles (UAVs) imagery heavily relies on the availability of annotated high-resolution aerial data. However, the scarcity of large-scale real datasets with pixel-level annotations poses a significant challenge to researchers as the limited number of images in existing datasets hinders the effectiveness of deep learning models that require a large amount of training data. In this paper, we propose a multimodal synthetic dataset containing both images and 3D data taken at multiple flying heights to address these limitations. In addition to object-level annotations, the provided data also include pixel-level labeling in 28 classes, enabling exploration of the potential advantages in tasks like semantic segmentation. In total, our dataset contains 72k labeled samples that allow for effective training of deep architectures showing promising results in synthetic-to-real adaptation. The dataset will be made publicly available to support the development of novel computer vision methods targeting UAV applications.
翻訳日:2023-08-22 14:59:45 公開日:2023-08-21
# 点紫外拡散を伴う3次元メッシュのテクスチャ生成

Texture Generation on 3D Meshes with Point-UV Diffusion ( http://arxiv.org/abs/2308.10490v1 )

ライセンス: Link先を確認
Xin Yu, Peng Dai, Wenbo Li, Lan Ma, Zhengzhe Liu, Xiaojuan Qi(参考訳) 本研究では,3次元メッシュ上での高品質なテクスチャの合成に着目する。 本稿では, 粗大化拡散モデルとUVマッピングをマージし, 3次元一貫した高画質なテクスチャ画像を生成する, 粗大化拡散パイプラインであるPoint-UV拡散について述べる。 まず,低周波テクスチャ成分を合成する点拡散モデルと,偏りのある色分布に取り組むための仕立て型指導について紹介する。 得られた粗いテクスチャは、大域的な一貫性を提供し、その後のUV拡散ステージの条件として機能し、モデルの正規化を支援して3次元一貫したUVテクスチャ画像を生成する。 次に,2次元uv空間のテクスチャ忠実性を高めるために,ハイブリッド条件のuv拡散モデルを開発した。 本手法は,任意の種類のメッシュを処理し,多角的,幾何学的,高忠実なテクスチャを生成する。 コードはhttps://cvmi-lab.github.io/Point-UV-Diffusionで入手できる。

In this work, we focus on synthesizing high-quality textures on 3D meshes. We present Point-UV diffusion, a coarse-to-fine pipeline that marries the denoising diffusion model with UV mapping to generate 3D consistent and high-quality texture images in UV space. We start with introducing a point diffusion model to synthesize low-frequency texture components with our tailored style guidance to tackle the biased color distribution. The derived coarse texture offers global consistency and serves as a condition for the subsequent UV diffusion stage, aiding in regularizing the model to generate a 3D consistent UV texture image. Then, a UV diffusion model with hybrid conditions is developed to enhance the texture fidelity in the 2D UV space. Our method can process meshes of any genus, generating diversified, geometry-compatible, and high-fidelity textures. Code is available at https://cvmi-lab.github.io/Point-UV-Diffusion
翻訳日:2023-08-22 14:59:30 公開日:2023-08-21
# 医用画像セグメンテーションの強化:クロスエントロピー重量の最適化とオートエンコーダによる後処理

Enhancing Medical Image Segmentation: Optimizing Cross-Entropy Weights and Post-Processing with Autoencoders ( http://arxiv.org/abs/2308.10488v1 )

ライセンス: Link先を確認
Pranav Singh, Luoyao Chen, Mei Chen, Jinqian Pan, Raviteja Chukkapalli, Shravan Chaudhari and Jacopo Cirrone(参考訳) 医用画像セグメンテーションの課題は、局所的および全体論的意味理解の両方を必要とし、重要な組織や異常な特徴などの関心領域を正確に記述することである。 この複雑さは、高いクラス間類似度、クラス内変異、および画像難読化により、医用画像のセグメンテーションにおいて高められる。 このセグメンテーションタスクは、皮膚筋炎のような自己免疫疾患の病理組織学スライドの研究を考えるとさらに多様化する。 これらの症例における細胞炎症と相互作用の解析は、データ取得パイプラインの制約のため、あまり研究されていない。 医学の進歩的な進歩にもかかわらず、私たちは自己免疫疾患の包括的なコレクションを欠いている。 自己免疫疾患が世界的に流行し、COVID-19と結びついているため、研究はますます不可欠になっている。 さまざまな自己免疫疾患の分析に人工知能を統合する研究は存在するが、皮膚筋炎の調査は比較的少ないままである。 本稿では,医用画像セグメンテーションに適した深層学習手法を提案する。 提案手法は,U-Netでは平均12.26%,U-Net++では12.04%,皮膚筋炎データセットではResNetファミリーのエンコーダでは平均12.26%,最先端技術では12.04%に優れていた。 さらに、損失関数重み付けの最適化の重要性を考察し、3つの困難な医用画像分割作業の方法論をベンチマークする。

The task of medical image segmentation presents unique challenges, necessitating both localized and holistic semantic understanding to accurately delineate areas of interest, such as critical tissues or aberrant features. This complexity is heightened in medical image segmentation due to the high degree of inter-class similarities, intra-class variations, and possible image obfuscation. The segmentation task further diversifies when considering the study of histopathology slides for autoimmune diseases like dermatomyositis. The analysis of cell inflammation and interaction in these cases has been less studied due to constraints in data acquisition pipelines. Despite the progressive strides in medical science, we lack a comprehensive collection of autoimmune diseases. As autoimmune diseases globally escalate in prevalence and exhibit associations with COVID-19, their study becomes increasingly essential. While there is existing research that integrates artificial intelligence in the analysis of various autoimmune diseases, the exploration of dermatomyositis remains relatively underrepresented. In this paper, we present a deep-learning approach tailored for Medical image segmentation. Our proposed method outperforms the current state-of-the-art techniques by an average of 12.26% for U-Net and 12.04% for U-Net++ across the ResNet family of encoders on the dermatomyositis dataset. Furthermore, we probe the importance of optimizing loss function weights and benchmark our methodology on three challenging medical image segmentation tasks
翻訳日:2023-08-22 14:59:14 公開日:2023-08-21
# 証明可能な保証によるニューロシンボリック学習における生データの解読

Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees ( http://arxiv.org/abs/2308.10487v1 )

ライセンス: Link先を確認
Lue Tao, Yu-Xuan Huang, Wang-Zhou Dai, Yuan Jiang(参考訳) ニューロシンボリックハイブリッドシステムは機械学習とシンボリック推論の統合に有望であり、認知モデルは論理的な推論を通じてシンボリックな知識ベースから推論された情報によって促進される。 ハイブリッドシステムの正確な知覚モデル学習能力を示す実証的な証拠はあるものの、学習可能性に関する理論的理解はいまだに不足している。 したがって、なぜハイブリッドシステムが特定のタスクに成功し、いつ異なる知識ベースで失敗するかは、まだ不明である。 本稿では,知識ベースから指導信号を特徴付ける新しい手法を導入し,学習を成功させる上での知識の有効性を決定するための基準を確立する。 これにより,上記の2つの質問に,調査対象の知識ベースを検査することで,初めて対処することができる。 分析の結果,多くの知識ベースが基準を満たすことが示唆され,効果的な学習が可能となった。 総合的な実験によりベンチマークタスクにおける基準の有用性を確認した。

Neuro-symbolic hybrid systems are promising for integrating machine learning and symbolic reasoning, where perception models are facilitated with information inferred from a symbolic knowledge base through logical reasoning. Despite empirical evidence showing the ability of hybrid systems to learn accurate perception models, the theoretical understanding of learnability is still lacking. Hence, it remains unclear why a hybrid system succeeds for a specific task and when it may fail given a different knowledge base. In this paper, we introduce a novel way of characterising supervision signals from a knowledge base, and establish a criterion for determining the knowledge's efficacy in facilitating successful learning. This, for the first time, allows us to address the two questions above by inspecting the knowledge base under investigation. Our analysis suggests that many knowledge bases satisfy the criterion, thus enabling effective learning, while some fail to satisfy it, indicating potential failures. Comprehensive experiments confirm the utility of our criterion on benchmark tasks.
翻訳日:2023-08-22 14:58:47 公開日:2023-08-21
# マルチモーダル学習のためのDeep Metric Loss

Deep Metric Loss for Multimodal Learning ( http://arxiv.org/abs/2308.10486v1 )

ライセンス: Link先を確認
Sehwan Moon and Hyunju Lee(参考訳) マルチモーダル学習は、単一モーダル貢献と相互モーダル相互作用を利用して、そのユニモーダル学習よりも優れていることが多い。 しかし、マルチモーダルな特徴を統一的な包括的表現に統合することのみに焦点が当てられている。 実データでは、モダリティの貢献はインスタンスによって異なり、それらはしばしば互いに強化または衝突する。 本研究では,マルチモーダル学習のための新しい\text{multimodal}ロスパラダイムを導入し,そのユニモーダルな貢献に応じてインスタンスをサブグループ化する。 \text{multimodal} 損失は、過剰フィッティングによる非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。 合成データ上では、 \text{MultiModal} の損失は特定のモダリティ内で難しいインスタンスをサブグループ化することで分類性能の向上を示す。 4つの実マルチモーダルデータセットにおいて,最近のモデルの性能向上を実証的に示す。 アブレーション研究は我々の損失の有効性を検証する。 さらに, この損失は, サブグループ化に欠かせない各モダリティに対して, 信頼性の高い予測スコアを生成することを示す。 我々の‘text{MultiModal}損失は、マルチモーダル学習におけるモダリティの寄与によるサブグループインスタンスに対する新しい損失関数であり、一様決定を伴う様々なマルチモーダルモデルに適用できる。 私たちのコードはhttps://github.com/SehwanMoon/MultiModalLossで利用可能です。

Multimodal learning often outperforms its unimodal counterparts by exploiting unimodal contributions and cross-modal interactions. However, focusing only on integrating multimodal features into a unified comprehensive representation overlooks the unimodal characteristics. In real data, the contributions of modalities can vary from instance to instance, and they often reinforce or conflict with each other. In this study, we introduce a novel \text{MultiModal} loss paradigm for multimodal learning, which subgroups instances according to their unimodal contributions. \text{MultiModal} loss can prevent inefficient learning caused by overfitting and efficiently optimize multimodal models. On synthetic data, \text{MultiModal} loss demonstrates improved classification performance by subgrouping difficult instances within certain modalities. On four real multimodal datasets, our loss is empirically shown to improve the performance of recent models. Ablation studies verify the effectiveness of our loss. Additionally, we show that our loss generates a reliable prediction score for each modality, which is essential for subgrouping. Our \text{MultiModal} loss is a novel loss function to subgroup instances according to the contribution of modalities in multimodal learning and is applicable to a variety of multimodal models with unimodal decisions. Our code is available at https://github.com/SehwanMoon/MultiModalLoss.
翻訳日:2023-08-22 14:58:30 公開日:2023-08-21
# ニューラルマシン翻訳におけるフレーズ機構の有効利用法

An Effective Method using Phrase Mechanism in Neural Machine Translation ( http://arxiv.org/abs/2308.10482v1 )

ライセンス: Link先を確認
Phuong Minh Nguyen, Le Minh Nguyen(参考訳) 機械翻訳は、自然言語処理(nlp)において重要なタスクの1つであり、実生活における膨大な応用と、nlp研究コミュニティにおける他のタスクへの貢献を持っている。 近年、Transformerベースの手法はこの分野の多くの研究者を惹きつけ、ほとんどのペア言語で最先端の結果を得た。 本稿では,パラレルコーパス・ベトナム語中国語のためのニューラル機械翻訳(NMT)システムを構築する際に,フレーズ機構であるPhrase Transformerを用いて,強力なベースラインモデルトランスフォーマを改善する方法を提案する。 VLSP 2022コンペティションのMTデータセットに関する我々の実験は、ベトナム対中国語で35.3点、中国対ベトナムで33.2点のBLEUスコアを達成した。 私たちのコードはhttps://github.com/phuongnm94/PhraseTransformerで利用可能です。

Machine Translation is one of the essential tasks in Natural Language Processing (NLP), which has massive applications in real life as well as contributing to other tasks in the NLP research community. Recently, Transformer -based methods have attracted numerous researchers in this domain and achieved state-of-the-art results in most of the pair languages. In this paper, we report an effective method using a phrase mechanism, PhraseTransformer, to improve the strong baseline model Transformer in constructing a Neural Machine Translation (NMT) system for parallel corpora Vietnamese-Chinese. Our experiments on the MT dataset of the VLSP 2022 competition achieved the BLEU score of 35.3 on Vietnamese to Chinese and 33.2 BLEU scores on Chinese to Vietnamese data. Our code is available at https://github.com/phuongnm94/PhraseTransformer.
翻訳日:2023-08-22 14:58:08 公開日:2023-08-21
# ADNet:アンカー分解によるレーン形状予測

ADNet: Lane Shape Prediction via Anchor Decomposition ( http://arxiv.org/abs/2308.10481v1 )

ライセンス: Link先を確認
Lingyu Xiao, Xiang Li, Sen Yang, Wankou Yang(参考訳) 本稿では、画像の端から生じる固定アンカーに主に焦点を合わせ、その汎用性と品質を無視したアンカーベースレーン検出手法の限界を再考する。 アンカーの非フレキシビリティを克服するため、出発点とその関連した方向の熱マップを学習するためにそれらを分解する。 この分解により、アンカーの開始点の制限が取り除かれ、アルゴリズムは様々なデータセットの異なるレーンタイプに適応できる。 アンカーの品質を高めるために,機能ピラミッドネットワーク(fpn)のための大規模カーネルアテンション(lka)を導入する。 これは受容野を著しく増加させ、車線が通常画像全体にわたって走るので、十分なコンテキストを捉えるのに不可欠である。 我々は提案するシステムAnchor Decomposition Network (ADNet) を命名した。 さらに,複雑なシナリオにおけるADNetの性能を大幅に向上させる汎用Lane IoU(GLIoU)損失を提案する。 VIL-100,CULane,TuSimpleの3つの広く使用されている車線検出ベンチマークの実験結果から,本手法はVIL-100の最先端手法よりも優れており,CULaneとTuSimpleの競合精度が高いことが示された。 コードとモデルはhttps://github.com/Sephirex-X/ADNetでリリースされる。

In this paper, we revisit the limitations of anchor-based lane detection methods, which have predominantly focused on fixed anchors that stem from the edges of the image, disregarding their versatility and quality. To overcome the inflexibility of anchors, we decompose them into learning the heat map of starting points and their associated directions. This decomposition removes the limitations on the starting point of anchors, making our algorithm adaptable to different lane types in various datasets. To enhance the quality of anchors, we introduce the Large Kernel Attention (LKA) for Feature Pyramid Network (FPN). This significantly increases the receptive field, which is crucial in capturing the sufficient context as lane lines typically run throughout the entire image. We have named our proposed system the Anchor Decomposition Network (ADNet). Additionally, we propose the General Lane IoU (GLIoU) loss, which significantly improves the performance of ADNet in complex scenarios. Experimental results on three widely used lane detection benchmarks, VIL-100, CULane, and TuSimple, demonstrate that our approach outperforms the state-of-the-art methods on VIL-100 and exhibits competitive accuracy on CULane and TuSimple. Code and models will be released on https://github.com/ Sephirex-X/ADNet.
翻訳日:2023-08-22 14:57:52 公開日:2023-08-21
# 音声言語ダイアリゼーションのための暗黙的自己教師付き言語表現

Implicit Self-supervised Language Representation for Spoken Language Diarization ( http://arxiv.org/abs/2308.10470v1 )

ライセンス: Link先を確認
Jagabandhu Mishra and S. R. Mahadeva Prasanna(参考訳) コードスイッチング(CS)のシナリオでは,事前評価システムとしての言語ダイアリゼーション(LD)の利用が不可欠である。 さらに、暗黙的なフレームワークの使用は明示的なフレームワークよりも好まれる。 話者ダイアリゼーション(sd)の文献に触発され,(1)固定セグメント化,(2)変化点に基づくセグメント化,(3)e2eに基づく3つのフレームワークが提案されている。 合成TTSF-LDデータセットによる最初の調査では、x-vectorを適切な分析ウィンドウ長(N$)で暗黙の言語表現として使用することにより、明示的なLDでパフォーマンス毎に達成できることが示されている。 最も暗黙的なLD性能は、JER(Jaccard error rate)の点で6.38ドルであり、E2Eフレームワークを用いて達成されている。 しかしながら、E2Eフレームワークを考えると、暗黙のLDのパフォーマンスは、実用的なMicrosoft CS(MSCS)データセットを使用しながら60.4ドルに低下する。 性能の違いは、MSCSデータセットとTTSF-LDデータセットにおけるセカンダリ言語のモノリンガルセグメント長の分布差が主な原因である。 さらに、セグメントの平滑化を避けるために、モノリンガルセグメントの短い期間は、$N$という小さな値を使うことを示唆する。 それと同時に、同じ話者が両方の言語を話しているため、x-vector表現は音響的類似性のために必要な言語識別を捉えることができない。 そこで本研究では,自己教師付き暗黙的言語表現を提案する。 x-ベクトル表現と比較して、提案された表現は、相対的に63.9 %$の改善を提供し、E2Eフレームワークを使用して21.8$のJERを達成した。

In a code-switched (CS) scenario, the use of spoken language diarization (LD) as a pre-possessing system is essential. Further, the use of implicit frameworks is preferable over the explicit framework, as it can be easily adapted to deal with low/zero resource languages. Inspired by speaker diarization (SD) literature, three frameworks based on (1) fixed segmentation, (2) change point-based segmentation and (3) E2E are proposed to perform LD. The initial exploration with synthetic TTSF-LD dataset shows, using x-vector as implicit language representation with appropriate analysis window length ($N$) can able to achieve at per performance with explicit LD. The best implicit LD performance of $6.38$ in terms of Jaccard error rate (JER) is achieved by using the E2E framework. However, considering the E2E framework the performance of implicit LD degrades to $60.4$ while using with practical Microsoft CS (MSCS) dataset. The difference in performance is mostly due to the distributional difference between the monolingual segment duration of secondary language in the MSCS and TTSF-LD datasets. Moreover, to avoid segment smoothing, the smaller duration of the monolingual segment suggests the use of a small value of $N$. At the same time with small $N$, the x-vector representation is unable to capture the required language discrimination due to the acoustic similarity, as the same speaker is speaking both languages. Therefore, to resolve the issue a self-supervised implicit language representation is proposed in this study. In comparison with the x-vector representation, the proposed representation provides a relative improvement of $63.9\%$ and achieved a JER of $21.8$ using the E2E framework.
翻訳日:2023-08-22 14:57:30 公開日:2023-08-21
# STEERER:選択的継承学習によるカウントとローカライゼーションのためのスケール変動の解消

STEERER: Resolving Scale Variations for Counting and Localization via Selective Inheritance Learning ( http://arxiv.org/abs/2308.10468v1 )

ライセンス: Link先を確認
Tao Han, Lei Bai, Lingbo Liu, Wanli Ouyang(参考訳) スケールの変動はオブジェクトカウントにおける根深い問題であり、既存のスケールアウェアアルゴリズムでは効果的に対処されていない。 重要な要素は、それらは典型的に複数の解像度で協調学習を伴い、それは各スケールから最も差別的な特徴を学ぶのに最適である。 本稿では,STEER(\textbf{S}elec\textbf{T}iv\textbf{E} inh\textbf{ER}itance l\textbf{E}a\textbf{R}ning)と呼ばれる新しい手法を提案する。 STEERERは、特徴抽出を促進するためにパッチオブジェクトに最も適したスケールを選択し、下位から上位までの識別的特徴のみを徐々に継承する。 STEERERの主な洞察は、各スケールでスケールカスタマイズされた機能を選択的に転送するFSIA(Feature Selection and Inheritance Adaptor)と、すべてのスケールにわたる高品質な密度マップの実現を支援するMasked Selection and Inheritance Loss(MSIL)である。 カウントおよびローカライゼーションタスクを含む9つのデータセットに対する実験結果から,STEERERのスケール一般化能力は前例のないものとなった。 コードは \url{https://github.com/taohan10200/STEERER} で入手できる。

Scale variation is a deep-rooted problem in object counting, which has not been effectively addressed by existing scale-aware algorithms. An important factor is that they typically involve cooperative learning across multi-resolutions, which could be suboptimal for learning the most discriminative features from each scale. In this paper, we propose a novel method termed STEERER (\textbf{S}elec\textbf{T}iv\textbf{E} inh\textbf{ER}itance l\textbf{E}a\textbf{R}ning) that addresses the issue of scale variations in object counting. STEERER selects the most suitable scale for patch objects to boost feature extraction and only inherits discriminative features from lower to higher resolution progressively. The main insights of STEERER are a dedicated Feature Selection and Inheritance Adaptor (FSIA), which selectively forwards scale-customized features at each scale, and a Masked Selection and Inheritance Loss (MSIL) that helps to achieve high-quality density maps across all scales. Our experimental results on nine datasets with counting and localization tasks demonstrate the unprecedented scale generalization ability of STEERER. Code is available at \url{https://github.com/taohan10200/STEERER}.
翻訳日:2023-08-22 14:57:00 公開日:2023-08-21
# ハイブリッド古典量子コンピューティング:二項の古典部分を忘れているか?

Hybrid classical-quantum computing: are we forgetting the classical part in the binomial? ( http://arxiv.org/abs/2308.10513v1 )

ライセンス: Link先を確認
Esther Villar-Rodriguez, Aitor Gomez-Tejedor, Eneko Osaba(参考訳) 量子コンピューティング分野における最新の業績から生じる期待は、古典的な人工知能の研究者がこの新しいパラダイムに魅了される原因となっている。 量子コンピューティングは、ユーザビリティへの道のりで、古典的な手続きを必要とする。 このような状況下では、ハイブリダイゼーションは必須のステップであるが、両方の計算の世界から最大限を得るための新しい道として期待できる。 それにもかかわらず、ハイブリッドアプローチは将来的に多くの課題に直面し、無視すれば、現実のアプリケーションにおける量子コンピューティングの生存可能性や魅力を脅かすだろう。 それらを特定し、関連する質問を提起するには、ハイブリッド量子計算分野、特にハイブリッドソルバの適切なキャラクタリゼーションが必須である。 このモチベーションを念頭に置いて、本研究の目的はハイブリッドスキームを分類するための予備分類法を提案し、量子コンピューティングの応用に関する実際の課題について研究者の心をかき立てるためにいくつかの疑問を提起することである。

The expectations arising from the latest achievements in the quantum computing field are causing that researchers coming from classical artificial intelligence to be fascinated by this new paradigm. In turn, quantum computing, on the road towards usability, needs classical procedures. Hybridization is, in these circumstances, an indispensable step but can also be seen as a promising new avenue to get the most from both computational worlds. Nonetheless, hybrid approaches have now and will have in the future many challenges to face, which, if ignored, will threaten the viability or attractiveness of quantum computing for real-world applications. To identify them and pose pertinent questions, a proper characterization of the hybrid quantum computing field, and especially hybrid solvers, is compulsory. With this motivation in mind, the main purpose of this work is to propose a preliminary taxonomy for classifying hybrid schemes, and bring to the fore some questions to stir up researchers minds about the real challenges regarding the application of quantum computing.
翻訳日:2023-08-22 14:50:32 公開日:2023-08-21
# ベンガル文書レイアウト解析におけるマスク-RCNNの性能向上

Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout Analysis ( http://arxiv.org/abs/2308.10511v1 )

ライセンス: Link先を確認
Shrestha Datta and Md Adith Mollah and Raisa Fairooz and Tariful Islam Fahim(参考訳) デジタル文書を理解することは、パズル、特に歴史的な問題を解くようなものだ。 Document Layout Analysis (DLA)は、文書を段落、画像、テーブルなどのセクションに分割することで、このパズルを支援する。 dl sprint 2.0コンペティションでは、banglaドキュメントの理解に取り組んできました。 多数のサンプルでBaDLADというデータセットを使用しました。 私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。 私たちはこのモデルをステップバイステップのハイパーパラメータチューニングによって改善し、良いダイススコア0.889を達成しました。 英語の文書のために訓練されたモデルを試したが、それはBanglaに合わなかった。 これは各言語が独自の課題を持っていることを示している。 DL Sprint 2.0のソリューションは、ノートブック、ウェイト、推論ノートとともにhttps://www.kaggle.com/competitions/dlsprint2/discussion/432201で公開されています。

Understanding digital documents is like solving a puzzle, especially historical ones. Document Layout Analysis (DLA) helps with this puzzle by dividing documents into sections like paragraphs, images, and tables. This is crucial for machines to read and understand these documents.In the DL Sprint 2.0 competition, we worked on understanding Bangla documents. We used a dataset called BaDLAD with lots of examples. We trained a special model called Mask R-CNN to help with this understanding. We made this model better by step-by-step hyperparameter tuning, and we achieved a good dice score of 0.889.However, not everything went perfectly. We tried using a model trained for English documents, but it didn't fit well with Bangla. This showed us that each language has its own challenges. Our solution for the DL Sprint 2.0 is publicly available at https://www.kaggle.com/competitions/dlsprint2/discussion/432201 along with notebooks, weights, and inference notebook.
翻訳日:2023-08-22 14:50:15 公開日:2023-08-21
# リアルタイムデハージングのための周波数補償拡散モデル

Frequency Compensated Diffusion Model for Real-scene Dehazing ( http://arxiv.org/abs/2308.10510v1 )

ライセンス: Link先を確認
Jing Wang, Songtao Wu, Kuanhong Xu, and Zhiqiang Yuan(参考訳) 分布シフトのため、深層学習に基づく画像デハジング手法は、実世界のハジング画像に適用すると性能低下に苦しむ。 本稿では,実ヘイズへの一般化を改善するための条件拡散モデルに基づくデヘイジングフレームワークについて検討する。 まず,拡散モデルの学習目標,すなわちガウス雑音ベクトルの最適化は非自明であることがわかった。 ディープネットワークのスペクトルバイアスは、ガウスベクトルの高周波数モードの学習を妨げるため、画像詳細の再構成を阻害する。 そこで本研究では,入力信号の中~高周波数を協調的に強調するフィルタバンクを用いた,周波数補償ブロック(fcb)と呼ばれるネットワークユニットを設計する。 fcbを用いた拡散モデルが知覚と歪みの指標の両方において有意な利益をもたらすことを実証する。 第2に,一般化性能をさらに向上させるため,HazAugという新たなデータ合成パイプラインを提案し,次数と多様性の観点からヘイズを増強する。 フレームワーク内では、ブラインドデハジングのためのソリッドベースラインが設定され、モデルが合成ハジークリーンペアに基づいてトレーニングされ、実際のデータに直接一般化される。 広範に評価した結果,提案手法は実世界画像の最先端手法を著しく上回ることがわかった。

Due to distribution shift, deep learning based methods for image dehazing suffer from performance degradation when applied to real-world hazy images. In this paper, we consider a dehazing framework based on conditional diffusion models for improved generalization to real haze. First, we find that optimizing the training objective of diffusion models, i.e., Gaussian noise vectors, is non-trivial. The spectral bias of deep networks hinders the higher frequency modes in Gaussian vectors from being learned and hence impairs the reconstruction of image details. To tackle this issue, we design a network unit, named Frequency Compensation block (FCB), with a bank of filters that jointly emphasize the mid-to-high frequencies of an input signal. We demonstrate that diffusion models with FCB achieve significant gains in both perceptual and distortion metrics. Second, to further boost the generalization performance, we propose a novel data synthesis pipeline, HazeAug, to augment haze in terms of degree and diversity. Within the framework, a solid baseline for blind dehazing is set up where models are trained on synthetic hazy-clean pairs, and directly generalize to real data. Extensive evaluations show that the proposed dehazing diffusion model significantly outperforms state-of-the-art methods on real-world images.
翻訳日:2023-08-22 14:49:59 公開日:2023-08-21
# 大規模生成視覚言語モデルの構成性の検討

An Examination of the Compositionality of Large Generative Vision-Language Models ( http://arxiv.org/abs/2308.10509v1 )

ライセンス: Link先を確認
Teli Ma, Rong Li, Junwei Liang(参考訳) 大規模言語モデル(llms)の成功により、マルチモーダル命令チューニングによって生成的視覚言語モデル(gvlm)が急増した。 チューニングレシピは、共通するコントラスト視覚言語学習から実質的に逸脱する。 しかし、既存の評価指標やベンチマークはCLIPのような対照的なモデルの評価に重点を置いているため、マルチモーダルな構成推論におけるGVLMの性能は未解明のままである。 本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法を提案する。 さらに、現在のベンチマークでは、セマンティクスよりも構文的正確性を優先する傾向がある。 これらのベンチマークにおけるモルフォロジーバイアスの存在は、GVLMによって悪用され、非効率な評価につながる。 そこで我々は形態的バイアスを定量化するためのmorphobiasスコアを定義し,バイアスを校正する新しい llm ベースの戦略を提案する。 さらに,GVLMの構文的正当性に対する固有の傾きに対する頑健性を評価するために,課題が加えられた。 キャリブレーションされたデータセットとタスクを新しいベンチマーク、すなわちMOrphologicall De-biased Benchmark (MODE)に含めます。 本研究は,GVLMの組成性に関する非バイアスベンチマークを初めて提供し,今後の研究を促進する。 コードとデータセットをリリースします。

With the success of Large Language Models (LLMs), a surge of Generative Vision-Language Models (GVLMs) have been constructed via multimodal instruction tuning. The tuning recipe substantially deviates from the common contrastive vision-language learning. However, the performance of GVLMs in multimodal compositional reasoning remains largely unexplored, as existing evaluation metrics and benchmarks focus predominantly on assessing contrastive models like CLIP. In this paper, we examine the potential evaluation metrics to assess the GVLMs and hypothesize generative score methods are suitable for evaluating compositionality. In addition, current benchmarks tend to prioritize syntactic correctness over semantics. The presence of morphological bias in these benchmarks can be exploited by GVLMs, leading to ineffective evaluations. To combat this, we define a MorphoBias Score to quantify the morphological bias and propose a novel LLM-based strategy to calibrate the bias. Moreover, a challenging task is added to evaluate the robustness of GVLMs against inherent inclination toward syntactic correctness. We include the calibrated dataset and the task into a new benchmark, namely MOrphologicall De-biased Benchmark (MODE). Our study provides the first unbiased benchmark for the compositionality of GVLMs, facilitating future research in this direction. We will release our code and datasets.
翻訳日:2023-08-22 14:49:40 公開日:2023-08-21
# 森林火災の遠隔追跡を目的とした衛星ホットスポットデータのクラスタリングアルゴリズム

A Clustering Algorithm to Organize Satellite Hotspot Data for the Purpose of Tracking Bushfires Remotely ( http://arxiv.org/abs/2308.10505v1 )

ライセンス: Link先を確認
Weihao Li, Emily Dodwell, Dianne Cook(参考訳) 本稿では,時空間クラスタリングアルゴリズムとrパッケージspotorooの実装を提案する。 この研究は2019-2020年の夏を通じてオーストラリアの壊滅的な森林火災によって動機付けられ、衛星ホットスポットのデータが利用可能になった。 このアルゴリズムは、既存の2つの時空間クラスタリングアルゴリズムにインスパイアされているが、クラスタポイントの空間的拡張と、その連続した時間的移動とを組み合わせる。 また、必要に応じて、異なる場所や衛星データソースに対するキーパラメータの調整も可能である。 オーストラリアのビクトリア州のブッシュファイアのデータは、アルゴリズムとそのパッケージ内での使用を説明するために使用される。

This paper proposes a spatiotemporal clustering algorithm and its implementation in the R package spotoroo. This work is motivated by the catastrophic bushfires in Australia throughout the summer of 2019-2020 and made possible by the availability of satellite hotspot data. The algorithm is inspired by two existing spatiotemporal clustering algorithms but makes enhancements to cluster points spatially in conjunction with their movement across consecutive time periods. It also allows for the adjustment of key parameters, if required, for different locations and satellite data sources. Bushfire data from Victoria, Australia, is used to illustrate the algorithm and its use within the package.
翻訳日:2023-08-22 14:49:18 公開日:2023-08-21
# KPI異常検出のための適応閾値ヒューリスティック

Adaptive Thresholding Heuristic for KPI Anomaly Detection ( http://arxiv.org/abs/2308.10504v1 )

ライセンス: Link先を確認
Ebenezer R.H.P. Isaac and Akshat Sharma(参考訳) 一連の外れ値検出器が時系列領域で研究されてきたが、ビジネス的な意味では、すべての外れ値が興味のある異常であるとは限らない。 既存の異常検出ソリューションは、より広い異常検出ユースケースに適用性を制限する特定の異常検知器に限られる。 ネットワークkpi(key performance indicators)は統計的外れ値を生成する確率的行動を示す傾向にあり、そのほとんどはビジネスオペレーションに悪影響を与えない。 したがって、時系列KPIの異常のビジネス定義を捉えるにはヒューリスティックが必要である。 本稿では,データ分布の局所特性に基づいて検出閾値を動的に調整し,時系列パターンの変化に適応する適応的閾値保持ヒューリスティック(ATH)を提案する。 ヒューリスティックは、予測周期性と、偽陽性を最小化する異常の観測割合と、対処する概念ドリフトに基づいて閾値を導出する。 ATHは、下層の季節分解法や、外れ値を得る外れ値検出器と併用することができる。 EON1-Cell-Uというラベル付きKPI異常データセットを用いて,我々の仮説を検証する。 実験結果から、ATHは計算効率が良く、ほぼリアルタイムで異常検出が可能であり、複数の予測器と異常検出器で柔軟であることがわかった。

A plethora of outlier detectors have been explored in the time series domain, however, in a business sense, not all outliers are anomalies of interest. Existing anomaly detection solutions are confined to certain outlier detectors limiting their applicability to broader anomaly detection use cases. Network KPIs (Key Performance Indicators) tend to exhibit stochastic behaviour producing statistical outliers, most of which do not adversely affect business operations. Thus, a heuristic is required to capture the business definition of an anomaly for time series KPI. This article proposes an Adaptive Thresholding Heuristic (ATH) to dynamically adjust the detection threshold based on the local properties of the data distribution and adapt to changes in time series patterns. The heuristic derives the threshold based on the expected periodicity and the observed proportion of anomalies minimizing false positives and addressing concept drift. ATH can be used in conjunction with any underlying seasonality decomposition method and an outlier detector that yields an outlier score. This method has been tested on EON1-Cell-U, a labeled KPI anomaly dataset produced by Ericsson, to validate our hypothesis. Experimental results show that ATH is computationally efficient making it scalable for near real time anomaly detection and flexible with multiple forecasters and outlier detectors.
翻訳日:2023-08-22 14:49:09 公開日:2023-08-21
# GradientCoin: ピアツーピアで分散化された大規模言語モデル

GradientCoin: A Peer-to-Peer Decentralized Large Language Models ( http://arxiv.org/abs/2308.10502v1 )

ライセンス: Link先を確認
Yeqi Gao, Zhao Song, Junze Yin(参考訳) 2008年以降、Bitcoinの電子マネーシステムの提案を受けて、Bitcoinは過去10年間に経済システムを根本的に変えてきた。 2022年以降、GPTのような大規模言語モデル(LLM)は、多くの実生活タスクにおいて人間よりも優れてきた。 しかし、これらの大きな言語モデルにはいくつかの実践的な問題がある。 例えば、モデルは特定のユニットによって集中的に制御される。 1つの弱点は、そのユニットがモデルをシャットダウンすると決めた場合、もはや使用できないことである。 第二の弱点は、ある不適切なユニットが自身のモデルを設計し、不健全なトレーニングデータを供給できるため、このモデルの背後にある保証された不一致の欠如である。 本稿では,Bitcoinキャッシュシステムと同じように動作する分散LDMの純粋に理論的設計を提案する。 しかし、このようなシステムの実装には様々な困難が伴う可能性がある。 さらに、この新しいシステムは、経済学における標準的なBitcoinシステムよりもパフォーマンスが良くない。 そのため、そのようなシステムを設計する動機は限られている。 $\bullet$ 分散型のChatGPT風ソフトウェアを使いたい人には、おそらく2種類の人々が実用システムの構築に興味を持っているだろう。 カーボン系生命体の目的は、トランスフォーマーのOptimus Primeのようなシリコン系生命体を作ることだと信じている人。 第2のタイプの人々が興味を持っているのは、いつかこのようなAIシステムが目覚めて、この惑星の次のレベルの知能になる可能性があるからです。

Since 2008, after the proposal of a Bitcoin electronic cash system, Bitcoin has fundamentally changed the economic system over the last decade. Since 2022, large language models (LLMs) such as GPT have outperformed humans in many real-life tasks. However, these large language models have several practical issues. For example, the model is centralized and controlled by a specific unit. One weakness is that if that unit decides to shut down the model, it cannot be used anymore. The second weakness is the lack of guaranteed discrepancy behind this model, as certain dishonest units may design their own models and feed them unhealthy training data. In this work, we propose a purely theoretical design of a decentralized LLM that operates similarly to a Bitcoin cash system. However, implementing such a system might encounter various practical difficulties. Furthermore, this new system is unlikely to perform better than the standard Bitcoin system in economics. Therefore, the motivation for designing such a system is limited. It is likely that only two types of people would be interested in setting up a practical system for it: $\bullet$ Those who prefer to use a decentralized ChatGPT-like software. $\bullet$ Those who believe that the purpose of carbon-based life is to create silicon-based life, such as Optimus Prime in Transformers. The reason the second type of people may be interested is that it is possible that one day an AI system like this will awaken and become the next level of intelligence on this planet.
翻訳日:2023-08-22 14:48:47 公開日:2023-08-21
# 反応拡散PDEのための遅延補償バックステッピングの深部学習

Deep Learning of Delay-Compensated Backstepping for Reaction-Diffusion PDEs ( http://arxiv.org/abs/2308.10501v1 )

ライセンス: Link先を確認
Shanshan Wang, Mamadou Diagne, Miroslav Krsti\'c(参考訳) 非線形関数対関数写像を近似するディープニューラルネットワーク、すなわち、DeepONetと呼ばれる演算子は、バックステッピングなどのPDE制御方法論全体を符号化できることを最近の論文で示しており、PDEプラントの各新規機能係数に対して、バックステッピングゲインが簡単な関数評価によって得られる。 これらの初期結果は与えられたクラスの単一PDEに限られており、ゲインカーネルに対して単一のPDE演算子の解のみを近似している。 本稿では、この枠組みを多重(カスケード)非線形作用素の近似に拡張する。 本論文では, パラボリックPDEである反応拡散プラント, 入力遅延, 双曲PDEなど, 異なるPDEクラスからのPDEシステムの制御に複数の演算子が存在する。 DeepONet近似非線形作用素(DeepONet-approximated linear operator)は、グールサット形式の1つの双曲型 PDE と矩形上の1つの放物型 PDE で定義される作用素のカスケード/合成であり、どちらも入力関数において双線型であり、明示的に解けない。 学習制御演算子、すなわち近似ゲインカーネルを用いた遅延補償pdeバックステップコントローラでは、プラント状態の$l^2$ノルムと入力遅延状態の$h^1$ノルムの指数安定性を保証する。 シミュレーションは貢献理論を示します。

Deep neural networks that approximate nonlinear function-to-function mappings, i.e., operators, which are called DeepONet, have been demonstrated in recent articles to be capable of encoding entire PDE control methodologies, such as backstepping, so that, for each new functional coefficient of a PDE plant, the backstepping gains are obtained through a simple function evaluation. These initial results have been limited to single PDEs from a given class, approximating the solutions of only single-PDE operators for the gain kernels. In this paper we expand this framework to the approximation of multiple (cascaded) nonlinear operators. Multiple operators arise in the control of PDE systems from distinct PDE classes, such as the system in this paper: a reaction-diffusion plant, which is a parabolic PDE, with input delay, which is a hyperbolic PDE. The DeepONet-approximated nonlinear operator is a cascade/composition of the operators defined by one hyperbolic PDE of the Goursat form and one parabolic PDE on a rectangle, both of which are bilinear in their input functions and not explicitly solvable. For the delay-compensated PDE backstepping controller, which employs the learned control operator, namely, the approximated gain kernel, we guarantee exponential stability in the $L^2$ norm of the plant state and the $H^1$ norm of the input delay state. Simulations illustrate the contributed theory.
翻訳日:2023-08-22 14:48:25 公開日:2023-08-21
# ボヘミアの立場から見た量子統計力学

Quantum statistical mechanics from a Bohmian perspective ( http://arxiv.org/abs/2308.10500v1 )

ライセンス: Link先を確認
Hrvoje Nikolic(参考訳) 固定数の粒子を持つ閉系および開系に対して、多粒子位置空間における連続性方程式を満たす項または確率電流の量子統計力学の一般的な定式化を開発する。 任意の閉または開系に対する連続性方程式は、通常の量子論と同じ測定可能な予測をする微視的粒子軌道の観点で自然ボーム解釈を示唆する。 微視的軌道は直接観測できないが、量子統計力学におけるマクロ現象の一般的な、単純で直感的な微視的解釈を提供する。 特に, エントロピー, 適切な, 不適切な混合, 熱力学の様々な概念が, ボヘミアの観点からどのように理解されているかについて議論する。

We develop a general formulation of quantum statistical mechanics in terms or probability currents that satisfy continuity equations in the multi-particle position space, for closed and open systems with a fixed number of particles. The continuity equation for any closed or open system suggests a natural Bohmian interpretation in terms of microscopic particle trajectories, that make the same measurable predictions as standard quantum theory. The microscopic trajectories are not directly observable, but provide a general, simple and intuitive microscopic interpretation of macroscopic phenomena in quantum statistical mechanics. In particular, we discuss how various notions of entropy, proper and improper mixtures, and thermodynamics are understood from the Bohmian perspective.
翻訳日:2023-08-22 14:47:57 公開日:2023-08-21
# 自動エンコーダとオートディフを使って時系列の欠落変数を再構成する

Using Autoencoders and AutoDiff to Reconstruct Missing Variables in a Set of Time Series ( http://arxiv.org/abs/2308.10496v1 )

ライセンス: Link先を確認
Jan-Philipp Roche and Oliver Niggemann and Jens Friebe(参考訳) 機械学習における既存のブラックボックスモデリングアプローチは、一定の入出力機能の組み合わせに苦しむ。 本稿では,一連の時系列における欠落変数を再構成する新しい手法を提案する。 オートエンコーダは通常、両側のすべての機能でトレーニングされ、このトレーニング後にニューラルネットワークパラメータが固定される。 次に、探索された変数はオートエンコーダ入力の欠落変数として定義され、自動微分によって最適化される。 この最適化は、利用可能な特徴損失計算に関して行われる。 この方法により、探索された変数を欠落変数として定義し、再構成することにより、訓練されたモデルの異なる入出力特徴組合せを実現することができる。 組み合わせはオートエンコーダを再びトレーニングすることなく変更することができる。 このアプローチは、強い非線形電気成分に基づいて評価される。 欠落している4つの変数のうちの1つ、そして一般的には複数の欠落変数に対してもうまく機能している。

Existing black box modeling approaches in machine learning suffer from a fixed input and output feature combination. In this paper, a new approach to reconstruct missing variables in a set of time series is presented. An autoencoder is trained as usual with every feature on both sides and the neural network parameters are fixed after this training. Then, the searched variables are defined as missing variables at the autoencoder input and optimized via automatic differentiation. This optimization is performed with respect to the available features loss calculation. With this method, different input and output feature combinations of the trained model can be realized by defining the searched variables as missing variables and reconstructing them. The combination can be changed without training the autoencoder again. The approach is evaluated on the base of a strongly nonlinear electrical component. It is working well for one of four variables missing and generally even for multiple missing variables.
翻訳日:2023-08-22 14:47:44 公開日:2023-08-21
# SeqGPT:オープンドメインシーケンス理解のためのアウトオブボックス大言語モデル

SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding ( http://arxiv.org/abs/2308.10529v1 )

ライセンス: Link先を確認
Tianyu Yu, Chengyue Jiang, Chao Lou, Shen Huang, Xiaobin Wang, Wei Liu, Jiong Cai, Yangning Li, Yinghui Li, Kewei Tu, Hai-Tao Zheng, Ningyu Zhang, Pengjun Xie, Fei Huang, Yong Jiang(参考訳) 大規模言語モデル(LLM)は、オープンドメインのNLPタスクに素晴らしい能力を示している。 しかし、LLMは、常に出力と入力の形式に制限のある自然言語理解(NLU)タスクには不便すぎることがある。 NLUタスクのパフォーマンスはプロンプトやデモに強く関連しており、イベント抽出やエンティティタイピングといったいくつかの代表的なNLUタスクの実行には不適当であることが示されている。 この目的のために,オープンドメイン自然言語理解のために特別に強化されたバイリンガル(英語と中国語)のオープンソース自己回帰モデルであるseqgptを提案する。 すべてのnluタスクを2つのアトミックタスクで表現し、入力と出力のフォーマットを制限する固定命令を定義するが、任意に変化するラベルセットに対しては ``open''' のままである。 このモデルはまず、ChatGPTによって合成された非常にきめ細かいラベル付きデータで調整され、さらに様々な領域にわたる152データセットから233の異なる原子タスクによって微調整される。 実験の結果,SeqGPTは適切な分類と抽出能力を有し,未知の領域で言語理解タスクを実行できることがわかった。 また,データのスケーリングやモデルサイズ,タスク間の転送に関する実証研究も行っています。 私たちのモデルはhttps://github.com/Alibaba-NLP/SeqGPTでアクセスできます。

Large language models (LLMs) have shown impressive ability for open-domain NLP tasks. However, LLMs are sometimes too footloose for natural language understanding (NLU) tasks which always have restricted output and input format. Their performances on NLU tasks are highly related to prompts or demonstrations and are shown to be poor at performing several representative NLU tasks, such as event extraction and entity typing. To this end, we present SeqGPT, a bilingual (i.e., English and Chinese) open-source autoregressive model specially enhanced for open-domain natural language understanding. We express all NLU tasks with two atomic tasks, which define fixed instructions to restrict the input and output format but still ``open'' for arbitrarily varied label sets. The model is first instruction-tuned with extremely fine-grained labeled data synthesized by ChatGPT and then further fine-tuned by 233 different atomic tasks from 152 datasets across various domains. The experimental results show that SeqGPT has decent classification and extraction ability, and is capable of performing language understanding tasks on unseen domains. We also conduct empirical studies on the scaling of data and model size as well as on the transfer across tasks. Our model is accessible at https://github.com/Alibaba-NLP/SeqGPT.
翻訳日:2023-08-22 14:40:29 公開日:2023-08-21
# DPAN: 関連勧告のための動的推論と属性認識ネットワーク

DPAN: Dynamic Preference-based and Attribute-aware Network for Relevant Recommendations ( http://arxiv.org/abs/2308.10527v1 )

ライセンス: Link先を確認
Wei Dai, Yingmin Su, Xiaofeng Pan(参考訳) eコマースプラットフォームでは、関連するレコメンデーションは、ユーザが興味を持つトリガーアイテムに関連するアイテムを提供するユニークなシナリオである。 しかし、類似性や推薦結果の多様性に対するユーザの好みは動的であり、異なる条件下で異なる。 さらに、推奨項目はすべてトリガー項目に関連するため、個々の項目レベルの多様性は粗い粒度である。 したがって、2つの主な課題は、類似性と多様性のきめ細かい表現を学習し、異なる条件下でユーザの動的嗜好を捉えることである。 これらの課題に対処するため、我々は、Click-Through Rate (CTR) を予測するためのDynamic Preference-based and Attribute-aware Network (DPAN) と呼ばれる新しい手法を提案する。 具体的には、属性認識アクティベーション値生成(aavg)に基づき、ユーザの興味やアイテム情報の類似性と多様性の表現を得るために、二次元圧縮ベース再表現(bcr)が設計されている。 そこで,Shallow and Deep Union-based Fusion (SDUF) を提案する。 DPANは大規模なオフライン実験とオンラインA/Bテストを通じてその効果を実証し、CTRは7.62%改善した。 現在、DPANは、関連するレコメンデーションのために主要なトラフィックを提供するEコマースプラットフォームにうまくデプロイされています。 DPANのコードは公開されている。

In e-commerce platforms, the relevant recommendation is a unique scenario providing related items for a trigger item that users are interested in. However, users' preferences for the similarity and diversity of recommendation results are dynamic and vary under different conditions. Moreover, individual item-level diversity is too coarse-grained since all recommended items are related to the trigger item. Thus, the two main challenges are to learn fine-grained representations of similarity and diversity and capture users' dynamic preferences for them under different conditions. To address these challenges, we propose a novel method called the Dynamic Preference-based and Attribute-aware Network (DPAN) for predicting Click-Through Rate (CTR) in relevant recommendations. Specifically, based on Attribute-aware Activation Values Generation (AAVG), Bi-dimensional Compression-based Re-expression (BCR) is designed to obtain similarity and diversity representations of user interests and item information. Then Shallow and Deep Union-based Fusion (SDUF) is proposed to capture users' dynamic preferences for the diverse degree of recommendation results according to various conditions. DPAN has demonstrated its effectiveness through extensive offline experiments and online A/B testing, resulting in a significant 7.62% improvement in CTR. Currently, DPAN has been successfully deployed on our e-commerce platform serving the primary traffic for relevant recommendations. The code of DPAN has been made publicly available.
翻訳日:2023-08-22 14:39:52 公開日:2023-08-21
# lightdepth: 単視点深度の自己スーパービジョン

LightDepth: Single-View Depth Self-Supervision from Illumination Decline ( http://arxiv.org/abs/2308.10525v1 )

ライセンス: Link先を確認
Javier Rodr\'iguez-Puigvert, V\'ictor M. Batlle, J.M.M. Montiel, Ruben Martinez Cantin, Pascal Fua, Juan D. Tard\'os, Javier Civera(参考訳) 教師付きトレーニングに十分な地上深度データがあれば, 単視点深度推定は極めて効果的である。 しかし、特に内科の場合、そのようなデータが得られないシナリオがある。 このような場合、多視点の自己スーパービジョンと合成から現実への移動は代替のアプローチとして機能するが、教師付きの場合と比較してかなり性能が低下する。 代わりに,教師付きケースと同様の性能を実現するシングルビュー自己教師付き手法を提案する。 内視鏡などの医療機器では、カメラと光源はターゲット表面からわずかに離れた位置に配置されている。 したがって、任意のアルベドおよび表面方位に対して、画素の明るさは表面までの距離の2乗に逆比例し、強い単視点の自己スーパーバイザリー信号を与えることができる。 我々の実験では, 自己教師付きモデルでは, 完全な教師付きモデルに匹敵する精度を与えつつ, 奥行きの地中データを用いずに適用できる。

Single-view depth estimation can be remarkably effective if there is enough ground-truth depth data for supervised training. However, there are scenarios, especially in medicine in the case of endoscopies, where such data cannot be obtained. In such cases, multi-view self-supervision and synthetic-to-real transfer serve as alternative approaches, however, with a considerable performance reduction in comparison to supervised case. Instead, we propose a single-view self-supervised method that achieves a performance similar to the supervised case. In some medical devices, such as endoscopes, the camera and light sources are co-located at a small distance from the target surfaces. Thus, we can exploit that, for any given albedo and surface orientation, pixel brightness is inversely proportional to the square of the distance to the surface, providing a strong single-view self-supervisory signal. In our experiments, our self-supervised models deliver accuracies comparable to those of fully supervised ones, while being applicable without depth ground-truth data.
翻訳日:2023-08-22 14:39:22 公開日:2023-08-21
# データセット量子化

Dataset Quantization ( http://arxiv.org/abs/2308.10524v1 )

ライセンス: Link先を確認
Daquan Zhou, Kai Wang, Jianyang Gu, Xiangyu Peng, Dongze Lian, Yifan Zhang, Yang You, Jiashi Feng(参考訳) 最先端のディープニューラルネットワークは、大量のデータ(数百万、数十億)で訓練される。 高価な計算とメモリコストのため、限られたハードウェアリソース、特に最近普及している大規模言語モデル(llm)やコンピュータビジョンモデル(cv)でのトレーニングは困難である。 近年,勾配マッチングによる小規模データセットの合成によるサンプル数削減を目的とした,人気のデータセット蒸留法が開発されている。 しかし、勾配計算は特定のネットワークアーキテクチャと結合されるため、合成データセットは偏りがあり、見当たらないアーキテクチャのトレーニングに使用すると性能が悪くなる。 このような制約に対処するために,我々は,大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるdataset quantization(dq)を提案する。 広範な実験により、dqは、損失のないモデルトレーニングのために最先端の圧縮率で、未認識のネットワークアーキテクチャをトレーニングするために、凝縮された小さなデータセットを生成できることが示されている。 我々の知る限りでは、DQはImageNet-1kのような大規模データセットを最先端の圧縮比で抽出できる最初の方法である。 特に、ImageNetの60%のデータとAlpacaのインストラクションチューニングデータからの20%のデータにより、これらのモデルは視覚タスク(分類、セマンティックセグメンテーション、オブジェクト検出を含む)と言語タスク(BBHやDROPのようなインストラクションチューニングタスクを含む)の両方のパフォーマンス低下を無視できるか、ゼロにトレーニングすることができる。

State-of-the-art deep neural networks are trained with large amounts (millions or even billions) of data. The expensive computation and memory costs make it difficult to train them on limited hardware resources, especially for recent popular large language models (LLM) and computer vision models (CV). Recent popular dataset distillation methods are thus developed, aiming to reduce the number of training samples via synthesizing small-scale datasets via gradient matching. However, as the gradient calculation is coupled with the specific network architecture, the synthesized dataset is biased and performs poorly when used for training unseen architectures. To address these limitations, we present dataset quantization (DQ), a new framework to compress large-scale datasets into small subsets which can be used for training any neural network architectures. Extensive experiments demonstrate that DQ is able to generate condensed small datasets for training unseen network architectures with state-of-the-art compression ratios for lossless model training. To the best of our knowledge, DQ is the first method that can successfully distill large-scale datasets such as ImageNet-1k with a state-of-the-art compression ratio. Notably, with 60% data from ImageNet and 20% data from Alpaca's instruction tuning data, the models can be trained with negligible or no performance drop for both vision tasks (including classification, semantic segmentation, and object detection) as well as language tasks (including instruction tuning tasks such as BBH and DROP).
翻訳日:2023-08-22 14:39:00 公開日:2023-08-21
# 不十分な場合:脆弱性検出のための正および未ラベル学習モデル

When Less is Enough: Positive and Unlabeled Learning Model for Vulnerability Detection ( http://arxiv.org/abs/2308.10523v1 )

ライセンス: Link先を確認
Xin-Cheng Wen, Xinchen Wang, Cuiyun Gao, Shaohua Wang, Yang Liu, Zhaoquan Gu(参考訳) 近年,自動コード脆弱性検出が注目されている。 脆弱なコードパターンを暗黙的に学習するディープラーニング(DL)ベースの手法は、脆弱性検出に有効であることが証明されている。 DLベースの手法の性能は通常ラベル付きデータの量と品質に依存する。 しかし、現在のラベル付きデータは、人間が生成したコミットからクロールするなど、一般的に自動的に収集されるため、ラベルの品質を保証するのが難しくなる。 以前の研究では、非脆弱性コード(負のラベル)が一般的に使用されるデータセットでは信頼できない傾向にあり、弱いコード(正のラベル)がより決定される傾向が示されている。 実際には大量のラベルなしデータを考えると、より正確な脆弱性検出のために、ポジティブなデータと大量のラベルなしデータを活用する必要がある。 本稿では,脆弱性検出のためのPositive and Unlabeled(PU)学習問題に着目し,脆弱性検出のためのPILOT,すなわちPositIveとUnlabeled Learning mOdelを提案する。 PILOTは、脆弱性検出のための正および未ラベルのデータからのみ学習する。 主に,(1) クラス間距離プロトタイプとプログレッシブ微調整を含む,選択されたラベル付きデータに対する擬似ラベル生成を目的とした距離対応ラベル選択モジュール,(2) ノイズの影響を緩和し,表現の識別を強化する混合スーパービジョン表現学習モジュールの2つのモジュールを含む。

Automated code vulnerability detection has gained increasing attention in recent years. The deep learning (DL)-based methods, which implicitly learn vulnerable code patterns, have proven effective in vulnerability detection. The performance of DL-based methods usually relies on the quantity and quality of labeled data. However, the current labeled data are generally automatically collected, such as crawled from human-generated commits, making it hard to ensure the quality of the labels. Prior studies have demonstrated that the non-vulnerable code (i.e., negative labels) tends to be unreliable in commonly-used datasets, while vulnerable code (i.e., positive labels) is more determined. Considering the large numbers of unlabeled data in practice, it is necessary and worth exploring to leverage the positive data and large numbers of unlabeled data for more accurate vulnerability detection. In this paper, we focus on the Positive and Unlabeled (PU) learning problem for vulnerability detection and propose a novel model named PILOT, i.e., PositIve and unlabeled Learning mOdel for vulnerability deTection. PILOT only learns from positive and unlabeled data for vulnerability detection. It mainly contains two modules: (1) A distance-aware label selection module, aiming at generating pseudo-labels for selected unlabeled data, which involves the inter-class distance prototype and progressive fine-tuning; (2) A mixed-supervision representation learning module to further alleviate the influence of noise and enhance the discrimination of representations.
翻訳日:2023-08-22 14:38:33 公開日:2023-08-21
# 情報理論に基づくヒューリスティック・プログレッシブ・マルチビュー符号化

Information Theory-Guided Heuristic Progressive Multi-View Coding ( http://arxiv.org/abs/2308.10522v1 )

ライセンス: Link先を確認
Jiangmeng Li, Hang Gao, Wenwen Qiang, Changwen Zheng(参考訳) マルチビュー表現学習は、共有コンテキストの複数のビューから包括的情報をキャプチャすることを目的としている。 ビュー固有のノイズは、ビュー共有表現の学習においてフィルタリングされない; 否定的な用語が実際には正と同じクラス内にあり、実際の否定的なペアが等しく扱われる偽の否定的なペア; 用語間の類似性を測定することは最適化に支障をきたすかもしれない。 特に2つ以上の視点で、一般化された自己教師型多視点学習の理論的枠組みを研究する研究はほとんどない。 そこで我々は,情報理論の観点から既存の多視点学習パラダイムを再考し,一般化多視点学習のための新しい情報理論フレームワークを提案する。 そこで,我々は情報理論に基づく階層型階層型多視点符号化 (ipmc) という,3層プログレッシブアーキテクチャを用いたマルチビュー符号化手法を構築した。 分散層では、IPMCはビュー間の分散を調整し、ビュー固有のノイズを減らす。 セット層では、IPMCは自己調整型コントラストプールを構築し、ビューフィルタによって適応的に修正される。 最後に、インスタンス層では、表現を学習し、勾配干渉を減らすために設計された統一的損失を採用します。 理論上,実証的に,ipmcが最先端手法よりも優れていることを示す。

Multi-view representation learning aims to capture comprehensive information from multiple views of a shared context. Recent works intuitively apply contrastive learning to different views in a pairwise manner, which is still scalable: view-specific noise is not filtered in learning view-shared representations; the fake negative pairs, where the negative terms are actually within the same class as the positive, and the real negative pairs are coequally treated; evenly measuring the similarities between terms might interfere with optimization. Importantly, few works study the theoretical framework of generalized self-supervised multi-view learning, especially for more than two views. To this end, we rethink the existing multi-view learning paradigm from the perspective of information theory and then propose a novel information theoretical framework for generalized multi-view learning. Guided by it, we build a multi-view coding method with a three-tier progressive architecture, namely Information theory-guided hierarchical Progressive Multi-view Coding (IPMC). In the distribution-tier, IPMC aligns the distribution between views to reduce view-specific noise. In the set-tier, IPMC constructs self-adjusted contrasting pools, which are adaptively modified by a view filter. Lastly, in the instance-tier, we adopt a designed unified loss to learn representations and reduce the gradient interference. Theoretically and empirically, we demonstrate the superiority of IPMC over state-of-the-art methods.
翻訳日:2023-08-22 14:38:08 公開日:2023-08-21
# PHE-SICH-CT-IDS : 自然発症脳内出血におけるセマンティックセグメンテーション, 物体検出, 放射線学的特徴抽出のためのベンチマークCTデータセット

PHE-SICH-CT-IDS: A Benchmark CT Image Dataset for Evaluation Semantic Segmentation, Object Detection and Radiomic Feature Extraction of Perihematomal Edema in Spontaneous Intracerebral Hemorrhage ( http://arxiv.org/abs/2308.10521v1 )

ライセンス: Link先を確認
Deguo Ma, Chen Li, Lin Qiao, Tianming Du, Dechao Tang, Zhiyu Ma, Marcin Grzegorzek Hongzan, Hongzan Sun(参考訳) 脳内出血は世界で最も死亡率が高く予後不良な疾患の一つである。 特発性脳出血(sich)は,出血の診断,局所化,定量化に重要である。 PHE(perihematomal edema)の早期発見と正確なセグメンテーションは、適切な臨床介入を誘導し、患者の予後を高める上で重要な役割を担っている。 しかし, PHE区分けと検出のためのコンピュータ支援診断法の進歩と評価は, 脳CT画像データセットの公開不足による課題に直面している。 PHE-SICH-CT-IDSと命名したCTデータセットを,脳内自然出血に用いた。 データセットは、120の脳ctスキャンと、7,022のct画像と、対応する患者の医療情報とからなる。 セマンティックセグメンテーション,オブジェクト検出,放射能特徴抽出のための古典的アルゴリズムの評価を行った。 PHE-SICH-CT-IDSのセグメンテーション, 検出, 放射能特徴抽出法の性能評価における妥当性を確認した。 私たちの知る限りでは、SICHにおけるPHEのための最初の公開データセットであり、様々な医療シナリオにわたるアプリケーションに適したさまざまなデータフォーマットで構成されています。 PHE-SICH-CT-IDSは、研究者に新しいアルゴリズムを探索させ、臨床現場で臨床医や患者に貴重な支援を提供すると信じている。 https://figshare.com/articles/dataset/phe-sich-ct-ids/23957937。

Intracerebral hemorrhage is one of the diseases with the highest mortality and poorest prognosis worldwide. Spontaneous intracerebral hemorrhage (SICH) typically presents acutely, prompt and expedited radiological examination is crucial for diagnosis, localization, and quantification of the hemorrhage. Early detection and accurate segmentation of perihematomal edema (PHE) play a critical role in guiding appropriate clinical intervention and enhancing patient prognosis. However, the progress and assessment of computer-aided diagnostic methods for PHE segmentation and detection face challenges due to the scarcity of publicly accessible brain CT image datasets. This study establishes a publicly available CT dataset named PHE-SICH-CT-IDS for perihematomal edema in spontaneous intracerebral hemorrhage. The dataset comprises 120 brain CT scans and 7,022 CT images, along with corresponding medical information of the patients. To demonstrate its effectiveness, classical algorithms for semantic segmentation, object detection, and radiomic feature extraction are evaluated. The experimental results confirm the suitability of PHE-SICH-CT-IDS for assessing the performance of segmentation, detection and radiomic feature extraction methods. To the best of our knowledge, this is the first publicly available dataset for PHE in SICH, comprising various data formats suitable for applications across diverse medical scenarios. We believe that PHE-SICH-CT-IDS will allure researchers to explore novel algorithms, providing valuable support for clinicians and patients in the clinical setting. PHE-SICH-CT-IDS is freely published for non-commercial purpose at: https://figshare.com/articles/dataset/PHE-SICH-CT-IDS/23957937.
翻訳日:2023-08-22 14:37:44 公開日:2023-08-21
# ミンコフスキー時空の曲った背景上のディラック粒子のハング型解

Heun-type solutions for the Dirac particle on the curved background of Minkowski space-times ( http://arxiv.org/abs/2308.10518v1 )

ライセンス: Link先を確認
Saman Rahmani and Hossein Panahi and Amerne Najafizade(参考訳) 本稿では,光円錐上でのミンコフスキー時空の背景におけるディラック方程式について検討する。 ラジアル部分のカップリングの助けを借り、4つの方程式の系は2つの異なる2階微分方程式に還元され、これは現在のポテンシャルの粒子と一致する。 中心方程式はフン型方程式に還元され、エネルギースペクトルが提供される。 また、外部場の組合せのようなシュリンガー方程式は二階微分方程式と関係があることが示されている。 別の方法では、磁場の文脈でスピンのない荷電粒子に対して結果が有効である。 キーワード:フン関数、ディラック方程式、曲線時空、光円錐

In the present paper, we study the Dirac equation in the background of Minkowski space-time on a light cone. With the help of the coupling of the radial parts, the system of 4 equations is reduced to two different second-order differential equations, which coincide with a particle in present potentials. It turns out that the central equation reduces to Heun-type equations and provides us with energy spectra. Also, it is shown that the Schr\"odinger equation like with a combination of the external field is related to a second-order differential equation. In another way to solve the problem, results are valid for a spinless charged particle in the context of the magnetic field. Keywords: Heun function, Dirac equation, curved space-time, light cone
翻訳日:2023-08-22 14:37:15 公開日:2023-08-21
# QD-BEV : 多視点3Dオブジェクト検出のための量子化対応ビュー誘導蒸留

QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object Detection ( http://arxiv.org/abs/2308.10515v1 )

ライセンス: Link先を確認
Yifan Zhang, Zhen Dong, Huanrui Yang, Ming Lu, Cheng-Ching Tseng, Yuan Du, Kurt Keutzer, Li Du, Shanghang Zhang(参考訳) BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。 しかし、最先端のモデルの膨大なメモリ消費は、車両へのデプロイを難しくし、非自明なレイテンシはストリーミングアプリケーションのリアルタイム知覚に影響を与えるだろう。 モデルへの量子化の広範な適用にもかかわらず、我々の論文では、BEVタスクで直接量子化を適用することが示される。 1) 訓練を不安定にし、 2) 耐え難い性能低下につながる。 これらの問題を解決するため,本手法では,画像特徴量とbev特徴の両方を活用してモデル性能を高めつつ,量子化アウェアトレーニング(qat)を安定化できる新しいビューガイド蒸留(vgd)目的を実現する。 実験の結果,QD-BEVは従来手法と同等あるいはそれ以上の精度で効率が向上した。 nuScenesデータセットでは、4ビットの重みと6ビットのアクティベートされたQD-BEV-Tinyモデルは、わずか15.8MBのモデルサイズで37.2%のNDSを達成する。 小型モデルとベースモデルでは、QD-BEVモデルはそれぞれ47.9% NDS (28.2 MB)と50.9% NDS (32.9 MB)を達成している。

Multi-view 3D detection based on BEV (bird-eye-view) has recently achieved significant improvements. However, the huge memory consumption of state-of-the-art models makes it hard to deploy them on vehicles, and the non-trivial latency will affect the real-time perception of streaming applications. Despite the wide application of quantization to lighten models, we show in our paper that directly applying quantization in BEV tasks will 1) make the training unstable, and 2) lead to intolerable performance degradation. To solve these issues, our method QD-BEV enables a novel view-guided distillation (VGD) objective, which can stabilize the quantization-aware training (QAT) while enhancing the model performance by leveraging both image features and BEV features. Our experiments show that QD-BEV achieves similar or even better accuracy than previous methods with significant efficiency gains. On the nuScenes datasets, the 4-bit weight and 6-bit activation quantized QD-BEV-Tiny model achieves 37.2% NDS with only 15.8 MB model size, outperforming BevFormer-Tiny by 1.8% with an 8x model compression. On the Small and Base variants, QD-BEV models also perform superbly and achieve 47.9% NDS (28.2 MB) and 50.9% NDS (32.9 MB), respectively.
翻訳日:2023-08-22 14:37:04 公開日:2023-08-21
# 遷移金属ジヒドロコゲナイド単分子膜の室温谷偏極誘導

Inducing room-temperature valley polarization of excitonic emission in transition metal dichalcogenide monolayers ( http://arxiv.org/abs/2308.10514v1 )

ライセンス: Link先を確認
Sergii Morozov, Torgom Yezekyan, Christian Wolff, Sergey I. Bozhevolnyi, N. Asger Mortensen(参考訳) 遷移金属ジアルコゲナイド(TMD)単分子膜の最低エネルギー状態はバレー選択規則に従っており、量子情報の符号化と処理の可能性から大きな関心を集めている。 しかし、これらの量子状態は、完全な谷分極を引き起こす温度依存性のインターバルリー散乱に強く影響され、室温でのTMD単分子膜の実用的応用を妨げている。 したがって、TMD単層膜における明瞭で堅牢な谷分極を達成するためには、谷トロニクスの発達分野における中心的な課題である寄生脱分極過程を抑える必要がある。 ここでは, TMD単層膜上での電子ドーピング実験において, 10^{13}$~cm$^{-2}$を超える強いドーピングレベルは, タングステンジエレニドおよびモリブデンジエレニド単層において, 室温で61\%, 37\%のバレーコントラストを誘導できることを示した。 以上の結果から,TMD単層膜中の荷電励起子を量子単位として,300Kで作動する実用的なバレートロニクスデバイスの設計に活用できることが示唆された。

The lowest energy states in transition metal dichalcogenide (TMD) monolayers follow valley selection rules, which have attracted vast interest due to the possibility of encoding and processing of quantum information. However, these quantum states are strongly affected by the temperature-dependent intervalley scattering causing complete valley depolarization, which is hampering any practical applications of TMD monolayers at room temperature. Therefore, for achieving clear and robust valley polarization in TMD monolayers one needs to suppress parasitic depolarization processes, which is the central challenge in the growing field of valleytronics. Here, in electron-doping experiments on TMD monolayers, we demonstrate that strong doping levels beyond $10^{13}$~cm$^{-2}$ can induce 61\% and 37\% valley contrast at room temperature in tungsten diselenide and molybdenum diselenide monolayers, respectively. Our results indicate that charged excitons in TMD monolayers can be utilized as quantum units in designing of practical valleytronic devices operating at 300 K.
翻訳日:2023-08-22 14:36:34 公開日:2023-08-21
# 局所球高調波による骨格に基づく手動作認識の改善

Local Spherical Harmonics Improve Skeleton-Based Hand Action Recognition ( http://arxiv.org/abs/2308.10557v1 )

ライセンス: Link先を確認
Katharina Prasse, Steffen Jung, Yuxuan Zhou, Margret Keuper(参考訳) ハンドアクション認識は不可欠である。 コミュニケーション、人間とロボットの相互作用、ジェスチャー制御はそれに依存する。 スケルトンベースのアクション認識は伝統的に、これまで正しく認識することが難しいクラスに属する手を含んでいる。 本研究では, 局所球面高調波と相対角埋め込みを用いた手動作認識のための新しい手動作表現法を提案する。 Spherical Harmonicsの使用は、オブジェクト間の差異や視点の変化に対して手の動き認識をさらに堅牢にする回転不変表現を生成する。 我々は、RGB-Dビデオと3Dハンドポッドアノテーションを用いたファーストパーソンハンドアクションベンチマークと、NTU RGB+D 120データセットでハンドジョイントについて広範な実験を行い、局所球高調波表現の利点を実証した。 私たちのコードはhttps://github.com/kathpra/lshr_lshtで利用可能です。

Hand action recognition is essential. Communication, human-robot interactions, and gesture control are dependent on it. Skeleton-based action recognition traditionally includes hands, which belong to the classes which remain challenging to correctly recognize to date. We propose a method specifically designed for hand action recognition which uses relative angular embeddings and local Spherical Harmonics to create novel hand representations. The use of Spherical Harmonics creates rotation-invariant representations which make hand action recognition even more robust against inter-subject differences and viewpoint changes. We conduct extensive experiments on the hand joints in the First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations, and on the NTU RGB+D 120 dataset, demonstrating the benefit of using Local Spherical Harmonics Representations. Our code is available at https://github.com/KathPra/LSHR_LSHT.
翻訳日:2023-08-22 14:30:21 公開日:2023-08-21
# 意味変化を用いたゼロショットgan適応の多様性向上

Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations ( http://arxiv.org/abs/2308.10554v1 )

ライセンス: Link先を確認
Seogkyu Jeon, Bei Liu, Pilhyeon Lee, Kibeom Hong, Jianlong Fu, Hyeran Byun(参考訳) 深層生成モデルのトレーニングは通常、大量のデータを必要とする。 データ収集コストを軽減するため、ゼロショットgan適応のタスクは、訓練済みのジェネレータを再利用して、これ以上のトレーニングサンプルを使わずに対象領域のイメージを合成することを目的としている。 データの欠如により、対象領域のテキスト記述や、例えばクリップなどの視覚言語モデルを利用して、ジェネレータを効果的にガイドする。 しかし、実際の画像の代わりに1つの代表テキスト機能しか持たないため、モデルが最適化されるにつれて、合成画像は徐々に多様性を失い、モード崩壊とも呼ばれる。 この問題に対処するために,CLIP空間における対象テキストの意味的変動を見つける新しい手法を提案する。 具体的には,意味情報の非制御的偏差を定式化しつつ,対象領域の情報的テキスト特徴に基づく多様な意味変化を探索する。 得られた変動により,画像とテキストの方向分布の第一モーメントと第二モーメントに一致する新しい方向モーメントロスをデザインする。 さらに,弾力的な重みの和合せと関係一貫性の損失を導入し,ソース領域,例えば外観から貴重なコンテンツ情報を効果的に保存する。 本研究では,ゼロショットgan適応の様々なシナリオにおいて,サンプルの多様性を確保するための提案手法の有効性を実証する。 また,提案する各成分の効果を検証するため,アブレーション研究を行う。 特に,本モデルでは,多様性と品質の両面で,ゼロショットGAN適応の最先端性を実現している。

Training deep generative models usually requires a large amount of data. To alleviate the data collection cost, the task of zero-shot GAN adaptation aims to reuse well-trained generators to synthesize images of an unseen target domain without any further training samples. Due to the data absence, the textual description of the target domain and the vision-language models, e.g., CLIP, are utilized to effectively guide the generator. However, with only a single representative text feature instead of real images, the synthesized images gradually lose diversity as the model is optimized, which is also known as mode collapse. To tackle the problem, we propose a novel method to find semantic variations of the target text in the CLIP space. Specifically, we explore diverse semantic variations based on the informative text feature of the target domain while regularizing the uncontrolled deviation of the semantic information. With the obtained variations, we design a novel directional moment loss that matches the first and second moments of image and text direction distributions. Moreover, we introduce elastic weight consolidation and a relation consistency loss to effectively preserve valuable content information from the source domain, e.g., appearances. Through extensive experiments, we demonstrate the efficacy of the proposed methods in ensuring sample diversity in various scenarios of zero-shot GAN adaptation. We also conduct ablation studies to validate the effect of each proposed component. Notably, our model achieves a new state-of-the-art on zero-shot GAN adaptation in terms of both diversity and quality.
翻訳日:2023-08-22 14:30:04 公開日:2023-08-21
# スティーフェル多様体上の分散リーマン共役勾配法

Decentralized Riemannian Conjugate Gradient Method on the Stiefel Manifold ( http://arxiv.org/abs/2308.10547v1 )

ライセンス: Link先を確認
Jun Chen, Haishan Ye, Mengmeng Wang, Tianxin Huang, Guang Dai, Ivor W.Tsang, Yong Liu(参考訳) 共役勾配法は、一般に最も急勾配法よりも早く収束する重要な1次最適化法であり、その計算コストは2次法よりもはるかに低い。 しかし、様々な共役勾配法がユークリッド空間やリーマン多様体で研究されているが、分散シナリオでの研究はほとんどない。 本稿では、スティーフェル多様体上の大域関数の最小化を目的とした分散リーマン共役勾配降下法(DRCGD)を提案する。 最適化問題はエージェントのネットワークに分散され、各エージェントは局所関数と関連付けられ、エージェント間の通信は無向連結グラフ上で発生する。 スティーフェル多様体は非凸集合であるため、大域函数はおそらく非凸(しかし滑らかな)局所函数の有限和として表現される。 提案手法は,リトラクション,指数写像,ベクトル輸送などの高価なリーマン幾何学演算を不要とし,各エージェントが必要とする計算複雑性を低減させる。 我々の知る限りでは、dcgdはスティーフェル多様体上の大域収束を達成する最初の分散リーマン共役勾配アルゴリズムである。

The conjugate gradient method is a crucial first-order optimization method that generally converges faster than the steepest descent method, and its computational cost is much lower than the second-order methods. However, while various types of conjugate gradient methods have been studied in Euclidean spaces and on Riemannian manifolds, there has little study for those in distributed scenarios. This paper proposes a decentralized Riemannian conjugate gradient descent (DRCGD) method that aims at minimizing a global function over the Stiefel manifold. The optimization problem is distributed among a network of agents, where each agent is associated with a local function, and communication between agents occurs over an undirected connected graph. Since the Stiefel manifold is a non-convex set, a global function is represented as a finite sum of possibly non-convex (but smooth) local functions. The proposed method is free from expensive Riemannian geometric operations such as retractions, exponential maps, and vector transports, thereby reducing the computational complexity required by each agent. To the best of our knowledge, DRCGD is the first decentralized Riemannian conjugate gradient algorithm to achieve global convergence over the Stiefel manifold.
翻訳日:2023-08-22 14:29:40 公開日:2023-08-21
# ベイズデータ選択によるモデル学習の高速化

Towards Accelerated Model Training via Bayesian Data Selection ( http://arxiv.org/abs/2308.10544v1 )

ライセンス: Link先を確認
Zhijie Deng, Peng Cui, Jun Zhu(参考訳) 現実のシナリオにおけるミスラベル付き、重複、バイアス付きのデータは、長期間のトレーニングにつながり、モデル収束を妨げます。 簡単あるいはハードなサンプルを優先順位付けする従来のソリューションは、このような多様性を同時に扱う柔軟性を欠いている。 最近の研究は、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択原則を提案している。 しかし、その実用的採用は、少ない原理近似と追加のクリーンホールドアウトデータに依存している。 本研究は, 軽量ベイズ処理を活用し, 大規模事前学習モデルを用いた既定ゼロショット予測器を組み込むことにより, この問題を解決した。 結果として得られるアルゴリズムは効率的で実装が容易である。 我々は,オンラインバッチ選択シナリオにおいて,データノイズと不均衡がかなり大きい難易度ベンチマークについて広範な実証研究を行い,競合ベースラインよりも優れたトレーニング効率を観察する。 特に、挑戦的なwebvisionベンチマークにおいて、本手法は、リードデータ選択法よりもトレーニングイテレーションをかなり少なくして、同様の予測性能を達成することができる。

Mislabeled, duplicated, or biased data in real-world scenarios can lead to prolonged training and even hinder model convergence. Traditional solutions prioritizing easy or hard samples lack the flexibility to handle such a variety simultaneously. Recent work has proposed a more reasonable data selection principle by examining the data's impact on the model's generalization loss. However, its practical adoption relies on less principled approximations and additional clean holdout data. This work solves these problems by leveraging a lightweight Bayesian treatment and incorporating off-the-shelf zero-shot predictors built on large-scale pre-trained models. The resulting algorithm is efficient and easy-to-implement. We perform extensive empirical studies on challenging benchmarks with considerable data noise and imbalance in the online batch selection scenario, and observe superior training efficiency over competitive baselines. Notably, on the challenging WebVision benchmark, our method can achieve similar predictive performance with significantly fewer training iterations than leading data selection methods.
翻訳日:2023-08-22 14:29:21 公開日:2023-08-21
# 収束画像再構成アルゴリズムのための弱凸正則化器の学習

Learning Weakly Convex Regularizers for Convergent Image-Reconstruction Algorithms ( http://arxiv.org/abs/2308.10542v1 )

ライセンス: Link先を確認
Alexis Goujon, Sebastian Neumayer, Michael Unser(参考訳) 弱凸率係数に所定の上限を持つ非凸正則化器を学習することを提案する。 このような正則化器は凸エネルギーを最小化する変分分解器をもたらす。 パラメータは少なく(15,000未満)、手作りのスパーシティプロモート正規化器を模倣した信号処理の解釈を提供する。 数値実験により,このようなデノイザは,一般的なBM3Dデノイザと同様に凸正則化法よりも優れていることを示す。 さらに、学習された正規化器は、確実に収束する反復スキームで逆問題を解くためにデプロイできる。 CTとMRIの両方の再構成では、レギュラーライザは、他のデータ駆動アプローチと比較して、パフォーマンス、パラメータの数、保証、解釈可能性の間の優れたトレードオフを提供する。

We propose to learn non-convex regularizers with a prescribed upper bound on their weak-convexity modulus. Such regularizers give rise to variational denoisers that minimize a convex energy. They rely on few parameters (less than 15,000) and offer a signal-processing interpretation as they mimic handcrafted sparsity-promoting regularizers. Through numerical experiments, we show that such denoisers outperform convex-regularization methods as well as the popular BM3D denoiser. Additionally, the learned regularizer can be deployed to solve inverse problems with iterative schemes that provably converge. For both CT and MRI reconstruction, the regularizer generalizes well and offers an excellent tradeoff between performance, number of parameters, guarantees, and interpretability when compared to other data-driven approaches.
翻訳日:2023-08-22 14:29:06 公開日:2023-08-21
# テンソルネットワーク経路積分による量子相関関数

Quantum correlation functions through tensor network path integral ( http://arxiv.org/abs/2308.10540v1 )

ライセンス: Link先を確認
Amartya Bose(参考訳) テンソルネットワークは歴史的に、固有状態の計算に使用できる波動関数の圧縮表現を提供するのに非常に有用であることが証明されている。 近年,feynman-vernon影響関数を含むダイナミクスのリアルタイム非平衡シミュレーションを実現するために,様々なネットワークを活用できることが示されている。 本研究では、経路積分法を用いて、開量子システムの平衡相関関数を計算するためにテンソルネットワークを利用する。 これらの相関関数は反応速度の計算、応答関数と感受性のシミュレーション、系のスペクトルなどにおいて重要なものである。 量子系に対する溶媒の影響は、非慣習構造が、いわゆる経路振幅行列積状態に適用可能な新しい最適行列積様作用素の設計を動機付ける影響汎関数によって組み込まれている。 この複雑な時間テンソルネットワークパス積分アプローチは、バスと強く相互作用する大規模システムやより低温で長時間のシミュレーションを可能にする経路積分の極めて効率的な表現を提供する。 この手法の設計と実装は、レート理論、対称性スピン相関関数、動的感受性計算、量子熱力学の例とともに議論されている。

Tensor networks have historically proven to be of great utility in providing compressed representations of wave functions that can be used for calculation of eigenstates. Recently, it has been shown that a variety of these networks can be leveraged to make real time non-equilibrium simulations of dynamics involving the Feynman-Vernon influence functional more efficient. In this work, tensor networks are utilized for calculating equilibrium correlation function for open quantum systems using the path integral methodology. These correlation functions are of fundamental importance in calculations of rates of reactions, simulations of response functions and susceptibilities, spectra of systems, etc. The influence of the solvent on the quantum system is incorporated through an influence functional, whose unconventional structure motivates the design of a new optimal matrix product-like operator that can be applied to the so-called path amplitude matrix product state. This complex time tensor network path integral approach provides an exceptionally efficient representation of the path integral enabling simulations for larger systems strongly interacting with baths and at lower temperatures out to longer time. The design and implementation of this method is discussed along with illustrations from rate theory, symmetrized spin correlation functions, dynamical susceptibility calculations and quantum thermodynamics.
翻訳日:2023-08-22 14:28:52 公開日:2023-08-21
# 作動物質のq-変形のみを伴う量子オットーエンジンの動力化

Powering quantum Otto engines only with q-deformation of the working substance ( http://arxiv.org/abs/2308.10538v1 )

ライセンス: Link先を確認
Fatih Ozaydin, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu, Tu\u{g}rul Hakio\u{g}lu(参考訳) 量子オットーサイクルを$q$で変形した量子発振器作動物質と古典的な熱浴で考える。 量子統計変形パラメータ$q$がサイクルの作業と効率に及ぼす影響について検討する。 通常の量子オットーサイクルでは、ハミルトニアンパラメータは量子断熱段階の間に変化するが、動作する物質の量子統計特性は固定されている。 ハミルトンパラメータが変化していない場合でも、作業物質の量子統計学的変化によって作業が回収される。 物質の量子統計学的変異を用いた熱資源からの抽出は、古典的アナログを伴わずに量子オットーサイクルを生成する。

We consider a quantum Otto cycle with a $q$-deformed quantum oscillator working substance and classical thermal baths. We investigate the influence of the quantum statistical deformation parameter $q$ on the work and efficiency of the cycle. In usual quantum Otto cycle, a Hamiltonian parameter is varied during the quantum adiabatic stages while the quantum statistical character of the working substance remains fixed. We point out that even if the Hamiltonian parameters are not changing, work can be harvested by quantum statistical changes of the working substance. Work extraction from thermal resources using quantum statistical mutations of the working substance makes a quantum Otto cycle without any classical analog.
翻訳日:2023-08-22 14:28:31 公開日:2023-08-21
# kgreat: ダウンストリームタスクを通じて知識グラフを評価するフレームワーク

KGrEaT: A Framework to Evaluate Knowledge Graphs via Downstream Tasks ( http://arxiv.org/abs/2308.10537v1 )

ライセンス: Link先を確認
Nicolas Heist, Sven Hertling, Heiko Paulheim(参考訳) 近年、無数の研究論文が知識グラフの作成、拡張、あるいは完成に関するトピックに対処して、より大きく、より正しい、より多様な知識グラフを作成している。 この研究は典型的に、下流の課題を解決するために知識グラフを改良することで性能が向上するという議論に動機付けられている。 しかし、これはほとんど評価されていない。 むしろ、正確さと完全性を目指す主要な評価指標は、間違いなく価値があるが、全体像、すなわち、作成または強化された知識グラフが実際にどれほど有用であるかを捉えていない。 さらに、そのような知識グラフのアクセシビリティはめったに考慮されない(例えば、表現的なラベル、記述、知識グラフのエンティティにテキスト参照をリンクするための十分なコンテキスト情報を含むかどうかなど)。 知識グラフが実際のタスクでどのようにうまく機能するかを判断するために、kgreat - 分類、クラスタリング、推奨といった実際の下流タスクを通じて知識グラフの品質を見積もるフレームワークです。 KGrEaTの目的は,1つのタスクに対して異なる知識グラフの処理方法を比較するのではなく,各知識グラフを一定のタスク設定で評価することにある。 フレームワークは知識グラフを入力として、評価対象のデータセットに自動的にマップし、定義されたタスクのパフォーマンスメトリクスを計算する。 モジュール的な方法で構築され、追加のタスクやデータセットで簡単に拡張できる。

In recent years, countless research papers have addressed the topics of knowledge graph creation, extension, or completion in order to create knowledge graphs that are larger, more correct, or more diverse. This research is typically motivated by the argumentation that using such enhanced knowledge graphs to solve downstream tasks will improve performance. Nonetheless, this is hardly ever evaluated. Instead, the predominant evaluation metrics - aiming at correctness and completeness - are undoubtedly valuable but fail to capture the complete picture, i.e., how useful the created or enhanced knowledge graph actually is. Further, the accessibility of such a knowledge graph is rarely considered (e.g., whether it contains expressive labels, descriptions, and sufficient context information to link textual mentions to the entities of the knowledge graph). To better judge how well knowledge graphs perform on actual tasks, we present KGrEaT - a framework to estimate the quality of knowledge graphs via actual downstream tasks like classification, clustering, or recommendation. Instead of comparing different methods of processing knowledge graphs with respect to a single task, the purpose of KGrEaT is to compare various knowledge graphs as such by evaluating them on a fixed task setup. The framework takes a knowledge graph as input, automatically maps it to the datasets to be evaluated on, and computes performance metrics for the defined tasks. It is built in a modular way to be easily extendable with additional tasks and datasets.
翻訳日:2023-08-22 14:28:20 公開日:2023-08-21
# 単一視覚トランスフォーマを用いた映像と映像の合同学習

Joint learning of images and videos with a single Vision Transformer ( http://arxiv.org/abs/2308.10533v1 )

ライセンス: Link先を確認
Shuki Shimizu, Toru Tamaki(参考訳) 本研究では,単一のモデルを用いて画像と映像を共同学習する手法を提案する。 一般的に、画像とビデオは、しばしば別々のモデルによって訓練される。 本稿では,Vision Transformer IV-ViTへの入力として画像のバッチを取る方法と,遅延融合による時間的アグリゲーションを伴うビデオフレームのセットを提案する。 2つの画像データセットと2つの行動認識データセットの実験結果を示す。

In this study, we propose a method for jointly learning of images and videos using a single model. In general, images and videos are often trained by separate models. We propose in this paper a method that takes a batch of images as input to Vision Transformer IV-ViT, and also a set of video frames with temporal aggregation by late fusion. Experimental results on two image datasets and two action recognition datasets are presented.
翻訳日:2023-08-22 14:27:55 公開日:2023-08-21
# srformer:セグメント化による回帰に基づくテキスト検出トランスフォーマビリティ

SRFormer: Empowering Regression-Based Text Detection Transformer with Segmentation ( http://arxiv.org/abs/2308.10531v1 )

ライセンス: Link先を確認
Qingwen Bu, Sungrae Park, Minsoo Khang, Yichuan Cheng(参考訳) 既存のテキスト検出技術は、セグメンテーションベースメソッドと回帰ベースメソッドの2つの主要なグループに大別できる。 セグメンテーションモデルはフォントのバリエーションに対して堅牢性を高めるが、複雑な後処理を必要とし、高い計算オーバーヘッドをもたらす。 回帰に基づく手法はインスタンス認識の予測を行うが、高レベル表現に依存するため、ロバスト性やデータ効率に限界がある。 本研究は,DTRに基づく統合モデルSRFormerを提案する。このSRFormerは,セグメンテーション表現に固有のロバスト性を相乗的に活用し,インスタンスレベルの回帰処理を後処理することを目的としている。 実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。 これを踏まえ、分割枝の組込みを最初の数個のデコーダ層に制限し、その後の層で進行レグレッションを改良し、マスクからの計算負荷を最小化しながら性能向上を図る。 さらに,Mask-informed Query Enhancementモジュールを提案する。 セグメント化結果を自然なソフトROIとして、堅牢なピクセル表現をプールして抽出し、インスタンスクエリの強化と多様化に利用する。 複数のベンチマークをまたいで広範囲に実験した結果,本手法の極めて堅牢性,優れたトレーニングとデータ効率,最先端のパフォーマンスが注目された。

Existing techniques for text detection can be broadly classified into two primary groups: segmentation-based methods and regression-based methods. Segmentation models offer enhanced robustness to font variations but require intricate post-processing, leading to high computational overhead. Regression-based methods undertake instance-aware prediction but face limitations in robustness and data efficiency due to their reliance on high-level representations. In our academic pursuit, we propose SRFormer, a unified DETR-based model with amalgamated Segmentation and Regression, aiming at the synergistic harnessing of the inherent robustness in segmentation representations, along with the straightforward post-processing of instance-level regression. Our empirical analysis indicates that favorable segmentation predictions can be obtained at the initial decoder layers. In light of this, we constrain the incorporation of segmentation branches to the first few decoder layers and employ progressive regression refinement in subsequent layers, achieving performance gains while minimizing additional computational load from the mask. Furthermore, we propose a Mask-informed Query Enhancement module. We take the segmentation result as a natural soft-ROI to pool and extract robust pixel representations, which are then employed to enhance and diversify instance queries. Extensive experimentation across multiple benchmarks has yielded compelling findings, highlighting our method's exceptional robustness, superior training and data efficiency, as well as its state-of-the-art performance.
翻訳日:2023-08-22 14:27:47 公開日:2023-08-21
# RADIANCE: 無線周波数適応型ディープラーニングによるネットワーク被覆自動推定

RADIANCE: Radio-Frequency Adversarial Deep-learning Inference for Automated Network Coverage Estimation ( http://arxiv.org/abs/2308.10584v1 )

ライセンス: Link先を確認
Sopan Sarkar, Mohammad Hossein Manshaei, and Marwan Krunz(参考訳) 無線周波数カバレッジマップ(rfマップ)は、無線ネットワークにおいて容量計画、アクセスポイントと基地局の配置、ローカライゼーション、カバレッジ推定に広く利用されている。 RFマップ取得のための現場調査は、労働集約的であり、時には実現不可能である。 本稿では,自動ネットワークカバレッジ推定(RADIANCE, Generative Adversarial Network, GAN)に基づく屋内シナリオにおけるRFマップの合成手法を提案する。 RADIANCEは、室内環境の高レベルな表現であるセマンティックマップを使用して、環境内のオブジェクトの空間的関係と属性を符号化し、RFマップ生成プロセスを導く。 本稿では,環境内の一点から受信信号強度(rss)値の変化の大きさと方向を計算する新しい勾配に基づく損失関数を提案する。 RADIANCEはこの損失関数をアンテナパターンと共に組み込んで、所定の屋内構成内で信号の伝搬を捕捉し、新しい構成、アンテナ(ビーム)パターン、中心周波数の下で新しいパターンを生成する。 RFマップのレイトレーシングシミュレーションとRADIANCEを比較するために, 大規模シミュレーションを行った。 その結果、RADIANCEは平均平均誤差0.09、ルート平均二乗誤差(RMSE)0.29、ピーク信号-雑音比(PSNR)10.78、マルチスケール構造類似度指数(MS-SSIM)0.80を達成した。

Radio-frequency coverage maps (RF maps) are extensively utilized in wireless networks for capacity planning, placement of access points and base stations, localization, and coverage estimation. Conducting site surveys to obtain RF maps is labor-intensive and sometimes not feasible. In this paper, we propose radio-frequency adversarial deep-learning inference for automated network coverage estimation (RADIANCE), a generative adversarial network (GAN) based approach for synthesizing RF maps in indoor scenarios. RADIANCE utilizes a semantic map, a high-level representation of the indoor environment to encode spatial relationships and attributes of objects within the environment and guide the RF map generation process. We introduce a new gradient-based loss function that computes the magnitude and direction of change in received signal strength (RSS) values from a point within the environment. RADIANCE incorporates this loss function along with the antenna pattern to capture signal propagation within a given indoor configuration and generate new patterns under new configuration, antenna (beam) pattern, and center frequency. Extensive simulations are conducted to compare RADIANCE with ray-tracing simulations of RF maps. Our results show that RADIANCE achieves a mean average error (MAE) of 0.09, root-mean-squared error (RMSE) of 0.29, peak signal-to-noise ratio (PSNR) of 10.78, and multi-scale structural similarity index (MS-SSIM) of 0.80.
翻訳日:2023-08-22 14:20:18 公開日:2023-08-21
# 3台のマシンを持つ弱い同期システムはチューリング力がある

Weakly synchronous systems with three machines are Turing powerful ( http://arxiv.org/abs/2308.10578v1 )

ライセンス: Link先を確認
Cinzia Di Giusto (C&A), Davide Ferr\'e, Etienne Lozes (I3S, LSV), Nicolas Nisse(参考訳) 通信有限状態マシン(CFM)は、非同期メッセージパッシング分散システムのチューリング強力なモデルである。 弱い同期システムでは、プロセスは各プロセスに対してメッセージが最初に送信され、受信されるフェーズを通して通信する。 このようなシステムには限られた同期形式があり、いくつかの通信モデルでは、この制限は到達可能性の問題を決定するのに十分である。 特に, p2p (FIFO) 通信の興味深い事例について検討し, 到達性問題は4つのプロセスでは決定不能であるが2つのプロセスでは決定不能であることが知られている。 3つのプロセスの弱い同期系の構成到達性問題は決定不可能であることを示す。 この結果は、このようなシステムによって生成される可能性のあるメッセージシーケンスチャート(MSC)のツリー幅に関する我々の研究に大きく影響されている。 この意味で、この研究の主な貢献は、3つのプロセスが任意に大きなツリー幅のMSCを生成する弱い同期システムである。

Communicating finite-state machines (CFMs) are a Turing powerful model of asynchronous message-passing distributed systems. In weakly synchronous systems, processes communicate through phases in which messages are first sent and then received, for each process. Such systems enjoy a limited form of synchronization, and for some communication models, this restriction is enough to make the reachability problem decidable. In particular, we explore the intriguing case of p2p (FIFO) communication, for which the reachability problem is known to be undecidable for four processes, but decidable for two. We show that the configuration reachability problem for weakly synchronous systems of three processes is undecidable. This result is heavily inspired by our study on the treewidth of the Message Sequence Charts (MSCs) that might be generated by such systems. In this sense, the main contribution of this work is a weakly synchronous system with three processes that generates MSCs of arbitrarily large treewidth.
翻訳日:2023-08-22 14:19:54 公開日:2023-08-21
# CHORD:形状変形によるカテゴリーレベルのハンドヘルドオブジェクト再構成

CHORD: Category-level Hand-held Object Reconstruction via Shape Deformation ( http://arxiv.org/abs/2308.10574v1 )

ライセンス: Link先を確認
Kailin Li, Lixin Yang, Haoyu Zhen, Zenan Lin, Xinyu Zhan, Licheng Zhong, Jian Xu, Kejian Wu, Cewu Lu(参考訳) 日常生活では、人間は手を使って物体を操作する。 手によって操作されるオブジェクトの形状をモデル化することは、AIが日々のタスクを理解し、操作スキルを学ぶために不可欠である。 しかし,従来の手持ち物体の正確な形状の再構築には,従来の形状知識の欠如と訓練用データ不足が主な原因となっている。 図に示すように、マグカップのような特定の種類の道具が、形状や外観が無限に変化するにもかかわらず、人間は限られた数の「効果的な」モードを持ち、操作のためにポーズを取る。 これは、人間が 'mug' カテゴリに先立つ形状を習得し、リムとハンドルの位置のような、異なるマグカップインスタンスと以前のものとの対応関係を迅速に確立したという事実に起因することができる。 そこで我々は,形状変形によるカテゴリーレベルのハンドヘルドオブジェクト再構成のための新しい手法CHORDを提案する。 CHORDはクラス内のオブジェクトを再構築する前にカテゴリ形状を変形する。 正確な再構築を実現するため,我々はCHORDに3種類の認識能力(外観,形状,相互作用するポーズ)を付与する。 さらに,カテゴリーレベルのハンドオブジェクトインタラクションのための新しいデータセットCOMICを構築した。 COMICには、オブジェクトインスタンス、材料、ハンドインタラクション、表示方向の豊富な配列が含まれている。 広範囲な評価により、CHORDは定量と定性の両方において最先端のアプローチより優れていることが示されている。 コード、モデル、データセットはhttps://kailinli.github.io/CHORD.comで入手できる。

In daily life, humans utilize hands to manipulate objects. Modeling the shape of objects that are manipulated by the hand is essential for AI to comprehend daily tasks and to learn manipulation skills. However, previous approaches have encountered difficulties in reconstructing the precise shapes of hand-held objects, primarily owing to a deficiency in prior shape knowledge and inadequate data for training. As illustrated, given a particular type of tool, such as a mug, despite its infinite variations in shape and appearance, humans have a limited number of 'effective' modes and poses for its manipulation. This can be attributed to the fact that humans have mastered the shape prior of the 'mug' category, and can quickly establish the corresponding relations between different mug instances and the prior, such as where the rim and handle are located. In light of this, we propose a new method, CHORD, for Category-level Hand-held Object Reconstruction via shape Deformation. CHORD deforms a categorical shape prior for reconstructing the intra-class objects. To ensure accurate reconstruction, we empower CHORD with three types of awareness: appearance, shape, and interacting pose. In addition, we have constructed a new dataset, COMIC, of category-level hand-object interaction. COMIC contains a rich array of object instances, materials, hand interactions, and viewing directions. Extensive evaluation shows that CHORD outperforms state-of-the-art approaches in both quantitative and qualitative measures. Code, model, and datasets are available at https://kailinli.github.io/CHORD.
翻訳日:2023-08-22 14:19:40 公開日:2023-08-21
# アクティブラーニングの過信を克服する

Overcoming Overconfidence for Active Learning ( http://arxiv.org/abs/2308.10571v1 )

ライセンス: Link先を確認
Yujin Hwang, Won Jo, Juyoung Hong, and Yukyung Choi(参考訳) 人工知能技術の最近の進歩は、大規模で高品質なデータに依存していると言っても過言ではない。 データラベリングの予算は制限されています。 アクティブラーニングは、モデルを通してラベル付けのための貴重なデータを選択し、モデルを反復的に調整する、この問題に対処するための顕著なアプローチである。 しかしながら、各イテレーションでのデータ量が限られているため、モデルはバイアスに弱いため、過度に信頼された予測が得られる可能性が高い。 本稿では,アクティブな学習シナリオで発生する自信過剰問題に対処するための2つの新しい手法を提案する。 1つ目はCross-Mix-and-Mix(CMaM)と呼ばれる拡張戦略で、限られたトレーニング分布を拡張してモデルを校正することを目的としている。 2つめは、ランク付けマージンサンプリング(rankedms)と呼ばれる選択戦略で、過度に自信過剰な予測につながるデータの選択を防止する。 様々な実験や分析を通じて,提案手法が有効であっても,過信を緩和し,効率的なデータ選択を容易にすることを示すことができる。

It is not an exaggeration to say that the recent progress in artificial intelligence technology depends on large-scale and high-quality data. Simultaneously, a prevalent issue exists everywhere: the budget for data labeling is constrained. Active learning is a prominent approach for addressing this issue, where valuable data for labeling is selected through a model and utilized to iteratively adjust the model. However, due to the limited amount of data in each iteration, the model is vulnerable to bias; thus, it is more likely to yield overconfident predictions. In this paper, we present two novel methods to address the problem of overconfidence that arises in the active learning scenario. The first is an augmentation strategy named Cross-Mix-and-Mix (CMaM), which aims to calibrate the model by expanding the limited training distribution. The second is a selection strategy named Ranked Margin Sampling (RankedMS), which prevents choosing data that leads to overly confident predictions. Through various experiments and analyses, we are able to demonstrate that our proposals facilitate efficient data selection by alleviating overconfidence, even though they are readily applicable.
翻訳日:2023-08-22 14:19:19 公開日:2023-08-21
# 時間的動作検出のための自己フィードバックdetr

Self-Feedback DETR for Temporal Action Detection ( http://arxiv.org/abs/2308.10570v1 )

ライセンス: Link先を確認
Jihwan Kim, Miso Lee, Jae-Pil Heo(参考訳) 時間的動作検出(tad)は難しいが、実世界のビデオアプリケーションでは基本である。 近年、DETRベースのモデルはTAD向けに開発されたが、まだうまく機能していない。 本稿では,tadに対するdetrの自己対応における問題点を指摘する。注意モジュールは時間的崩壊問題と呼ばれるいくつかの重要な要素に焦点を当てている。 自己アテンションモジュールが役割を果たさないため、エンコーダとデコーダの能力が低下する。 そこで本研究では,デコーダのクロスアテンションマップを用いて自己アテンションモジュールを再活性化する新たなフレームワークであるSelf-DETRを提案する。 そこで我々は,クロスアテンションマップの単純な行列乗算によるエンコーダ特徴の関係を復元する。 同様に、デコーダクエリ内の情報も取得します。 計算した自己注意マップを導出することにより,エンコーダとデコーダの自己注意モジュールの時間的崩壊を解消する。 広範な実験により,全層にわたって高い注目度を維持することにより,自己破壊が時間的崩壊問題を解決することを実証した。

Temporal Action Detection (TAD) is challenging but fundamental for real-world video applications. Recently, DETR-based models have been devised for TAD but have not performed well yet. In this paper, we point out the problem in the self-attention of DETR for TAD; the attention modules focus on a few key elements, called temporal collapse problem. It degrades the capability of the encoder and decoder since their self-attention modules play no role. To solve the problem, we propose a novel framework, Self-DETR, which utilizes cross-attention maps of the decoder to reactivate self-attention modules. We recover the relationship between encoder features by simple matrix multiplication of the cross-attention map and its transpose. Likewise, we also get the information within decoder queries. By guiding collapsed self-attention maps with the guidance map calculated, we settle down the temporal collapse of self-attention modules in the encoder and decoder. Our extensive experiments demonstrate that Self-DETR resolves the temporal collapse problem by keeping high diversity of attention over all layers.
翻訳日:2023-08-22 14:18:59 公開日:2023-08-21
# RT-MonoDepth:組み込みシステムにおけるリアルタイム単眼深度推定

RT-MonoDepth: Real-time Monocular Depth Estimation on Embedded Systems ( http://arxiv.org/abs/2308.10569v1 )

ライセンス: Link先を確認
Cheng Feng, Zhen Chen, Congxuan Zhang, Weiming Hu, Bing Li, Feng Lu(参考訳) 深度検知は無人航空機と自律車両にとって重要な機能である。 単眼カメラのサイズが小さく、構造が単純であるため、単一のrgb画像からの深度推定への関心が高まっている。 しかし、かなり複雑なディープニューラルネットワークを用いた最先端のモノクラーCNNに基づく深さ推定手法は、組み込みプラットフォームでのリアルタイム推論には遅すぎる。 本稿では,組込みシステムにおけるリアルタイム深度推定の問題に対処する。 計算複雑性とレイテンシを低減するために, RT-MonoDepthとRT-MonoDepth-Sという, 効率的で軽量なエンコーダデコーダネットワークアーキテクチャを提案する。 提案手法は,先行技術がより高速な推定速度で深度推定を行うのと類似した精度を達成できることを実証する。 提案するネットワークであるRT-MonoDepthとRT-MonoDepth-Sは、NVIDIA Jetson Nano上で18.4\&30.5 FPS、NVIDIA Jetson AGX Orin上で253.0\&364.1 FPS、解像度640$\times$192の単一のRGBイメージで動作し、KITTIデータセット上で比較的最先端の精度を実現する。 著者の知識を最大限に活用するため,本論文は,既存の高速単眼深度推定法と比較して,最良かつ高速な推定速度を実現する。

Depth sensing is a crucial function of unmanned aerial vehicles and autonomous vehicles. Due to the small size and simple structure of monocular cameras, there has been a growing interest in depth estimation from a single RGB image. However, state-of-the-art monocular CNN-based depth estimation methods using fairly complex deep neural networks are too slow for real-time inference on embedded platforms. This paper addresses the problem of real-time depth estimation on embedded systems. We propose two efficient and lightweight encoder-decoder network architectures, RT-MonoDepth and RT-MonoDepth-S, to reduce computational complexity and latency. Our methodologies demonstrate that it is possible to achieve similar accuracy as prior state-of-the-art works on depth estimation at a faster inference speed. Our proposed networks, RT-MonoDepth and RT-MonoDepth-S, runs at 18.4\&30.5 FPS on NVIDIA Jetson Nano and 253.0\&364.1 FPS on NVIDIA Jetson AGX Orin on a single RGB image of resolution 640$\times$192, and achieve relative state-of-the-art accuracy on the KITTI dataset. To the best of the authors' knowledge, this paper achieves the best accuracy and fastest inference speed compared with existing fast monocular depth estimation methods.
翻訳日:2023-08-22 14:18:43 公開日:2023-08-21
# ノイズロバスト学習によるソフトウェアエンティティ認識

Software Entity Recognition with Noise-Robust Learning ( http://arxiv.org/abs/2308.10564v1 )

ライセンス: Link先を確認
Tai Nguyen, Yifeng Di, Joohan Lee, Muhao Chen and Tianyi Zhang(参考訳) フリーフォームテキストからライブラリ名などのソフトウェアエンティティを認識することは、トレーサビリティリンクリカバリ、自動ドキュメント、APIレコメンデーションなど、多くのソフトウェアエンジニアリング(SE)技術を実現するために不可欠である。 この問題に対処するために多くのアプローチが提案されているが、彼らは小さなエンティティ語彙や騒がしいトレーニングデータに悩まされ、洗練された物語で言及されるソフトウェアエンティティを認識する能力を妨げる。 この課題に対処するために、ウィキペディアの分類学を利用して、12のきめ細かい型で79Kのユニークなソフトウェアエンティティと、170万以上の文のラベル付きデータセットを持つ包括的なエンティティ辞書を開発する。 そこで我々は,ソフトウェアエンティティ認識(SER)モデルの学習において,多くのドロップアウトを考慮した自己正規化を提案する。 その結果、wikipediaベンチマークとstack overflowベンチマークでは、自己正規化でトレーニングされたモデルは、バニラと最先端のアプローチの両方よりも優れています。 将来の研究のために、モデル、データ、コードをリリースします。

Recognizing software entities such as library names from free-form text is essential to enable many software engineering (SE) technologies, such as traceability link recovery, automated documentation, and API recommendation. While many approaches have been proposed to address this problem, they suffer from small entity vocabularies or noisy training data, hindering their ability to recognize software entities mentioned in sophisticated narratives. To address this challenge, we leverage the Wikipedia taxonomy to develop a comprehensive entity lexicon with 79K unique software entities in 12 fine-grained types, as well as a large labeled dataset of over 1.7M sentences. Then, we propose self-regularization, a noise-robust learning approach, to the training of our software entity recognition (SER) model by accounting for many dropouts. Results show that models trained with self-regularization outperform both their vanilla counterparts and state-of-the-art approaches on our Wikipedia benchmark and two Stack Overflow benchmarks. We release our models, data, and code for future research.
翻訳日:2023-08-22 14:18:14 公開日:2023-08-21
# 見えないものを見る:静止画像からの高レベル視覚理解

Seeing the Intangible: Surveying Automatic High-Level Visual Understanding from Still Images ( http://arxiv.org/abs/2308.10562v1 )

ライセンス: Link先を確認
Delfina Sol Martinez Pandiani and Valentina Presutti(参考訳) コンピュータビジョン(CV)の分野は、入力画像の完全な意味論的解釈を提供する、完全なイメージ理解という単一の大目標から生まれた。 この目標が正確に何を意味するのかは、すぐには簡単ではないが、視覚理解の理論的階層は、人間の視覚データから検出できる最も複雑で主観的な情報である全意味論の最上位レベルに向かっている。 特に、感情、社会的価値観、イデオロギーを含む非コンクリート的な概念は、この「高水準」な視覚的意味理解の主人公であるように見える。 このような「抽象概念」はイメージ管理と検索にとって重要なツールであるが、それらの自動認識は「セマンティックピラミッド」の頂点に置かれているため、依然として課題である。 抽象的社会概念検出(ASC)の課題において,CV内には明確な作業がほとんど存在せず,また,近年の多くの研究が,異なる用語を用いて類似の非整合体を議論しているように見えることから,本調査では,抽象的(特に社会的な)概念検出の問題に対して,抽象的(特に社会的な)概念検出の問題に明示的にあるいは暗黙的にアプローチするCV作業の体系的レビューを行う。 具体的には,(1)多分野の視点(コンピュータ科学,視覚研究,認知的視点)からハイレベルな視覚理解の意味要素のクラスタリング,(2)識別された意味要素を扱うハイレベルな視覚理解コンピュータビジョンタスクの研究とクラスタリングにより,AC検出に暗黙的に対処する現在のCV作業を特定する。

The field of Computer Vision (CV) was born with the single grand goal of complete image understanding: providing a complete semantic interpretation of an input image. What exactly this goal entails is not immediately straightforward, but theoretical hierarchies of visual understanding point towards a top level of full semantics, within which sits the most complex and subjective information humans can detect from visual data. In particular, non-concrete concepts including emotions, social values and ideologies seem to be protagonists of this "high-level" visual semantic understanding. While such "abstract concepts" are critical tools for image management and retrieval, their automatic recognition is still a challenge, exactly because they rest at the top of the "semantic pyramid": the well-known semantic gap problem is worsened given their lack of unique perceptual referents, and their reliance on more unspecific features than concrete concepts. Given that there seems to be very scarce explicit work within CV on the task of abstract social concept (ASC) detection, and that many recent works seem to discuss similar non-concrete entities by using different terminology, in this survey we provide a systematic review of CV work that explicitly or implicitly approaches the problem of abstract (specifically social) concept detection from still images. Specifically, this survey performs and provides: (1) A study and clustering of high level visual understanding semantic elements from a multidisciplinary perspective (computer science, visual studies, and cognitive perspectives); (2) A study and clustering of high level visual understanding computer vision tasks dealing with the identified semantic elements, so as to identify current CV work that implicitly deals with AC detection.
翻訳日:2023-08-22 14:17:54 公開日:2023-08-21
# 指向性物体検出のための空間変換デカップリング

Spatial Transform Decoupling for Oriented Object Detection ( http://arxiv.org/abs/2308.10561v1 )

ライセンス: Link先を確認
Hongtian Yu, Yunjie Tian, Qixiang Ye, Yunfan Liu(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンタスクで顕著な成功を収めた。 しかし、回転に敏感なシナリオにおけるそれらのポテンシャルは十分に解明されておらず、この制限は本質的にはデータフォワード過程における空間的不変性の欠如によるものである。 本研究では,vitsを用いた指向性物体検出のための簡易解法として,std(spatial transform decoupling)という新しい手法を提案する。 スタック化されたViTブロック上に構築されたSTDは、別々のネットワークブランチを使用して、境界ボックスの位置、サイズ、角度を予測する。 さらに、回帰パラメータに基づいて計算されたカスケード活性化マスク(CAM)を集約することにより、STDは、自己注意機構を補完する関心領域(RoI)の機能を徐々に強化する。 ベルとホイッスルがなければ、STDはDOTA-v1.0 (82.24% mAP) やHRSC2016 (98.55% mAP) などのベンチマークデータセット上で最先端のパフォーマンスを達成し、提案手法の有効性を示す。 ソースコードはhttps://github.com/yuhongtian17/spatial-transform-decouplingで入手できる。

Vision Transformers (ViTs) have achieved remarkable success in computer vision tasks. However, their potential in rotation-sensitive scenarios has not been fully explored, and this limitation may be inherently attributed to the lack of spatial invariance in the data-forwarding process. In this study, we present a novel approach, termed Spatial Transform Decoupling (STD), providing a simple-yet-effective solution for oriented object detection with ViTs. Built upon stacked ViT blocks, STD utilizes separate network branches to predict the position, size, and angle of bounding boxes, effectively harnessing the spatial transform potential of ViTs in a divide-and-conquer fashion. Moreover, by aggregating cascaded activation masks (CAMs) computed upon the regressed parameters, STD gradually enhances features within regions of interest (RoIs), which complements the self-attention mechanism. Without bells and whistles, STD achieves state-of-the-art performance on the benchmark datasets including DOTA-v1.0 (82.24% mAP) and HRSC2016 (98.55% mAP), which demonstrates the effectiveness of the proposed method. Source code is available at https://github.com/yuhongtian17/Spatial-Transform-Decoupling.
翻訳日:2023-08-22 14:17:20 公開日:2023-08-21
# Metaverse: スケーラブルでリアルタイムな仮想世界のためのビジョン、アーキテクチャ要素、今後の方向性

Metaverse: A Vision, Architectural Elements, and Future Directions for Scalable and Realtime Virtual Worlds ( http://arxiv.org/abs/2308.10559v1 )

ライセンス: Link先を確認
Leila Ismail and Rajkumar Buyya(参考訳) クラウドコンピューティングの出現、モノのインターネット対応ヒューマンコンピュータインターフェース、生成人工知能、高精度の機械学習およびディープラーニング認識および予測モデル、ソーシャルネットワークのPost Covid-19の普及、リモートコミュニケーションなどにより、Metaverseは多くの人気を得た。 metaverseは、バーチャルと拡張現実を使って物理的な世界を拡張できるので、ユーザはアバターとホログラムを使って現実世界と仮想世界とシームレスに対話できる。 ソーシャルメディアとの対話、仕事のコラボレーション、マーケティングとビジネスの実行、教育、学習、さらにはパーソナライズされたヘルスケアへのアクセスなど、人々に影響を及ぼす可能性がある。 論文中のいくつかの作品は、ハードウェアウェアラブルデバイスと仮想現実ゲームアプリケーションの観点からメタバースを調べている。 しかしながら、リアルタイムかつ大規模にメタバースを実現するための要件はまだ検討されていない。 この制限に対処するために,メタバース定義の時間的進化を示し,その進化要求を捉える。 その結果、メタバース要件に対する洞察が得られます。 技術の実現に加えて、スケーラブルで信頼性が高く効率的なメタバースシステムのためのアーキテクチャ要素を配置し、既存のメタバースアプリケーションの分類と将来の研究方向を提案する。

With the emergence of Cloud computing, Internet of Things-enabled Human-Computer Interfaces, Generative Artificial Intelligence, and high-accurate Machine and Deep-learning recognition and predictive models, along with the Post Covid-19 proliferation of social networking, and remote communications, the Metaverse gained a lot of popularity. Metaverse has the prospective to extend the physical world using virtual and augmented reality so the users can interact seamlessly with the real and virtual worlds using avatars and holograms. It has the potential to impact people in the way they interact on social media, collaborate in their work, perform marketing and business, teach, learn, and even access personalized healthcare. Several works in the literature examine Metaverse in terms of hardware wearable devices, and virtual reality gaming applications. However, the requirements of realizing the Metaverse in realtime and at a large-scale need yet to be examined for the technology to be usable. To address this limitation, this paper presents the temporal evolution of Metaverse definitions and captures its evolving requirements. Consequently, we provide insights into Metaverse requirements. In addition to enabling technologies, we lay out architectural elements for scalable, reliable, and efficient Metaverse systems, and a classification of existing Metaverse applications along with proposing required future research directions.
翻訳日:2023-08-22 14:16:57 公開日:2023-08-21
# FocalDreamer: Focal-fusion Assemblyによるテキスト駆動3D編集

FocalDreamer: Text-driven 3D Editing via Focal-fusion Assembly ( http://arxiv.org/abs/2308.10608v1 )

ライセンス: Link先を確認
Yuhan Li, Yishun Dou, Yue Shi, Yu Lei, Xuanhong Chen, Yi Zhang, Peng Zhou, Bingbing Ni(参考訳) テキスト3d編集は、スコア蒸留サンプリングを活用する上で大きな進歩を遂げているが、コンテンツ作成に不可欠な分離可能で正確で一貫性のある結果を提供するための新しいアプローチはまだ不足している。 これに対し,FocalDreamerはテキストプロンプトに従って編集可能な部分とベース形状をマージし,所望の領域内できめ細かい編集を行うフレームワークである。 具体的には、幾何結合とデュアルパスレンダリングを備え、FocalDreamerは独立した3D部品を完全なオブジェクトに組み立て、便利なインスタンスの再利用と部分的な制御のために調整する。 本稿では,focal fusion と congruent 全体の外観を促進する幾何学的焦点損失とスタイル一貫性の規則化を提案する。 さらに、FocalDreamerは、広く使われているグラフィックスエンジンと互換性のある高忠実度幾何とPBRテクスチャを生成する。 広範な実験により、focaldreamerの量的および質的評価において優れた編集能力が強調された。

While text-3D editing has made significant strides in leveraging score distillation sampling, emerging approaches still fall short in delivering separable, precise and consistent outcomes that are vital to content creation. In response, we introduce FocalDreamer, a framework that merges base shape with editable parts according to text prompts for fine-grained editing within desired regions. Specifically, equipped with geometry union and dual-path rendering, FocalDreamer assembles independent 3D parts into a complete object, tailored for convenient instance reuse and part-wise control. We propose geometric focal loss and style consistency regularization, which encourage focal fusion and congruent overall appearance. Furthermore, FocalDreamer generates high-fidelity geometry and PBR textures which are compatible with widely-used graphics engines. Extensive experiments have highlighted the superior editing capabilities of FocalDreamer in both quantitative and qualitative evaluations.
翻訳日:2023-08-22 14:10:51 公開日:2023-08-21
# 不等な局所次元の束縛されたベル対角状態とその目撃者

Bound entangled Bell diagonal states of unequal local dimensions, and their witnesses ( http://arxiv.org/abs/2308.10607v1 )

ライセンス: Link先を確認
Johannes Moerland, Nikolai Wyderka, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) ベル対角状態(英: Bell diagonal state)は、量子情報の様々な文脈で自然に生じる二部量子状態のよく研究された族である。 本稿では,ベル対角状態の概念を不等局所次元の場合に一般化し,その絡み合い特性について検討する。 我々は、Sarbicki et al. の絡み合いの基準の族を非エルミート作用素基底に拡張し、一般化されたベル対角状態のクラスに対する絡み合いの証人を構築する。 次に、ノイズの堅牢性に関して、証人を最適化する方法を示す。 最後に、これらの証人を用いて、通常の計算可能なクロスノルムやアライメントやデ・ビセンテの基準によって検出されない有界な絡み合った状態を構築する。

Bell diagonal states constitute a well-studied family of bipartite quantum states that arise naturally in various contexts in quantum information. In this paper we generalize the notion of Bell diagonal states to the case of unequal local dimensions and investigate their entanglement properties. We extend the family of entanglement criteria of Sarbicki et al. to non-Hermitian operator bases to construct entanglement witnesses for the class of generalized Bell diagonal states. We then show how to optimize the witnesses with respect to noise robustness. Finally, we use these witnesses to construct bound entangled states that are not detected by the usual computable cross norm or realignment and de Vicente criteria.
翻訳日:2023-08-22 14:10:36 公開日:2023-08-21
# 連続時間ベイズネットワークを用いたカスケード複雑系の解析

Analyzing Complex Systems with Cascades Using Continuous-Time Bayesian Networks ( http://arxiv.org/abs/2308.10606v1 )

ライセンス: Link先を確認
Alessandro Bregoli and Karin Rathsman and Marco Scutari and Fabio Stella and S{\o}ren Wengel Mogensen(参考訳) イベントの相互作用システムは、イベントが時間的にクラスタ化される傾向があるカスケード動作を示す。 カスケード自体がデータから明らかであるかもしれないが、システムのどの状態がそれらをトリガーするかを理解することが重要である。 本研究では,複雑なシステムにおけるカスケーディング動作を解析するための連続時間ベイズネットワーク(CTBN)に基づくモデリングフレームワークを提案する。 このフレームワークは、イベントがシステムを通してどのように伝播するかを記述し、起こりうる感覚状態、すなわち、差し迫ったカスケード行動を引き起こす可能性のあるシステム状態を特定することを可能にする。 さらに、CTBNは単純なグラフィカルな表現を持ち、解釈可能な出力を提供する。 我々はまた,CTBNから知識を抽出する新しい手法を開発し,提案手法を大規模産業システムにおけるアラームのデータセットに適用する。

Interacting systems of events may exhibit cascading behavior where events tend to be temporally clustered. While the cascades themselves may be obvious from the data, it is important to understand which states of the system trigger them. For this purpose, we propose a modeling framework based on continuous-time Bayesian networks (CTBNs) to analyze cascading behavior in complex systems. This framework allows us to describe how events propagate through the system and to identify likely sentry states, that is, system states that may lead to imminent cascading behavior. Moreover, CTBNs have a simple graphical representation and provide interpretable outputs, both of which are important when communicating with domain experts. We also develop new methods for knowledge extraction from CTBNs and we apply the proposed methodology to a data set of alarms in a large industrial system.
翻訳日:2023-08-22 14:10:22 公開日:2023-08-21
# BackTrack: 候補テンプレートの後方追跡によるロバストテンプレートのアップデート

BackTrack: Robust template update via Backward Tracking of candidate template ( http://arxiv.org/abs/2308.10604v1 )

ライセンス: Link先を確認
Dongwook Lee, Wonjun Choi, Seohyung Lee, ByungIn Yoo, Eunho Yang, Seongju Hwang(参考訳) 目標視認性の変化, 照度変化, 閉塞などの変化は, トラッカーの性能に悪影響を及ぼす視覚的物体追跡の大きな課題である。 このような課題に取り組む効果的な方法はテンプレート更新であり、追跡中の対象オブジェクトの外観の変化を反映してテンプレートを更新する。 しかし、テンプレート更新、新しいテンプレートの品質の不十分、あるいはアップデートの不適切なタイミングは、モデルドリフトの問題を引き起こす可能性があるため、トラッキング性能が著しく低下する。 本稿では,過去のフレームを後方追跡することにより,候補テンプレートの信頼性を定量化するロバストで信頼性の高いバックトラックを提案する。 BackTrackの候補の信頼性スコアに基づいて、信頼できない候補を拒絶しながら、正しいタイミングで信頼できる候補でテンプレートを更新できる。 BackTrackは一般的なテンプレート更新スキームであり、テンプレートベースのトラッカーに適用できる。 様々なトラッキングベンチマークに対する大規模な実験は、既存のテンプレート更新アルゴリズムよりもBackTrackの有効性を検証する。

Variations of target appearance such as deformations, illumination variance, occlusion, etc., are the major challenges of visual object tracking that negatively impact the performance of a tracker. An effective method to tackle these challenges is template update, which updates the template to reflect the change of appearance in the target object during tracking. However, with template updates, inadequate quality of new templates or inappropriate timing of updates may induce a model drift problem, which severely degrades the tracking performance. Here, we propose BackTrack, a robust and reliable method to quantify the confidence of the candidate template by backward tracking it on the past frames. Based on the confidence score of candidates from BackTrack, we can update the template with a reliable candidate at the right time while rejecting unreliable candidates. BackTrack is a generic template update scheme and is applicable to any template-based trackers. Extensive experiments on various tracking benchmarks verify the effectiveness of BackTrack over existing template update algorithms, as it achieves SOTA performance on various tracking benchmarks.
翻訳日:2023-08-22 14:10:08 公開日:2023-08-21
# 分類が回帰に役立つ理由を理解するためのステップ

A step towards understanding why classification helps regression ( http://arxiv.org/abs/2308.10603v1 )

ライセンス: Link先を確認
Silvia L. Pintea, Yancong Lin, Jouke Dijkstra, Jan C. van Gemert(参考訳) 多くのコンピュータビジョン深部回帰手法は、回帰損失に分類損失を加える際に改善した結果を報告している。 ここでは、これが実際に有用であり、いつ有用であるかを考察する。 そのため, 精度よく制御されたデータセットの変動とデータサンプリングから始めると, 不均衡データによる回帰において, 分類損失を加える効果が最も顕著であることがわかった。 これらの経験的知見を,均衡と不均衡の回帰損失の関係を定式化することで説明する。 最後に, 深度推定 (NYUD2-DIR) と年齢推定 (IMDB-WIKI-DIR) の2つの実際の不均衡画像データセットと, 不均衡映像進行予測 (Breakfast) の問題について検討した。 回帰タスクでは、データサンプリングが不均衡であれば、分類損失を追加します。

A number of computer vision deep regression approaches report improved results when adding a classification loss to the regression loss. Here, we explore why this is useful in practice and when it is beneficial. To do so, we start from precisely controlled dataset variations and data samplings and find that the effect of adding a classification loss is the most pronounced for regression with imbalanced data. We explain these empirical findings by formalizing the relation between the balanced and imbalanced regression losses. Finally, we show that our findings hold on two real imbalanced image datasets for depth estimation (NYUD2-DIR), and age estimation (IMDB-WIKI-DIR), and on the problem of imbalanced video progress prediction (Breakfast). Our main takeaway is: for a regression task, if the data sampling is imbalanced, then add a classification loss.
翻訳日:2023-08-22 14:09:52 公開日:2023-08-21
# 任意型転送による逆例の転送性の向上

Improving the Transferability of Adversarial Examples with Arbitrary Style Transfer ( http://arxiv.org/abs/2308.10601v1 )

ライセンス: Link先を確認
Zhijin Ge, Fanhua Shang, Hongying Liu, Yuanyuan Liu, Liang Wan, Wei Feng, Xiaosen Wang(参考訳) 深層ニューラルネットワークは、人間の知覚できない摂動をクリーンな入力に適用することで、敵の例に弱い。 多くの攻撃方法はホワイトボックス設定で高い成功率を達成できるが、ブラックボックス設定では弱い転送性を示す。 近年, 入力変換が最も有効な手法の1つである対向移動性向上のための様々な手法が提案されている。 本研究では、既存の入力変換に基づく処理が、拡張のために、同じドメインの変換データを主に採用していることに気づく。 ドメインの一般化に触発されて、異なるドメインから拡張されたデータを用いて転送可能性をさらに向上することを目指している。 具体的には、画像中の低レベルの視覚的特徴の分布を人間の意味的内容を保持しながら変更することができる。 そこで,提案する任意のスタイル転送ネットワークを用いて,画像を異なる領域に変換する新しい攻撃手法であるstyle transfer method(stm)を提案する。 分類ネットワーク用スタイリッシュ画像の一貫性のない意味情報を避けるため、スタイル転送ネットワークを微調整し、ランダムノイズにより生成された画像と元の画像とを混合し、意味一貫性を維持し、入力多様性を高める。 ImageNet互換データセットの大規模な実験結果から,提案手法は,現状の入力変換に基づく攻撃よりも,通常訓練されたモデルや逆訓練されたモデルの逆転送性を大幅に向上できることが示された。 コードは、https://github.com/Zhijin-Ge/STMで入手できる。

Deep neural networks are vulnerable to adversarial examples crafted by applying human-imperceptible perturbations on clean inputs. Although many attack methods can achieve high success rates in the white-box setting, they also exhibit weak transferability in the black-box setting. Recently, various methods have been proposed to improve adversarial transferability, in which the input transformation is one of the most effective methods. In this work, we notice that existing input transformation-based works mainly adopt the transformed data in the same domain for augmentation. Inspired by domain generalization, we aim to further improve the transferability using the data augmented from different domains. Specifically, a style transfer network can alter the distribution of low-level visual features in an image while preserving semantic content for humans. Hence, we propose a novel attack method named Style Transfer Method (STM) that utilizes a proposed arbitrary style transfer network to transform the images into different domains. To avoid inconsistent semantic information of stylized images for the classification network, we fine-tune the style transfer network and mix up the generated images added by random noise with the original images to maintain semantic consistency and boost input diversity. Extensive experimental results on the ImageNet-compatible dataset show that our proposed method can significantly improve the adversarial transferability on either normally trained models or adversarially trained models than state-of-the-art input transformation-based attacks. Code is available at: https://github.com/Zhijin-Ge/STM.
翻訳日:2023-08-22 14:09:35 公開日:2023-08-21
# ゼロショット分類のための画像自由分類器インジェクション

Image-free Classifier Injection for Zero-Shot Classification ( http://arxiv.org/abs/2308.10599v1 )

ライセンス: Link先を確認
Anders Christensen, Massimiliano Mancini, A. Sophia Koepke, Ole Winther, Zeynep Akata(参考訳) ゼロショット学習モデルは、トレーニング中に見られなかったクラスからの画像分類において顕著な結果を得る。 しかし、そのようなモデルは特別な方法でゼロからトレーニングする必要があるため、ゼロショット分類が必要な場合にトレーニングデータセットへのアクセスが必要である。 本稿では,画像データを用いることなく,ゼロショット分類機能を備えた事前学習モデルを提案する。 画像データに頼らずに事前学習した分類モデルに新しい未熟クラスのための分類器を注入するセマンティクス(icis)を用いた画像フリー分類器インジェクションでこれを実現する。 代わりに、既存の分類子重みとクラス名や属性のような単純なクラス単位での記述子を使用する。 ICISには2つのエンコーダ・デコーダネットワークがあり、デクリプタから分類器の重みを再構築し(逆もまた)、復号処理を標準化するために(クロス・)再構成とコサイン損失を利用する。 特にICISは、訓練済みの分類モデルの上に、安価にトレーニングし、直接適用することができる。 ベンチマークZSLデータセットを用いた実験では、ICISは強力な(一般化された)ゼロショット分類性能を達成する未確認の分類器重みを生成する。 コードはhttps://github.com/explainableml/imagefreezslで入手できる。

Zero-shot learning models achieve remarkable results on image classification for samples from classes that were not seen during training. However, such models must be trained from scratch with specialised methods: therefore, access to a training dataset is required when the need for zero-shot classification arises. In this paper, we aim to equip pre-trained models with zero-shot classification capabilities without the use of image data. We achieve this with our proposed Image-free Classifier Injection with Semantics (ICIS) that injects classifiers for new, unseen classes into pre-trained classification models in a post-hoc fashion without relying on image data. Instead, the existing classifier weights and simple class-wise descriptors, such as class names or attributes, are used. ICIS has two encoder-decoder networks that learn to reconstruct classifier weights from descriptors (and vice versa), exploiting (cross-)reconstruction and cosine losses to regularise the decoding process. Notably, ICIS can be cheaply trained and applied directly on top of pre-trained classification models. Experiments on benchmark ZSL datasets show that ICIS produces unseen classifier weights that achieve strong (generalised) zero-shot classification performance. Code is available at https://github.com/ExplainableML/ImageFreeZSL .
翻訳日:2023-08-22 14:09:11 公開日:2023-08-21
# ban-pl:wykop.pl webサービスから有害で不快なコンテンツを禁止するポーランドの新しいデータセット

BAN-PL: a Novel Polish Dataset of Banned Harmful and Offensive Content from Wykop.pl web service ( http://arxiv.org/abs/2308.10592v1 )

ライセンス: Link先を確認
Inez Okulska, Kinga G{\l}\k{a}bi\'nska, Anna Ko{\l}os, Agnieszka Karli\'nska, Emilia Wi\'snios, Adam Nowakowski, Pawe{\l} Ellerik, Andrzej Pra{\l}at(参考訳) ヘイトスピーチやサイバーいじめを含むオンライン攻撃言語の自動検出の進歩は、ソーシャルメディアコンテンツを含む公開データセットへのアクセスを改善する必要がある。 本稿では,ポーランド語で最初のオープンデータセットであるBAN-PLについて紹介する。 データセットには、人気のあるソーシャルネットワークサービスであるWykop.plの合計691,662のコンテンツが含まれており、投稿とコメントの両方を含む「Polish Reddit」と呼ばれることが多く、「有害」と「中立」の2つのクラスに均等に分散している。 本稿では,データの収集および前処理手順の包括的記述と,データの言語的特異性を強調する。 BAN-PLデータセットは、先進的な前処理スクリプト、すなわち偽造の偽造のスクリプトとともに、一般公開される。

Advances in automated detection of offensive language online, including hate speech and cyberbullying, require improved access to publicly available datasets comprising social media content. In this paper, we introduce BAN-PL, the first open dataset in the Polish language that encompasses texts flagged as harmful and subsequently removed by professional moderators. The dataset encompasses a total of 691,662 pieces of content from a popular social networking service, Wykop.pl, often referred to as the "Polish Reddit", including both posts and comments, and is evenly distributed into two distinct classes: "harmful" and "neutral". We provide a comprehensive description of the data collection and preprocessing procedures, as well as highlight the linguistic specificity of the data. The BAN-PL dataset, along with advanced preprocessing scripts for, i.a., unmasking profanities, will be publicly available.
翻訳日:2023-08-22 14:08:50 公開日:2023-08-21
# 児童用テキスト・文章からの年齢推薦

Age Recommendation from Texts and Sentences for Children ( http://arxiv.org/abs/2308.10586v1 )

ライセンス: Link先を確認
Rashedur Rahman, Gw\'enol\'e Lecorv\'e, Nicolas B\'echet(参考訳) 子供は大人より文章の理解能力が低い。 また、この能力は年齢の異なる子供によって異なる。 したがって、テキストや文章に基づいて推奨年齢を自動的に予測することは、子供に適切なテキストを提案し、著者が最も適切な方法で書くのを助ける大きな利点となる。 本稿では,年齢推薦課題の最近の進歩について述べる。 年齢の推薦を回帰課題として検討し,適切な評価指標の必要性,最先端機械学習モデル,すなわちトランスフォーマーの利用について検討し,文献から得られた異なるモデルと比較する。 また,専門家による推奨結果と比較した。 さらに,様々な言語的特徴を解析し,年齢予測モデルの予備的説明可能性について論じる。 3,673のフランス語テキスト(132k文,2.5m単語)のデータセットで実験を行った。 テキストレベルと文レベルでの年齢を推奨するために、テストセットでそれぞれ0.98と1.83のMAEスコアを得る。 また, 専門家の推薦と比べ, 文章レベルの推薦モデルは専門家と同等のスコアを得る一方, テキストレベルの推薦モデルはMAEのスコア1.48で専門家を上回ります。

Children have less text understanding capability than adults. Moreover, this capability differs among the children of different ages. Hence, automatically predicting a recommended age based on texts or sentences would be a great benefit to propose adequate texts to children and to help authors writing in the most appropriate way. This paper presents our recent advances on the age recommendation task. We consider age recommendation as a regression task, and discuss the need for appropriate evaluation metrics, study the use of state-of-the-art machine learning model, namely Transformers, and compare it to different models coming from the literature. Our results are also compared with recommendations made by experts. Further, this paper deals with preliminary explainability of the age prediction model by analyzing various linguistic features. We conduct the experiments on a dataset of 3, 673 French texts (132K sentences, 2.5M words). To recommend age at the text level and sentence level, our best models achieve MAE scores of 0.98 and 1.83 respectively on the test set. Also, compared to the recommendations made by experts, our sentence-level recommendation model gets a similar score to the experts, while the text-level recommendation model outperforms the experts by an MAE score of 1.48.
翻訳日:2023-08-22 14:08:32 公開日:2023-08-21
# 数値推論のためのより良い中間意味表現としての方程式の探索

Exploring Equation as a Better Intermediate Meaning Representation for Numerical Reasoning ( http://arxiv.org/abs/2308.10585v1 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Wenbin Zhang, Junyu Zeng, Wanxiang Che(参考訳) 自然言語処理モデルでは,実世界のシナリオにおける数値情報の理解と処理が不可欠である。 現在のほとんどの手法はまず質問の中間的意味表現(IMR)を生成し、答えを生成する。 現在のSOTAメソッドは、大きな言語モデル(LLM)を持つIMRとしてプログラムを生成する。 直感的には、方程式はプログラムよりも制限が少なく、より密接な意味論を持ち、より高い生成精度をもたらす。 しかし、現在のLLMはプログラムよりも方程式を生成するため、プログラムと比較して事前学習データでは方程式データが希少であると仮定する。 そこで本稿では, 数値推論の問題を解くために, 1) 理論的には, 方程式がプログラムよりも高い生成精度のIMRであることを証明する方法, (2) LLM を用いて方程式の生成精度を改善する方法, という2つの問題に対処して, 方程式を IMR として利用しようと試みる。 最初の問題として、我々は異なるIMRの生成精度を理論的に比較する提案を提案し、証明する。 第2の課題として,方程式生成におけるllmの精度をimrとして向上させ,定式式やプログラム生成の傾向を減少させることで,数値推論を高速化する手法(ブリッジ)を提案する。 提案手法は,GSM8K,SVAMP,およびAlgebraのデータセットに対して,従来の1つの推論パス設定法と比較して2.2%,0.9%,1.7%の性能向上を行う。 私たちのコードとプロンプトはhttps://github.com/zirui-HIT/Bridge_for_Numerical_Reasoning.orgで公開されています。

Numerical reasoning is vital for natural language processing models to understand and process numerical information in real-world scenarios. Most current methods first generate the Intermediate Meaning Representations (IMRs) of questions and then generate answers. Current SOTA methods generate programs as IMRs with large language models (LLMs). Intuitively, equations have fewer restrictions and closer semantics to the question than programs, leading to higher generation accuracy. However, current LLMs generate equations worse than programs, where we assume that the equation data is rare in pre-training data compared to programs. So in this paper, we try to use equations as IMRs to solve the numerical reasoning task by addressing two problems: (1) Theoretically, how to prove that the equation is an IMR with higher generation accuracy than programs; (2) Empirically, how to improve the generation accuracy of equations with LLMs. For the first problem, we propose and prove a proposition to theoretically compare the generation accuracy of different IMRs. For the second problem, we present a method called Boosting Numerical Reason\textbfing by Decomposing the Generation of Equations (Bridge), which can improve the accuracy of LLMs in generating equations as IMRs by reducing the tendency of generating constant expressions and programs. Our method improves the performance by 2.2%, 0.9%, and 1.7% on GSM8K, SVAMP, and Algebra datasets compared to the previous state-of-the-art methods under the single reasoning path setting. Our codes and prompts are released in https://github.com/zirui-HIT/Bridge_for_Numerical_Reasoning.
翻訳日:2023-08-22 14:08:12 公開日:2023-08-21
# 勾配支配確率最適化のための均質化手法

A Homogenization Approach for Gradient-Dominated Stochastic Optimization ( http://arxiv.org/abs/2308.10630v1 )

ライセンス: Link先を確認
Jiyuan Tan, Chenyu Xue, Chuwen Zhang, Qi Deng, Dongdong Ge, Yinyu Ye(参考訳) 勾配支配性は強い凸性よりも弱い条件であるが、非凸最適化においても一階法に対する大域収束を十分に保証する。 この性質は、マトリックス分解、線形ニューラルネットワーク、ポリシーベース強化学習(rl)など、さまざまな機械学習領域で応用されている。 本稿では,最近提案されたホモゲナイズアプローチに基づき,$\alpha \in [1, 2]$を用いた勾配優位最適化のための確率的均質二階降法(shsodm)について検討する。 理論的には、SHSODM は $O(\epsilon^{-7/(2 \alpha) +1})$ for $\alpha \in [1, 3/2)$ and $\tilde{O}(\epsilon^{-2/\alpha})$ for $\alpha \in [3/2, 2]$ のサンプル複雑性を達成する。 さらに,$O( \epsilon ^{-(7-3\alpha ) /(2\alpha )})$ for $\alpha \in [1,3/2)$の改善されたサンプル複雑性を享受する分散低減技術を備えたSHSODMを提供する。 以上の結果は, 確率的勾配優位最適化のための, 最先端のサンプル複雑性境界と一致する。 ホモジェナイゼーションアプローチはニュートン型システムの代わりに極端固有ベクトル問題の解法にのみ依存するため、我々の手法は不条件問題においてより安価な反復と堅牢性の利点を得る。 いくつかのRLタスクに関する数値実験は、SHSODMの他のオフザシェルフ法と比較して効率を実証している。

Gradient dominance property is a condition weaker than strong convexity, yet it sufficiently ensures global convergence for first-order methods even in non-convex optimization. This property finds application in various machine learning domains, including matrix decomposition, linear neural networks, and policy-based reinforcement learning (RL). In this paper, we study the stochastic homogeneous second-order descent method (SHSODM) for gradient-dominated optimization with $\alpha \in [1, 2]$ based on a recently proposed homogenization approach. Theoretically, we show that SHSODM achieves a sample complexity of $O(\epsilon^{-7/(2 \alpha) +1})$ for $\alpha \in [1, 3/2)$ and $\tilde{O}(\epsilon^{-2/\alpha})$ for $\alpha \in [3/2, 2]$. We further provide a SHSODM with a variance reduction technique enjoying an improved sample complexity of $O( \epsilon ^{-( 7-3\alpha ) /( 2\alpha )})$ for $\alpha \in [1,3/2)$. Our results match the state-of-the-art sample complexity bounds for stochastic gradient-dominated optimization without \emph{cubic regularization}. Since the homogenization approach only relies on solving extremal eigenvector problems instead of Newton-type systems, our methods gain the advantage of cheaper iterations and robustness in ill-conditioned problems. Numerical experiments on several RL tasks demonstrate the efficiency of SHSODM compared to other off-the-shelf methods.
翻訳日:2023-08-22 13:59:52 公開日:2023-08-21
# 有限データを用いた光干渉物体の多モード6次元ポス推定のためのポラリメトリック情報

Polarimetric Information for Multi-Modal 6D Pose Estimation of Photometrically Challenging Objects with Limited Data ( http://arxiv.org/abs/2308.10627v1 )

ライセンス: Link先を確認
Patrick Ruhkamp, Daoyi Gao, HyunJun Jung, Nassir Navab, Benjamin Busam(参考訳) 6Dポーズ推定パイプラインは、RGBのみまたはRGB-Dデータに依存しており、テクスチャレス表面、リフレクション、透明性など、フォトメトリックに挑戦するオブジェクトの制限を示している。 このような制限を克服するために,補完分極情報を入力モダリティとして活用した教師付き学習ベース手法を提案する。 この教師付きアプローチは、偏光光の物理的特性を利用して自己教師付きパラダイムに拡張され、注釈付き実データの必要性がなくなる。 偏光からの幾何学的情報を活用し、形状優先と可逆的物理的制約を組み込むことにより、ポーズ推定において有意な進歩を達成する。

6D pose estimation pipelines that rely on RGB-only or RGB-D data show limitations for photometrically challenging objects with e.g. textureless surfaces, reflections or transparency. A supervised learning-based method utilising complementary polarisation information as input modality is proposed to overcome such limitations. This supervised approach is then extended to a self-supervised paradigm by leveraging physical characteristics of polarised light, thus eliminating the need for annotated real data. The methods achieve significant advancements in pose estimation by leveraging geometric information from polarised light and incorporating shape priors and invertible physical constraints.
翻訳日:2023-08-22 13:59:20 公開日:2023-08-21
# GaitPT:骨格は歩行認識に必要なもの

GaitPT: Skeletons Are All You Need For Gait Recognition ( http://arxiv.org/abs/2308.10623v1 )

ライセンス: Link先を確認
Andy Catruna, Adrian Cosma and Emilian Radoi(参考訳) 歩行パターンの分析は、セキュリティ、医療、スポーツ、人間とコンピュータの相互作用に多くの応用がある重要な研究分野である。 近年,歩行パターンは,遠隔地における人物の自動識別のためのユニークなフィンガープリント手法と見なされている。 本研究では,歩容情報に頼らずに,ポーズ推定スケルトンを用いて独自の歩行パターンをキャプチャする,歩行ピラミッドトランスフォーマ(gaitpt)と呼ばれる新しい歩容認識アーキテクチャを提案する。 GaitPTは階層的なトランスフォーマーアーキテクチャを採用し、人間の骨格の構造によって導かれる、解剖学的に一貫した方法で運動の空間的特徴と時間的特徴の両方を効果的に抽出する。 以上の結果から,gaitptは他のスケルトンベースの歩容認識手法と比較して,制御されたシナリオと機内シナリオの両方において最先端の性能を達成できることがわかった。 GaitPTはCASIA-Bの平均精度を82.6%、他の作品よりも6%上回っている。 さらに、スケルトンベースと外観ベースの両方のアプローチで52.16%の精度が得られる。

The analysis of patterns of walking is an important area of research that has numerous applications in security, healthcare, sports and human-computer interaction. Lately, walking patterns have been regarded as a unique fingerprinting method for automatic person identification at a distance. In this work, we propose a novel gait recognition architecture called Gait Pyramid Transformer (GaitPT) that leverages pose estimation skeletons to capture unique walking patterns, without relying on appearance information. GaitPT adopts a hierarchical transformer architecture that effectively extracts both spatial and temporal features of movement in an anatomically consistent manner, guided by the structure of the human skeleton. Our results show that GaitPT achieves state-of-the-art performance compared to other skeleton-based gait recognition works, in both controlled and in-the-wild scenarios. GaitPT obtains 82.6% average accuracy on CASIA-B, surpassing other works by a margin of 6%. Moreover, it obtains 52.16% Rank-1 accuracy on GREW, outperforming both skeleton-based and appearance-based approaches.
翻訳日:2023-08-22 13:59:10 公開日:2023-08-21
# タイピングによる重み付け:重み付きランク相関の新しいアプローチ

Weighting by Tying: A New Approach to Weighted Rank Correlation ( http://arxiv.org/abs/2308.10622v1 )

ライセンス: Link先を確認
Sascha Henzgen and Eyke H\"ullermeier(参考訳) ランク相関の尺度は統計学において、同じ項目の2つの順序の一致度を捉えるためによく用いられる。 ケンドールのタウやスピアマンのrho係数のような標準的な尺度は、ランキングの各位置に等しく重きを置いた。 しかし、いくつかの位置(通常、上部にあるもの)が他のものよりも重要であるという応用によって動機づけられているため、いくつかの重み付き変種が提案されている。 しかし、これらの一般化の多くは望ましい形式的性質を満たさない。 さらに、固定計量スキームにコミットするという意味では、しばしば非常に柔軟である。 本稿では,ファジィ順序関係に基づく重み付きランク相関尺度を提案する。 尺度はscaled gammaと呼ばれ,goodman と kruskal の gamma rank correlation に関連している。 ランク位置上のファジィ同値関係によりパラメータ化され、いわゆるスケーリング関数によって都合よく指定される。 このアプローチは、音質と柔軟性を組み合わせ、健全な形式的基礎を持ち、柔軟な方法でランク位置の重み付けを可能にする。

Measures of rank correlation are commonly used in statistics to capture the degree of concordance between two orderings of the same set of items. Standard measures like Kendall's tau and Spearman's rho coefficient put equal emphasis on each position of a ranking. Yet, motivated by applications in which some of the positions (typically those on the top) are more important than others, a few weighted variants of these measures have been proposed. Most of these generalizations fail to meet desirable formal properties, however. Besides, they are often quite inflexible in the sense of committing to a fixed weighing scheme. In this paper, we propose a weighted rank correlation measure on the basis of fuzzy order relations. Our measure, called scaled gamma, is related to Goodman and Kruskal's gamma rank correlation. It is parametrized by a fuzzy equivalence relation on the rank positions, which in turn is specified conveniently by a so-called scaling function. This approach combines soundness with flexibility: it has a sound formal foundation and allows for weighing rank positions in a flexible way.
翻訳日:2023-08-22 13:58:51 公開日:2023-08-21
# 光干渉対象に対するマルチモーダルデータセット取得

Multi-Modal Dataset Acquisition for Photometrically Challenging Object ( http://arxiv.org/abs/2308.10621v1 )

ライセンス: Link先を確認
HyunJun Jung, Patrick Ruhkamp, Nassir Navab, Benjamin Busam(参考訳) 本稿では, 3次元視覚課題における現在のデータセットの限界について, 精度, サイズ, リアリズム, およびフォトメトリックに挑戦する物体に適した撮像モードについて述べる。 既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。 本手法は,ロボットフォワードキネマティックス,外部赤外線トラッカ,キャリブレーションおよびアノテーション手順を改良した。 本稿では,ロボット・エンドエフェクタに搭載されたマルチモーダル・センサ・リグについて述べる。 さらに,より広い視点を対象とするフリーハンド手順も導入する。 どちらのアプローチも、正確なオブジェクトとカメラのアノテーションで高品質な3Dデータを生成する。 提案手法は,既存のデータセットの限界を克服し,3次元視覚研究に有用な資源を提供する。

This paper addresses the limitations of current datasets for 3D vision tasks in terms of accuracy, size, realism, and suitable imaging modalities for photometrically challenging objects. We propose a novel annotation and acquisition pipeline that enhances existing 3D perception and 6D object pose datasets. Our approach integrates robotic forward-kinematics, external infrared trackers, and improved calibration and annotation procedures. We present a multi-modal sensor rig, mounted on a robotic end-effector, and demonstrate how it is integrated into the creation of highly accurate datasets. Additionally, we introduce a freehand procedure for wider viewpoint coverage. Both approaches yield high-quality 3D data with accurate object and camera pose annotations. Our methods overcome the limitations of existing datasets and provide valuable resources for 3D vision research.
翻訳日:2023-08-22 13:58:36 公開日:2023-08-21
# ソフトウェア工学のための大規模言語モデル:体系的文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v1 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学(se)を含む多くのドメインに大きな影響を与えてきた。 それでも、SE における LLM の応用、効果、および可能性の制限に関するよく知られた理解は、まだ初期段階にある。 このギャップを埋めるために、私たちの体系的な文献レビューでは、プロセスと成果を最適化するために、特にSEでLLMをどのように活用できるかを理解することに重点を置いて、LLMとSEの交差点を深く掘り下げています。 総合的なレビューアプローチを通じて、2017年から2023年までの合計229件の研究論文を収集し分析し、4つの重要な研究課題(RQ)に回答する。 RQ1では、SEタスクに採用されている異なるLLMの分類と比較分析を行い、それらの特徴と用途を概説する。 rq2では、この領域におけるデータ収集、前処理、およびアプリケーションに関連するメソッドを詳述し、llm実装を成功させるために、堅牢で十分に調整されたデータセットが果たす重要な役割を明らかにした。 RQ3では, LLMが顕著な成功を収めた特定のSEタスクについて検討し, 現場への実践的貢献を明記する。 最後に RQ4 では,SE における LLM の性能を最適化・評価するための戦略と,迅速な最適化に関する共通技術について検討している。 上記のrqsへの対応から得られた洞察を活かして、現在の最先端の図をスケッチし、トレンドを特定し、既存の研究におけるギャップを特定し、将来的な研究に有望な領域をフラグ付けします。

Large Language Models (LLMs) have significantly impacted numerous domains, notably including Software Engineering (SE). Nevertheless, a well-rounded understanding of the application, effects, and possible limitations of LLMs within SE is still in its early stages. To bridge this gap, our systematic literature review takes a deep dive into the intersection of LLMs and SE, with a particular focus on understanding how LLMs can be exploited in SE to optimize processes and outcomes. Through a comprehensive review approach, we collect and analyze a total of 229 research papers from 2017 to 2023 to answer four key research questions (RQs). In RQ1, we categorize and provide a comparative analysis of different LLMs that have been employed in SE tasks, laying out their distinctive features and uses. For RQ2, we detail the methods involved in data collection, preprocessing, and application in this realm, shedding light on the critical role of robust, well-curated datasets for successful LLM implementation. RQ3 allows us to examine the specific SE tasks where LLMs have shown remarkable success, illuminating their practical contributions to the field. Finally, RQ4 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE, as well as the common techniques related to prompt optimization. Armed with insights drawn from addressing the aforementioned RQs, we sketch a picture of the current state-of-the-art, pinpointing trends, identifying gaps in existing research, and flagging promising areas for future study.
翻訳日:2023-08-22 13:58:24 公開日:2023-08-21
# centroIDA:不均衡領域適応のための累積クラスセントロイドに基づくクロスドメインクラス離散化

centroIDA: Cross-Domain Class Discrepancy Minimization Based on Accumulative Class-Centroids for Imbalanced Domain Adaptation ( http://arxiv.org/abs/2308.10619v1 )

ライセンス: Link先を確認
Xiaona Sun and Zhenyu Wu and Yichen Liu and Saier Hu and Zhiqiang Zhan and Yang Ji(参考訳) 非教師付きドメイン適応(UDA)アプローチは、ラベル分布がドメイン間で不変であると仮定して、ソースとターゲットドメイン間の分布差を最小限にすることで、共変量シフト問題に対処する。 しかし、不均衡ドメイン適応(IDA)のシナリオでは、共変量と長い尾のラベルシフトはドメイン間で存在する。 IDA問題に対処するため、現在の研究はソースドメインとターゲットドメイン間の各クラス間の分散の相違を最小化することに焦点を当てている。 このような手法は信頼性の高い擬似ラベルの選択や対象領域の機能分布に大きく依存しており、限られた数のマイノリティクラスはモデルの性能に影響を与えるような不確実性を高めている。 本稿では,ida (centroida) の蓄積型クラスセンタロイドに基づくクロスドメインクラス分離最小化手法を提案する。 まず、クラスベースの再サンプリング戦略を使用して、ソースドメイン上の非バイアスの分類子を取得する。 第二に, 累積的クラス中心アライメント損失を, 反復型クラス中心アライメントアライメントに対して提案する。 最後に、ロバストな分類境界に対する特徴表現を最適化するために、クラスワイドな特徴アライメント損失を用いる。 IDA問題,特にラベルシフトの程度が増大する中で,本手法が他のSOTA法よりも優れていることが実証された。

Unsupervised Domain Adaptation (UDA) approaches address the covariate shift problem by minimizing the distribution discrepancy between the source and target domains, assuming that the label distribution is invariant across domains. However, in the imbalanced domain adaptation (IDA) scenario, covariate and long-tailed label shifts both exist across domains. To tackle the IDA problem, some current research focus on minimizing the distribution discrepancies of each corresponding class between source and target domains. Such methods rely much on the reliable pseudo labels' selection and the feature distributions estimation for target domain, and the minority classes with limited numbers makes the estimations more uncertainty, which influences the model's performance. In this paper, we propose a cross-domain class discrepancy minimization method based on accumulative class-centroids for IDA (centroIDA). Firstly, class-based re-sampling strategy is used to obtain an unbiased classifier on source domain. Secondly, the accumulative class-centroids alignment loss is proposed for iterative class-centroids alignment across domains. Finally, class-wise feature alignment loss is used to optimize the feature representation for a robust classification boundary. A series of experiments have proved that our method outperforms other SOTA methods on IDA problem, especially with the increasing degree of label shift.
翻訳日:2023-08-22 13:57:56 公開日:2023-08-21
# ディラックの制約解析フレームワークを用いた超伝導量子回路

Superconducting Quantum Circuits in the light of Dirac's Constraint Analysis Framework ( http://arxiv.org/abs/2308.10611v1 )

ライセンス: Link先を確認
Akshat Pandey and Subir Ghosh(参考訳) 本研究では,異なる種類の超伝導量子回路(sqc)について,非あいまいな方法で研究するための新しい枠組み(dirac's hamiltonian formalism of constraints systems)を提案する。 SQC のラグランジアン (Lagrangian) は、ハミルトンのフレームワークで分類される制約を明らかにし、余剰変数を除去して、一般化された対応原理を通じてディラック・ブラケットの量子化のための標準的自由度を分離することができる。 この純粋に代数的なアプローチは、グラフ理論、ヌルベクトル、ループ電荷、および(それぞれ特定の種類の回路に対して)ヴォーグにある概念の応用を完全に冗長にする。

In this work we introduce a new framework - Dirac's Hamiltonian formalism of constraint systems - to study different types of Superconducting Quantum Circuits (SQC) in a {\it{unified}} and unambiguous way. The Lagrangian of a SQC reveals the constraints, that are classified in a Hamiltonian framework, such that redundant variables can be removed to isolate the canonical degrees of freedom for subsequent quantization of the Dirac Brackets via a generalized Correspondence Principle. This purely algebraic approach makes the application of concepts such as graph theory, null vector, loop charge,\ etc that are in vogue, (each for a specific type of circuit), completely redundant.
翻訳日:2023-08-22 13:57:33 公開日:2023-08-21
# 超高速・超軽量ネットワークを用いた耳疾患のリアルタイム診断システム

Ultrafast and Ultralight Network-Based Intelligent System for Real-time Diagnosis of Ear diseases in Any Devices ( http://arxiv.org/abs/2308.10610v1 )

ライセンス: Link先を確認
Yubiao Yue, Xinyu Zeng, Xiaoqiang Shi, Meiping Zhang, Haihua Liang, Fan Zhang, Yanmei Chen, Zefeng Xie, Wenrui Wu, Zhenzhang Li(参考訳) 従来の耳疾患の診断は経験豊富な専門医や専門機器に大きく依存しており、しばしば誤診、治療遅延、一部の患者に対する金銭的負担が生じる。 効率的な耳疾患診断のためのディープラーニングモデルの利用は、効果的で安価であることが証明されている。 しかし、既存の研究では、配置に必要なモデル推論速度とパラメータサイズを見落としていた。 これらの課題に対処するため,2つの病院から8つの耳疾患カテゴリと正常な耳道サンプルからなる大規模データセットを構築した。 ShuffleNetV2に触発されて,リアルタイム耳疾患診断を可能にする超高速・超軽量ネットワークBest-EarNetを開発した。 Best-EarNetは、グローバルとローカルの空間情報を同時にキャプチャし、様々なレベルの特徴マップ内の重要な領域に集中するようにネットワークを誘導し、低い精度の問題を緩和する、新しいローカル・グローバル空間特徴融合モジュールを組み込んでいる。 さらに,効率的なパラメータ最適化のために,複数の補助分類ヘッドを用いる。 0.77Mパラメータで、Best-EarNetはCPU上で80秒毎の平均フレームを達成する。 転送学習と22,581の画像による5倍クロスバリデーションを用いることで、95.23%の精度が得られる。 病院2の1,652枚の画像の外部検査では、その性能が92.14%の精度で検証されている。 最先端ネットワークと比較して、Best-EarNetは実用用途に新しい最先端(SOTA)を確立する。 最も重要なことは、Ear Keeperと呼ばれるインテリジェントな診断システムを開発し、一般的な電子機器にデプロイできることです。 小型の電子内視鏡を操作することで、ユーザはリアルタイムビデオを用いて耳道の包括的スキャンと診断を行うことができる。 本研究は耳内内視鏡および他の医用内視鏡画像認識応用のための新しいパラダイムを提供する。

Traditional ear disease diagnosis heavily depends on experienced specialists and specialized equipment, frequently resulting in misdiagnoses, treatment delays, and financial burdens for some patients. Utilizing deep learning models for efficient ear disease diagnosis has proven effective and affordable. However, existing research overlooked model inference speed and parameter size required for deployment. To tackle these challenges, we constructed a large-scale dataset comprising eight ear disease categories and normal ear canal samples from two hospitals. Inspired by ShuffleNetV2, we developed Best-EarNet, an ultrafast and ultralight network enabling real-time ear disease diagnosis. Best-EarNet incorporates the novel Local-Global Spatial Feature Fusion Module which can capture global and local spatial information simultaneously and guide the network to focus on crucial regions within feature maps at various levels, mitigating low accuracy issues. Moreover, our network uses multiple auxiliary classification heads for efficient parameter optimization. With 0.77M parameters, Best-EarNet achieves an average frames per second of 80 on CPU. Employing transfer learning and five-fold cross-validation with 22,581 images from Hospital-1, the model achieves an impressive 95.23% accuracy. External testing on 1,652 images from Hospital-2 validates its performance, yielding 92.14% accuracy. Compared to state-of-the-art networks, Best-EarNet establishes a new state-of-the-art (SOTA) in practical applications. Most importantly, we developed an intelligent diagnosis system called Ear Keeper, which can be deployed on common electronic devices. By manipulating a compact electronic otoscope, users can perform comprehensive scanning and diagnosis of the ear canal using real-time video. This study provides a novel paradigm for ear endoscopy and other medical endoscopic image recognition applications.
翻訳日:2023-08-22 13:57:19 公開日:2023-08-21
# ST-RAP: 不動産評価のための時空間分散フレームワーク

ST-RAP: A Spatio-Temporal Framework for Real Estate Appraisal ( http://arxiv.org/abs/2308.10609v1 )

ライセンス: Link先を確認
Hojoon Lee, Hawon Jeong, Byungkun Lee, Kyungyup Lee, Jaegul Choo(参考訳) 本稿では,不動産アプライサルのための新しい時空間フレームワークST-RAPを紹介する。 ST-RAPは、時間的ダイナミクスと空間的関係を同時にカプセル化するヘテロジニアスグラフニューラルネットワークを備えた階層アーキテクチャを用いる。 大規模な不動産データセットに関する総合的な実験を通じて、ST-RAPは従来の手法よりも優れており、不動産評価における空間的側面と時間的側面を統合するという大きな利点を示している。 私たちのコードとデータセットはhttps://github.com/dojeon-ai/strapで利用可能です。

In this paper, we introduce ST-RAP, a novel Spatio-Temporal framework for Real estate APpraisal. ST-RAP employs a hierarchical architecture with a heterogeneous graph neural network to encapsulate temporal dynamics and spatial relationships simultaneously. Through comprehensive experiments on a large-scale real estate dataset, ST-RAP outperforms previous methods, demonstrating the significant benefits of integrating spatial and temporal aspects in real estate appraisal. Our code and dataset are available at https://github.com/dojeon-ai/STRAP.
翻訳日:2023-08-22 13:56:51 公開日:2023-08-21
# ベイズ量子回帰の深い証拠学習

Deep Evidential Learning for Bayesian Quantile Regression ( http://arxiv.org/abs/2308.10650v1 )

ライセンス: Link先を確認
Frederik Boe H\"uttel, Filipe Rodrigues, Francisco C\^amara Pereira(参考訳) 従来の不確実性定量化手法は計算コストがかかるため,単一の決定論的前方通過モデルから正確な不確実性推定を行うことが望ましい。 しかし、単一のフォワードパスモデルは推論中に重みをサンプリングせず、ガウス的であると仮定するなどターゲット分布について仮定することが多いため、これは難しい。 これは、目標分布を正確にモデル化するには平均偏差と標準偏差が不十分な回帰タスクで制限できる。 本稿では,ガウス的仮定を使わずに連続目標分布の量子化を推定できるディープベイズ量子回帰モデルを提案する。 提案手法は,1つの決定論的フォワードパスモデルを用いて,失語症およびてんかんの不確かさを捉えることを可能とする。 これにより、この方法は大規模モデルやデータセットに対して効率的かつスケーラブルになる。 提案手法は,非ガウス分布のキャリブレーションされた不確実性,アレタリックおよびてんかんの不確実性の解消,および分布外試料に対するロバスト性を実現する。

It is desirable to have accurate uncertainty estimation from a single deterministic forward-pass model, as traditional methods for uncertainty quantification are computationally expensive. However, this is difficult because single forward-pass models do not sample weights during inference and often make assumptions about the target distribution, such as assuming it is Gaussian. This can be restrictive in regression tasks, where the mean and standard deviation are inadequate to model the target distribution accurately. This paper proposes a deep Bayesian quantile regression model that can estimate the quantiles of a continuous target distribution without the Gaussian assumption. The proposed method is based on evidential learning, which allows the model to capture aleatoric and epistemic uncertainty with a single deterministic forward-pass model. This makes the method efficient and scalable to large models and datasets. We demonstrate that the proposed method achieves calibrated uncertainties on non-Gaussian distributions, disentanglement of aleatoric and epistemic uncertainty, and robustness to out-of-distribution samples.
翻訳日:2023-08-22 13:52:13 公開日:2023-08-21
# 強化学習に基づくバイオマーカーのセンサ最適化

Reinforcement Learning Based Sensor Optimization for Bio-markers ( http://arxiv.org/abs/2308.10649v1 )

ライセンス: Link先を確認
Sajal Khandelwal, Pawan Kumar, Syed Azeemuddin(参考訳) 無線周波数(RF)バイオセンサー、特にデジタル間キャパシタ(IDC)に基づくものは、生体医学的診断、リモートセンシング、無線通信などの分野で重要である。 低コストで製造が容易であるにもかかわらず、その感度は設計の不完全さ、環境要因、回路ノイズによって妨げられる。 本稿では,新しい強化学習ベースバイナリ粒子群最適化 (RLBPSO) を用いたIDCを用いたRFセンサの感度向上について検討し,Ant Colony Optimization (ACO) や他の最先端手法と比較した。 電極設計や指幅などの設計パラメータの最適化に重点を置くことで,センサの感度が著しく向上した。 RLBPSO法は,現在の最先端手法と比較して,様々な周波数域に最適化された設計法を示す。

Radio frequency (RF) biosensors, in particular those based on inter-digitated capacitors (IDCs), are pivotal in areas like biomedical diagnosis, remote sensing, and wireless communication. Despite their advantages of low cost and easy fabrication, their sensitivity can be hindered by design imperfections, environmental factors, and circuit noise. This paper investigates enhancing the sensitivity of IDC-based RF sensors using novel reinforcement learning based Binary Particle Swarm Optimization (RLBPSO), and it is compared to Ant Colony Optimization (ACO), and other state-of-the-art methods. By focusing on optimizing design parameters like electrode design and finger width, the proposed study found notable improvements in sensor sensitivity. The proposed RLBPSO method shows best optimized design for various frequency ranges when compared to current state-of-the-art methods.
翻訳日:2023-08-22 13:51:53 公開日:2023-08-21
# EVE:Depth Map Guidance and Temporal Consistency Constraintsを用いた効率的なゼロショットテキストベースビデオ編集

EVE: Efficient zero-shot text-based Video Editing with Depth Map Guidance and Temporal Consistency Constraints ( http://arxiv.org/abs/2308.10648v1 )

ライセンス: Link先を確認
Yutao Chen, Xingning Dong, Tian Gan, Chunluan Zhou, Ming Yang, and Qingpei Guo(参考訳) 画像拡散モデルの優れた性能に触発されて、ますます多くの研究者がこれらのモデルをテキストベースのビデオ編集タスクに拡張しようと試みている。 それにもかかわらず、現在のビデオ編集作業は、主に高い微調整コストと限られた生成能力の間のジレンマに苦しむ。 画像と比較すると,動画は編集時の時間的一貫性を維持するためにより多くの制約を必要とすると推測する。 そこで本稿では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。 深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果を安価な計算と時間コストで導き出す。 さらに、公正比較のための公開ビデオ編集データセットがないことを認識し、新しいベンチマークZVE-50データセットを構築した。 総合的な実験を通じて、EVEが性能と効率のトレードオフを十分に達成できることを検証する。 将来の研究者を促進するために、データセットとコードベースをリリースします。

Motivated by the superior performance of image diffusion models, more and more researchers strive to extend these models to the text-based video editing task. Nevertheless, current video editing tasks mainly suffer from the dilemma between the high fine-tuning cost and the limited generation capacity. Compared with images, we conjecture that videos necessitate more constraints to preserve the temporal consistency during editing. Towards this end, we propose EVE, a robust and efficient zero-shot video editing method. Under the guidance of depth maps and temporal consistency constraints, EVE derives satisfactory video editing results with an affordable computational and time cost. Moreover, recognizing the absence of a publicly available video editing dataset for fair comparisons, we construct a new benchmark ZVE-50 dataset. Through comprehensive experimentation, we validate that EVE could achieve a satisfactory trade-off between performance and efficiency. We will release our dataset and codebase to facilitate future researchers.
翻訳日:2023-08-22 13:51:39 公開日:2023-08-21
# bbOCR: BengaliドキュメントのためのオープンソースのマルチドメインOCRパイプライン

bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents ( http://arxiv.org/abs/2308.10647v1 )

ライセンス: Link先を確認
Imam Mohammad Zulkarnain, Shayekh Bin Islam, Md. Zami Al Zunaed Farabe, Md. Mehedi Hasan Shawon, Jawaril Munshad Abedin, Beig Rajibul Hasan, Marsia Haque, Istiak Shihab, Syed Mobassir, MD. Nazmuddoha Ansary, Asif Sushmit, Farig Sadeque(参考訳) 多数のocr(optical character recognition)ツールが存在するにもかかわらず、包括的なオープンソースシステムの欠如は、ベンガルを含む様々な低リソース言語におけるドキュメントのデジタル化の進展を妨げている。 低リソース言語、特にアルファ音節記述システムを持つ言語は、ワードレベルOCR、文書レイアウト抽出、歪み補正など、様々な文書OCRコンポーネントのための大規模なデータセットが不足している。 本稿では,ベンガル文書を構造化検索可能なデジタル化フォーマットに再構成し,新たなベンガルテキスト認識モデルと2つの新しい合成データセットを用いた,オープンソースのスケーラブルなocrシステムであるbengali.ai-bracu-ocr(bbocr)を提案する。 本稿では, 多様な評価データセットと総合評価指標を用いて, コンポーネントレベルおよびシステムレベルの評価を行う。 広範な評価から,提案手法は現在のベンガルocrシステムよりも好適であることが示唆された。 ソースコードとデータセットは以下の通りである。

Despite the existence of numerous Optical Character Recognition (OCR) tools, the lack of comprehensive open-source systems hampers the progress of document digitization in various low resource languages, including Bengali. Low-resource languages, especially those with an alphasyllabary writing system, suffer from the lack of large-scale datasets for various document OCR components such as word-level OCR, document layout extraction, and distortion correction; which are available as individual modules in high-resource languages. In this paper, we introduce Bengali.AI-BRACU-OCR (bbOCR): an open-source scalable document OCR system that can reconstruct Bengali documents into a structured searchable digitized format that leverages a novel Bengali text recognition model and two novel synthetic datasets. We present extensive component-level and system-level evaluation: both use a novel diversified evaluation dataset and comprehensive evaluation metrics. Our extensive evaluation suggests that our proposed solution is preferable over the current state-of-the-art Bengali OCR systems. The source codes and datasets are available here: https://bengaliai.github.io/bbocr.
翻訳日:2023-08-22 13:51:23 公開日:2023-08-21
# gau{\ss}-legendre quadratureを用いたニューラルネットワークの高速学習

Faster Training of Neural ODEs Using Gau{\ss}-Legendre Quadrature ( http://arxiv.org/abs/2308.10644v1 )

ライセンス: Link先を確認
Alexander Norcliffe, Marc Peter Deisenroth(参考訳) ニューラルODEは生成および時系列モデリングにおいて強い性能を示す。 しかし, 数値解法が必要となるため, 離散モデルに比べ, 随伴法による訓練は遅い。 ニューラルODEを高速化するには、ソリューションを正規化するのが一般的なアプローチである。 しかし、このアプローチはモデルの表現性に影響を与える可能性があり、軌跡自体が重要である場合、特に重要である。 本稿では,ニューラルodeの学習を高速化するための代替手法を提案する。 重要なアイデアは、 gau{\ss}-legendre quadratureを使用して、メモリ効率を保ちながら、odeベースのメソッドよりも早く積分を解くことで、随伴メソッドを高速化することである。 また、Wong-Zakai定理を用いて、対応するODEをトレーニングし、パラメータを転送することで、SDEのトレーニングにも拡張する。 我々のアプローチは、特に大規模モデルにおいて、ニューラルODEの高速なトレーニングにつながる。 また、SDEベースのモデルをトレーニングする新しい方法を提供する。

Neural ODEs demonstrate strong performance in generative and time-series modelling. However, training them via the adjoint method is slow compared to discrete models due to the requirement of numerically solving ODEs. To speed neural ODEs up, a common approach is to regularise the solutions. However, this approach may affect the expressivity of the model; when the trajectory itself matters, this is particularly important. In this paper, we propose an alternative way to speed up the training of neural ODEs. The key idea is to speed up the adjoint method by using Gau{\ss}-Legendre quadrature to solve integrals faster than ODE-based methods while remaining memory efficient. We also extend the idea to training SDEs using the Wong-Zakai theorem, by training a corresponding ODE and transferring the parameters. Our approach leads to faster training of neural ODEs, especially for large models. It also presents a new way to train SDE-based models.
翻訳日:2023-08-22 13:50:52 公開日:2023-08-21
# SCULPT:Pose-dependent Clothed and Textured Human Meshesの形状決定型アンペアラーニング

SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes ( http://arxiv.org/abs/2308.10638v1 )

ライセンス: Link先を確認
Soubhik Sanyal, Partha Ghosh, Jinlong Yang, Michael J. Black, Justus Thies, Timo Bolkart(参考訳) SCULPTは,人間の布とテクスチャを用いた3次元メッシュの新規な3次元生成モデルである。 具体的には,身に着けた人体の形状と外観の分布を表現できる深層ニューラルネットワークを考案する。 このようなモデルのトレーニングは、人間のテクスチャ化された3Dメッシュのデータセットがサイズとアクセシビリティに制限されているため、難しい。 私たちのキーとなる観察は、CAPEのような中規模の3Dスキャンデータセットや、人間の大規模な2D画像データセットが存在し、複数の外観を単一の幾何学にマッピングできるということです。 この2つのデータモダリティから効果的に学習するために,ポーズ依存の衣服とテクスチャのメッシュを用いた非ペア学習手法を提案する。 具体的には、3Dスキャンデータからポーズ依存幾何学空間を学習する。 我々はこれをSMPLモデルによる頂点変位として表現する。 次に,2次元画像データを用いて幾何学条件付きテクスチャ生成器を教師なしで訓練する。 テクスチャ生成器の条件付けには,学習幾何モデルの中間アクティベーションを用いています。 ポーズと衣服タイプの絡み合いを緩和し、ポーズと衣服の外観を緩和するため、テクスチャとジオメトリージェネレータの両方に、テクスチャジェネレータ用の衣服タイプやテクスチャジェネレータ用の衣服色などの属性ラベルを付ける。 視覚質問応答モデルblipとクリップに基づいて,これらの2次元画像の条件付ラベルを自動生成する。 本手法をsculptデータセット上で検証し,人体における最先端の3次元生成モデルと比較した。 研究目的でコードベースをリリースします。

We present SCULPT, a novel 3D generative model for clothed and textured 3D meshes of humans. Specifically, we devise a deep neural network that learns to represent the geometry and appearance distribution of clothed human bodies. Training such a model is challenging, as datasets of textured 3D meshes for humans are limited in size and accessibility. Our key observation is that there exist medium-sized 3D scan datasets like CAPE, as well as large-scale 2D image datasets of clothed humans and multiple appearances can be mapped to a single geometry. To effectively learn from the two data modalities, we propose an unpaired learning procedure for pose-dependent clothed and textured human meshes. Specifically, we learn a pose-dependent geometry space from 3D scan data. We represent this as per vertex displacements w.r.t. the SMPL model. Next, we train a geometry conditioned texture generator in an unsupervised way using the 2D image data. We use intermediate activations of the learned geometry model to condition our texture generator. To alleviate entanglement between pose and clothing type, and pose and clothing appearance, we condition both the texture and geometry generators with attribute labels such as clothing types for the geometry, and clothing colors for the texture generator. We automatically generated these conditioning labels for the 2D images based on the visual question answering model BLIP and CLIP. We validate our method on the SCULPT dataset, and compare to state-of-the-art 3D generative models for clothed human bodies. We will release the codebase for research purposes.
翻訳日:2023-08-22 13:50:28 公開日:2023-08-21
# 距離メトリクスを用いたリスクセグメンテーションにおける臓器不全症例の自動同定:CTデータによる検討

Automated Identification of Failure Cases in Organ at Risk Segmentation Using Distance Metrics: A Study on CT Data ( http://arxiv.org/abs/2308.10636v1 )

ライセンス: Link先を確認
Amin Honarmandi Shandiz and Attila R\'adics and Rajesh Tamada and Makk \'Arp\'ad and Karolina Glowacka and Lehel Ferenczi and Sandeep Dutta and Michael Fanariotis(参考訳) oar(automated organ at risk)セグメンテーションはctスキャンで放射線治療計画に不可欠であるが、自動モデルによって生成された輪郭は不正確であり、治療計画の問題につながる可能性がある。 これらの不正確さの理由は、不明瞭な臓器境界や、アノテーションの誤りによる不正確な根拠など様々である。 モデルの性能を向上させるためには、トレーニングプロセス中のこれらの障害事例を特定し、潜在的な後処理技術で修正する必要がある。 しかし、従来は予測された出力を手動で検査する必要があるため、このプロセスは時間がかかる可能性がある。 本稿では,Dice と Hausdorff 距離の組み合わせのしきい値を設定することで,障害事例を自動的に識別する手法を提案する。 このアプローチは、予測出力を視覚的に検査する時間を要するタスクを減らし、失敗事例候補の同定を高速化する。 臨床専門医によるCT画像から6種類の臓器の20例について評価した。 Dice と Hausdorff の距離のしきい値を設定することで、さまざまな障害の状態を区別し、視覚的に12以上のケースを評価することができた。 このしきい値のアプローチは他の臓器にも拡張できるため、障害の発見が早くなり、放射線治療計画の品質が向上する。

Automated organ at risk (OAR) segmentation is crucial for radiation therapy planning in CT scans, but the generated contours by automated models can be inaccurate, potentially leading to treatment planning issues. The reasons for these inaccuracies could be varied, such as unclear organ boundaries or inaccurate ground truth due to annotation errors. To improve the model's performance, it is necessary to identify these failure cases during the training process and to correct them with some potential post-processing techniques. However, this process can be time-consuming, as traditionally it requires manual inspection of the predicted output. This paper proposes a method to automatically identify failure cases by setting a threshold for the combination of Dice and Hausdorff distances. This approach reduces the time-consuming task of visually inspecting predicted outputs, allowing for faster identification of failure case candidates. The method was evaluated on 20 cases of six different organs in CT images from clinical expert curated datasets. By setting the thresholds for the Dice and Hausdorff distances, the study was able to differentiate between various states of failure cases and evaluate over 12 cases visually. This thresholding approach could be extended to other organs, leading to faster identification of failure cases and thereby improving the quality of radiation therapy planning.
翻訳日:2023-08-22 13:49:26 公開日:2023-08-21
# RaLLe: 大規模言語モデルの検索と評価のためのフレームワーク

RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2308.10633v1 )

ライセンス: Link先を確認
Yasuto Hoshi, Daisuke Miyashita, Youyang Ng, Kento Tatsuno, Yasuhiro Morioka, Osamu Torii, Jun Deguchi(参考訳) Retrieval-augmented large language model (R-LLMs) は、事前訓練された大言語モデル(LLMs)と情報検索システムを組み合わせて、事実質問の精度を向上させる。 しかし、R-LLMを構築するための現在のライブラリは、検索や生成のような特定の推論プロセス内でプロンプトを評価し最適化するのに十分な透明性を持たず、ハイレベルな抽象化を提供する。 このギャップに対処するため,R-LLMの開発,評価,最適化を容易にするオープンソースのフレームワークであるRaLLeを提案する。 RaLLeを使えば、開発者は簡単にR-LLMを開発、評価でき、手作りのプロンプトを改善し、個々の推論プロセスを評価し、システム全体のパフォーマンスを定量的に測定できる。 これらの機能を活用することで、開発者は知識集約型生成タスクにおけるR-LLMのパフォーマンスと精度を向上させることができる。 ソースコードはhttps://github.com/yhoshi3/RaLLe.comで公開しています。

Retrieval-augmented large language models (R-LLMs) combine pre-trained large language models (LLMs) with information retrieval systems to improve the accuracy of factual question-answering. However, current libraries for building R-LLMs provide high-level abstractions without sufficient transparency for evaluating and optimizing prompts within specific inference processes such as retrieval and generation. To address this gap, we present RaLLe, an open-source framework designed to facilitate the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks. With RaLLe, developers can easily develop and evaluate R-LLMs, improving hand-crafted prompts, assessing individual inference processes, and objectively measuring overall system performance quantitatively. By leveraging these features, developers can enhance the performance and accuracy of their R-LLMs in knowledge-intensive generation tasks. We open-source our code at https://github.com/yhoshi3/RaLLe.
翻訳日:2023-08-22 13:48:46 公開日:2023-08-21
# 基礎モデル指向ロバスト性:事前学習モデルによるロバスト画像モデル評価

Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models ( http://arxiv.org/abs/2308.10632v1 )

ライセンス: Link先を確認
Peiyan Zhang, Haoyang Liu, Chaozhuo Li, Xing Xie, Sunghun Kim, Haohan Wang(参考訳) 機械学習は有限データセットに対して顕著なパフォーマンスを示しているが、固定ベンチマークのスコアが実世界のモデルのパフォーマンスを十分に示せるかどうかはまだ議論中である。 実際、理想的なロバストモデルは、おそらくオラクル(例えば、人間のユーザー)と同様に振る舞うので、良い評価プロトコルは、オラクルと比較してモデルの振舞いを評価することである。 本稿では,サロゲートオラクル(基礎モデル)と比較して画像分類モデルの性能を直接測定する新しいロバスト性測定手法を提案する。 さらに,ベンチマークの範囲を超えた評価を実現するための簡単な方法も設計する。 本手法では, 画像データセットを新たなサンプルで拡張し, 元のセットと区別するのに十分な摂動性を持つが, 元のテスト画像が表現する同じ画像ラベル構造内に, 大量のサンプルで事前学習された基礎モデルによって制約される。 結果として、私たちの新しい手法は、oracleの力によってスコープされているが、固定されたベンチマークや制約付き摂動の制限のない、モデルの堅牢性パフォーマンスを評価する新しい方法を提供します。 評価結果に加えて,生成したデータを活用して,モデルの振る舞いと新たな評価戦略を理解する。

Machine learning has demonstrated remarkable performance over finite datasets, yet whether the scores over the fixed benchmarks can sufficiently indicate the model's performance in the real world is still in discussion. In reality, an ideal robust model will probably behave similarly to the oracle (e.g., the human users), thus a good evaluation protocol is probably to evaluate the models' behaviors in comparison to the oracle. In this paper, we introduce a new robustness measurement that directly measures the image classification model's performance compared with a surrogate oracle (i.e., a foundation model). Besides, we design a simple method that can accomplish the evaluation beyond the scope of the benchmarks. Our method extends the image datasets with new samples that are sufficiently perturbed to be distinct from the ones in the original sets, but are still bounded within the same image-label structure the original test image represents, constrained by a foundation model pretrained with a large amount of samples. As a result, our new method will offer us a new way to evaluate the models' robustness performance, free of limitations of fixed benchmarks or constrained perturbations, although scoped by the power of the oracle. In addition to the evaluation results, we also leverage our generated data to understand the behaviors of the model and our new evaluation strategies.
翻訳日:2023-08-22 13:48:28 公開日:2023-08-21
# PsyMo: 歩行から自己申告された心理的トラストを推定するためのデータセット

PsyMo: A Dataset for Estimating Self-Reported Psychological Traits from Gait ( http://arxiv.org/abs/2308.10631v1 )

ライセンス: Link先を確認
Adrian Cosma, Emilian Radoi(参考訳) 運動や外見などの外的要因からの心理的特性推定は、心理学において困難で長期にわたる問題であり、主にエンボディメントの心理学理論に基づいている。 これまでのところ、この問題に対処する試みは、侵入性体感センサーを備えたプライベートな小規模データセットを利用している。 心理的特性推定のための自動システムの潜在的な応用には、職業的疲労と心理学の推定、マーケティングと広告が含まれる。 本研究では,歩行パターンに現れる心理的手がかりを探索するための新しい多目的多モードデータセットであるpsymo(psychological traits from motion)を提案する。 被験者312名から7種類の歩行変化と6種類のカメラアングルで歩行シーケンスを収集した。 参加者は6つの心理的質問紙に記入し、パーソナリティ、自尊感情、疲労、攻撃性、精神健康に関する17の心理指標を集計した。 心理特性推定のための2つの評価プロトコルを提案する。 歩行から自己報告された心理的特徴を推定すると同時に、このデータセットは歩行認識のためのベンチマーク手法の代替として使用できる。 被験者の身元に関するすべての手がかりを匿名化し,シルエット,2D/3Dヒト骨格,3D SMPLヒトメッシュのみを一般公開した。

Psychological trait estimation from external factors such as movement and appearance is a challenging and long-standing problem in psychology, and is principally based on the psychological theory of embodiment. To date, attempts to tackle this problem have utilized private small-scale datasets with intrusive body-attached sensors. Potential applications of an automated system for psychological trait estimation include estimation of occupational fatigue and psychology, and marketing and advertisement. In this work, we propose PsyMo (Psychological traits from Motion), a novel, multi-purpose and multi-modal dataset for exploring psychological cues manifested in walking patterns. We gathered walking sequences from 312 subjects in 7 different walking variations and 6 camera angles. In conjunction with walking sequences, participants filled in 6 psychological questionnaires, totalling 17 psychometric attributes related to personality, self-esteem, fatigue, aggressiveness and mental health. We propose two evaluation protocols for psychological trait estimation. Alongside the estimation of self-reported psychological traits from gait, the dataset can be used as a drop-in replacement to benchmark methods for gait recognition. We anonymize all cues related to the identity of the subjects and publicly release only silhouettes, 2D / 3D human skeletons and 3D SMPL human meshes.
翻訳日:2023-08-22 13:48:07 公開日:2023-08-21
# HOLの断片としての規範的条件推論

Normative conditional reasoning as a fragment of HOL ( http://arxiv.org/abs/2308.10686v1 )

ライセンス: Link先を確認
Xavier Parenta and Christoph Benzm\"uller(参考訳) 本稿では,規範的条件推論の機械化について報告する。 我々は条件付き義務(およびその拡張)に対する aqvist の system e に焦点を当てている。 我々の機械化は、Isabelle/HOLに浅いセマンティックな埋め込みを通して達成される。 フレームワークの利用は2つ考えられる。 1つ目は、考慮されたロジックについてメタ推論するためのツールである。 本手法は, モーダル論理立方体で以前に達成されたものと類似したデオン対応(広義に考えられた)および関連事項の自動検証に応用する。 第二の用途は倫理的議論を評価するためのツールである。 我々は、人口倫理においてよく知られたパラドックスを符号化するコンピュータを提供する。 提示された符号化が強引な結論の魅力と説得力を高めるかは、我々が哲学と倫理に伝えたい質問である。

We report some results regarding the mechanization of normative (preference-based) conditional reasoning. Our focus is on Aqvist's system E for conditional obligation (and its extensions). Our mechanization is achieved via a shallow semantical embedding in Isabelle/HOL. We consider two possible uses of the framework. The first one is as a tool for meta-reasoning about the considered logic. We employ it for the automated verification of deontic correspondences (broadly conceived) and related matters, analogous to what has been previously achieved for the modal logic cube. The second use is as a tool for assessing ethical arguments. We provide a computer encoding of a well-known paradox in population ethics, Parfit's repugnant conclusion. Whether the presented encoding increases or decreases the attractiveness and persuasiveness of the repugnant conclusion is a question we would like to pass on to philosophy and ethics.
翻訳日:2023-08-22 13:39:25 公開日:2023-08-21
# 言語モデルにおける体系的攻撃的ステレオタイプ(sos)バイアス

Systematic Offensive Stereotyping (SOS) Bias in Language Models ( http://arxiv.org/abs/2308.10684v1 )

ライセンス: Link先を確認
Fatma Elsafoury(参考訳) 研究によると、言語モデル(LM)は社会的バイアスを受けている。 しかし、LMの毒性と攻撃性ステレオタイピングバイアスは検討されている。 本稿では,LMの系統的攻撃的ステレオタイプ(SOS)バイアスについて検討する。 我々はそれを測定する方法を提案する。 そして,SOSバイアスを検証し,その除去に関する文献からのデビアス法の有効性を検討した。 最後に, LMにおけるSOSバイアスが, ヘイトスピーチ検出の課題に与える影響について検討した。 以上の結果から,全ての検査用LMがSOSバイアスを受けていることが示唆された。 その結果, LMのSOSバイアスは, 検査対象グループによるネット上の憎悪を反映していることがわかった。 その結果, LMのSOSバイアスの除去は, 文献から一般的なデバイアス法を用いて, より悪いSOSバイアススコアをもたらすことが明らかとなった。 最後に,lmsのsosバイアスがヘイトスピーチ検出の性能に影響を与えているという強い証拠は得られなかった。 一方、LMのSOSバイアスがそれらの公平性に影響を与えている証拠がある。

Research has shown that language models (LMs) are socially biased. However, toxicity and offensive stereotyping bias in LMs are understudied. In this paper, we investigate the systematic offensive stereotype (SOS) bias in LMs. We propose a method to measure it. Then, we validate the SOS bias and investigate the effectiveness of debias methods from the literature on removing it. Finally, we investigate the impact of the SOS bias in LMs on their performance and their fairness on the task of hate speech detection. Our results suggest that all the inspected LMs are SOS biased. The results suggest that the SOS bias in LMs is reflective of the hate experienced online by the inspected marginalized groups. The results indicate that removing the SOS bias in LMs, using a popular debias method from the literature, leads to worse SOS bias scores. Finally, Our results show no strong evidence that the SOS bias in LMs is impactful on their performance on hate speech detection. On the other hand, there is evidence that the SOS bias in LMs is impactful on their fairness.
翻訳日:2023-08-22 13:39:12 公開日:2023-08-21
# LibriWASN: 非同期記録デバイスによる会議分離,ダイアリゼーション,認識のためのデータセット

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices ( http://arxiv.org/abs/2308.10682v1 )

ライセンス: Link先を確認
Joerg Schmalenstroeer, Tobias Gburrek, Reinhold Haeb-Umbach(参考訳) We present LibriWASN, a data set that design along the LibriCSS meeting recognition data set, which the marked difference that data are recorded with randomly positioned on a meeting table and that sample clocks not synchronized。 9つの異なるデバイス、5つのスマートフォンに1つの録音チャンネルと4つのマイクアレイがあり、合計29のチャンネルが記録されている。 それ以外は、データセットは、LibriCSS設計に密接に従う: 同じLibriSpeech文は、会議テーブルの周りに配置された8つのスピーカーから再生され、データは、異なる音声重複率のサブセットにまとめられる。 LibriWASNは、アドホックな無線音響センサネットワーク上でのクロック同期アルゴリズム、ミーティング分離、ダイアリゼーション、および書き起こしシステムのテストセットとして意図されている。 LibriCSSと類似しているため、LibriWASN上では、前者向けに開発された会議転写システムが容易にテストできる。 データセットは2つの異なる部屋に記録され、誰がいつ話すかの接地ダイアリゼーション情報で補完される。

We present LibriWASN, a data set whose design follows closely the LibriCSS meeting recognition data set, with the marked difference that the data is recorded with devices that are randomly positioned on a meeting table and whose sampling clocks are not synchronized. Nine different devices, five smartphones with a single recording channel and four microphone arrays, are used to record a total of 29 channels. Other than that, the data set follows closely the LibriCSS design: the same LibriSpeech sentences are played back from eight loudspeakers arranged around a meeting table and the data is organized in subsets with different percentages of speech overlap. LibriWASN is meant as a test set for clock synchronization algorithms, meeting separation, diarization and transcription systems on ad-hoc wireless acoustic sensor networks. Due to its similarity to LibriCSS, meeting transcription systems developed for the former can readily be tested on LibriWASN. The data set is recorded in two different rooms and is complemented with ground-truth diarization information of who speaks when.
翻訳日:2023-08-22 13:38:57 公開日:2023-08-21
# 多相ラベリングによる音声同時ジェスチャー検出

Co-Speech Gesture Detection through Multi-phase Sequence Labeling ( http://arxiv.org/abs/2308.10680v1 )

ライセンス: Link先を確認
Esam Ghaleb, Ilya Burenko, Marlou Rasenberg, Wim Pouw, Peter Uhrig, Judith Holler, Ivan Toni, Asl{\i} \"Ozy\"urek and Raquel Fern\'andez(参考訳) ジェスチャーは対面コミュニケーションの不可欠な要素である。 時間とともに展開し、しばしば準備、ストローク、リトラクションの予測可能な動きの段階を辿る。 しかし、自動ジェスチャー検出への一般的なアプローチでは、問題をバイナリ分類として扱い、セグメントをジェスチャを含むか、そうでないかのどちらかに分類する。 そこで本研究では,タスクを二項分類ではなく多相列ラベル問題として再編成する新しいフレームワークを提案する。 モデルでは,時間的ウィンドウ上の骨格運動のシーケンスを処理し,トランスフォーマーエンコーダを用いてコンテキスト埋め込みを学習し,条件付き確率場を利用してシーケンスラベリングを行う。 本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。 その結果,本手法はジェスチャストロークの検出において,強いベースラインモデルを大きく上回っていることがわかった。 さらに、トランスフォーマエンコーダを適用して動きシーケンスから文脈埋め込みを学習することにより、ジェスチャー単位の検出が大幅に向上する。 これらの結果から,より微妙で高精度なジェスチャー検出と解析を行う上で,協調音声のジェスチャー位相のきめ細かいダイナミックスを捕捉するフレームワークの能力を強調した。

Gestures are integral components of face-to-face communication. They unfold over time, often following predictable movement phases of preparation, stroke, and retraction. Yet, the prevalent approach to automatic gesture detection treats the problem as binary classification, classifying a segment as either containing a gesture or not, thus failing to capture its inherently sequential and contextual nature. To address this, we introduce a novel framework that reframes the task as a multi-phase sequence labeling problem rather than binary classification. Our model processes sequences of skeletal movements over time windows, uses Transformer encoders to learn contextual embeddings, and leverages Conditional Random Fields to perform sequence labeling. We evaluate our proposal on a large dataset of diverse co-speech gestures in task-oriented face-to-face dialogues. The results consistently demonstrate that our method significantly outperforms strong baseline models in detecting gesture strokes. Furthermore, applying Transformer encoders to learn contextual embeddings from movement sequences substantially improves gesture unit detection. These results highlight our framework's capacity to capture the fine-grained dynamics of co-speech gesture phases, paving the way for more nuanced and accurate gesture detection and analysis.
翻訳日:2023-08-22 13:38:38 公開日:2023-08-21
# Visual Crowd Analysis: オープンリサーチの問題

Visual Crowd Analysis: Open Research Problems ( http://arxiv.org/abs/2308.10677v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, Ridha Hamila(参考訳) 過去10年間で、コンピュータービジョンコミュニティ内では、自動的な群衆監視への関心が高まっている。 最新のディープラーニングアプローチにより、完全に自動化されたビジョンベースのクラウド監視アプリケーションの開発が可能になった。 しかし、現在進行中の問題の大きさ、重要な技術進歩、研究コミュニティの一貫した関心にもかかわらず、克服すべき課題がまだたくさんある。 本稿では,視覚的群集分析の6つの主要な領域を掘り下げ,それぞれの領域における重要な展開を強調した。 我々は,自動群集モニタリングの分野が発展し,発展し続けることを保証するため,今後の作業において取り組まなければならない重要な未解決の問題を概説する。 この話題に関するいくつかの調査が過去に行われた。 それにもかかわらず、本論文は、より直感的な作品の分類を徹底的に検討し、またこの分野における最新のブレークスルーを描写し、過去数年間に行われたより最近の研究を簡潔にまとめたものである。 本稿では,新鮮さや性能向上に重要な貢献をした傑作を慎重に選び,現状の進歩を包括的に紹介する。

Over the last decade, there has been a remarkable surge in interest in automated crowd monitoring within the computer vision community. Modern deep-learning approaches have made it possible to develop fully-automated vision-based crowd-monitoring applications. However, despite the magnitude of the issue at hand, the significant technological advancements, and the consistent interest of the research community, there are still numerous challenges that need to be overcome. In this article, we delve into six major areas of visual crowd analysis, emphasizing the key developments in each of these areas. We outline the crucial unresolved issues that must be tackled in future works, in order to ensure that the field of automated crowd monitoring continues to progress and thrive. Several surveys related to this topic have been conducted in the past. Nonetheless, this article thoroughly examines and presents a more intuitive categorization of works, while also depicting the latest breakthroughs within the field, incorporating more recent studies carried out within the last few years in a concise manner. By carefully choosing prominent works with significant contributions in terms of novelty or performance gains, this paper presents a more comprehensive exposition of advancements in the current state-of-the-art.
翻訳日:2023-08-22 13:38:15 公開日:2023-08-21
# 遅延したフィードバックを持つ帯域に対するBest-of-both-worldsアルゴリズムの改良

An Improved Best-of-both-worlds Algorithm for Bandits with Delayed Feedback ( http://arxiv.org/abs/2308.10675v1 )

ライセンス: Link先を確認
Saeed Masoudian, Julian Zimmert, Yevgeny Seldin(参考訳) 本稿では,フィードバックが可変に遅延するバンディットのためのベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。 このアルゴリズムはmasoudianらによる事前作業により改善される。 2022] は、最大遅延の事前知識である $d_{\mathrm{max}}$ を取り除き、両方のレジームにおいてより厳格な後悔の限界を提供する。 アルゴリズムとその後悔の限界は、遅延や最大遅延(フィードバックが到着したときのみ観測される量)ではなく、卓越した観測(動作時に観測される量)の数に基づいている。 1つの大きな貢献は分布のドリフトの新たな制御であり、これは偏りのある損失推定器と過度の遅延を伴う観測のスキップに基づいている。 もうひとつの大きな貢献は、遅延や最大遅延よりも、過度に大きな遅延を伴う観測をスキップした後の顕著な観測を累積的に数えることによって、両世界のベスト・オブ・ワールド・バンディットの遅延による複雑さが特徴づけられることである。

We propose a new best-of-both-worlds algorithm for bandits with variably delayed feedback. The algorithm improves on prior work by Masoudian et al. [2022] by eliminating the need in prior knowledge of the maximal delay $d_{\mathrm{max}}$ and providing tighter regret bounds in both regimes. The algorithm and its regret bounds are based on counts of outstanding observations (a quantity that is observed at action time) rather than delays or the maximal delay (quantities that are only observed when feedback arrives). One major contribution is a novel control of distribution drift, which is based on biased loss estimators and skipping of observations with excessively large delays. Another major contribution is demonstrating that the complexity of best-of-both-worlds bandits with delayed feedback is characterized by the cumulative count of outstanding observations after skipping of observations with excessively large delays, rather than the delays or the maximal delay.
翻訳日:2023-08-22 13:37:57 公開日:2023-08-21
# カー非線形性のシミュレーション:初期状態依存性を解明する

Simulation of Kerr Nonlinearity: Revealing Initial State Dependency ( http://arxiv.org/abs/2308.10667v1 )

ライセンス: Link先を確認
Souvik Agasti(参考訳) 我々は,時間発展ブロックデシメーション(TEBD)アルゴリズムを用いてコヒーレント駆動自由散逸Kerr非線形系を数値的にシミュレートし,Eulers法を用いて運動のハイゼンベルク方程式上で時間伝搬を行い,数値結果が古典的不安定性とどのように類似しているかを研究する。 システムは異なる軌道を通じて進化し、異なる外部ドライブと初期条件のために異なる分岐を安定化する。 ウィグナー状態の送付は、システムが非古典的力学進化とシステムの定常状態を通じて初期状態の残効を負うことを確認している。 さらに、初期状態が最終状態の同じ分岐に属さない場合、数値シミュレーションされたスペクトル密度は解析的密度と大きく異なるままである。

We simulate coherent driven free dissipative Kerr nonlinear system numerically using time evolving block decimation (TEBD) algorithm and time propagation on the Heisenberg equation of motion using Eulers method to study how the numerical results are analogous to classical bistability. The system evolves through different trajectories to stabilize different branches for different external drives and initial conditions. The Wigner state reprentation confirms the system to suffer a residual effect of initial state throughout the non-classical dynamical evolution and the steady state of the system. Furthermore, we also see the numerically simulated spectral density remains significantly different from analytical counterparts when initial states do not lie to the same branch of the final state.
翻訳日:2023-08-22 13:37:36 公開日:2023-08-21
# 無線通信ネットワークにおける高効率連帯学習のための安全深層強化学習手法

A Safe Deep Reinforcement Learning Approach for Energy Efficient Federated Learning in Wireless Communication Networks ( http://arxiv.org/abs/2308.10664v1 )

ライセンス: Link先を確認
Nikolaos Koursioumpas, Lina Magoula, Nikolaos Petropouleas, Alexandros-Ioannis Thanopoulos, Theodora Panagea, Nancy Alonistioti, M. A. Gutierrez-Estevez, Ramin Khalili(参考訳) 新たな人工知能(AI)時代に向けて - 無線ネットワークを有効にし、AIの環境への影響に関する懸念が業界と学界の両方で高まっている。 Federated Learning(FL)は、分散AI技術を保存する重要なプライバシとして登場した。 現在FLで行われている努力にもかかわらず、その環境影響は未解決の問題である。 FLプロセスの全体エネルギー消費の最小化を目標とし,モデルの性能を確保しつつ,必要な総エネルギーを最小化するために,関連機器の計算・通信資源のオーケストレーションを提案する。 そこで本研究では,訓練中にペナルティ関数を導入し,環境制約に違反する戦略をペナルティ化し,かつ安全なRLプロセスを確保する,ソフトアクタ批判的深層強化学習(DRL)ソリューションを提案する。 エネルギー消費と通信のオーバーヘッドを更に低減することを目的として,計算コスト効率のよいfl環境とともにデバイスレベルの同期手法を提案する。 提案手法の有効性は, 静的および動的環境における4つの現状ベースラインソリューションと比較して評価され, 総エネルギー消費量の最大94%の削減が達成された。

Progressing towards a new era of Artificial Intelligence (AI) - enabled wireless networks, concerns regarding the environmental impact of AI have been raised both in industry and academia. Federated Learning (FL) has emerged as a key privacy preserving decentralized AI technique. Despite efforts currently being made in FL, its environmental impact is still an open problem. Targeting the minimization of the overall energy consumption of an FL process, we propose the orchestration of computational and communication resources of the involved devices to minimize the total energy required, while guaranteeing a certain performance of the model. To this end, we propose a Soft Actor Critic Deep Reinforcement Learning (DRL) solution, where a penalty function is introduced during training, penalizing the strategies that violate the constraints of the environment, and ensuring a safe RL process. A device level synchronization method, along with a computationally cost effective FL environment are proposed, with the goal of further reducing the energy consumption and communication overhead. Evaluation results show the effectiveness of the proposed scheme compared to four state-of-the-art baseline solutions in both static and dynamic environments, achieving a decrease of up to 94% in the total energy consumption.
翻訳日:2023-08-22 13:37:20 公開日:2023-08-21
# 長期人物再同定のための衣服の学習と3次元形状表現

Learning Clothing and Pose Invariant 3D Shape Representation for Long-Term Person Re-Identification ( http://arxiv.org/abs/2308.10658v1 )

ライセンス: Link先を確認
Feng Liu, Minchul Kim, ZiAng Gu, Anil Jian, Xiaoming Liu(参考訳) 長期人物再同定(LT-ReID)はコンピュータビジョンや生体認証においてますます重要になっている。 本研究では,歩行者認識の域を超えてlt-reidを拡張し,広い時間領域における布の交換シナリオを考慮しつつ,より広い実世界の人間活動を含むことを目的とする。 この設定は、人間のポーズや衣服の多様性によって引き起こされる幾何学的ミスアライメントと外観の曖昧さによって、さらなる課題をもたらす。 これらの課題に対処するため、我々は3DInvarReIDの新しいアプローチを提案する。 一 立体服を着た人間の非同一性成分(目的、衣服の形状及びテクスチャ)から身元を遠ざけること。 (ii)正確な3d布身形状の再構築と人為リードの裸体形状の判別的特徴の学習 LT-ReIDの研究をよりよく評価するために,さまざまな人間の活動や衣服の変化を含む,CCDAと呼ばれる実世界のデータセットを収集した。 実験では,人物ReIDに対するアプローチの優れた性能を示す。

Long-Term Person Re-Identification (LT-ReID) has become increasingly crucial in computer vision and biometrics. In this work, we aim to extend LT-ReID beyond pedestrian recognition to include a wider range of real-world human activities while still accounting for cloth-changing scenarios over large time gaps. This setting poses additional challenges due to the geometric misalignment and appearance ambiguity caused by the diversity of human pose and clothing. To address these challenges, we propose a new approach 3DInvarReID for (i) disentangling identity from non-identity components (pose, clothing shape, and texture) of 3D clothed humans, and (ii) reconstructing accurate 3D clothed body shapes and learning discriminative features of naked body shapes for person ReID in a joint manner. To better evaluate our study of LT-ReID, we collect a real-world dataset called CCDA, which contains a wide variety of human activities and clothing changes. Experimentally, we show the superior performance of our approach for person ReID.
翻訳日:2023-08-22 13:36:59 公開日:2023-08-21
# 非単調部分モジュラー最大化のための実用的な並列アルゴリズム

Practical Parallel Algorithms for Non-Monotone Submodular Maximization ( http://arxiv.org/abs/2308.10656v1 )

ライセンス: Link先を確認
Shuang Cui, Kai Han, Jing Tang, He Huang, Xueying Li, Aakas Zhiyuli, Hanxiao Li(参考訳) サブモジュールの最大化は、機械学習、コンピュータビジョン、自然言語処理など、人工知能の分野における様々な分野に広く応用されている。 これらの領域でデータセットのサイズが大きくなるにつれて、サブモジュラー最大化のための効率的かつ並列化可能なアルゴリズムを開発する必要性が高まっている。 部分モジュラル最大化アルゴリズムの並列化可能性の1つの尺度は適応的複雑性であり、対象関数に対する多項式数のクエリを並列に実行できる逐次ラウンドの数を示す。 本稿では,knapsack制約を考慮した非単調部分モジュラー最大化問題について検討し,$$(8+\epsilon)$-approximation under $\mathcal{O}(\log n)$ Adaptive complexity, which is \textit{optimal} up to a factor of $\mathcal{O}(\log\log n)$。 さらに,$k$-system制約を受ける非単調部分モジュラー最大化問題に対して,証明可能な近似比とサブリニア適応複雑性を両立した最初のアルゴリズムを提案する。 副産物として,我々の2つのアルゴリズムは,濃度制約を受ける部分モジュラー最大化の特別な場合にも適用可能であり,最先端アルゴリズムと同等の性能限界を達成することができることを示した。 最後に,本手法の有効性を実世界の応用に関する広範な実験により実証した。

Submodular maximization has found extensive applications in various domains within the field of artificial intelligence, including but not limited to machine learning, computer vision, and natural language processing. With the increasing size of datasets in these domains, there is a pressing need to develop efficient and parallelizable algorithms for submodular maximization. One measure of the parallelizability of a submodular maximization algorithm is its adaptive complexity, which indicates the number of sequential rounds where a polynomial number of queries to the objective function can be executed in parallel. In this paper, we study the problem of non-monotone submodular maximization subject to a knapsack constraint, and propose the first combinatorial algorithm achieving an $(8+\epsilon)$-approximation under $\mathcal{O}(\log n)$ adaptive complexity, which is \textit{optimal} up to a factor of $\mathcal{O}(\log\log n)$. Moreover, we also propose the first algorithm with both provable approximation ratio and sublinear adaptive complexity for the problem of non-monotone submodular maximization subject to a $k$-system constraint. As a by-product, we show that our two algorithms can also be applied to the special case of submodular maximization subject to a cardinality constraint, and achieve performance bounds comparable with those of state-of-the-art algorithms. Finally, the effectiveness of our approach is demonstrated by extensive experiments on real-world applications.
翻訳日:2023-08-22 13:36:45 公開日:2023-08-21
# relax and penalize:mixed-binary hyperparameter optimizationに対する新しいbilevelアプローチ

Relax and penalize: a new bilevel approach to mixed-binary hyperparameter optimization ( http://arxiv.org/abs/2308.10711v1 )

ライセンス: Link先を確認
Marianna de Santis (UNIROMA), Jordan Frecon (LHC), Francesco Rinaldi (Unipd), Saverio Salzo (DIAG UNIROMA), Martin Schmidt(参考訳) 近年,機械学習モデルの高次元ハイパーパラメータを効率的に推定する手法が普及している。 しかし、これまでバイナリパラメータは、連続的な緩和と丸め戦略によって処理されており、一貫性のないソリューションにつながる可能性がある。 この文脈において,我々は,適切なペナルティ項に基づく等価な連続二段階の再構成を用いて,混合双項ハイパーパラメータの最適化に挑戦する。 適切な仮定の下では、混合バイナリソリューションを提供することが保証されるアルゴリズムフレームワークを提案する。 さらに,提案手法の一般化により,提案フレームワーク内の既存の連続二段階解法を安全に利用できる。 我々は,回帰問題におけるグループスパーシティー構造の推定という,特定の機械学習問題に対するアプローチの性能を評価する。 報告された結果から,本手法は緩和と丸めに基づく最先端手法よりも優れていることが示された。

In recent years, bilevel approaches have become very popular to efficiently estimate high-dimensional hyperparameters of machine learning models. However, to date, binary parameters are handled by continuous relaxation and rounding strategies, which could lead to inconsistent solutions. In this context, we tackle the challenging optimization of mixed-binary hyperparameters by resorting to an equivalent continuous bilevel reformulation based on an appropriate penalty term. We propose an algorithmic framework that, under suitable assumptions, is guaranteed to provide mixed-binary solutions. Moreover, the generality of the method allows to safely use existing continuous bilevel solvers within the proposed framework. We evaluate the performance of our approach for a specific machine learning problem, i.e., the estimation of the group-sparsity structure in regression problems. Reported results clearly show that our method outperforms state-of-the-art approaches based on relaxation and rounding
翻訳日:2023-08-22 13:30:40 公開日:2023-08-21
# ニューラルネットワークモデルの逆ロバスト性に及ぼす因果的不等角の影響の測定

Measuring the Effect of Causal Disentanglement on the Adversarial Robustness of Neural Network Models ( http://arxiv.org/abs/2308.10708v1 )

ライセンス: Link先を確認
Preben M. Ness, Dusica Marijan, Sunanda Bose(参考訳) 因果的ニューラルネットワークモデルは、敵の攻撃に対して高いレベルの堅牢性を示し、従来のニューラルネットワークと比較して、少数ショット学習やレアコンテキスト分類のような一般化タスクの能力も高まっている。 このロバスト性は因果関係と共起の入力信号の不連続に起因すると論じられている。 しかしながら、これらのタイプの因果モデルによって達成される絡み合いのレベルを定量的に測定したり、それがそれらの対向的堅牢性にどのように関係するかを評価することは、まだない。 既存の因果障害指標は、実世界のデータセットで訓練された決定論的モデルには適用できない。 そこで、我々は、コンピュータビジョンの分野におけるコンテンツ/スタイルの絡み合いのメトリクスを利用して、4つの最先端の因果ニューラルネットワークモデルにおける因果絡みの異なる側面を測定する。 これらのモデルを共通のresnet18アーキテクチャで再実装することで、7つの一般的なホワイトボックス攻撃の下で、3つの標準イメージ分類ベンチマークデータセットで、その逆のロバスト性を適切に測定することができる。 モデルが因果信号と共起信号とを分離する程度と、その逆ロバスト性との間に強い相関関係(r=0.820,p=0.001)が見いだされる。 さらに,共同創設者信号の画素レベルの情報内容と対向ロバスト性(r=-0.597,p=0.040)との間には,負の相関関係が認められた。

Causal Neural Network models have shown high levels of robustness to adversarial attacks as well as an increased capacity for generalisation tasks such as few-shot learning and rare-context classification compared to traditional Neural Networks. This robustness is argued to stem from the disentanglement of causal and confounder input signals. However, no quantitative study has yet measured the level of disentanglement achieved by these types of causal models or assessed how this relates to their adversarial robustness. Existing causal disentanglement metrics are not applicable to deterministic models trained on real-world datasets. We, therefore, utilise metrics of content/style disentanglement from the field of Computer Vision to measure different aspects of the causal disentanglement for four state-of-the-art causal Neural Network models. By re-implementing these models with a common ResNet18 architecture we are able to fairly measure their adversarial robustness on three standard image classification benchmarking datasets under seven common white-box attacks. We find a strong association (r=0.820, p=0.001) between the degree to which models decorrelate causal and confounder signals and their adversarial robustness. Additionally, we find a moderate negative association between the pixel-level information content of the confounder signal and adversarial robustness (r=-0.597, p=0.040).
翻訳日:2023-08-22 13:30:23 公開日:2023-08-21
# 量子化と確率質量関数の概念によるオートエンコーダの潜在空間からのサンプリング

Sampling From Autoencoders' Latent Space via Quantization And Probability Mass Function Concepts ( http://arxiv.org/abs/2308.10704v1 )

ライセンス: Link先を確認
Aymene Mohammed Bouayed and Adrian Iaccovelli and David Naccache(参考訳) 本研究では, 自己エンコーダ上に構築された生成モデルの潜時空間からのサンプリングに着目し, 再構成したサンプルがライフライクな画像であることを示す。 そこで本研究では,確率質量関数の概念と量子化過程を組み合わせた,新しい学習後サンプリングアルゴリズムを提案する。 提案アルゴリズムは,入力データから各潜伏ベクトルの近傍を確立し,その近傍からサンプルを抽出する。 この戦略的なアプローチは、サンプル化された潜伏ベクトルが主に高確率領域に居住することを保証する。 サンプリングアルゴリズムの注目すべき点は,ガウス混合モデル(GMM)に基づくサンプリング手法である。 注目すべきは、前回の $\mathcal{O}(n\times d \times k \times i)$ から GMM サンプリングに関連付けられた時間複雑性を、より合理化された $\mathcal{O}(n\times d)$ に改善することで、実行時の大幅なスピードアップを実現したことです。 さらに,画像生成のためのfr\'echetインセプション距離 (fid) を用いて測定した実験結果から,様々なモデルやデータセットを対象としたサンプリングアルゴリズムの性能を検証した。 MNISTベンチマークデータセットでは、最大0.89ドルのFID値の改善により、GMMサンプリングよりも優れている。 さらに,顔画像と眼像の画像の生成に関しては,CelebAデータセットとMOBIUSデータセットに示されているGMMサンプリングと比較して,FIDの改善が1.69ドルと0.87ドルと大きく向上している。 最後に,特にwasserstein距離のレンズを通してのgmmサンプリングとは対照的に,潜在空間分布の推定における本手法の有効性を検証した。

In this study, we focus on sampling from the latent space of generative models built upon autoencoders so as the reconstructed samples are lifelike images. To do to, we introduce a novel post-training sampling algorithm rooted in the concept of probability mass functions, coupled with a quantization process. Our proposed algorithm establishes a vicinity around each latent vector from the input data and then proceeds to draw samples from these defined neighborhoods. This strategic approach ensures that the sampled latent vectors predominantly inhabit high-probability regions, which, in turn, can be effectively transformed into authentic real-world images. A noteworthy point of comparison for our sampling algorithm is the sampling technique based on Gaussian mixture models (GMM), owing to its inherent capability to represent clusters. Remarkably, we manage to improve the time complexity from the previous $\mathcal{O}(n\times d \times k \times i)$ associated with GMM sampling to a much more streamlined $\mathcal{O}(n\times d)$, thereby resulting in substantial speedup during runtime. Moreover, our experimental results, gauged through the Fr\'echet inception distance (FID) for image generation, underscore the superior performance of our sampling algorithm across a diverse range of models and datasets. On the MNIST benchmark dataset, our approach outperforms GMM sampling by yielding a noteworthy improvement of up to $0.89$ in FID value. Furthermore, when it comes to generating images of faces and ocular images, our approach showcases substantial enhancements with FID improvements of $1.69$ and $0.87$ respectively, as compared to GMM sampling, as evidenced on the CelebA and MOBIUS datasets. Lastly, we substantiate our methodology's efficacy in estimating latent space distributions in contrast to GMM sampling, particularly through the lens of the Wasserstein distance.
翻訳日:2023-08-22 13:29:33 公開日:2023-08-21
# 費用効率の良いオンライン意思決定:A Combinatorial Multi-Armed Bandit Approach

Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach ( http://arxiv.org/abs/2308.10699v1 )

ライセンス: Link先を確認
Arman Rahbar, Niklas {\AA}kerblom, Morteza Haghir Chehreghani(参考訳) オンライン意思決定は多くの現実世界のアプリケーションにおいて重要な役割を果たす。 多くのシナリオでは、入ってくるデータポイントで一連のテストを実行することに基づいて決定が行われる。 しかし、すべてのテストの実行は高価であり、常に可能であるとは限らない。 本稿では,組合せ型マルチアームバンディットに基づくオンライン意思決定問題の新たな定式化と,テストの実行コストを考慮に入れた。 この定式化に基づいて,後方サンプリングやベイズUCBを探索に利用できる費用効率の高いオンライン意思決定のための新しい枠組みを提供する。 本フレームワークの厳密な理論解析を行い,実世界問題への適用性を示す実験結果を提示した。

Online decision making plays a crucial role in numerous real-world applications. In many scenarios, the decision is made based on performing a sequence of tests on the incoming data points. However, performing all tests can be expensive and is not always possible. In this paper, we provide a novel formulation of the online decision making problem based on combinatorial multi-armed bandits and take the cost of performing tests into account. Based on this formulation, we provide a new framework for cost-efficient online decision making which can utilize posterior sampling or BayesUCB for exploration. We provide a rigorous theoretical analysis for our framework and present various experimental results that demonstrate its applicability to real-world problems.
翻訳日:2023-08-22 13:28:55 公開日:2023-08-21
# 予測を超えて:確率力学系の残留動的モード分解と分散

Beyond expectations: Residual Dynamic Mode Decomposition and Variance for Stochastic Dynamical Systems ( http://arxiv.org/abs/2308.10697v1 )

ライセンス: Link先を確認
Matthew J. Colbrook, Qin Li, Ryan V. Raut, Alex Townsend(参考訳) クープマン作用素は非線形力学系を線形化し、そのスペクトル情報を重要な関心を持つ。 これらのスペクトル特性を近似するために多くのアルゴリズムが開発されており、ダイナミックモード分解 (dmd) は射影に基づく手法の先駆者となっている。 クープマン作用素自身は線型であるが、無限次元の可観測空間で作用するという事実は様々な問題を引き起こす。 これにはスプリアスモード、必須スペクトル、クープマンモード分解の検証が含まれる。 最近の研究は、決定論的システムに対するこれらの課題に対処しているが、koopman演算子が可観測性の期待を測定する確率的システム用に調整された検証済みdmd法には、注目すべきギャップがある。 これらの問題に対処するためには、期待を超える必要があることを示します。 Koopmanフレームワークに分散を組み込むことで、これらの課題に対処する。 追加のMDD型行列を用いて,2乗残差項と分散項の和を近似し,それぞれがバッチスナップショットデータを用いて個別に近似することができる。 これにより、確率的クープマン作用素のスペクトル特性を検証し、射影誤差を制御できる。 また,統計コヒーレンシを計測するために分散・プソドスペクタの概念も導入する。 最後に、確率的クープマン作用素のスペクトル量に対する収束結果のスイートを示す。 本研究はシミュレーションデータと実験データの両方を用いた実用的応用により結論づける。 覚醒マウスの神経記録では、標準期待に基づく力学モデルでは不可能な生理学的に重要な情報を明らかにすることが示される。

Koopman operators linearize nonlinear dynamical systems, making their spectral information of crucial interest. Numerous algorithms have been developed to approximate these spectral properties, and Dynamic Mode Decomposition (DMD) stands out as the poster child of projection-based methods. Although the Koopman operator itself is linear, the fact that it acts in an infinite-dimensional space of observables poses various challenges. These include spurious modes, essential spectra, and the verification of Koopman mode decompositions. While recent work has addressed these challenges for deterministic systems, there remains a notable gap in verified DMD methods tailored for stochastic systems, where the Koopman operator measures the expectation of observables. We show that it is necessary to go beyond expectations to address these issues. By incorporating variance into the Koopman framework, we address these challenges. Through an additional DMD-type matrix, we approximate the sum of a squared residual and a variance term, each of which can be approximated individually using batched snapshot data. This allows verified computation of the spectral properties of stochastic Koopman operators, controlling the projection error. We also introduce the concept of variance-pseudospectra to gauge statistical coherency. Finally, we present a suite of convergence results for the spectral quantities of stochastic Koopman operators. Our study concludes with practical applications using both simulated and experimental data. In neural recordings from awake mice, we demonstrate how variance-pseudospectra can reveal physiologically significant information unavailable to standard expectation-based dynamical models.
翻訳日:2023-08-22 13:28:46 公開日:2023-08-21
# 先行重力方向の非校正画像における点推定

Vanishing Point Estimation in Uncalibrated Images with Prior Gravity Direction ( http://arxiv.org/abs/2308.10694v1 )

ライセンス: Link先を確認
R\'emi Pautrat, Shaohui Liu, Petr Hruby, Marc Pollefeys, Daniel Barath(参考訳) 我々は,マンハッタンのフレーム,すなわち直交点3点,カメラの焦点距離を推定する問題に,先行する垂直方向を利用して対処する。 この方向は、最近の消費者向けデバイス(例えばスマートフォン)の標準コンポーネントである慣性測定ユニットから得ることができる。 最少ライン構成の排他的解析を行い、2つの新しい2行解法を導出するが、その1つは既存の解法に影響を与える特異性に支障を来さない。 さらに,局所最適化の性能を向上させるために,任意の行数で動作する非最小メソッドを設計した。 ハイブリッドなロバスト推定器で全ての解法を組み合わせることで,粗い前もって精度が向上する。 合成および実世界のデータセットに対する実験は、我々の手法の精度が最先端であることを示しながら、同等のランタイムを持つ。 さらに,相対回転推定における解法の適用性を示す。 コードはhttps://github.com/cvg/VP-Estimation-with-Prior-Gravityで公開されている。

We tackle the problem of estimating a Manhattan frame, i.e. three orthogonal vanishing points, and the unknown focal length of the camera, leveraging a prior vertical direction. The direction can come from an Inertial Measurement Unit that is a standard component of recent consumer devices, e.g., smartphones. We provide an exhaustive analysis of minimal line configurations and derive two new 2-line solvers, one of which does not suffer from singularities affecting existing solvers. Additionally, we design a new non-minimal method, running on an arbitrary number of lines, to boost the performance in local optimization. Combining all solvers in a hybrid robust estimator, our method achieves increased accuracy even with a rough prior. Experiments on synthetic and real-world datasets demonstrate the superior accuracy of our method compared to the state of the art, while having comparable runtimes. We further demonstrate the applicability of our solvers for relative rotation estimation. The code is available at https://github.com/cvg/VP-Estimation-with-Prior-Gravity.
翻訳日:2023-08-22 13:28:24 公開日:2023-08-21
# 衣服交換者再識別のための微粒化表現と再構成の探索

Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2308.10692v1 )

ライセンス: Link先を確認
Qizao Wang, Xuelin Qian, Bin Li, Ying Fu, Yanwei Fu, Xiangyang Xue(参考訳) 衣服交換者の再識別(Re-ID)は、劣等なアイデンティティ関連特徴と限られたトレーニングサンプルの2つの制限に苦しむ、特に困難な課題である。 既存の方法は、主に補助情報を活用して、形状や歩行のソフトバイオメトリックスの特徴や衣服のラベルなど、識別的特徴学習を促進する。 しかし、これらの情報は現実世界のアプリケーションでは利用できない。 本稿では,補助情報なしで両方の制約に取り組むための,新しい細粒度表現と再結合(fire$^{2}$)フレームワークを提案する。 具体的には,まず細粒度特徴マイニング(ffm)モジュールを設計し,各人物の画像を個別にクラスタ化する。 類似した細かな属性(服や視点など)を持つ画像が集結することが推奨されている。 属性認識による分類損失を導入し、異なる人々間で共有されていないクラスタラベルに基づくきめ細かな学習を行い、モデルがアイデンティティ関連機能を学ぶように促進する。 さらに,クラスタ化された細粒度属性を最大限に活用することにより,潜在空間で異なる属性を持つ画像特徴を再構成するfarモジュールを提案する。 堅牢な特徴学習のための表現を大幅に強化することができる。 FIRe$^{2}$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。

Cloth-changing person Re-IDentification (Re-ID) is a particularly challenging task, suffering from two limitations of inferior identity-relevant features and limited training samples. Existing methods mainly leverage auxiliary information to facilitate discriminative feature learning, including soft-biometrics features of shapes and gaits, and additional labels of clothing. However, these information may be unavailable in real-world applications. In this paper, we propose a novel FIne-grained Representation and Recomposition (FIRe$^{2}$) framework to tackle both limitations without any auxiliary information. Specifically, we first design a Fine-grained Feature Mining (FFM) module to separately cluster images of each person. Images with similar so-called fine-grained attributes (e.g., clothes and viewpoints) are encouraged to cluster together. An attribute-aware classification loss is introduced to perform fine-grained learning based on cluster labels, which are not shared among different people, promoting the model to learn identity-relevant features. Furthermore, by taking full advantage of the clustered fine-grained attributes, we present a Fine-grained Attribute Recomposition (FAR) module to recompose image features with different attributes in the latent space. It can significantly enhance representations for robust feature learning. Extensive experiments demonstrate that FIRe$^{2}$ can achieve state-of-the-art performance on five widely-used cloth-changing person Re-ID benchmarks.
翻訳日:2023-08-22 13:28:07 公開日:2023-08-21
# 情報集約型組織におけるモバイル機器の知識漏洩軽減フレームワーク

Towards a knowledge leakage Mitigation framework for mobile Devices in knowledge-intensive Organizations ( http://arxiv.org/abs/2308.10689v1 )

ライセンス: Link先を確認
Carlos Andres Agudelo Serna, Rachelle Bosua, Atif Ahmad, Sean B. Maynard(参考訳) 知識集約型組織におけるモバイルデバイスの利用は、効果的でコスト効率の悪い管理上の問題も生じている。 意図的であれ不注意であれ、従業員が組織内の知識漏洩の原因であり、モバイルデバイスの使用がさらに悪化することが多い。 この問題は、人間の要因を無視しながら技術的な制御に過度に焦点を合わせた結果である。 知識漏洩は多次元的な問題であり,本稿では知識リークを構成する異なる次元を強調する。 この研究では、私たちの貢献は3倍です。 まず,オーストラリアにおける知識集約型組織におけるモバイル機器のコンテキストにおける知識漏洩リスク(KLR)について検討する。 第2に,klr対策のための緩和戦略を文献に基づくモバイルデバイスを用いて説明し,分類するための概念的枠組みを提案する。 そして第3に,このフレームワークを,セキュリティとナレッジマネージャとのインタビューから得られた知見に適用する。 キーワード: 知識漏洩、知識リスク、知識集約、モバイルデバイス。

The use of mobile devices in knowledge-intensive organizations while effective and cost-efficient also pose a challenging management problem. Often employees whether deliberately or inadvertently are the cause of knowledge leakage in organizations and the use of mobile devices further exacerbates it. This problem is the result of overly focusing on technical controls while neglecting human factors. Knowledge leakage is a multidimensional problem, and in this paper, we highlight the different dimensions that constitute it. In this study, our contributions are threefold. First, we study knowledge leakage risk (KLR) within the context of mobile devices in knowledge-intensive organizations in Australia. Second, we present a conceptual framework to explain and categorize the mitigation strategies to combat KLR through the use of mobile devices grounded in the literature. And third, we apply the framework to the findings from interviews with security and knowledge managers. Keywords: Knowledge Leakage, Knowledge Risk, Knowledge intensive, Mobile device.
翻訳日:2023-08-22 13:27:43 公開日:2023-08-21
# パッチは必要なだけじゃない

Patch Is Not All You Need ( http://arxiv.org/abs/2308.10729v1 )

ライセンス: Link先を確認
Changzhen Li, Jie Zhang, Yang Wei, Zhilong Ji, Jinfeng Bai, Shiguang Shan(参考訳) ビジョントランスフォーマーはコンピュータビジョンにおいて大きな成功を収め、様々なタスクに優れたパフォーマンスを提供する。 しかし、それらのシーケンシャルな入力への固有の依存は、イメージをパッチシーケンスに手動で分割し、イメージ固有の構造的かつ意味的な連続性を阻害する。 そこで本研究では,画像からパターン列への適応変換を行う新しいパターン変換器(パターン変換器)を提案する。 具体的には、畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出し、各チャネルは後続のトランスフォーマーに視覚トークンとして供給されるユニークなパターンを表す。 ネットワークがこれらのパターンを最適化できるようにすることで、各パターンはその局所的な関心領域に集中し、固有の構造情報と意味情報を保存する。 CIFAR-10 と CIFAR-100 ではバニラ ResNet と Transformer を用いるだけで最先端のパフォーマンスを実現し,ImageNet 上での競合的な結果を得た。

Vision Transformers have achieved great success in computer visions, delivering exceptional performance across various tasks. However, their inherent reliance on sequential input enforces the manual partitioning of images into patch sequences, which disrupts the image's inherent structural and semantic continuity. To handle this, we propose a novel Pattern Transformer (Patternformer) to adaptively convert images to pattern sequences for Transformer input. Specifically, we employ the Convolutional Neural Network to extract various patterns from the input image, with each channel representing a unique pattern that is fed into the succeeding Transformer as a visual token. By enabling the network to optimize these patterns, each pattern concentrates on its local region of interest, thereby preserving its intrinsic structural and semantic information. Only employing the vanilla ResNet and Transformer, we have accomplished state-of-the-art performance on CIFAR-10 and CIFAR-100, and have achieved competitive results on ImageNet.
翻訳日:2023-08-22 13:20:45 公開日:2023-08-21
# ラベル効率セグメント化のためのテスト時間強化型アクティブラーニングと自己学習

Test-time augmentation-based active learning and self-training for label-efficient segmentation ( http://arxiv.org/abs/2308.10727v1 )

ライセンス: Link先を確認
Bella Specktor-Fadida, Anna Levchakov, Dana Schonberger, Liat Ben-Sira, Dafna Ben-Bashat, Leo Joskowicz(参考訳) ディープラーニングのテクニックは、アノテーションが時間を要する大きなデータセットに依存する。 アノテーションの負担を軽減するために,自己学習(st)とアクティブラーニング(al)の手法と,それらを反復的に組み合わせる手法が開発されている。 しかしながら、各メソッドがいつ最も有用で、それらを組み合わせるのが有利であるかは、まだ不明である。 本稿では,テスト時間拡張(TTA)を用いたSTとALを組み合わせた新しい手法を提案する。 まず、TTAを初期教師ネットワーク上で行う。 そして、最も低い推定ダイススコアに基づいて、アノテーションのケースを選択する。 評価スコアの高い症例をSTのソフトな擬似ラベルとして使用し,既存の注釈付き症例と境界スライスアノテーションを用いたST症例を訓練した。 本研究では,MRIの胎児体と胎盤分割作業におけるデータ変動特性の異なる方法を示す。 以上の結果から,STは両タスクに極めて有効であることが示唆され,非分配(ID)とアウト・オブ・ディストリビューション(OOD)のデータのパフォーマンスが向上した。 しかし, ALと組み合わせた場合, シングルシーケンスの胎児体分割の性能は向上したが, 多シーケンスの胎盤分割の性能はわずかに低下した。 ALは高い変動率の胎盤データには有効であったが, 単系列体データに対するランダム選択では改善しなかった。 胎児体分画シークエンス転送では、ALとSTをST反復で組み合わせると、Diceは0.961で6つのオリジナルスキャンと2つの新しいシークエンススキャンしか得られなかった。 高変量胎盤症例は15例で50例と類似していた。 コードは以下の通り。 https://github.com/Bella31/TTA-quality-estimation-ST-AL

Deep learning techniques depend on large datasets whose annotation is time-consuming. To reduce annotation burden, the self-training (ST) and active-learning (AL) methods have been developed as well as methods that combine them in an iterative fashion. However, it remains unclear when each method is the most useful, and when it is advantageous to combine them. In this paper, we propose a new method that combines ST with AL using Test-Time Augmentations (TTA). First, TTA is performed on an initial teacher network. Then, cases for annotation are selected based on the lowest estimated Dice score. Cases with high estimated scores are used as soft pseudo-labels for ST. The selected annotated cases are trained with existing annotated cases and ST cases with border slices annotations. We demonstrate the method on MRI fetal body and placenta segmentation tasks with different data variability characteristics. Our results indicate that ST is highly effective for both tasks, boosting performance for in-distribution (ID) and out-of-distribution (OOD) data. However, while self-training improved the performance of single-sequence fetal body segmentation when combined with AL, it slightly deteriorated performance of multi-sequence placenta segmentation on ID data. AL was helpful for the high variability placenta data, but did not improve upon random selection for the single-sequence body data. For fetal body segmentation sequence transfer, combining AL with ST following ST iteration yielded a Dice of 0.961 with only 6 original scans and 2 new sequence scans. Results using only 15 high-variability placenta cases were similar to those using 50 cases. Code is available at: https://github.com/Bella31/TTA-quality-estimation-ST-AL
翻訳日:2023-08-22 13:20:26 公開日:2023-08-21
# クナップサックを用いたクラスタ化線形コンテキスト帯域

Clustered Linear Contextual Bandits with Knapsacks ( http://arxiv.org/abs/2308.10722v1 )

ライセンス: Link先を確認
Yichuan Deng, Michalis Mamakos, Zhao Song(参考訳) 本研究では,クラスタ固有の線形モデルの結果が報酬とリソース消費であるクラスタ化されたコンテキストバンディットについて検討する。 腕はクラスターに分割され、クラスタのメンバーシップはアルゴリズムによって未知である。 時間内にアームをプルすると、複数のリソースのそれぞれに対して報酬と消費が得られ、アルゴリズムの終了を意味する制約を超えるリソースの総消費が発生する。 したがって、全報酬を最大化するには、報酬とリソース消費に関するモデルだけでなく、クラスタメンバシップも学習する必要がある。 全アームへのアクセスを必要とせず、一定期間内に後悔のサブリニアを実現するアルゴリズムを提供する。 特に、腕のランダムに選択されたサブセットに一度だけクラスタリングを実行することが十分であることを示す。 この結果を達成するために、計量学の文献と制約付きバンディットの技法の洗練された組み合わせを提供する。

In this work, we study clustered contextual bandits where rewards and resource consumption are the outcomes of cluster-specific linear models. The arms are divided in clusters, with the cluster memberships being unknown to an algorithm. Pulling an arm in a time period results in a reward and in consumption for each one of multiple resources, and with the total consumption of any resource exceeding a constraint implying the termination of the algorithm. Thus, maximizing the total reward requires learning not only models about the reward and the resource consumption, but also cluster memberships. We provide an algorithm that achieves regret sublinear in the number of time periods, without requiring access to all of the arms. In particular, we show that it suffices to perform clustering only once to a randomly selected subset of the arms. To achieve this result, we provide a sophisticated combination of techniques from the literature of econometrics and of bandits with constraints.
翻訳日:2023-08-22 13:19:56 公開日:2023-08-21
# CoMIX: 効率的な分散型コーディネートと独立意思決定のためのマルチエージェント強化学習学習アーキテクチャ

CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision Making ( http://arxiv.org/abs/2308.10721v1 )

ライセンス: Link先を確認
Giovanni Minelli, Mirco Musolesi(参考訳) ロバストなコーディネーションスキルにより、エージェントは共通の目標に向かって、そして理想的には、お互いの進捗を妨げずに、共有環境で協調的に行動することができる。 そこで本研究では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIX(CoMIX)について述べる。 CoMIXは、各エージェントの決定プロセスにおいて、自己中心的かつ協調的な振る舞いを漸進的なステップとしてモデル化する。 これにより、エージェントは独立と協力のバランスをとる異なる状況に動的に行動を適用することができる。 様々なシミュレーション環境を用いた実験により、CoMIXは協調作業のベースラインを上回っていることが示された。 その結果,多エージェントシステムにおける協調性向上のための効果的な手法として,我々の漸進的政策アプローチを検証した。

Robust coordination skills enable agents to operate cohesively in shared environments, together towards a common goal and, ideally, individually without hindering each other's progress. To this end, this paper presents Coordinated QMIX (CoMIX), a novel training framework for decentralized agents that enables emergent coordination through flexible policies, allowing at the same time independent decision-making at individual level. CoMIX models selfish and collaborative behavior as incremental steps in each agent's decision process. This allows agents to dynamically adapt their behavior to different situations balancing independence and collaboration. Experiments using a variety of simulation environments demonstrate that CoMIX outperforms baselines on collaborative tasks. The results validate our incremental policy approach as effective technique for improving coordination in multi-agent systems.
翻訳日:2023-08-22 13:19:40 公開日:2023-08-21
# 単層人工ニューラルネットワークによる補間精度について

On the accuracy of interpolation based on single-layer artificial neural networks ( http://arxiv.org/abs/2308.10720v1 )

ライセンス: Link先を確認
Ferdinando Auricchio, Maria Roberta Belardo, Francesco Calabr\`o, Ariel F. Pascaner(参考訳) 本稿では,1つの隠れた層ANNを浅層あるいは2層ネットワークとも呼ばれるフィードフォワードアーキテクチャで検討し,その構造をニューロンの数と種類によって決定する。 関数を定義するパラメータの決定は、トレーニングと呼ばれ、近似問題の解法によって行われ、そのため特定のノードの集合を通して補間を設定する。 本稿では,線形補間問題につながるエクストリーム学習機械(ELM)と呼ばれる手法を用いて,パラメータを訓練する場合について述べる。 このような仮説では、ANN補間関数の存在が保証される。 次に、与えられたサンプリング補間ノードの外側の補間が等しいとき、チェビチェフ、ランダムに選択された補間ノードの外側の補間精度に焦点が当てられる。 この研究は、よく知られたベル形のルンゲの例によって動機付けられており、大域補間多項式の構成は、好適に選択されたノード、例えばチェビチェフ多項式で訓練された場合にのみ正確であることを示す。 補間ノード数を増加させる際の挙動を評価するために,ネットワーク内のニューロン数を増加させ,補間多項式と比較する。 Runge関数や他のよく知られた例を使って、異なる正規性でテストする。 予想通り、大域多項式による近似の精度は、チェビチェフノードが考慮された場合にのみ増加する。 代わりに、アン補間関数の誤差は常に減少し、ほとんどの場合、訓練に使用されるノードの集合にもかかわらず、収束はチェビチェフノードの多項式ケースで観測されるものに従うことが観察される。

In the present paper, we consider one-hidden layer ANNs with a feedforward architecture, also referred to as shallow or two-layer networks, so that the structure is determined by the number and types of neurons. The determination of the parameters that define the function, called training, is done via the resolution of the approximation problem, so by imposing the interpolation through a set of specific nodes. We present the case where the parameters are trained using a procedure that is referred to as Extreme Learning Machine (ELM) that leads to a linear interpolation problem. In such hypotheses, the existence of an ANN interpolating function is guaranteed. The focus is then on the accuracy of the interpolation outside of the given sampling interpolation nodes when they are the equispaced, the Chebychev, and the randomly selected ones. The study is motivated by the well-known bell-shaped Runge example, which makes it clear that the construction of a global interpolating polynomial is accurate only if trained on suitably chosen nodes, ad example the Chebychev ones. In order to evaluate the behavior when growing the number of interpolation nodes, we raise the number of neurons in our network and compare it with the interpolating polynomial. We test using Runge's function and other well-known examples with different regularities. As expected, the accuracy of the approximation with a global polynomial increases only if the Chebychev nodes are considered. Instead, the error for the ANN interpolating function always decays and in most cases we observe that the convergence follows what is observed in the polynomial case on Chebychev nodes, despite the set of nodes used for training.
翻訳日:2023-08-22 13:19:27 公開日:2023-08-21
# 基底状態または励起状態:全ての状態に特徴的な変分量子固有解法

Ground or Excited State: a State-Specific Variational Quantum Eigensolver for Them All ( http://arxiv.org/abs/2308.10719v1 )

ライセンス: Link先を確認
Dibyendu Mondal and Rahul Maitra(参考訳) 変分量子固有解法 (VQE) は、短期量子デバイスにおける分子エネルギーを決定するための利潤プラットフォームを提供する。 vqeは伝統的にレイリー=リッツの原理で基底状態の波動関数を決定するために調整されているが、特定の対称性に適応した励起状態へのアクセスはいまだに解明されていない。 これはしばしば、基底状態の波動関数の事前知識とともに、高深度回路または追加のアンシラキュービットを必要とする。 我々は,同じ足場における基底状態と励起状態を扱う統一VQEフレームワークを提案する。 スピン軌道の既約表現の知識により、所与の空間対称性に適応する多重行列参照を構築し、さらに、行列式は適切なクレブシュ・ゴルダン係数によって絡み合っており、所望のスピン乗法性を保証する。 最適化の各ステップにおける参照の純度を維持する完全対称スピンスカラーユニタリの概念を導入する。 状態選択性は、任意の変分崩壊に対してメソッドを保護し、任意の対称性の標的となる低層固有根に導く。 励起状態への直接アクセスは、量子コンピュータの励起状態計算を悩ませる累積誤差から我々のアプローチを遮蔽し、パラメータ数が少なく、短期量子デバイスで実現されることが期待される。

Variational Quantum Eigensolver (VQE) provides a lucrative platform to determine molecular energetics in near-term quantum devices. While the VQE is traditionally tailored to determine the ground state wavefunction with the underlying Rayleigh-Ritz principle, the access to specific symmetry-adapted excited states remains elusive. This often requires high depth circuit or additional ancilla qubits along with prior knowledge of the ground state wavefunction. We propose a unified VQE framework that treats the ground and excited states in the same footings. With the knowledge of the irreducible representations of the spinorbitals, we construct a multi-determinantal reference that is adapted to a given spatial symmetry where additionally, the determinants are entangled through appropriate Clebsch-Gordan coefficients to ensure the desired spin-multiplicity. We introduce the notion of totally symmetric, spin-scalar unitary which maintains the purity of the reference at each step of the optimization. The state-selectivity safeguards the method against any variational collapse while leading to any targeted low-lying eigenroot of arbitrary symmetry. The direct access to the excited states shields our approach from the cumulative error that plagues excited state calculations in a quantum computer and with few parameter count, it is expected to be realized in near-term quantum devices.
翻訳日:2023-08-22 13:19:01 公開日:2023-08-21
# 概念知覚のためのバックドアテクスチャインバージョン

Backdooring Textual Inversion for Concept Censorship ( http://arxiv.org/abs/2308.10718v1 )

ライセンス: Link先を確認
Yutong wu, Jie Zhang, Florian Kerschbaum, and Tianwei Zhang(参考訳) 近年、AIGC(AI Generated Content)で成功を収めている。 事前学習した拡散モデルを使って高品質の画像を生成したり、自然言語でのみプロンプトで既存の画像を自由に修正することができる。 さらにエキサイティングなことに、新しいパーソナライゼーション技術により、ほんの数枚のイメージを参照として、特定の好みの画像を作成することができる。 しかし、そのような高度な技術が偽ニュースの拡散や個人の評判を悪用するなど、悪意のあるユーザーによって悪用された場合、深刻な脅威を引き起こす。 したがって、その発展と発展のためにパーソナライズモデル(すなわち概念検閲)を規制する必要がある。 本稿では,テキスト・インバージョン (TI) と呼ばれるパーソナライズ技術に注目し,その軽量さと優れた性能で普及しつつある。 TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。 ユーザーは、Civitaiのような公開ウェブサイトから簡単に単語をダウンロードして、パーソナライズのために微調整することなく、自身の安定した拡散モデルに追加することができる。 tiモデルの概念検閲を実現するために,バックドアをテキストインバージョン埋め込みに注入することにより,バックドア技術を活用することを提案する。 手短に、tiのトレーニング中にトリガーとしてセンシティブな単語を選択し、通常の使用のために検閲されます。 次の生成段階では、トリガーとパーソナライズされた埋め込みを最終プロンプトとして組み合わせると、モデルは望まれる悪意のある概念を含むイメージではなく、事前に定義されたターゲット画像を出力する。 提案手法の有効性を実証するため,我々はオープンソースのテキスト・画像・モデルである安定拡散実験を行った。 私たちのコード、データ、結果はhttps://concept-censorship.github.ioで閲覧できます。

Recent years have witnessed success in AIGC (AI Generated Content). People can make use of a pre-trained diffusion model to generate images of high quality or freely modify existing pictures with only prompts in nature language. More excitingly, the emerging personalization techniques make it feasible to create specific-desired images with only a few images as references. However, this induces severe threats if such advanced techniques are misused by malicious users, such as spreading fake news or defaming individual reputations. Thus, it is necessary to regulate personalization models (i.e., concept censorship) for their development and advancement. In this paper, we focus on the personalization technique dubbed Textual Inversion (TI), which is becoming prevailing for its lightweight nature and excellent performance. TI crafts the word embedding that contains detailed information about a specific object. Users can easily download the word embedding from public websites like Civitai and add it to their own stable diffusion model without fine-tuning for personalization. To achieve the concept censorship of a TI model, we propose leveraging the backdoor technique for good by injecting backdoors into the Textual Inversion embeddings. Briefly, we select some sensitive words as triggers during the training of TI, which will be censored for normal use. In the subsequent generation stage, if the triggers are combined with personalized embeddings as final prompts, the model will output a pre-defined target image rather than images including the desired malicious concept. To demonstrate the effectiveness of our approach, we conduct extensive experiments on Stable Diffusion, a prevailing open-sourced text-to-image model. Our code, data, and results are available at https://concept-censorship.github.io.
翻訳日:2023-08-22 13:18:35 公開日:2023-08-21
# 投影型プロトタイプの観点からの人物再識別の再考

Rethinking Person Re-identification from a Projection-on-Prototypes Perspective ( http://arxiv.org/abs/2308.10717v1 )

ライセンス: Link先を確認
Qizao Wang, Xuelin Qian, Bin Li, Yanwei Fu, Xiangyang Xue(参考訳) 検索タスクとしてのPerson Re-IDentification(Re-ID)は,過去10年間で大きな発展を遂げてきた。 既存の最先端手法は類似のフレームワークに従い、まず入力画像から特徴を抽出し、分類器で分類する。 しかし、トレーニングセットとテストセットの間に同一性が重複しないため、分類器はしばしば推論中に破棄される。 抽出された特徴のみが距離測定による人物検索に使用される。 本稿では,人物再識別における分類器の役割を再考し,画像特徴からクラスプロトタイプへの投影として分類器を想定する新たな視点を提唱する。 これらのプロトタイプは、まさに分類器の学習したパラメータである。 この光では,入力画像の同一性をプロトタイプと類似点として記述し,さらに識別的特徴として利用して人物のRe-IDを行う。 そこで本研究では,推論段階での分類器の機能を革新的に予約する新しいベースライン・プロネットを提案する。 クラスプロトタイプの学習を容易にするために、三重項損失と識別分類損失の両方を分類器によって投影される特徴に適用する。 pronet++の改良版は、マルチグラニュラデザインをさらに取り入れることで提供される。 4つのベンチマークによる実験により,提案するpronetは単純かつ効果的であり,従来のベースラインを大きく上回ることを示した。 ProNet++は、トランスフォーマーベースの競合よりも、競争力や結果も向上している。

Person Re-IDentification (Re-ID) as a retrieval task, has achieved tremendous development over the past decade. Existing state-of-the-art methods follow an analogous framework to first extract features from the input images and then categorize them with a classifier. However, since there is no identity overlap between training and testing sets, the classifier is often discarded during inference. Only the extracted features are used for person retrieval via distance metrics. In this paper, we rethink the role of the classifier in person Re-ID, and advocate a new perspective to conceive the classifier as a projection from image features to class prototypes. These prototypes are exactly the learned parameters of the classifier. In this light, we describe the identity of input images as similarities to all prototypes, which are then utilized as more discriminative features to perform person Re-ID. We thereby propose a new baseline ProNet, which innovatively reserves the function of the classifier at the inference stage. To facilitate the learning of class prototypes, both triplet loss and identity classification loss are applied to features that undergo the projection by the classifier. An improved version of ProNet++ is presented by further incorporating multi-granularity designs. Experiments on four benchmarks demonstrate that our proposed ProNet is simple yet effective, and significantly beats previous baselines. ProNet++ also achieves competitive or even better results than transformer-based competitors.
翻訳日:2023-08-22 13:18:04 公開日:2023-08-21
# データフリー連続教師なしドメイン適応型人物再同定のためのカラープロンプト

Color Prompting for Data-Free Continual Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2308.10716v1 )

ライセンス: Link先を確認
Jianyang Gu, Hao Luo, Kai Wang, Wei Jiang, Yang You, Jian Zhao(参考訳) unsupervised domain adaptive person re-idification (re-id)メソッドは疑似監督メッセージを生成してデータアノテーションの負担を軽減する。 しかし、データストリームを継続的に蓄積する現実世界のRe-IDシステムは、より堅牢な適応とアンチフォッゲッティング機能を要求する。 イメージリハーサルに基づくメソッドは、リハーサルの問題を限定的なストレージで解決するが、プライバシリークのリスクを負う。 本研究では,データフリーな非教師付きドメイン適応型Re-IDのためのカラープロンプティング(CoP)手法を提案する。 具体的には、現在のタスクの色分布をRe-IDトレーニングに合わせるために、軽量プロンプトネットワークを用いる。 そして、入ってくる新しいタスクに対して、学習された色分布は、過去のスタイルに画像を転送するカラースタイルの転送ガイダンスとして機能する。 CoPは過去のタスクに対して適切なデータ多様性で正確な色調回復を実現し、画像リハーサル法と比較して優れたアンチフォッゲッティング効果をもたらす。 さらにCoPは、少数の未ラベル画像のみを考慮し、新しい領域への高速適応のための強力な一般化性能を示す。 連続的なトレーニングパイプラインの後に提案されたCoPは、目に見える領域と見えない領域におけるリプレイ法よりも平均ランク-1の改善が6.7%と8.1%に達することを示した。 この作業のソースコードはhttps://github.com/vimar-gu/ColorPromptReIDで公開されている。

Unsupervised domain adaptive person re-identification (Re-ID) methods alleviate the burden of data annotation through generating pseudo supervision messages. However, real-world Re-ID systems, with continuously accumulating data streams, simultaneously demand more robust adaptation and anti-forgetting capabilities. Methods based on image rehearsal addresses the forgetting issue with limited extra storage but carry the risk of privacy leakage. In this work, we propose a Color Prompting (CoP) method for data-free continual unsupervised domain adaptive person Re-ID. Specifically, we employ a light-weighted prompter network to fit the color distribution of the current task together with Re-ID training. Then for the incoming new tasks, the learned color distribution serves as color style transfer guidance to transfer the images into past styles. CoP achieves accurate color style recovery for past tasks with adequate data diversity, leading to superior anti-forgetting effects compared with image rehearsal methods. Moreover, CoP demonstrates strong generalization performance for fast adaptation into new domains, given only a small amount of unlabeled images. Extensive experiments demonstrate that after the continual training pipeline the proposed CoP achieves 6.7% and 8.1% average rank-1 improvements over the replay method on seen and unseen domains, respectively. The source code for this work is publicly available in https://github.com/vimar-gu/ColorPromptReID.
翻訳日:2023-08-22 13:17:41 公開日:2023-08-21
# 制約学習のためのGBMに基づくブレグマン近似アルゴリズム

GBM-based Bregman Proximal Algorithms for Constrained Learning ( http://arxiv.org/abs/2308.10767v1 )

ライセンス: Link先を確認
Zhenwei Lin, Qi Deng(参考訳) 学習タスクの複雑さが高まるにつれて、現代の機械学習はより複雑でデータ駆動の関数制約を特徴とする新しい制約付き学習パラダイムに遭遇する。 代表的な応用としては、ナイマン・ピアソン分類(NPC)やフェアネス分類があり、標準的なプロジェクションベースのトレーニングアルゴリズムが適さない特定のリスク制約を必要とする。 グラデーションブースティングマシン(gbms)は教師あり学習のための最も一般的なアルゴリズムであるが、一般的には訓練されていない設定に限られている。 本稿では,Bregman近位アルゴリズムのフレームワーク内での制約付き学習タスクに対して,GBMを適用した。 本稿では,学習目標と制約関数が凸である場合に,大域的最適性を保証するBregman法を提案する。 非凸関数の場合、Bregman近位点の枠組みの下でアルゴリズムがどのように有効かを示す。 既存の制約付き学習アルゴリズムとは異なり、当社はxgboost (chen and guestrin, 2016) や lightgbm (ke et al., 2017) といった一般公開されたgbm実装とシームレスに統合する能力において、独自の利点を持っています。 bregmanアルゴリズムフレームワークの有効性を示す実験的な証拠を提供する。 私たちの主な焦点はnpcとfairness mlですが、フレームワークは幅広い制限付き学習アプリケーションに対して大きな可能性を秘めています。 ソースコードは現在、https://github.com/zhenweilin/ConstrainedGBM}{https://github.com/zhenweilin/ConstrainedGBMで無料で入手できる。

As the complexity of learning tasks surges, modern machine learning encounters a new constrained learning paradigm characterized by more intricate and data-driven function constraints. Prominent applications include Neyman-Pearson classification (NPC) and fairness classification, which entail specific risk constraints that render standard projection-based training algorithms unsuitable. Gradient boosting machines (GBMs) are among the most popular algorithms for supervised learning; however, they are generally limited to unconstrained settings. In this paper, we adapt the GBM for constrained learning tasks within the framework of Bregman proximal algorithms. We introduce a new Bregman primal-dual method with a global optimality guarantee when the learning objective and constraint functions are convex. In cases of nonconvex functions, we demonstrate how our algorithm remains effective under a Bregman proximal point framework. Distinct from existing constrained learning algorithms, ours possess a unique advantage in their ability to seamlessly integrate with publicly available GBM implementations such as XGBoost (Chen and Guestrin, 2016) and LightGBM (Ke et al., 2017), exclusively relying on their public interfaces. We provide substantial experimental evidence to showcase the effectiveness of the Bregman algorithm framework. While our primary focus is on NPC and fairness ML, our framework holds significant potential for a broader range of constrained learning applications. The source code is currently freely available at https://github.com/zhenweilin/ConstrainedGBM}{https://github.com/zhenweilin/ConstrainedGBM.
翻訳日:2023-08-22 13:10:57 公開日:2023-08-21
# 線形計画緩和と量子アニーリングのハイブリッドアルゴリズム

Hybrid Algorithm of Linear Programming Relaxation and Quantum Annealing ( http://arxiv.org/abs/2308.10765v1 )

ライセンス: Link先を確認
Taisei Takabayashi, Masayuki Ohzeki(参考訳) 量子アニール(QA)を用いた大規模組合せ最適化問題に対する古典量子ハイブリッドアルゴリズムの需要が高まっている。 1つのアプローチは、古典的アルゴリズムを用いて近似解を取得し、QAを用いてそれを精製することである。 これまでの研究では、分子動力学(md)を連続最適化法として用いた。 本稿では,リニアプログラミング(LP)緩和と呼ばれるシンプルな連続緩和手法を提案する。 提案手法は, 従来のMD法と比較して, 最小頂点被覆問題を用いた比較実験により優位性を示した。 さらに,LP緩和とシミュレートアニールのハイブリッドアプローチは,シミュレートアニール単独による解法と比較して,精度と速度の優位性を示した。

The demand for classical-quantum hybrid algorithms to solve large-scale combinatorial optimization problems using quantum annealing (QA) has increased. One approach involves obtaining an approximate solution using classical algorithms and refining it using QA. In previous studies, such variables were determined using molecular dynamics (MD) as a continuous optimization method. We propose a method that uses the simple continuous relaxation technique called linear programming (LP) relaxation. Our method demonstrated superiority through comparative experiments with the minimum vertex cover problem versus the previous MD-based approach. Furthermore, the hybrid approach of LP relaxation and simulated annealing showed advantages in accuracy and speed compared to solving with simulated annealing alone.
翻訳日:2023-08-22 13:10:29 公開日:2023-08-21
# CoNe:画像の分類を監督する隣人とは対照的に

CoNe: Contrast Your Neighbours for Supervised Image Classification ( http://arxiv.org/abs/2308.10761v1 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Lang Huang, Xiu Su, Fei Wang, Chen Qian, Xiaogang Wang, Chang Xu(参考訳) 画像分類は、コンピュータビジョンと機械学習研究における長年の問題である。 最近の作品(例えばsupcon、triplet、max-margin)は、クラス内のサンプルを積極的にコンパクトにグループ化することに集中しており、クラス内のすべてのサンプルをクラスセンターへ引き寄せるべきであると仮定している。 しかし、このような目標はデータセット内のクラス内分散を無視するため、達成が非常に困難である。 (つまり、同じクラスから異なるインスタンスには大きな違いがある)。 したがって、そのような単調な目的は十分ではない。 より情報的な目的のために、教師付き画像分類のためのシンプルで実用的な学習フレームワークであるContrast Your Neighbours (CoNe)を紹介する。 特にコーンでは、各サンプルはクラスセンターによって監督されるだけでなく、類似する隣の機能をアンカーとして直接利用することで、より適応的で洗練されたターゲットを生成する。 さらに,性能をさらに高めるために,類似のインスタンスが類似の確率分布を持つように,より有益な正規化として``分散的一貫性'を提案する。 大規模な実験結果によると、CoNeはさまざまなベンチマークデータセット、ネットワークアーキテクチャ、設定で最先端のパフォーマンスを実現している。 特に、複雑なトレーニングレシピがなくても、imagenetではresnet-50で80.8\%のtop-1精度を達成し、最新のtimmトレーニングレシピ(80.4\%)を上回っています。 コードと事前訓練されたモデルは、 \href{https://github.com/mingkai-zheng/CoNe}{https://github.com/mingkai-zheng/CoNe}で入手できる。

Image classification is a longstanding problem in computer vision and machine learning research. Most recent works (e.g. SupCon , Triplet, and max-margin) mainly focus on grouping the intra-class samples aggressively and compactly, with the assumption that all intra-class samples should be pulled tightly towards their class centers. However, such an objective will be very hard to achieve since it ignores the intra-class variance in the dataset. (i.e. different instances from the same class can have significant differences). Thus, such a monotonous objective is not sufficient. To provide a more informative objective, we introduce Contrast Your Neighbours (CoNe) - a simple yet practical learning framework for supervised image classification. Specifically, in CoNe, each sample is not only supervised by its class center but also directly employs the features of its similar neighbors as anchors to generate more adaptive and refined targets. Moreover, to further boost the performance, we propose ``distributional consistency" as a more informative regularization to enable similar instances to have a similar probability distribution. Extensive experimental results demonstrate that CoNe achieves state-of-the-art performance across different benchmark datasets, network architectures, and settings. Notably, even without a complicated training recipe, our CoNe achieves 80.8\% Top-1 accuracy on ImageNet with ResNet-50, which surpasses the recent Timm training recipe (80.4\%). Code and pre-trained models are available at \href{https://github.com/mingkai-zheng/CoNe}{https://github.com/mingkai-zheng/CoNe}.
翻訳日:2023-08-22 13:10:17 公開日:2023-08-21
# DepreSym: うつ症状アノテートコーパスと心理的マーカーのアセスメントとしてのLCMの役割

DepreSym: A Depression Symptom Annotated Corpus and the Role of LLMs as Assessors of Psychological Markers ( http://arxiv.org/abs/2308.10758v1 )

ライセンス: Link先を確認
Anxo P\'erez, Marcos Fern\'andez-Pichel, Javier Parapar, David E. Losada(参考訳) 抑うつ検出のための計算手法は、インターネットユーザーが投稿したオンライン出版物からうつ病の痕跡を発掘することを目的としている。 しかし、既存のコレクションで訓練された解は限定的な一般化と解釈性を示す。 これらの問題に取り組むために、近年の研究はうつ病の症状を特定することがより堅牢なモデルにつながることを示した。 eriskイニシアティブはこの分野の研究を促進させ、最近、うつ病症状に関連する文を見つけるための探索手法の開発に焦点を当てた新しいランキングタスクを提案した。 このサーチチャレンジは、臨床実践で広く用いられているBeck Depression Inventory-II (BDI-II) の症状に依存する。 参加者システムの結果に基づいて,21のBDI-II症状との関連性に応じて注釈付き21580文からなるDepreSymデータセットを提案する。 ラベル付き文は様々なランク付け手法のプールから得られ、最終データセットは臨床症状などの抑うつマーカーを組み込んだモデルを開発するための貴重な資源となる。 この関連アノテーションの複雑な性質から,3人の専門家(専門心理学者を含む)による堅牢な評価手法を考案した。 さらに,近年の大規模言語モデル(ChatGPT, GPT4)を,この複雑なタスクにおける潜在的アセスメントとして活用する可能性についても検討する。 我々は,それらの性能を総合的に検証し,その主な限界を判定し,人間のアノテーションの補完的・代替的役割を解析する。

Computational methods for depression detection aim to mine traces of depression from online publications posted by Internet users. However, solutions trained on existing collections exhibit limited generalisation and interpretability. To tackle these issues, recent studies have shown that identifying depressive symptoms can lead to more robust models. The eRisk initiative fosters research on this area and has recently proposed a new ranking task focused on developing search methods to find sentences related to depressive symptoms. This search challenge relies on the symptoms specified by the Beck Depression Inventory-II (BDI-II), a questionnaire widely used in clinical practice. Based on the participant systems' results, we present the DepreSym dataset, consisting of 21580 sentences annotated according to their relevance to the 21 BDI-II symptoms. The labelled sentences come from a pool of diverse ranking methods, and the final dataset serves as a valuable resource for advancing the development of models that incorporate depressive markers such as clinical symptoms. Due to the complex nature of this relevance annotation, we designed a robust assessment methodology carried out by three expert assessors (including an expert psychologist). Additionally, we explore here the feasibility of employing recent Large Language Models (ChatGPT and GPT4) as potential assessors in this complex task. We undertake a comprehensive examination of their performance, determine their main limitations and analyze their role as a complement or replacement for human annotators.
翻訳日:2023-08-22 13:09:49 公開日:2023-08-21
# 誰に話してるの? 住所推定スキルを用いた社会ロボットの深層学習モデル

To Whom are You Talking? A Deep Learning Model to Endow Social Robots with Addressee Estimation Skills ( http://arxiv.org/abs/2308.10757v1 )

ライセンス: Link先を確認
Carlo Mazzola, Marta Romeo, Francesco Rea, Alessandra Sciutti, Angelo Cangelosi(参考訳) コミュニケーションは社会的な言葉を形作る。 ロボットが社会的に考慮され、社会的環境に統合されるためには、人間と人間のコミュニケーションを支配するダイナミクスを理解することが不可欠である。 本研究では, 話者からの非言語的身体的手がかりを解釈し, 活用することにより, 発話者の相手を理解する能力であるアドレス推定の問題に取り組む。 本研究では,話者の顔と身体姿勢の2次元ベクトルを表現した入力画像として,畳み込み層とLSTMセルからなるハイブリッドディープラーニングモデルを実装する。 我々の実施選択は、社会ロボットに展開し、生態学的シナリオにおいて効率的なモデルを開発することを目的として導かれた。 本モデルは,ロボットの自我中心の観点から,空間における宛先局所化の観点から,宛先推定問題を解決できることを実証する。

Communicating shapes our social word. For a robot to be considered social and being consequently integrated in our social environment it is fundamental to understand some of the dynamics that rule human-human communication. In this work, we tackle the problem of Addressee Estimation, the ability to understand an utterance's addressee, by interpreting and exploiting non-verbal bodily cues from the speaker. We do so by implementing an hybrid deep learning model composed of convolutional layers and LSTM cells taking as input images portraying the face of the speaker and 2D vectors of the speaker's body posture. Our implementation choices were guided by the aim to develop a model that could be deployed on social robots and be efficient in ecological scenarios. We demonstrate that our model is able to solve the Addressee Estimation problem in terms of addressee localisation in space, from a robot ego-centric point of view.
翻訳日:2023-08-22 13:09:20 公開日:2023-08-21
# wanjuan: 英語と中国語の大規模モデルの総合的マルチモーダルデータセット

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models ( http://arxiv.org/abs/2308.10755v1 )

ライセンス: Link先を確認
Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, JiaQi Wang, Dahua Lin(参考訳) ChatGPTとGPT-4の人気が高まり、大きなモデルの開発が大幅に加速し、多数の大きな言語モデル(LLM)とマルチモーダルな言語モデル(MLLM)が作成された。 これらの最先端モデルは、高品質なデータに優れた性能を与えている。 しかしながら、主要なパラダイムで使用されるトレーニングデータの詳細は、しばしば秘密にされる。 この透明性の欠如と、オープンソースデータの不足は、コミュニティ内のさらなる発展を妨げている。 そこで本研究では、中国語と英語のデータからなる大規模マルチモーダルデータセットであるWan Juanについて、幅広いWebソースから収集した。 データセットにはテキスト、画像テキスト、ビデオモダリティが含まれており、総ボリュームは2TBを超える。 同様のスケールのモデルと比較して,多次元評価において有意なアドバンテージを示したモデルであるinternlmのトレーニングに活用した。 すべてのデータはhttps://opendatalab.org.cn/WanJuan1.0でアクセスできる。

The rise in popularity of ChatGPT and GPT-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive large language models(LLMs) and multimodal large language models (MLLMs). These cutting-edge models owe their remarkable performance to high-quality data. However, the details of the training data used in leading paradigms are often kept confidential. This lack of transparency, coupled with the scarcity of open-source data, impedes further developments within the community. As a response, this paper presents "Wan Juan", a large-scale multimodal dataset composed of both Chinese and English data, collected from a wide range of web sources. The dataset incorporates text, image-text, and video modalities, with a total volume exceeding 2TB. It was utilized in the training of InternLM, a model that demonstrated significant advantages in multi-dimensional evaluations when compared to models of a similar scale. All data can be accessed at https://opendatalab.org.cn/WanJuan1.0.
翻訳日:2023-08-22 13:09:06 公開日:2023-08-21
# 類似目標による敵攻撃の増強

Boosting Adversarial Attack with Similar Target ( http://arxiv.org/abs/2308.10743v1 )

ライセンス: Link先を確認
Shuo Zhang, Ziruo Wang, Zikai Zhou, Huanran Chen(参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、モデルのアプリケーションに脅威を与え、セキュリティ上の懸念を提起する。 逆例の興味深い性質は、その強い伝達性である。 それらの効果を示すアンサンブル攻撃を含む、転送可能性を高めるいくつかの方法が提案されている。 しかし、事前のアプローチは単にモデルアンサンブルのロジット、確率、損失の平均であり、なぜモデルアンサンブルが転送可能性を大幅に改善するかの包括的な分析を欠いている。 本稿では,類似ターゲット~(st)と呼ばれる類似ターゲット攻撃手法を提案する。 各モデルの勾配のコサイン類似性を推し進めることにより、最適化方向を規則化し、全ての代理モデルに同時に攻撃する。 この戦略は一般化能力を高めることが証明されている。 ImageNetの実験結果から, 対向転写性向上のためのアプローチの有効性が検証された。 本手法は,18の識別的分類器と対角訓練モデルにおいて,最先端の攻撃者より優れる。

Deep neural networks are vulnerable to adversarial examples, posing a threat to the models' applications and raising security concerns. An intriguing property of adversarial examples is their strong transferability. Several methods have been proposed to enhance transferability, including ensemble attacks which have demonstrated their efficacy. However, prior approaches simply average logits, probabilities, or losses for model ensembling, lacking a comprehensive analysis of how and why model ensembling significantly improves transferability. In this paper, we propose a similar targeted attack method named Similar Target~(ST). By promoting cosine similarity between the gradients of each model, our method regularizes the optimization direction to simultaneously attack all surrogate models. This strategy has been proven to enhance generalization ability. Experimental results on ImageNet validate the effectiveness of our approach in improving adversarial transferability. Our method outperforms state-of-the-art attackers on 18 discriminative classifiers and adversarially trained models.
翻訳日:2023-08-22 13:08:49 公開日:2023-08-21
# マルチモーダル基礎モデルの逆ロバスト性について

On the Adversarial Robustness of Multi-Modal Foundation Models ( http://arxiv.org/abs/2308.10741v1 )

ライセンス: Link先を確認
Christian Schlarmann and Matthias Hein(参考訳) FlamingoやGPT-4のようなビジョンと言語モデルを組み合わせたマルチモーダル基礎モデルは、最近大きな関心を集めている。 基礎モデルのアライメントは、モデルが有害または有害な出力を提供するのを防ぐために使用される。 悪意のあるユーザーがファンデーションモデルをジェイルブレイクしようとしたが、同様に重要な疑問は、悪意のあるサードパーティのコンテンツによって、正直なユーザーが被害を受けるかどうかだ。 本稿では,マルチモーダルファウンデーションモデルのキャプション出力を変更するためのイメージに対する不可避な攻撃を,悪意のあるコンテンツ提供者が悪意のあるwebサイトへ誘導したり,偽情報をブロードキャストしたりすることで,正直なユーザを害することができることを示す。 これは、攻撃に対する対策は、デプロイされた任意のマルチモーダル基盤モデルで使用されるべきであることを示している。

Multi-modal foundation models combining vision and language models such as Flamingo or GPT-4 have recently gained enormous interest. Alignment of foundation models is used to prevent models from providing toxic or harmful output. While malicious users have successfully tried to jailbreak foundation models, an equally important question is if honest users could be harmed by malicious third-party content. In this paper we show that imperceivable attacks on images in order to change the caption output of a multi-modal foundation model can be used by malicious content providers to harm honest users e.g. by guiding them to malicious websites or broadcast fake information. This indicates that countermeasures to adversarial attacks should be used by any deployed multi-modal foundation model.
翻訳日:2023-08-22 13:08:35 公開日:2023-08-21
# 我々はAdamを必要とせず、EVEが必要なのは、デュアルラーニング率とそれ以上のばらつきについて

We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual Learning Rate And Beyond ( http://arxiv.org/abs/2308.10740v1 )

ライセンス: Link先を確認
Afshin Khadangi(参考訳) ディープラーニングの急速に進歩する分野では、ディープニューラルネットワークの最適化が最重要である。 本稿では、勾配の異なる成分に異なる学習率を革新的に適用する新しい手法である強化速度推定(EVE)を提案する。 学習率を2倍にすることで、EVEはよりニュアンスな制御とより高速な収束を可能にし、従来の単一学習率アプローチに関連する課題に対処する。 学習環境に適応する運動量項を用いることで、複雑な損失面のより効率的なナビゲーションを実現し、性能と安定性を向上させる。 大規模な実験により、EVEはさまざまなベンチマークデータセットやアーキテクチャで既存の最適化テクニックを大幅に上回っている。

In the rapidly advancing field of deep learning, optimising deep neural networks is paramount. This paper introduces a novel method, Enhanced Velocity Estimation (EVE), which innovatively applies different learning rates to distinct components of the gradients. By bifurcating the learning rate, EVE enables more nuanced control and faster convergence, addressing the challenges associated with traditional single learning rate approaches. Utilising a momentum term that adapts to the learning landscape, the method achieves a more efficient navigation of the complex loss surface, resulting in enhanced performance and stability. Extensive experiments demonstrate that EVE significantly outperforms existing optimisation techniques across various benchmark datasets and architectures.
翻訳日:2023-08-22 13:08:21 公開日:2023-08-21
# UGSL: グラフ構造学習のベンチマークのための統一フレームワーク

UGSL: A Unified Framework for Benchmarking Graph Structure Learning ( http://arxiv.org/abs/2308.10737v1 )

ライセンス: Link先を確認
Bahare Fatemi, Sami Abu-El-Haija, Anton Tsitsulin, Mehran Kazemi, Dustin Zelle, Neslihan Bulut, Jonathan Halcrow, Bryan Perozzi(参考訳) グラフニューラルネットワーク(GNN)は、幅広いアプリケーションにおいて優れた性能を示す。 GNNアプリケーションの大半はグラフ構造が与えられると仮定しているが、最近の手法ではグラフ構造が明示的に提供されていない場合でも有効であることを示すことによって、GNNの適用性を大幅に拡大している。 GNNパラメータとグラフ構造を共同で学習する。 従来の研究では異なる実験装置を採用しており、それらの利点を比較するのは難しい。 本稿では,統一フレームワークを用いたグラフ構造学習のためのベンチマーク手法を提案する。 我々のフレームワークはUnified Graph Structure Learning (UGSL)と呼ばれ、既存のモデルを単一のモデルに再構成する。 我々はフレームワークに様々な既存モデルを実装し、フレームワーク内の様々なコンポーネントの有効性を広範囲に分析する。 我々の結果は、この分野における様々な方法の明確かつ簡潔な理解と、その強みと弱点を提供する。 ベンチマークコードはhttps://github.com/google-research/google-research/tree/master/ugslで入手できる。

Graph neural networks (GNNs) demonstrate outstanding performance in a broad range of applications. While the majority of GNN applications assume that a graph structure is given, some recent methods substantially expanded the applicability of GNNs by showing that they may be effective even when no graph structure is explicitly provided. The GNN parameters and a graph structure are jointly learned. Previous studies adopt different experimentation setups, making it difficult to compare their merits. In this paper, we propose a benchmarking strategy for graph structure learning using a unified framework. Our framework, called Unified Graph Structure Learning (UGSL), reformulates existing models into a single model. We implement a wide range of existing models in our framework and conduct extensive analyses of the effectiveness of different components in the framework. Our results provide a clear and concise understanding of the different methods in this area as well as their strengths and weaknesses. The benchmark code is available at https://github.com/google-research/google-research/tree/master/ugsl.
翻訳日:2023-08-22 13:08:07 公開日:2023-08-21
# 視神経光コヒーレンス断層像からのテキスト抽出

Extraction of Text from Optic Nerve Optical Coherence Tomography Reports ( http://arxiv.org/abs/2308.10790v1 )

ライセンス: Link先を確認
Iyad Majid, Youchen Victor Zhang, Robert Chang, Sophia Y. Wang(参考訳) 目的: 本研究の目的は, 網膜神経線維層(RNFL)値および他のガングリオン細胞数(GCC)データを含むテキストデータのZeis Cirrus光コヒーレンストモグラフィー(OCT)スキャンレポートから抽出するルールベースのアルゴリズムを開発し, 評価することであった。 方法: RNFL または Ganglion Cell の文書に PDF レポートを封入した DICOM ファイルを1つの学術的眼科センターの 臨床画像リポジトリから同定した。 PDFレポートは画像ファイルに変換され、光学文字認識のためにPaddleOCR Pythonパッケージを使用して処理された。 ルールベースのアルゴリズムはRCFとGCCのデータ抽出の性能向上のために反復的に設計・最適化された。 アルゴリズムの評価は,RCFおよびGCCレポートのマニュアルレビューを通じて行った。 結果: RNFLおよびGCCスキャンからデータを抽出する際の高精度なアルゴリズムが得られた。 RNFL抽出の右目(OD: 0.9803 vs. OS: 0.9046)とGCC抽出の左目(OD: 0.9567 vs. OS: 0.9677)ではわずかに精度が良好であった。 いくつかの値は抽出において、特にRCF厚のクロック時間5と6、GCCの信号強度がより困難であった。 結論: カスタマイズされた光文字認識アルゴリズムは、光学コヒーレンススキャンレポートから数値結果を高精度に識別することができる。 PDF レポートの自動処理は OCT 結果を大規模に抽出する時間を大幅に短縮することができる。

Purpose: The purpose of this study was to develop and evaluate rule-based algorithms to enhance the extraction of text data, including retinal nerve fiber layer (RNFL) values and other ganglion cell count (GCC) data, from Zeiss Cirrus optical coherence tomography (OCT) scan reports. Methods: DICOM files that contained encapsulated PDF reports with RNFL or Ganglion Cell in their document titles were identified from a clinical imaging repository at a single academic ophthalmic center. PDF reports were then converted into image files and processed using the PaddleOCR Python package for optical character recognition. Rule-based algorithms were designed and iteratively optimized for improved performance in extracting RNFL and GCC data. Evaluation of the algorithms was conducted through manual review of a set of RNFL and GCC reports. Results: The developed algorithms demonstrated high precision in extracting data from both RNFL and GCC scans. Precision was slightly better for the right eye in RNFL extraction (OD: 0.9803 vs. OS: 0.9046), and for the left eye in GCC extraction (OD: 0.9567 vs. OS: 0.9677). Some values presented more challenges in extraction, particularly clock hours 5 and 6 for RNFL thickness, and signal strength for GCC. Conclusions: A customized optical character recognition algorithm can identify numeric results from optical coherence scan reports with high precision. Automated processing of PDF reports can greatly reduce the time to extract OCT results on a large scale.
翻訳日:2023-08-22 13:01:40 公開日:2023-08-21
# 量子サブルーチンのためのデバイスレベル命令のワンタイムコンパイル

One-Time Compilation of Device-Level Instructions for Quantum Subroutines ( http://arxiv.org/abs/2308.10787v1 )

ライセンス: Link先を確認
Aniket S. Dalvi, Jacob Whitlow, Marissa D'Onofrio, Leon Riesebos, Tianyi Chen, Samuel Phiri, Kenneth R. Brown and Jonathan M. Baker(参考訳) 現在の量子デバイス時代における大きな問題は、量子システムと古典システムの間の相互作用である。 これには校正手順、特徴づけルーチン、変分アルゴリズムが含まれる。 これらのルーチンの制御は、古典コンピュータと量子コンピュータを反復的に切り替える。 これにより、量子システム上で実行されるプログラムの繰り返しコンパイルが行われ、回路数やイテレーション数と直接的にスケーリングされる。 繰り返しのコンパイルによって、ルーチン全体の大きなオーバーヘッドが発生します。 実際には、プログラムの全実行(古典的なコンパイルと量子実行)は、回路数に比例する追加のコストを持つ。 実用的なスケールでは、量子実行時間の比率に応じて、ラウンドトリップcpu-qpu時間(5%から80%)を支配できる。 繰り返しデバイスレベルのコンパイルを避けるため、実行中に動的に調整できるパルス/ゲートパラメータに対応する機械コードをパラメータ化できる。 そこで我々は,QPU制御ソフトウェアからCPUへの安価なリモートプロシージャコール(RPC)を用いることで,コンパイルオーバーヘッドをほぼ一定に抑えるデバイスレベル部分コンパイル(DLPC)技術を開発した。 次に、最適なパルスキャリブレーション、ランダム化ベンチマーク(RB)を用いたシステム特性評価、変分アルゴリズムによる性能向上を示す。 我々は、この修正パイプラインを実際の捕捉イオン量子コンピュータ上で実行し、小さなVQE問題に対して2.7倍の速度でコンパイル時間を大幅に短縮する。

A large class of problems in the current era of quantum devices involve interfacing between the quantum and classical system. These include calibration procedures, characterization routines, and variational algorithms. The control in these routines iteratively switches between the classical and the quantum computer. This results in the repeated compilation of the program that runs on the quantum system, scaling directly with the number of circuits and iterations. The repeated compilation results in a significant overhead throughout the routine. In practice, the total runtime of the program (classical compilation plus quantum execution) has an additional cost proportional to the circuit count. At practical scales, this can dominate the round-trip CPU-QPU time, between 5% and 80%, depending on the proportion of quantum execution time. To avoid repeated device-level compilation, we identify that machine code can be parametrized corresponding to pulse/gate parameters which can be dynamically adjusted during execution. Therefore, we develop a device-level partial-compilation (DLPC) technique that reduces compilation overhead to nearly constant, by using cheap remote procedure calls (RPC) from the QPU control software to the CPU. We then demonstrate the performance speedup of this on optimal pulse calibration, system characterization using randomized benchmarking (RB), and variational algorithms. We execute this modified pipeline on real trapped-ion quantum computers and observe significant reductions in compilation time, as much as 2.7x speedup for small-scale VQE problems.
翻訳日:2023-08-22 13:01:14 公開日:2023-08-21
# Swin UNETR を用いた脳腫瘍手術におけるMRI-Ultrasound Registration の高密度誤差マップ推定

Dense Error Map Estimation for MRI-Ultrasound Registration in Brain Tumor Surgery Using Swin UNETR ( http://arxiv.org/abs/2308.10784v1 )

ライセンス: Link先を確認
Soorena Salari, Amirhossein Rasoulian, Hassan Rivaz, Yiming Xiao(参考訳) 脳腫瘍の早期外科治療は、患者の死亡率の低下に不可欠である。 しかし、手術中に脳組織の変化(脳シフト)が起こり、手術前の画像が無効になる。 低コストでポータブルなツールとして、術中超音波(iUS)は脳のシフトを追跡でき、MRI-iUSの正確な登録技術は手術前の計画を更新し、iUSの解釈を容易にする。 これにより、腫瘍の除去を最大化しつつ、雄弁領域を回避し、外科的安全性と結果を高めることができる。 しかし,MRI-iUSのリアルタイム登録結果の手作業による評価は困難であり,データの3次元特性に起因している。 モード間医療画像登録結果の品質を定量化できる自動アルゴリズムは非常に有用である。 そこで我々はSwin UNETRを用いた新しいディープラーニング(DL)ベースのフレームワークを提案し,iUS誘導脳腫瘍切除におけるMRI-iUS登録のための3次元パッチワイドエラーマップを自動評価し,実際の臨床データでその性能を示す。

Early surgical treatment of brain tumors is crucial in reducing patient mortality rates. However, brain tissue deformation (called brain shift) occurs during the surgery, rendering pre-operative images invalid. As a cost-effective and portable tool, intra-operative ultrasound (iUS) can track brain shift, and accurate MRI-iUS registration techniques can update pre-surgical plans and facilitate the interpretation of iUS. This can boost surgical safety and outcomes by maximizing tumor removal while avoiding eloquent regions. However, manual assessment of MRI-iUS registration results in real-time is difficult and prone to errors due to the 3D nature of the data. Automatic algorithms that can quantify the quality of inter-modal medical image registration outcomes can be highly beneficial. Therefore, we propose a novel deep-learning (DL) based framework with the Swin UNETR to automatically assess 3D-patch-wise dense error maps for MRI-iUS registration in iUS-guided brain tumor resection and show its performance with real clinical data for the first time.
翻訳日:2023-08-22 13:00:53 公開日:2023-08-21
# LLMを用いたゼロショットとFewショットのプロンプト:バングラ感度解析のための微調整モデルとの比較

Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis ( http://arxiv.org/abs/2308.10783v1 )

ライセンス: Link先を確認
Md. Arid Hasan, Shudipta Das, Afiyat Anjum, Firoj Alam, Anika Anjum, Avijit Sarker, Sheak Rashed Haider Noori(参考訳) デジタル世界の急速な拡大は、感情分析をマーケティング、政治、カスタマーサービス、ヘルスケアなど、さまざまな分野における重要なツールへと押し上げている。 広く話されている言語では感情分析が大幅に進歩してきたが、バングラのような低資源言語は資源の制約のためにほとんど調査されていない。 さらに、最近の様々なアプリケーションにおけるLLM(Large Language Models)の性能は、低リソース言語の文脈でそれらを評価する必要性を強調している。 本研究では,33,605件のBanglaニュースツイートとFacebookコメントを含む手動注釈付きデータセットを提案する。 また,Flan-T5,GPT-4,Bloomzなど,複数の言語モデルを用いたゼロショットと少数ショットのインコンテキスト学習についても検討し,微調整モデルとの比較分析を行った。 以上の結果から,モノリンガルトランスフォーマーに基づくモデルは,ゼロおよび少数ショットシナリオにおいても,他のモデルよりも一貫して優れていることが示唆された。 引き続きの調査を進めるため、このデータセットと研究ツールをより広い研究コミュニティに公開するつもりです。 さらなる研究の精神として、このデータセットと実験資源を広く研究コミュニティに公開することを計画している。

The rapid expansion of the digital world has propelled sentiment analysis into a critical tool across diverse sectors such as marketing, politics, customer service, and healthcare. While there have been significant advancements in sentiment analysis for widely spoken languages, low-resource languages, such as Bangla, remain largely under-researched due to resource constraints. Furthermore, the recent unprecedented performance of Large Language Models (LLMs) in various applications highlights the need to evaluate them in the context of low-resource languages. In this study, we present a sizeable manually annotated dataset encompassing 33,605 Bangla news tweets and Facebook comments. We also investigate zero- and few-shot in-context learning with several language models, including Flan-T5, GPT-4, and Bloomz, offering a comparative analysis against fine-tuned models. Our findings suggest that monolingual transformer-based models consistently outperform other models, even in zero and few-shot scenarios. To foster continued exploration, we intend to make this dataset and our research tools publicly available to the broader research community. In the spirit of further research, we plan to make this dataset and our experimental resources publicly accessible to the wider research community.
翻訳日:2023-08-22 13:00:31 公開日:2023-08-21
# スパース線形概念発見モデル

Sparse Linear Concept Discovery Models ( http://arxiv.org/abs/2308.10782v1 )

ライセンス: Link先を確認
Konstantinos P. Panousis, Dino Ienco, Diego Marcos(参考訳) 近年のDNNの大量導入は、安全クリティカルなシナリオにおいても、研究コミュニティの焦点を本質的に理解不能なモデルの作成へとシフトしている。 概念ボトルネックモデル(cbms)は、隠れた層が人間の理解可能な概念に結び付けられ、ネットワークの決定の検証と修正を可能にする一般的なアプローチである。 しかし、CBMは通常: (i)性能の低下及び (二)各決定に寄与する概念の多さによる意図よりも解釈可能性の低いこと。 本稿では,コントラスト言語画像モデルと1つのスパース線形層に基づく,単純かつ直感的な解釈可能なフレームワークを提案する。 関連するアプローチとは対照的に、我々のフレームワークのスパーシティは、データ駆動のベルヌーイ分布を介して概念の存在を推測することによって、原理ベイズ引数によって達成されます。 私たちが実験的に示すように、このフレームワークは、最近のcbmアプローチを精度面で上回るだけでなく、サンプル概念のスパーシティを高くし、新興概念の個別的な調査を促進する。

The recent mass adoption of DNNs, even in safety-critical scenarios, has shifted the focus of the research community towards the creation of inherently intrepretable models. Concept Bottleneck Models (CBMs) constitute a popular approach where hidden layers are tied to human understandable concepts allowing for investigation and correction of the network's decisions. However, CBMs usually suffer from: (i) performance degradation and (ii) lower interpretability than intended due to the sheer amount of concepts contributing to each decision. In this work, we propose a simple yet highly intuitive interpretable framework based on Contrastive Language Image models and a single sparse linear layer. In stark contrast to related approaches, the sparsity in our framework is achieved via principled Bayesian arguments by inferring concept presence via a data-driven Bernoulli distribution. As we experimentally show, our framework not only outperforms recent CBM approaches accuracy-wise, but it also yields high per example concept sparsity, facilitating the individual investigation of the emerging concepts.
翻訳日:2023-08-22 13:00:10 公開日:2023-08-21
# emrの自動データ補正のための混合整数投影法 : 入院患者の敗血症予測を改善する

Mixed-Integer Projections for Automated Data Correction of EMRs Improve Predictions of Sepsis among Hospitalized Patients ( http://arxiv.org/abs/2308.10781v1 )

ライセンス: Link先を確認
Mehak Arora, Hassan Mortagy, Nathan Dwarshius, Swati Gupta, Andre L. Holder, Rishikesan Kamaleswaran(参考訳) 機械学習(ML)モデルは、臨床判断の自動化においてますます重要になっている。 しかし、以前の研究における明らかな監視は、エラーや異常値の臨床的文脈において、電子カルテ(emr)データの適切な処理が欠如していることである。 そこで本研究では,臨床専門知識をドメイン制約としてシームレスに統合し,mlワークフローで使用可能な重要なメタデータを生成する,革新的なプロジェクションベース手法を提案する。 特に、患者バイタルと検査値の生理的および生物学的制約を捉えた高次元混合インテガープログラムを用いることで、emrデータに対する数学的「投影」のパワーを利用して患者データを修正することができる。 その結果、患者データの健全な範囲を定義する制約から補正されたデータの距離を計測し、「信頼スコア」と呼ばれるユニークな予測指標を得る。 これらのスコアは、患者の健康状態に関する洞察を与え、実生活臨床環境でのML分類器の性能を大幅に向上させる。 MLを用いた敗血症早期発見の文脈におけるフレームワークの影響を検証した。 本研究では,従来のmlモデルを超える0.865 aurocと0.922の精度を示す。

Machine learning (ML) models are increasingly pivotal in automating clinical decisions. Yet, a glaring oversight in prior research has been the lack of proper processing of Electronic Medical Record (EMR) data in the clinical context for errors and outliers. Addressing this oversight, we introduce an innovative projections-based method that seamlessly integrates clinical expertise as domain constraints, generating important meta-data that can be used in ML workflows. In particular, by using high-dimensional mixed-integer programs that capture physiological and biological constraints on patient vitals and lab values, we can harness the power of mathematical "projections" for the EMR data to correct patient data. Consequently, we measure the distance of corrected data from the constraints defining a healthy range of patient data, resulting in a unique predictive metric we term as "trust-scores". These scores provide insight into the patient's health status and significantly boost the performance of ML classifiers in real-life clinical settings. We validate the impact of our framework in the context of early detection of sepsis using ML. We show an AUROC of 0.865 and a precision of 0.922, that surpasses conventional ML models without such projections.
翻訳日:2023-08-22 12:59:51 公開日:2023-08-21
# 一般化ランダム位相近似における孤立帯域限域の超流動重み

Superfluid weight in the isolated band limit within the generalized random phase approximation ( http://arxiv.org/abs/2308.10780v1 )

ライセンス: Link先を確認
Minh Tam, Sebastiano Peotta(参考訳) ハバード相互作用を持つ一般格子モデルの超流動重みは、一般化ランダム位相近似における孤立帯域極限において解析的に計算される。 時間反転対称性、スピン回転対称性および一様対条件を仮定する。 https://link.aps.org/doi/10.1103/physrevb.106.014518] で得られた平帯極限の超流動量といわゆる極小量子メトリックとの関係は、一般化されたランダム位相近似のレベルでも有効であることがわかった。 For an isolated, but not necessarily flat, band it is found that the correction to the superfluid weight obtained from the generalized random phase approximation $D_{\rm s}^{(1)} = D_{\rm s,c}^{(1)}+D_{\rm s,g}^{(1)}$ is also the sum of a conventional contribution $D_{\rm s,c}^{(1)}$ and a geometric contribution $D_{\rm s,g}^{(1)}$, as in the case of the known mean-field result $D_{\rm s}^{(0)}=D_{\rm s,c}^{(0)}+D_{\rm s,g}^{(0)}$, in which the geometric term $D_{\rm s,g}^{(0)}$ is a weighted average of the quantum metric. 従来の貢献は軌道位置とは独立な幾何学的貢献であり、しかし、軌道位置の望ましい、あるいは自然な集合を見つけることは可能であり、例えば $d_{\rm s,g}^{(1)}=0$ である。 有用な解析式は、必ずしも平坦ではないバンドへの拡張を含む、自然軌道位置と最小量子計量の両方に対して導出される。 最後に、いくつかの簡単な例を用いて、自然な軌道位置はバンド構造の位相的性質をより洗練された分類に導くことができると論じられている。

The superfluid weight of a generic lattice model with attractive Hubbard interaction is computed analytically in the isolated band limit within the generalized random phase approximation. Time-reversal symmetry, spin rotational symmetry, and the uniform pairing condition are assumed. It is found that the relation obtained in [https://link.aps.org/doi/10.1103/PhysRevB.106.014518] between the superfluid weight in the flat band limit and the so-called minimal quantum metric is valid even at the level of the generalized random phase approximation. For an isolated, but not necessarily flat, band it is found that the correction to the superfluid weight obtained from the generalized random phase approximation $D_{\rm s}^{(1)} = D_{\rm s,c}^{(1)}+D_{\rm s,g}^{(1)}$ is also the sum of a conventional contribution $D_{\rm s,c}^{(1)}$ and a geometric contribution $D_{\rm s,g}^{(1)}$, as in the case of the known mean-field result $D_{\rm s}^{(0)}=D_{\rm s,c}^{(0)}+D_{\rm s,g}^{(0)}$, in which the geometric term $D_{\rm s,g}^{(0)}$ is a weighted average of the quantum metric. The conventional contribution is geometry independent, that is independent of the orbital positions, while it is possible to find a preferred, or natural, set of orbital positions such that $D_{\rm s,g}^{(1)}=0$. Useful analytic expressions are derived for both the natural orbital positions and the minimal quantum metric, including its extension to bands that are not necessarily flat. Finally, using some simple examples, it is argued that the natural orbital positions may lead to a more refined classification of the topological properties of the band structure.
翻訳日:2023-08-22 12:59:16 公開日:2023-08-21
# Spear and Shield:連続時間動的グラフ上でのモデルベースリンク予測のための逆攻撃と防御手法

Spear and Shield: Adversarial Attacks and Defense Methods for Model-Based Link Prediction on Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2308.10779v1 )

ライセンス: Link先を確認
Dongjin Lee, Juho Lee, Kijung Shin(参考訳) 現実世界のグラフは動的であり、金融ネットワークにおける金融取引のような新しい相互作用によって常に進化している。 動的グラフの進化パターンを効果的に捉えるために時間グラフニューラルネットワーク(TGNN)が開発された。 これらのモデルは、様々な重要な分野で広く採用されているが、敵の攻撃に対する脆弱性はほとんど未解明のままである。 本稿では,TGNNの脆弱性の解明に焦点をあて,連続時間動的グラフ上でのリンク予測をシンプルかつ効果的に行うT-SPEARを提案する。 具体的には,リンク予測のためのtgnnである被害者モデルのトレーニング手順の前に,提案する4つの制約に関して注目されないデータに対してエッジ摂動を注入する。 さらに,敵攻撃の影響を軽減するために,T-SHIELDによる堅牢なトレーニング手法を提案する。 エッジフィルタリングを用い,ノード埋め込みに時間的平滑性を持たせることで,被害者モデルのロバスト性を高める。 実験により,T-SPEARはリンク予測タスクにおいて被害者モデルの性能を著しく低下させ,さらに攻撃者が想定する被害者モデルと異なる他のTGNNに攻撃が転送可能であることが示された。 さらに、T-SHIELDは敵のエッジを効果的にフィルタリングし、敵の攻撃に対して堅牢性を示し、T-SPEARの下では、単純TGNNのリンク予測性能を最大11.2%超えることを示した。

Real-world graphs are dynamic, constantly evolving with new interactions, such as financial transactions in financial networks. Temporal Graph Neural Networks (TGNNs) have been developed to effectively capture the evolving patterns in dynamic graphs. While these models have demonstrated their superiority, being widely adopted in various important fields, their vulnerabilities against adversarial attacks remain largely unexplored. In this paper, we propose T-SPEAR, a simple and effective adversarial attack method for link prediction on continuous-time dynamic graphs, focusing on investigating the vulnerabilities of TGNNs. Specifically, before the training procedure of a victim model, which is a TGNN for link prediction, we inject edge perturbations to the data that are unnoticeable in terms of the four constraints we propose, and yet effective enough to cause malfunction of the victim model. Moreover, we propose a robust training approach T-SHIELD to mitigate the impact of adversarial attacks. By using edge filtering and enforcing temporal smoothness to node embeddings, we enhance the robustness of the victim model. Our experimental study shows that T-SPEAR significantly degrades the victim model's performance on link prediction tasks, and even more, our attacks are transferable to other TGNNs, which differ from the victim model assumed by the attacker. Moreover, we demonstrate that T-SHIELD effectively filters out adversarial edges and exhibits robustness against adversarial attacks, surpassing the link prediction performance of the naive TGNN by up to 11.2% under T-SPEAR.
翻訳日:2023-08-22 12:58:22 公開日:2023-08-21
# ビジネスメールの競合検出のためのモジュールおよび適応システム

A Modular and Adaptive System for Business Email Compromise Detection ( http://arxiv.org/abs/2308.10776v1 )

ライセンス: Link先を確認
Jan Brabec, Filip \v{S}rajer, Radek Starosta, Tom\'a\v{s} Sixta, Marc Dupont, Milo\v{s} Lenoch, Ji\v{r}\'i Men\v{s}\'ik, Florian Becker, Jakub Boros, Tom\'a\v{s} Pop, Pavel Nov\'ak(参考訳) BEC(Business Email Compromise)の高度化とピアフィッシング攻撃は、世界中の組織にとって大きな課題となっている。 従来のスパムやフィッシング検出で特徴付けられる技術は、しばしば通常の良質なトラフィックと混同されるため、現代のBEC攻撃の調整された性質のため不十分である。 機械学習の最近の進歩、特に自然言語理解(NLU)では、このような攻撃に対抗するための有望な手段を提供するが、実用的なシステムでは、データ可用性、運用コスト、説明可能性要件の検証、システムの堅牢な進化の必要性といった制限のために、複数のアプローチを組み合わせることが不可欠である。 生産環境下で2年以上にわたって実証されてきた総合的かつ効率的なBEC検出システムCAPEについて述べる。 単一のモデルではなく、CAPEは独立したMLモデルと、テキスト、画像、メタデータ、電子メールの通信コンテキストなど、さまざまなEメールモダリティにわたるBEC関連の振る舞いを検出するアルゴリズムを組み合わせたシステムである。 この分解によりCAPEの判断は自然に説明できる。 本稿では,そのアーキテクチャの背後にある設計原則と制約について述べるとともに,限られたデータとドメイン知識を組み合わせたベイズ的アプローチによるモデル設計,評価,システムの継続的な適用の課題について述べる。 さらに,Transformerニューラルアーキテクチャに基づく動作検出など,いくつかの具体的な動作検出について詳しく述べる。

The growing sophistication of Business Email Compromise (BEC) and spear phishing attacks poses significant challenges to organizations worldwide. The techniques featured in traditional spam and phishing detection are insufficient due to the tailored nature of modern BEC attacks as they often blend in with the regular benign traffic. Recent advances in machine learning, particularly in Natural Language Understanding (NLU), offer a promising avenue for combating such attacks but in a practical system, due to limitations such as data availability, operational costs, verdict explainability requirements or a need to robustly evolve the system, it is essential to combine multiple approaches together. We present CAPE, a comprehensive and efficient system for BEC detection that has been proven in a production environment for a period of over two years. Rather than being a single model, CAPE is a system that combines independent ML models and algorithms detecting BEC-related behaviors across various email modalities such as text, images, metadata and the email's communication context. This decomposition makes CAPE's verdicts naturally explainable. In the paper, we describe the design principles and constraints behind its architecture, as well as the challenges of model design, evaluation and adapting the system continuously through a Bayesian approach that combines limited data with domain knowledge. Furthermore, we elaborate on several specific behavioral detectors, such as those based on Transformer neural architectures.
翻訳日:2023-08-22 12:57:44 公開日:2023-08-21
# 量子擬似テレパシーを使わずに1ビットの通信を破る

Beating one bit of communication with and without quantum pseudo-telepathy ( http://arxiv.org/abs/2308.10771v1 )

ライセンス: Link先を確認
Istv\'an M\'arton, Erika Bene, P\'eter Divi\'anszky, Tam\'as V\'ertesi(参考訳) ベルの定理によれば、ある絡み合った状態は局所隠れ変数(LHV)を用いて古典的にシミュレートすることはできない。 しかし、古典的通信によってlhvを増強できるとしたら、それらをシミュレートするのに何ビット必要か? 1ビットの通信が2ビットの絡み合った状態の射影測定をシミュレートするのに十分であるという強い証拠がある。 本研究では,高次元状態の射影的測定から得られた二部相関を1ビットの通信でシミュレートできないベル様シナリオを提案する。 これらには、それぞれ80089、64、16、2の出力を持つ3インプット、4インプット、7インプット、63インプットのベルのような不等式が含まれる。 Magic square pseudo-telepathy gameのようなエンブレマティックベル表現の2つのコピーは、特に強力であることが証明されており、1ビットの古典的バウンドを破るために16\times 16$状態が必要であり、光学プラットフォームの実装に期待できる候補である。

According to Bell's theorem, certain entangled states cannot be simulated classically using local hidden variables (LHV). But if can we augment LHV by classical communication, how many bits are needed to simulate them? There is a strong evidence that a single bit of communication is powerful enough to simulate projective measurements on any two-qubit entangled state. In this study, we present Bell-like scenarios where bipartite correlations resulting from projective measurements on higher dimensional states cannot be simulated with a single bit of communication. These include a three-input, a four-input, a seven-input, and a 63-input bipartite Bell-like inequality with 80089, 64, 16, and 2 outputs, respectively. Two copies of emblematic Bell expressions, such as the Magic square pseudo-telepathy game, prove to be particularly powerful, requiring a $16\times 16$ state to beat the one-bit classical bound, and look a promising candidate for implementation on an optical platform.
翻訳日:2023-08-22 12:57:19 公開日:2023-08-21
# グラフニューラルバンド

Graph Neural Bandits ( http://arxiv.org/abs/2308.10808v1 )

ライセンス: Link先を確認
Yunzhe Qi, Yikun Ban, Jingrui He(参考訳) コンテキストブレイディットアルゴリズムは、コンテキスト情報に基づいて、候補のセットから最も報酬の高い最適なアームを選択することを目的としている。 搾取-展開ジレンマに取り組む能力のため、実世界のアプリケーションには様々なバンディットアルゴリズムが適用されている。 本稿では,オンラインレコメンデーションシナリオによって動機付けられ,グラフニューラルネットワーク(GNN)によって強化されたユーザ間の協調性を活用するためのGNB(Graph Neural Bandits)というフレームワークを提案する。 既存の作業のように厳密なユーザクラスタを見積もる代わりに,エクスプロイションと探索という観点から,推定ユーザグラフを通じて"きめ細かい"協調効果をモデル化する。 そこで,提案手法を改良するために,推定ユーザグラフ上の別々のGNNモデルを用いて,エクスプロイトと適応探索を行う。 提案手法の有効性を実証するために,複数の実データ集合の理論的解析と実験結果と最先端のベースラインとの比較を行った。

Contextual bandits algorithms aim to choose the optimal arm with the highest reward out of a set of candidates based on the contextual information. Various bandit algorithms have been applied to real-world applications due to their ability of tackling the exploitation-exploration dilemma. Motivated by online recommendation scenarios, in this paper, we propose a framework named Graph Neural Bandits (GNB) to leverage the collaborative nature among users empowered by graph neural networks (GNNs). Instead of estimating rigid user clusters as in existing works, we model the "fine-grained" collaborative effects through estimated user graphs in terms of exploitation and exploration respectively. Then, to refine the recommendation strategy, we utilize separate GNN-based models on estimated user graphs for exploitation and adaptive exploration. Theoretical analysis and experimental results on multiple real data sets in comparison with state-of-the-art baselines are provided to demonstrate the effectiveness of our proposed framework.
翻訳日:2023-08-22 12:51:12 公開日:2023-08-21
# DynED: データストリーム分類における動的アンサンブルの多様性

DynED: Dynamic Ensemble Diversification in Data Stream Classification ( http://arxiv.org/abs/2308.10807v1 )

ライセンス: Link先を確認
Soheil Abadifard, Sepehr Bakhshi, Sanaz Gheibuni, Fazli Can(参考訳) アンサンブル法はその顕著な性能のために分類において一般的に使用される。 データストリーム環境で高い精度を達成することは、データ分散の破壊的な変化(コンセプトドリフトとも呼ばれる)を考慮すると難しい課題である。 このような設定で予測精度を高めるために、アンサンブルコンポーネントの多様化が知られている。 アンサンブル内のコンポーネントの多様性にもかかわらず、全体のパフォーマンスに期待通りに貢献できるわけではない。 これは、高い性能と多様性を示すコンポーネントを選択する方法を必要とする。 本稿では,アンサンブル構築過程におけるコンポーネントの多様性と予測精度を動的に組み合わせたmmr(maximal marginal associated)に基づく新しいアンサンブル構築・保守手法を提案する。 4つの実データと11の合成データセットによる実験結果から,提案手法(DynED)は5つの最先端ベースラインと比較して平均平均精度が高いことが示された。

Ensemble methods are commonly used in classification due to their remarkable performance. Achieving high accuracy in a data stream environment is a challenging task considering disruptive changes in the data distribution, also known as concept drift. A greater diversity of ensemble components is known to enhance prediction accuracy in such settings. Despite the diversity of components within an ensemble, not all contribute as expected to its overall performance. This necessitates a method for selecting components that exhibit high performance and diversity. We present a novel ensemble construction and maintenance approach based on MMR (Maximal Marginal Relevance) that dynamically combines the diversity and prediction accuracy of components during the process of structuring an ensemble. The experimental results on both four real and 11 synthetic datasets demonstrate that the proposed approach (DynED) provides a higher average mean accuracy compared to the five state-of-the-art baselines.
翻訳日:2023-08-22 12:50:56 公開日:2023-08-21
# 微分可能なフランク・ウルフ最適化層

Differentiable Frank-Wolfe Optimization Layer ( http://arxiv.org/abs/2308.10806v1 )

ライセンス: Link先を確認
Zixuan Liu, Liu Liu, Xueqian Wang, Peilin Zhao(参考訳) ニューラルネットワークに基づく機械学習の分野における基礎的な役割から、微分可能な最適化にはかなりの注目を集めている。 既存の手法は最適条件と暗黙の関数定理を利用して出力のヤコビ行列を求め、計算コストを増大させ、微分可能な最適化の適用を制限する。 さらに、いくつかの非微分可能制約は、事前微分可能最適化層を使用する際により多くの課題を引き起こす。 本稿では,Frank-Wolfe法(Frank-Wolfe method)のロールアウトによる微分可能なFrank-Wolfe層(DFWLayer)を提案する。 理論的には、dfw層の部分最適ギャップにl1-ノルム制約の文脈で境界を定める。 実験評価により,dfw層は解と勾配において競合精度を得るだけでなく,制約に一貫して従うことが示された。 さらに、前方および後方の計算速度のベースラインを超えている。

Differentiable optimization has received a significant amount of attention due to its foundational role in the domain of machine learning based on neural networks. The existing methods leverages the optimality conditions and implicit function theorem to obtain the Jacobian matrix of the output, which increases the computational cost and limits the application of differentiable optimization. In addition, some non-differentiable constraints lead to more challenges when using prior differentiable optimization layers. This paper proposes a differentiable layer, named Differentiable Frank-Wolfe Layer (DFWLayer), by rolling out the Frank-Wolfe method, a well-known optimization algorithm which can solve constrained optimization problems without projections and Hessian matrix computations, thus leading to a efficient way of dealing with large-scale problems. Theoretically, we establish a bound on the suboptimality gap of the DFWLayer in the context of l1-norm constraints. Experimental assessments demonstrate that the DFWLayer not only attains competitive accuracy in solutions and gradients but also consistently adheres to constraints. Moreover, it surpasses the baselines in both forward and backward computational speeds.
翻訳日:2023-08-22 12:50:44 公開日:2023-08-21
# 人工知能は事実チェックに非効率で潜在的に有害である

Artificial intelligence is ineffective and potentially harmful for fact checking ( http://arxiv.org/abs/2308.10800v1 )

ライセンス: Link先を確認
Matthew R. DeVerna, Harry Yaojun Yan, Kai-Cheng Yang, Filippo Menczer(参考訳) ファクトチェックは誤情報に対する効果的な戦略であるが、その大規模実装はオンライン情報の圧倒的な量によって妨げられる。 近年の人工知能(AI)言語モデルでは,事実確認タスクにおいて顕著な能力を発揮している。 本稿では,一般のaiモデルが生み出すファクトチェックが,事前登録されたランダム化制御実験における政治ニュースの信念や意図に与える影響について検討する。 AIは、偽の見出しを引用する上で合理的に機能するが、参加者が見出しの正確さを識別したり、正確なニュースを共有する能力にはあまり影響しない。 しかし、AIファクトチェッカーは特定のケースでは有害であり、真実の見出しに偽と誤記しているという信念を減らし、不確実な見出しに対する信念を増す。 ポジティブな面では、AIは正しくラベル付けされた真の見出しの共有意図を高める。 参加者がAIのファクトチェックを閲覧してそれを選択するオプションが与えられると、真偽のニュースと偽のニュースの両方を共有する傾向が著しく高くなるが、偽のニュースを信じる傾向は極めて高い。 我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにし、意図しない結果の防止や緩和のための政策のクリティカルな必要性を浮き彫りにしている。

Fact checking can be an effective strategy against misinformation, but its implementation at scale is impeded by the overwhelming volume of information online. Recent artificial intelligence (AI) language models have shown impressive ability in fact-checking tasks, but how humans interact with fact-checking information provided by these models is unclear. Here we investigate the impact of fact checks generated by a popular AI model on belief in, and sharing intent of, political news in a preregistered randomized control experiment. Although the AI performs reasonably well in debunking false headlines, we find that it does not significantly affect participants' ability to discern headline accuracy or share accurate news. However, the AI fact-checker is harmful in specific cases: it decreases beliefs in true headlines that it mislabels as false and increases beliefs for false headlines that it is unsure about. On the positive side, the AI increases sharing intents for correctly labeled true headlines. When participants are given the option to view AI fact checks and choose to do so, they are significantly more likely to share both true and false news but only more likely to believe false news. Our findings highlight an important source of potential harm stemming from AI applications and underscore the critical need for policies to prevent or mitigate such unintended consequences.
翻訳日:2023-08-22 12:50:26 公開日:2023-08-21
# 学習者による教師なし環境設計の安定化

Stabilizing Unsupervised Environment Design with a Learned Adversary ( http://arxiv.org/abs/2308.10797v1 )

ライセンス: Link先を確認
Ishita Mediratta, Minqi Jiang, Jack Parker-Holder, Michael Dennis, Eugene Vinitsky, Tim Rockt\"aschel(参考訳) 汎用エージェントの訓練における重要な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。 この課題は教師エージェントが提案するタスクの適応分布を学習する非教師環境設計 (unsupervised environment design, ued) の課題設定を動機付ける。 UEDの先駆的なアプローチは、強化学習(RL)を使用して、スクラッチからタスクを設計するための教師のポリシーを訓練し、エージェントの現在の能力に適応したタスクを直接生成できるようにする、PAIREDである。 PAIREDは理論上の強い支持にもかかわらず、実用性能を妨げる様々な課題に悩まされている。 したがって、現在最先端の手法は、新しいタスクを生成するのではなく、キュレーションと突然変異に依存している。 本研究では,PAIREDのいくつかの重要な欠点を調査し,各欠点に対する解決策を提案する。 その結果、ペアリングによる最先端の手法の一致や超過が可能となり、部分的に監視された迷路ナビゲーションタスクや連続制御カーレース環境など、いくつかの確立された手続き的生成環境において頑健なエージェントを生成できる。 この研究は、よりオープンなRLトレーニングを開放し、結果としてより一般的なエージェントを解放する可能性のある、挑戦的な環境を直接生成する学習モデルに基づく、UEDメソッドへの新たな重点を動機付けていると考えています。

A key challenge in training generally-capable agents is the design of training tasks that facilitate broad generalization and robustness to environment variations. This challenge motivates the problem setting of Unsupervised Environment Design (UED), whereby a student agent trains on an adaptive distribution of tasks proposed by a teacher agent. A pioneering approach for UED is PAIRED, which uses reinforcement learning (RL) to train a teacher policy to design tasks from scratch, making it possible to directly generate tasks that are adapted to the agent's current capabilities. Despite its strong theoretical backing, PAIRED suffers from a variety of challenges that hinder its practical performance. Thus, state-of-the-art methods currently rely on curation and mutation rather than generation of new tasks. In this work, we investigate several key shortcomings of PAIRED and propose solutions for each shortcoming. As a result, we make it possible for PAIRED to match or exceed state-of-the-art methods, producing robust agents in several established challenging procedurally-generated environments, including a partially-observed maze navigation task and a continuous-control car racing environment. We believe this work motivates a renewed emphasis on UED methods based on learned models that directly generate challenging environments, potentially unlocking more open-ended RL training and, as a result, more general agents.
翻訳日:2023-08-22 12:50:03 公開日:2023-08-21
# 制御操作を伴わない位相感応量子計測

Phase-Sensitive Quantum Measurement without Controlled Operations ( http://arxiv.org/abs/2308.10796v1 )

ライセンス: Link先を確認
Yilun Yang, Arthur Christianen, Mari Carmen Ba\~nuls, Dominik S. Wild, J. Ignacio Cirac(参考訳) 多くの量子アルゴリズムは複雑な量子振幅の測定に依存する。 アダマール試験のような位相情報を得るための標準的なアプローチは、グローバルな制御単位演算を必要とするため、大きなオーバーヘッドを引き起こす。 本稿では,時間連続関数である振幅に対してこの問題を克服する複素解析に基づく量子アルゴリズムを提案する。 提案手法は,短時間の仮想時間進化を近似する浅部回路とリアルタイム進化の実装のみを必要とする。 本手法は,回路深度でアダマール試験より優れており,単純な誤差軽減戦略と組み合わせることで,現在の雑音量子コンピュータに適していることを示す。

Many quantum algorithms rely on the measurement of complex quantum amplitudes. Standard approaches to obtain the phase information, such as the Hadamard test, give rise to large overheads due to the need for global controlled-unitary operations. We introduce a quantum algorithm based on complex analysis that overcomes this problem for amplitudes that are a continuous function of time. Our method only requires the implementation of real-time evolution and a shallow circuit that approximates a short imaginary-time evolution. We show that the method outperforms the Hadamard test in terms of circuit depth and that it is suitable for current noisy quantum computers when combined with a simple error-mitigation strategy.
翻訳日:2023-08-22 12:49:40 公開日:2023-08-21
# MGMAE:動画自動エンコーディングのためのモーションガイド型マスキング

MGMAE: Motion Guided Masking for Video Masked Autoencoding ( http://arxiv.org/abs/2308.10794v1 )

ライセンス: Link先を確認
Bingkun Huang, Zhiyu Zhao, Guozhen Zhang, Yu Qiao and Limin Wang(参考訳) masked autoencodingは自己教師付きビデオ表現学習において優れた性能を示している。 時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。 本稿では,モーションガイド型マスキング戦略を導入することで,映像の自動符号化の性能向上を図る。 私たちの重要な洞察は、モーションはビデオにおける一般的でユニークな事前学習であり、マスク付きプレトレーニング中に考慮すべきであるということです。 我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。 このマスキング量に基づいて、未加工のトークンを時間内に追跡し、ビデオから時間的一貫したキューブのセットをサンプリングすることができる。 これらの時間調整されたアンマスクトークンは、情報漏洩問題をさらに緩和し、mgmaeにより有用な構造情報を学ぶよう促す。 我々は,オンライン効率的な光フロー推定器と後方マスキングマップウォーピング戦略を用いてmgmaeを実装した。 我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。 さらに,MGMAEが時間的一貫した立方体をモーション適応的にサンプリングし,より効果的なビデオ事前学習を実現するための可視化分析を行った。

Masked autoencoding has shown excellent performance on self-supervised video representation learning. Temporal redundancy has led to a high masking ratio and customized masking strategy in VideoMAE. In this paper, we aim to further improve the performance of video masked autoencoding by introducing a motion guided masking strategy. Our key insight is that motion is a general and unique prior in video, which should be taken into account during masked pre-training. Our motion guided masking explicitly incorporates motion information to build temporal consistent masking volume. Based on this masking volume, we can track the unmasked tokens in time and sample a set of temporal consistent cubes from videos. These temporal aligned unmasked tokens will further relieve the information leakage issue in time and encourage the MGMAE to learn more useful structure information. We implement our MGMAE with an online efficient optical flow estimator and backward masking map warping strategy. We perform experiments on the datasets of Something-Something V2 and Kinetics-400, demonstrating the superior performance of our MGMAE to the original VideoMAE. In addition, we provide the visualization analysis to illustrate that our MGMAE can sample temporal consistent cubes in a motion-adaptive manner for more effective video pre-training.
翻訳日:2023-08-22 12:49:30 公開日:2023-08-21
# 単純なサイクル貯水池は

Simple Cycle Reservoirs are Universal ( http://arxiv.org/abs/2308.10793v1 )

ライセンス: Link先を確認
Boyu Li, Robert Simon Fong, Peter Ti\v{n}o(参考訳) 貯水池計算モデルは、固定された非訓練可能な入力と動的結合重みを持つリカレントニューラルネットワークのサブクラスを形成する。 状態空間(Reservoir)からの静的読み込みのみのトレーニングが可能であり、時間を通して勾配情報の伝播に関する既知の問題を回避することができる。 貯留層モデルは様々なタスクにうまく適用され、様々な環境下での時間不変のダイイングメモリダイナミックフィルタの普遍的な近似器であることが示されている。 単純サイクル貯水池 (simple cycle reservoirs, scr) は厳格に制限された貯水池構造として提案されており、貯水池単位の重みリング接続と、同じ絶対値の2次自然の入出力から保存までの重みがある。 このようなアーキテクチャは、多くの実用的なタスクで性能が低下しないハードウェア実装に適している。 本研究では、複素領域におけるSCRの表現力について厳密に研究し、非制限線形貯水池系を(連続的な読み出しで)普遍的に近似できることを示し、従って一様有界な入力ストリーム上での時間不変フェーディングメモリフィルタについて述べる。

Reservoir computation models form a subclass of recurrent neural networks with fixed non-trainable input and dynamic coupling weights. Only the static readout from the state space (reservoir) is trainable, thus avoiding the known problems with propagation of gradient information backwards through time. Reservoir models have been successfully applied in a variety of tasks and were shown to be universal approximators of time-invariant fading memory dynamic filters under various settings. Simple cycle reservoirs (SCR) have been suggested as severely restricted reservoir architecture, with equal weight ring connectivity of the reservoir units and input-to-reservoir weights of binary nature with the same absolute value. Such architectures are well suited for hardware implementations without performance degradation in many practical tasks. In this contribution, we rigorously study the expressive power of SCR in the complex domain and show that they are capable of universal approximation of any unrestricted linear reservoir system (with continuous readout) and hence any time-invariant fading memory filter over uniformly bounded input streams.
翻訳日:2023-08-22 12:49:10 公開日:2023-08-21
# 大規模言語モデルのためのインストラクションチューニング:サーベイ

Instruction Tuning for Large Language Models: A Survey ( http://arxiv.org/abs/2308.10792v1 )

ライセンス: Link先を確認
Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu and Guoyin Wang(参考訳) 本稿では,大規模言語モデル(LLM)の能力と制御性を向上するための重要な技術である,命令チューニング(IT)の急速な発展分野における研究成果について調査する。 インストラクションチューニング(インストラクションチューニング)とは、LLMの次の単語予測目標と、LLMを人間の指示に従わせるというユーザの目的とのギャップを埋める、教師付き方式で、‘textsc{(インストラクション、アウトプット)’ペアからなるデータセット上で、LLMをさらに訓練するプロセスを指す。 本研究は、ITの一般的な方法論、ITデータセットの構築、ITモデルの構築、異なるモダリティ、ドメイン、アプリケーションへのアプリケーション、およびITの結果に影響を与える側面(例えば、命令出力の生成、命令データセットのサイズなど)に関する分析を含む、文献の体系的なレビューを行う。 また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。

This paper surveys research works in the quickly advancing field of instruction tuning (IT), a crucial technique to enhance the capabilities and controllability of large language models (LLMs). Instruction tuning refers to the process of further training LLMs on a dataset consisting of \textsc{(instruction, output)} pairs in a supervised fashion, which bridges the gap between the next-word prediction objective of LLMs and the users' objective of having LLMs adhere to human instructions. In this work, we make a systematic review of the literature, including the general methodology of IT, the construction of IT datasets, the training of IT models, and applications to different modalities, domains and applications, along with an analysis on aspects that influence the outcome of IT (e.g., generation of instruction outputs, size of the instruction dataset, etc). We also review the potential pitfalls of IT along with criticism against it, along with efforts pointing out current deficiencies of existing strategies and suggest some avenues for fruitful research.
翻訳日:2023-08-22 12:48:51 公開日:2023-08-21
# パラメータ化量子回路のブロックリング接続トポロジー

A Block-Ring connected Topology of Parameterized Quantum Circuits ( http://arxiv.org/abs/2308.10791v1 )

ライセンス: Link先を確認
Wenjie Liu, Qingshan Wu(参考訳) 変分量子アルゴリズム(VQA)において、パラメータ化量子回路(PQC)の効率的な位相を選択することが不可欠である。 しかし、現在の回路には問題があり、多くのパラメータや性能に起因する最適化の困難さを保証するのは難しい。 PQCのパラメータ数(シングルキュービット回転ゲート数と2キュービットゲート数)を性能を低下させることなく削減する方法が,新たな課題となっている。 この問題を解決するために,ブロックリングトポロジ(BR)と呼ばれる新しいトポロジを提案し,PQCを構築する。 このトポロジーは全てのキュービットを複数のブロックに割り当て、全てのモードは各ブロック内で採用され、リングモードは異なるブロックを接続するために適用される。 最善のパワーを持つ純粋な全対全トポロジー回路と比較すると、brトポロジーは同様の性能を持ち、パラメータの数と2量子ビットゲートが0(n^2)から0(mn)に減少する。 さらに,BRトポロジを他のトポロジ回路と比較し,表現性とエンタングリング能力について検討した。 異なる2量子ゲートが回路に与える影響を考慮して、制御されたX回転ゲートと制御されたZ回転ゲートを区別する。 最後に,PQCの1層および2層構成も考慮し,多層回路におけるBRの性能向上を示す。

It is essential to select efficient topology of parameterized quantum circuits (PQCs) in variational quantum algorithms (VQAs). However, there are problems in current circuits, i.e. optimization difficulties caused by too many parameters or performance is hard to guarantee. How to reduce the number of parameters (number of single-qubit rotation gates and 2-qubit gates) in PQCs without reducing the performance has become a new challenge. To solve this problem, we propose a novel topology, called Block-Ring (BR) topology, to construct the PQCs. This topology allocate all qubits to several blocks, all-to-all mode is adopt inside each block and ring mode is applied to connect different blocks. Compared with the pure all-to-all topology circuits which own the best power, BR topology have similar performance and the number of parameters and 2-qubit gate reduced from 0(n^2) to 0(mn) , m is a hyperparameter set by ourselves. Besides, we compared BR topology with other topology circuits in terms of expressibility and entangling capability. Considering the effects of different 2-qubit gates on circuits, we also make a distinction between controlled X-rotation gates and controlled Z-rotation gates. Finally, the 1- and 2-layer configurations of PQCs are taken into consideration as well, which shows the BR's performance improvement in the condition of multilayer circuits.
翻訳日:2023-08-22 12:48:29 公開日:2023-08-21
# 流通シフトを伴うリアルタイム時系列ベンチマークデータセット:グローバル原油価格とボラティリティ

Real World Time Series Benchmark Datasets with Distribution Shifts: Global Crude Oil Price and Volatility ( http://arxiv.org/abs/2308.10846v1 )

ライセンス: Link先を確認
Pranay Pasula(参考訳) 金融分野におけるタスクラベル付き時系列ベンチマークの不足は、継続的な学習の進歩を妨げる。 この欠陥に対処すれば、この地域のイノベーションが促進されるだろう。 そこで,COB,Crude Oil Benchmarkデータセットを提案する。 COBには30年間の資産価格が含まれており、世界で最も重要な3つの原油の流通シフトに基づいて、大きな流通シフトを示し、対応するタスク(すなわちレジーム)ラベルを最適に生成している。 コントリビューションには、資産価格データをボラティリティプロキシに変換し、期待最大化(EM)を用いたモデルに適合させ、実世界のイベントと整合したコンテキストタスクラベルを生成し、これらのラベルと一般のアルゴリズムを提供することによる、実世界のベンチマークデータセットの作成が含まれている。 これらのタスクラベルを組み込むことで、4つの連続学習アルゴリズム、いくつかの最先端、複数の予測地平線上での性能が向上することを示す。 これらのベンチマークは、特に考慮された資産のグローバルな重要性のために、現実世界のデータにおける分散シフトを扱う研究を加速することを期待している。 1) 原価データ、(2) アプローチによって生成されたタスクラベル、(3) アルゴリズムのコードは https://oilpricebenchmarks.github.io で利用可能です。

The scarcity of task-labeled time-series benchmarks in the financial domain hinders progress in continual learning. Addressing this deficit would foster innovation in this area. Therefore, we present COB, Crude Oil Benchmark datasets. COB includes 30 years of asset prices that exhibit significant distribution shifts and optimally generates corresponding task (i.e., regime) labels based on these distribution shifts for the three most important crude oils in the world. Our contributions include creating real-world benchmark datasets by transforming asset price data into volatility proxies, fitting models using expectation-maximization (EM), generating contextual task labels that align with real-world events, and providing these labels as well as the general algorithm to the public. We show that the inclusion of these task labels universally improves performance on four continual learning algorithms, some state-of-the-art, over multiple forecasting horizons. We hope these benchmarks accelerate research in handling distribution shifts in real-world data, especially due to the global importance of the assets considered. We've made the (1) raw price data, (2) task labels generated by our approach, (3) and code for our algorithm available at https://oilpricebenchmarks.github.io.
翻訳日:2023-08-22 12:40:18 公開日:2023-08-21
# マトリックス分解によるビジョントランスプルーニング

Vision Transformer Pruning Via Matrix Decomposition ( http://arxiv.org/abs/2308.10839v1 )

ライセンス: Link先を確認
Tianyi Sun(参考訳) これはマトリックス分解による視覚トランスフォーマーのさらなる発展である。 vision transformer pruningの目的は、ストレージ、ランタイムメモリ、計算要求を減らすために、関連する重要度スコアを学習することにより、データセットの線形投影の次元を損ねることである。 本稿では,生成した重要な特徴を維持しつつ,複数の行列分解法を実装し比較することにより,線形射影の次元と複雑さをさらに削減する。 その結果,元々のgithubリポジトリにおける元の精度スコアと,特異値分解,qr分解の4つのバージョン,lu分解などの行列分解手法を用いた精度スコアを比較して,目標を達成するための特異値分解を選択した。

This is a further development of Vision Transformer Pruning via matrix decomposition. The purpose of the Vision Transformer Pruning is to prune the dimension of the linear projection of the dataset by learning their associated importance score in order to reduce the storage, run-time memory, and computational demands. In this paper we further reduce dimension and complexity of the linear projection by implementing and comparing several matrix decomposition methods while preserving the generated important features. We end up selected the Singular Value Decomposition as the method to achieve our goal by comparing the original accuracy scores in the original Github repository and the accuracy scores of using those matrix decomposition methods, including Singular Value Decomposition, four versions of QR Decomposition, and LU factorization.
翻訳日:2023-08-22 12:39:47 公開日:2023-08-21
# EigenPlaces: 視覚的位置認識のための視点ロバストモデルのトレーニング

EigenPlaces: Training Viewpoint Robust Models for Visual Place Recognition ( http://arxiv.org/abs/2308.10832v1 )

ライセンス: Link先を確認
Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone(参考訳) 視覚的場所認識(Visual Place Recognition)は、画像の場所(クエリと呼ばれる)を視覚的特徴のみに基づいて予測することを目的としたタスクである。 これは通常、画像検索によって行われ、そのクェリは、学習されたグローバルディスクリプタを使用して、ジオタグ付き写真の大規模なデータベースから得られる最も類似した画像とマッチする。 このタスクの大きな課題は、異なる視点から見た場所を認識することです。 この制限を克服するために,学習したグローバル記述子に視点の堅牢性を埋め込んだ,異なる視点からの画像に対してニューラルネットワークをトレーニングするeigenplacesという新しい手法を提案する。 基本的な考え方は、トレーニングデータをクラスタ化して、同じ関心点の異なるビューでモデルを明示的に提示することだ。 このポイントの選択は、余分な監督を必要とすることなく行われる。 次に、文献における最も包括的なデータセットの実験を行い、EigenPlacesは、トレーニングに60倍のGPUメモリが必要で、50倍の小さなディスクリプタを使用することなく、ほとんどのデータセットで、過去の最先端の技術を上回ります。 EigenPlacesのコードとトレーニングされたモデルは {\small{\url{https://github.com/gmberton/EigenPlaces}}} で利用可能であり、他のベースラインでの結果は {\small{\url{https://github.com/gmberton/auto_VPR}}} でコードベースで計算できる。

Visual Place Recognition is a task that aims to predict the place of an image (called query) based solely on its visual features. This is typically done through image retrieval, where the query is matched to the most similar images from a large database of geotagged photos, using learned global descriptors. A major challenge in this task is recognizing places seen from different viewpoints. To overcome this limitation, we propose a new method, called EigenPlaces, to train our neural network on images from different point of views, which embeds viewpoint robustness into the learned global descriptors. The underlying idea is to cluster the training data so as to explicitly present the model with different views of the same points of interest. The selection of this points of interest is done without the need for extra supervision. We then present experiments on the most comprehensive set of datasets in literature, finding that EigenPlaces is able to outperform previous state of the art on the majority of datasets, while requiring 60\% less GPU memory for training and using 50\% smaller descriptors. The code and trained models for EigenPlaces are available at {\small{\url{https://github.com/gmberton/EigenPlaces}}}, while results with any other baseline can be computed with the codebase at {\small{\url{https://github.com/gmberton/auto_VPR}}}.
翻訳日:2023-08-22 12:39:32 公開日:2023-08-21
# マルウェア検出における概念とデータドリフトに対するニューラルネットワークの最適化

Neural Networks Optimizations Against Concept and Data Drift in Malware Detection ( http://arxiv.org/abs/2308.10821v1 )

ライセンス: Link先を確認
William Maillet and Benjamin Marais(参考訳) マルウェア検出における機械学習モデルの有望な結果にもかかわらず、マルウェアの絶え間ない進化のためにコンセプトドリフトの問題に直面している。 これにより、新しいファイルのデータ分散がトレーニングファイルと異なり、定期的なモデル更新が必要になるため、時間とともにパフォーマンスが低下する。 本研究では,ドリフト問題に対処するベースラインニューラルネットワークを改善するためのモデル非依存プロトコルを提案する。 本稿では,最新の検証セットによる特徴量削減と訓練の重要性を示し,ドリフト耐性バイナリクロスエントロピーと呼ばれる損失関数を提案し,ドリフトに対してより効果的な古典的バイナリクロスエントロピーの改善を提案する。 我々は、EMBERデータセット(2018)でモデルをトレーニングし、2020年から2023年の間に収集された最近の悪意のあるファイルのデータセットで評価する。 改良されたモデルは有望な結果を示し、ベースラインモデルよりも15.2%多いマルウェアを検出する。

Despite the promising results of machine learning models in malware detection, they face the problem of concept drift due to malware constant evolution. This leads to a decline in performance over time, as the data distribution of the new files differs from the training one, requiring regular model update. In this work, we propose a model-agnostic protocol to improve a baseline neural network to handle with the drift problem. We show the importance of feature reduction and training with the most recent validation set possible, and propose a loss function named Drift-Resilient Binary Cross-Entropy, an improvement to the classical Binary Cross-Entropy more effective against drift. We train our model on the EMBER dataset (2018) and evaluate it on a dataset of recent malicious files, collected between 2020 and 2023. Our improved model shows promising results, detecting 15.2% more malware than a baseline model.
翻訳日:2023-08-22 12:39:01 公開日:2023-08-21
# ハイパースペクトル画像再構成のためのPixel Adaptive Deep Unfolding Transformer

Pixel Adaptive Deep Unfolding Transformer for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2308.10820v1 )

ライセンス: Link先を確認
Miaoyu Li, Ying Fu, Ji Liu, Yulun Zhang(参考訳) ハイパースペクトル画像(HSI)の再構成は、問題をデータモジュールと事前モジュールに定式化することで、深い展開フレームワークで満足度を高めた。 それでも既存の手法は、HSIデータとのマッチングが不十分な問題に直面している。 問題は3つの側面にある。 1)データモジュールにおける一定の勾配降下ステップは,hsiの劣化は画素レベルでは不可知である。 2) 3次元hsi立方体に対する不適切な事前モジュール。 3)異なるステージにおける特徴の違いを無視したステージインタラクション。 これらの課題に対処するため,本研究では,HSI再構成のためのPixel Adaptive Deep Unfolding Transformer (PADUT)を提案する。 データモジュールでは、画素レベル非依存な分解にフォーカスするために画素適応降下ステップが用いられる。 先行モジュールでは、非局所スペクトル変換器(NST)を導入し、回復のためのHSIの3次元特性を強調する。 さらに、異なるステージと深さの特徴の多様な表現にインスパイアされ、Fast Fourier Transform (FFT) によってステージ相互作用が改善される。 シミュレーションおよび実シーンにおける実験結果は,現状のHSI再構成法と比較して,本手法の優れた性能を示す。 コードはhttps://github.com/MyuLi/PADUT.comで公開されている。

Hyperspectral Image (HSI) reconstruction has made gratifying progress with the deep unfolding framework by formulating the problem into a data module and a prior module. Nevertheless, existing methods still face the problem of insufficient matching with HSI data. The issues lie in three aspects: 1) fixed gradient descent step in the data module while the degradation of HSI is agnostic in the pixel-level. 2) inadequate prior module for 3D HSI cube. 3) stage interaction ignoring the differences in features at different stages. To address these issues, in this work, we propose a Pixel Adaptive Deep Unfolding Transformer (PADUT) for HSI reconstruction. In the data module, a pixel adaptive descent step is employed to focus on pixel-level agnostic degradation. In the prior module, we introduce the Non-local Spectral Transformer (NST) to emphasize the 3D characteristics of HSI for recovering. Moreover, inspired by the diverse expression of features in different stages and depths, the stage interaction is improved by the Fast Fourier Transform (FFT). Experimental results on both simulated and real scenes exhibit the superior performance of our method compared to state-of-the-art HSI reconstruction methods. The code is released at: https://github.com/MyuLi/PADUT.
翻訳日:2023-08-22 12:38:47 公開日:2023-08-21
# ローカル・ミニマを飛び抜ける:視覚変換器の失われた景観の量子化

Jumping through Local Minima: Quantization in the Loss Landscape of Vision Transformers ( http://arxiv.org/abs/2308.10814v1 )

ライセンス: Link先を確認
Natalia Frumkin, Dibakar Gope, and Diana Marculescu(参考訳) 量子化スケールとビット幅は、ニューラルネットワークの量子化方法を考える上で最も重要なパラメータである。 先行研究は、勾配法 (gradient descent \&hessian analysis) を通じて、グローバルに量子化スケールを最適化することに焦点を当てている。 しかし、量子化スケールに摂動を適用すると、非常にジャグリングされ、非常に滑らかなテスト損失の風景が観察される。 実際、量子化スケールにおける小さな摂動は精度に大きく影響し、4ビット量子化視覚トランスフォーマー(vits)において0.5-0.8\%の精度向上をもたらす。 この体制では、勾配法は局所最小値に確実に到達できないため、崩壊する。 Evol-Qと呼ばれる我々の研究では、進化探索を用いて非滑らかな風景を効果的に横断する。 さらに,小さなキャリブレーションデータセット(1000ドルの画像)の過剰フィッティングに対処するだけでなく,このような非スムースな表面のトラバースを容易にする情報損失の利用を提案する。 Evol-Q は完全量子化された ViT-Base のトップ-1 の精度を 10.30 %$,$0.78 %$,$0.15 %$ で3$-bit,$4$-bit,$8$-bit で改善している。 様々なCNNおよびViTアーキテクチャに関する大規模な実験は、極端量子化シナリオにおけるその堅牢性をさらに証明している。 私たちのコードはhttps://github.com/enyac-group/evol-qで利用可能です。

Quantization scale and bit-width are the most important parameters when considering how to quantize a neural network. Prior work focuses on optimizing quantization scales in a global manner through gradient methods (gradient descent \& Hessian analysis). Yet, when applying perturbations to quantization scales, we observe a very jagged, highly non-smooth test loss landscape. In fact, small perturbations in quantization scale can greatly affect accuracy, yielding a $0.5-0.8\%$ accuracy boost in 4-bit quantized vision transformers (ViTs). In this regime, gradient methods break down, since they cannot reliably reach local minima. In our work, dubbed Evol-Q, we use evolutionary search to effectively traverse the non-smooth landscape. Additionally, we propose using an infoNCE loss, which not only helps combat overfitting on the small calibration dataset ($1,000$ images) but also makes traversing such a highly non-smooth surface easier. Evol-Q improves the top-1 accuracy of a fully quantized ViT-Base by $10.30\%$, $0.78\%$, and $0.15\%$ for $3$-bit, $4$-bit, and $8$-bit weight quantization levels. Extensive experiments on a variety of CNN and ViT architectures further demonstrate its robustness in extreme quantization scenarios. Our code is available at https://github.com/enyac-group/evol-q
翻訳日:2023-08-22 12:38:05 公開日:2023-08-21
# 重み付き距離によるクラスター状態のパウリ誤差の評価

Evaluating Pauli errors on cluster states by weighted distances ( http://arxiv.org/abs/2308.10810v1 )

ライセンス: Link先を確認
Choong Pak Shen and Davide Girolami(参考訳) ユニタリ変換で符号化された誤差の影響を受ける量子状態の前と後の違いを評価する問題に対処する。 標準的な距離関数(例えば、バーズ長さ)は、そのようなタスクには十分ではない。 重み付き距離は、多粒子状態の識別可能性を定量化する適切な情報測度である。 ここでは,従来導入されていた重み付きバール長と新たに定義された重み付きヒルベルト-シュミット距離を用いて,単一キュービットのポーリ誤差がクラスタ状態に与える影響を定量化する。 我々は、同じ次元の異なる誤差がクラスタ状態を変えること、すなわち、その検出性は一般的に異なることを発見した。 実際、理想的なクラスター状態は、入力から重み付けされた距離が特定の選択されたポーリ回転と、状態に関連するグラフの影響を受ける量子ビットの位置に依存する状態に変換する。 これらの特徴は標準距離を用いて検出されないため、この研究は重み付き距離が多体量子システムの鍵をモニターするのに有用であることを示す。

We address the problem of evaluating the difference between quantum states before and after being affected by errors encoded in unitary transformations. Standard distance functions, e.g., the Bures length, are not fully adequate for such a task. Weighted distances are instead appropriate information measures to quantify distinguishability of multipartite states. Here, we employ the previously introduced weighted Bures length and the newly defined weighted Hilbert-Schmidt distance to quantify how much single-qubit Pauli errors alter cluster states. We find that different errors of the same dimension change cluster states in a different way, i.e., their detectability is in general different. Indeed, they transform an ideal cluster state into a state whose weighted distance from the input depends on the specific chosen Pauli rotation, as well as the position of the affected qubit in the graph related to the state. As these features are undetected by using standard distances, the study proves the usefulness of weighted distances to monitor key but elusive properties of many-body quantum systems.
翻訳日:2023-08-22 12:37:37 公開日:2023-08-21
# 言語横断符号による連続手話認識の改善

Improving Continuous Sign Language Recognition with Cross-Lingual Signs ( http://arxiv.org/abs/2308.10809v1 )

ライセンス: Link先を確認
Fangyun Wei, Yutong Chen(参考訳) 連続手話認識(continuous sign language recognition, CSLR)は、連続手話間の時間的境界に関する事前の知識が無く、ビデオからの連続手話認識を扱う弱い教師付きタスクである。 データ不足はCSLRの進行を著しく妨げている。 既存のアプローチでは、音声認識よりも桁違い小さい単言語コーパスでCSLRモデルを訓練するのが一般的である。 本研究では,多言語手話コーパスを用いた単言語CSLRの実現可能性について検討する。 我々の研究は、異なる手話に由来するが類似した視覚信号(例えば、手の形や動き)を持つ言語間記号の観察に基づいている。 提案手法の根底にある考え方は、ある手話における言語間符号を識別し、それを補助訓練データとして適切に活用して、他者の認識能力を向上させることである。 目的を達成するため、まず2つのデータセットに出現する孤立した記号を含む2つの手話辞書を構築した。 次に、最適化された孤立手話認識モデルを用いて、2つの手話間の手話間マッピングを同定する。 最終的に、ターゲットデータと元のラベルと、マッピングされたラベルによる補助データの組み合わせに基づいて、cslrモデルをトレーニングする。 実験により,Phoenix-2014とPhoenix-2014Tの2つの広く使われているCSLRデータセットに対して,最先端の性能を実現する。

This work dedicates to continuous sign language recognition (CSLR), which is a weakly supervised task dealing with the recognition of continuous signs from videos, without any prior knowledge about the temporal boundaries between consecutive signs. Data scarcity heavily impedes the progress of CSLR. Existing approaches typically train CSLR models on a monolingual corpus, which is orders of magnitude smaller than that of speech recognition. In this work, we explore the feasibility of utilizing multilingual sign language corpora to facilitate monolingual CSLR. Our work is built upon the observation of cross-lingual signs, which originate from different sign languages but have similar visual signals (e.g., hand shape and motion). The underlying idea of our approach is to identify the cross-lingual signs in one sign language and properly leverage them as auxiliary training data to improve the recognition capability of another. To achieve the goal, we first build two sign language dictionaries containing isolated signs that appear in two datasets. Then we identify the sign-to-sign mappings between two sign languages via a well-optimized isolated sign language recognition model. At last, we train a CSLR model on the combination of the target data with original labels and the auxiliary data with mapped labels. Experimentally, our approach achieves state-of-the-art performance on two widely-used CSLR datasets: Phoenix-2014 and Phoenix-2014T.
翻訳日:2023-08-22 12:37:19 公開日:2023-08-21
# Giraffe: LLMのコンテキスト長を拡大するアドベンチャー

Giraffe: Adventures in Expanding Context Lengths in LLMs ( http://arxiv.org/abs/2308.10882v1 )

ライセンス: Link先を確認
Arka Pal, Deep Karkhanis, Manley Roberts, Samuel Dooley, Arvind Sundararajan, Siddartha Naidu(参考訳) 注意機構に依存する現代の大規模言語モデル(LLM)は、一般に、評価時に処理できる入力シーケンスの長さに上限を課す固定されたコンテキスト長で訓練される。 これらのモデルを列車時コンテキスト長よりも長いシーケンスで使用するには、コンテキスト長の外挿法(主に注意機構で使用される位置エンコーディングのシステムを変更して、トークンやアクティベーションが入力シーケンスにどこにあるかを示すことに焦点を当てる)の家族の技法を用いる。 我々は,LLaMAモデルやLLaMA 2モデル上で既存の文脈長外挿法を広範囲に調査し,位置符号化の基盤を変更するための新たなトランケーション戦略を,我々の設計にも導入する。 我々はこれらの手法を3つの新しい評価タスク(FreeFormQA,AlteredNumericQA,LongChat-Lines)とパープレキシティ(perplexity)を用いて検証した。 私たちは3つのタスクをHuggingFaceのデータセットとして公開しています。 線形スケーリングは文脈長を拡張するための最良の手法であり,評価時に長いスケールを用いることで,さらなる利得が得られることを示す。 我々はまた、有望な外挿能力を発見した。 この領域のさらなる研究を支援するために、Giraffeと呼ばれる3つの新しい13Bパラメータ長コンテキストモデル:ベースLLaMA-13Bからトレーニングされた4kと16kコンテキストモデル、ベースLLaMA2-13Bからトレーニングされた32kコンテキストモデルをリリースする。 結果を複製するコードもリリースしています。

Modern large language models (LLMs) that rely on attention mechanisms are typically trained with fixed context lengths which enforce upper limits on the length of input sequences that they can handle at evaluation time. To use these models on sequences longer than the train-time context length, one might employ techniques from the growing family of context length extrapolation methods -- most of which focus on modifying the system of positional encodings used in the attention mechanism to indicate where tokens or activations are located in the input sequence. We conduct a wide survey of existing methods of context length extrapolation on a base LLaMA or LLaMA 2 model, and introduce some of our own design as well -- in particular, a new truncation strategy for modifying the basis for the position encoding. We test these methods using three new evaluation tasks (FreeFormQA, AlteredNumericQA, and LongChat-Lines) as well as perplexity, which we find to be less fine-grained as a measure of long context performance of LLMs. We release the three tasks publicly as datasets on HuggingFace. We discover that linear scaling is the best method for extending context length, and show that further gains can be achieved by using longer scales at evaluation time. We also discover promising extrapolation capabilities in the truncated basis. To support further research in this area, we release three new 13B parameter long-context models which we call Giraffe: 4k and 16k context models trained from base LLaMA-13B, and a 32k context model trained from base LLaMA2-13B. We also release the code to replicate our results.
翻訳日:2023-08-22 12:31:20 公開日:2023-08-21
# 埋め込み空間におけるトランスフォーマーダイナミクスの運動解析

Analyzing Transformer Dynamics as Movement through Embedding Space ( http://arxiv.org/abs/2308.10874v1 )

ライセンス: Link先を確認
Sumeet S. Singh(参考訳) トランスフォーマー言語モデルは、自然言語の理解、パターンの認識、知識の獲得、推論、計画、反映、ツールの使用などの知的行動を示す。 本稿では,その基盤となる力学が知的行動を引き起こす方法について考察する。 我々は, トランスフォーマーを詳細に解析するシステムアプローチを採用し, 組込み空間を通した運動としてそのダイナミクスを組み込む数学的枠組みを開発した。 この新しい視点は、問題の考え方を原則として提供し、インテリジェンスの発生に関する重要な洞察を明らかにしている: 1. トランスフォーマーの中核は、インベディングスペースウォーカであり、このベクトル空間における知的行動と軌跡をマッピングする。 2. ウォークの各ステップでは、コンテキストを単一の複合ベクトルに構成し、埋め込み空間内の位置が次のステップを定義する。 文脈内学習と一般化は、単に異なるベクトルを構成する異なるコンテキストの結果である。 4. 最終的に、モデルが示す知識、知性、技能は、特定のニューロンや層ではなく、埋め込み空間内のベクトルの組織に具体化される。 これらの能力はこの組織の特性である。 5. 注意の貢献は、ベクトル構成に貸与する関連バイアスに起因し、前述の組織に影響を及ぼす。 しかし、その重要性を確認するにはさらなる調査が必要である。 6. モデル全体はデータ独立フィルタリングとデータ依存集約という2つの主要な操作で構成されている。 この一般化はトランスフォーマーを他のシーケンスモデル、およびモダリティに統一する。 この基礎に基づいて、埋め込みベクトルが意味概念を表すことを仮定した意味空間論を形式化し、テストし、その妥当性の証拠を見つける。

Transformer language models exhibit intelligent behaviors such as understanding natural language, recognizing patterns, acquiring knowledge, reasoning, planning, reflecting and using tools. This paper explores how their underlying mechanics give rise to intelligent behaviors. We adopt a systems approach to analyze Transformers in detail and develop a mathematical framework that frames their dynamics as movement through embedding space. This novel perspective provides a principled way of thinking about the problem and reveals important insights related to the emergence of intelligence: 1. At its core the Transformer is a Embedding Space walker, mapping intelligent behavior to trajectories in this vector space. 2. At each step of the walk, it composes context into a single composite vector whose location in Embedding Space defines the next step. 3. No learning actually occurs during decoding; in-context learning and generalization are simply the result of different contexts composing into different vectors. 4. Ultimately the knowledge, intelligence and skills exhibited by the model are embodied in the organization of vectors in Embedding Space rather than in specific neurons or layers. These abilities are properties of this organization. 5. Attention's contribution boils down to the association-bias it lends to vector composition and which influences the aforementioned organization. However, more investigation is needed to ascertain its significance. 6. The entire model is composed from two principal operations: data independent filtering and data dependent aggregation. This generalization unifies Transformers with other sequence models and across modalities. Building upon this foundation we formalize and test a semantic space theory which posits that embedding vectors represent semantic concepts and find some evidence of its validity.
翻訳日:2023-08-22 12:30:48 公開日:2023-08-21
# SpikingBERT:不特定微分を用いたスパイキング言語モデルのトレーニングのためのBERTの蒸留

SpikingBERT: Distilling BERT to Train Spiking Language Models Using Implicit Differentiation ( http://arxiv.org/abs/2308.10873v1 )

ライセンス: Link先を確認
Malyaban Bal, Abhronil Sengupta(参考訳) 大規模言語モデル(llm)は非常に強力に成長しているが、人間の脳よりもニューロンやシナプスは桁違いに少ない。 しかし、運用にはエネルギーとエネルギーがかなり必要である。 本研究では,脳内のシナプス情報の流れからモチベーションを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスピレーションスパイキング言語モデルを提案する。 本稿では,ニューロンの平衡における平均スパイク速度を利用して,暗黙の微分法を用いてニューロモルフィックスパイキングLMを訓練し,サロゲート勾配を使わずにスパイキングニューラルネットワーク(SNN)に基づくアルゴリズムの非微分可能性問題を克服する枠組みを示す。 スパイキングニューロンの定常収束はまた、スケーラブルなスパイキングLMの開発において重要なスパイキングアテンション機構を設計することができる。 さらに、平衡時のニューロンの平均スパイク速度の収束を利用して、トレーニング済みBERTモデルを「教師」として使用し、「学生」スパイクアーキテクチャを訓練する新しいANN-SNN知識蒸留技術を開発した。 本論文で提案するアーキテクチャはBERTをモチベーションとしているが,多種多様な LLM に拡張できる可能性がある。 我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。

Large language Models (LLMs), though growing exceedingly powerful, comprises of orders of magnitude less neurons and synapses than the human brain. However, it requires significantly more power/energy to operate. In this work, we propose a novel bio-inspired spiking language model (LM) which aims to reduce the computational cost of conventional LMs by drawing motivation from the synaptic information flow in the brain. In this paper, we demonstrate a framework that leverages the average spiking rate of neurons at equilibrium to train a neuromorphic spiking LM using implicit differentiation technique, thereby overcoming the non-differentiability problem of spiking neural network (SNN) based algorithms without using any type of surrogate gradient. The steady-state convergence of the spiking neurons also allows us to design a spiking attention mechanism, which is critical in developing a scalable spiking LM. Moreover, the convergence of average spiking rate of neurons at equilibrium is utilized to develop a novel ANN-SNN knowledge distillation based technique wherein we use a pre-trained BERT model as "teacher" to train our "student" spiking architecture. While the primary architecture proposed in this paper is motivated by BERT, the technique can be potentially extended to different kinds of LLMs. Our work is the first one to demonstrate the performance of an operational spiking LM architecture on multiple different tasks in the GLUE benchmark.
翻訳日:2023-08-22 12:30:23 公開日:2023-08-21
# AI/MLアプリケーションのためのMajorana Demonstratorデータリリース

Majorana Demonstrator Data Release for AI/ML Applications ( http://arxiv.org/abs/2308.10856v1 )

ライセンス: Link先を確認
I.J. Arnquist, F.T. Avignone III, A.S. Barabash, C.J. Barton, K.H. Bhimani, E. Blalock, B. Bos, M. Busch, M. Buuck, T.S. Caldwell, Y.-D. Chan, C.D. Christofferson, P.-H. Chu, M.L. Clark, C. Cuesta, J.A. Detwiler, Yu. Efremenko, H. Ejiri, S.R. Elliott, N. Fuad, G.K. Giovanetti, M.P. Green, J. Gruszko, I.S. Guinn, V.E. Guiseppe, C.R. Haufe, R. Henning, D. Hervas Aguilar, E.W. Hoppe, A. Hostiuc, M.F. Kidd, I. Kim, R.T. Kouzes, T.E. Lannen V, A. Li, J.M. Lopez-Castano, R.D. Martin, R. Massarczyk, S.J. Meijer, S. Mertens, T.K. Oli, L.S. Paudel, W. Pettus, A.W.P. Poon, B. Quenallata, D.C. Radford, A.L. Reine, K. Rielage, N.W. Ruof, D.C. Schaper, S.J. Schleich, D. Tedeschi, R.L. Varner, S. Vasilyev, S.L. Watkins, J.F. Wilkerson, C. Wiseman, W. Xu, C.-H. Yu, and B.X. Zhu(参考訳) 囲われたデータリリースは、Majorana Demonstrator実験のキャリブレーションデータのサブセットで構成されている。 各マヨラナイベントには、生のゲルマニウム検出器波形、パルス形状識別カット、校正された最終エネルギーが伴い、全てhdf5ファイルフォーマットで共有される。 このリリースは、データに対する人工知能(AI)と機械学習(ML)アルゴリズムのトレーニングとテストをサポートするように設計されている。 この文書は次のように構成されている。 第1節ではデータセットの内容とフォーマットの概要、第2節ではデータセットの位置とアクセス方法の概要、第3節ではデータセットに関連するNPML機械学習チャレンジ、第4節ではデータセットの使用に関するMajoranaのコラボレーションからの報告、第A節ではこのデータリリースに関する技術的な詳細が記載されている。 このリリースで提供される資料については、liaobo77@ucsd.edu (A. Li)に直接質問してください。

The enclosed data release consists of a subset of the calibration data from the Majorana Demonstrator experiment. Each Majorana event is accompanied by raw Germanium detector waveforms, pulse shape discrimination cuts, and calibrated final energies, all shared in an HDF5 file format along with relevant metadata. This release is specifically designed to support the training and testing of Artificial Intelligence (AI) and Machine Learning (ML) algorithms upon our data. This document is structured as follows. Section I provides an overview of the dataset's content and format; Section II outlines the location of this dataset and the method for accessing it; Section III presents the NPML Machine Learning Challenge associated with this dataset; Section IV contains a disclaimer from the Majorana collaboration regarding the use of this dataset; Appendix A contains technical details of this data release. Please direct questions about the material provided within this release to liaobo77@ucsd.edu (A. Li).
翻訳日:2023-08-22 12:29:14 公開日:2023-08-21
# lateval:横思考パズルからの不完全な情報を含む対話型llms評価ベンチマーク

LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles ( http://arxiv.org/abs/2308.10855v1 )

ライセンス: Link先を確認
Shulin Huang, Shirong Ma, Yinghui Li, Mengzuo Huang, Wuhe Zou, Weidong Zhang, Hai-Tao Zheng(参考訳) LLMの継続的な進化と改良により、彼らは印象的な論理的推論や垂直思考能力を備えています。 しかし、彼らは箱から外れるだろうか? 彼らは有能な側方思考能力を持っているか? 横方向思考パズルのセットアップに続いて,インタラクティブなフレームワーク内でモデルの横方向思考を評価する新しい評価ベンチマークであるLatEvalを提案する。 本ベンチマークでは,モデルによる質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。 LLMのほとんど全てが、インタラクション中に横方向の思考を採用するのに苦労していることがわかった。 例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間に比べて目立った差は維持されている。 この評価ベンチマークは、効果的なAIアシスタントにとって極めて困難で独特なタスクをLLMに提供する。

With the continuous evolution and refinement of LLMs, they are endowed with impressive logical reasoning or vertical thinking capabilities. But can they think out of the box? Do they possess proficient lateral thinking abilities? Following the setup of Lateral Thinking Puzzles, we propose a novel evaluation benchmark, LatEval, which assesses the model's lateral thinking within an interactive framework. In our benchmark, we challenge LLMs with 2 aspects: the quality of questions posed by the model and the model's capability to integrate information for problem-solving. We find that nearly all LLMs struggle with employing lateral thinking during interactions. For example, even the most advanced model, GPT-4, exhibits the advantage to some extent, yet still maintain a noticeable gap when compared to human. This evaluation benchmark provides LLMs with a highly challenging and distinctive task that is crucial to an effective AI assistant.
翻訳日:2023-08-22 12:28:56 公開日:2023-08-21
# ホット$^{85}$Rb蒸気中の反パリティ時間対称性による4波混合

Four-wave mixing with anti-parity-time symmetry in hot $^{85}$Rb vapor ( http://arxiv.org/abs/2308.10850v1 )

ライセンス: Link先を確認
Ziqi Niu, Yue Jiang, Jianming Wen, Chuanwei Zhang, Shengwang Du, Irina Novikova(参考訳) 熱ルビジウム蒸気中における反パリティタイム(反pt)対称光4波混合の実証実験を行い,2つの共役光学場を二重の\lambda$スキームで伝播させ,非ヘルミティアンハミルトニアンによって制御した。 例外点近傍の2つの共役場間の量子強度相関の研究に特に興味を持ち、損失とランジュバンノイズを考慮に入れている。 古典的4波混合利得とそれに付随する2モード相対強度のスクイーズ実験は理論的予測と合理的に一致した。

We report an experimental demonstration of anti-parity-time (anti-PT) symmetric optical four-wave mixing in thermal Rubidium vapor, where the propagation of two conjugate optical fields in a double-$\Lambda$ scheme is governed by a non-Hermitian Hamiltonian. We are particularly interested in studying quantum intensity correlations between the two conjugate fields near the exceptional point, taking into account loss and accompanied Langevin noise. Our experimental measurements of classical four-wave mixing gain and the associated two-mode relative-intensity squeezing are in reasonable agreement with the theoretical predictions.
翻訳日:2023-08-22 12:28:43 公開日:2023-08-21
# AgentVerse:マルチエージェントコラボレーションの促進とエージェントの創発的行動の探索

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents ( http://arxiv.org/abs/2308.10848v1 )

ライセンス: Link先を確認
Weize Chen, Yusheng Su, Jingwei Zuo, Cheng Yang, Chenfei Yuan, Chen Qian, Chi-Min Chan, Yujia Qin, Yaxi Lu, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou(参考訳) 大規模言語モデル(llm)によって権限を付与された自律エージェントは大幅に改善され、幅広いタスクを一般化できるようになった。 しかし、現実のシナリオでは、タスク達成の効率と効果を高めるために個人間の協力がしばしば必要となる。 そこで,人間の集団動力学に触発されて,その構成をits部品よりも大きいシステムとして協調的かつ動的に調整できるマルチエージェントフレームワーク \frameworkを提案する。 実験により,単一のエージェントより優れたマルチエージェントグループを効果的にデプロイできることを示した。 さらに,共同作業におけるグループ内の個々のエージェント間の社会的行動の出現について検討した。 これらの行動から,複数エージェントグループの協調性向上のために,ポジティブな行動を活用し,ネガティブな行動を緩和するための戦略について考察する。 \frameworkのコードは、もうすぐ \url{https://github.com/OpenBMB/AgentVerse}でリリースされます。

Autonomous agents empowered by Large Language Models (LLMs) have undergone significant improvements, enabling them to generalize across a broad spectrum of tasks. However, in real-world scenarios, cooperation among individuals is often required to enhance the efficiency and effectiveness of task accomplishment. Hence, inspired by human group dynamics, we propose a multi-agent framework \framework that can collaboratively and dynamically adjust its composition as a greater-than-the-sum-of-its-parts system. Our experiments demonstrate that \framework framework can effectively deploy multi-agent groups that outperform a single agent. Furthermore, we delve into the emergence of social behaviors among individual agents within a group during collaborative task accomplishment. In view of these behaviors, we discuss some possible strategies to leverage positive ones and mitigate negative ones for improving the collaborative potential of multi-agent groups. Our codes for \framework will soon be released at \url{https://github.com/OpenBMB/AgentVerse}.
翻訳日:2023-08-22 12:28:31 公開日:2023-08-21
# 不均衡データ分類ベンチマークによる量子生成モデルの評価

Evaluating quantum generative models via imbalanced data classification benchmarks ( http://arxiv.org/abs/2308.10847v1 )

ライセンス: Link先を確認
Graham R. Enos, Matthew J. Reagor, Eric Hulburd(参考訳) 量子機械学習モデルの振る舞いが、抽象的または理論的設定以外の従来のモデルから分岐するかどうかを評価するための限られたツールセットが存在する。 本稿では、太陽フレア、心不整脈、音声データを含む20種類の実世界データセットから適応したハイブリッド量子古典型ニューラルネットワークから生成された合成データを分析するための、説明可能な人工知能技術の体系的応用について述べる。 これらのデータセットはそれぞれ、様々な複雑さとクラス不均衡を示す。 我々は,関連する分類タスクに対するクラス不均衡を緩和するために,最先端手法と相対的に生成した量子データをベンチマークする。 このアプローチを利用して問題の品質を解明し、量子古典的ハイブリッド生成モデルに適合する可能性が、多かれ少なかれ低い。

A limited set of tools exist for assessing whether the behavior of quantum machine learning models diverges from conventional models, outside of abstract or theoretical settings. We present a systematic application of explainable artificial intelligence techniques to analyze synthetic data generated from a hybrid quantum-classical neural network adapted from twenty different real-world data sets, including solar flares, cardiac arrhythmia, and speech data. Each of these data sets exhibits varying degrees of complexity and class imbalance. We benchmark the quantum-generated data relative to state-of-the-art methods for mitigating class imbalance for associated classification tasks. We leverage this approach to elucidate the qualities of a problem that make it more or less likely to be amenable to a hybrid quantum-classical generative model.
翻訳日:2023-08-22 12:28:13 公開日:2023-08-21
# CamP:ニューラルラジアンスフィールドのためのカメラプレコンディショニング

CamP: Camera Preconditioning for Neural Radiance Fields ( http://arxiv.org/abs/2308.10902v1 )

ライセンス: Link先を確認
Keunhong Park, Philipp Henzler, Ben Mildenhall, Jonathan T. Barron, Ricardo Martin-Brualla(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、物体や大規模シーンの高忠実度3次元シーン再構成に最適化することができる。 しかし、NeRFは入力として正確なカメラパラメータを必要とし、不正確なカメラパラメータはぼやけたレンダリングをもたらす。 外部および固有のカメラパラメータは、通常、NeRFの前処理ステップとしてStructure-from-Motion (SfM)法を用いて推定されるが、これらの手法が完全に推定されることは滅多にない。 このように、以前の研究では、NeRFと共にカメラパラメータを共同最適化する手法が提案されているが、これらの手法は、挑戦的な設定において、局所最小化の傾向にある。 本研究では,この共同最適化問題に異なるカメラパラメタライゼーションがどう影響するかを解析し,標準パラメタライゼーションが小さな摂動に対して大きな差を示し,不条件の最適化問題を引き起こす可能性があることを観察する。 本稿では,カメラパラメータ間の相関を解消し,その効果を正規化するホワイトニング変換の計算にプロキシ問題を用いることを提案し,この変換をカメラパラメータの事前条件として併用する。 我々は、Zip-NeRFのようなカメラに最適化されない最先端のNeRFアプローチと比較して67%の誤差率(RMSE)を減少させ、SCNeRFのカメラパラメータ化を用いた最先端の関節最適化アプローチと比較して29%の精度で改善した。 我々の手法は実装が容易であり、実行時間を大幅に増加させることなく、様々なカメラパラメータ化に適用でき、他のNeRFモデルに簡単に組み込むことができる。

Neural Radiance Fields (NeRF) can be optimized to obtain high-fidelity 3D scene reconstructions of objects and large-scale scenes. However, NeRFs require accurate camera parameters as input -- inaccurate camera parameters result in blurry renderings. Extrinsic and intrinsic camera parameters are usually estimated using Structure-from-Motion (SfM) methods as a pre-processing step to NeRF, but these techniques rarely yield perfect estimates. Thus, prior works have proposed jointly optimizing camera parameters alongside a NeRF, but these methods are prone to local minima in challenging settings. In this work, we analyze how different camera parameterizations affect this joint optimization problem, and observe that standard parameterizations exhibit large differences in magnitude with respect to small perturbations, which can lead to an ill-conditioned optimization problem. We propose using a proxy problem to compute a whitening transform that eliminates the correlation between camera parameters and normalizes their effects, and we propose to use this transform as a preconditioner for the camera parameters during joint optimization. Our preconditioned camera optimization significantly improves reconstruction quality on scenes from the Mip-NeRF 360 dataset: we reduce error rates (RMSE) by 67% compared to state-of-the-art NeRF approaches that do not optimize for cameras like Zip-NeRF, and by 29% relative to state-of-the-art joint optimization approaches using the camera parameterization of SCNeRF. Our approach is easy to implement, does not significantly increase runtime, can be applied to a wide variety of camera parameterizations, and can straightforwardly be incorporated into other NeRF-like models.
翻訳日:2023-08-22 12:20:16 公開日:2023-08-21
# 人間の映像からの構造化世界モデル

Structured World Models from Human Videos ( http://arxiv.org/abs/2308.10901v1 )

ライセンス: Link先を確認
Russell Mendonca, Shikhar Bahl, Deepak Pathak(参考訳) 我々は、現実世界で直接、複雑な一般的な行動を学ぶ問題に取り組む。 そこで本研究では,ロボットが操作スキルを効率的に学習する手法を提案する。 コンピュータビジョンと自然言語の分野での大規模データセットからの学習の成功に触発されて、ロボットは効率的に学習するためには、インターネット規模の人間のビデオデータを活用する必要があると考えています。 人間は多くの興味深い方法で世界と対話し、ロボットが有用な行動や余裕を理解するだけでなく、これらの行動が操作のために世界に与える影響も理解することができる。 我々のアプローチは、人間のビデオから学んだ視覚的余裕に基づく、構造化された人間中心のアクションスペースを構築する。 さらに,人間の映像のワールドモデルをトレーニングし,タスクの監督なしに少数のロボットインタラクションデータを微調整する。 本研究では,この空き空間世界モデルのアプローチにより,複雑な環境下で,30分以内のインタラクションでさまざまな操作スキルを学習することができることを示す。 ビデオはhttps://human-world-model.github.ioで見ることができる。

We tackle the problem of learning complex, general behaviors directly in the real world. We propose an approach for robots to efficiently learn manipulation skills using only a handful of real-world interaction trajectories from many different settings. Inspired by the success of learning from large-scale datasets in the fields of computer vision and natural language, our belief is that in order to efficiently learn, a robot must be able to leverage internet-scale, human video data. Humans interact with the world in many interesting ways, which can allow a robot to not only build an understanding of useful actions and affordances but also how these actions affect the world for manipulation. Our approach builds a structured, human-centric action space grounded in visual affordances learned from human videos. Further, we train a world model on human videos and fine-tune on a small amount of robot interaction data without any task supervision. We show that this approach of affordance-space world models enables different robots to learn various manipulation skills in complex settings, in under 30 minutes of interaction. Videos can be found at https://human-world-model.github.io
翻訳日:2023-08-22 12:19:42 公開日:2023-08-21
# 多田! デジタルアバターのテキスト化

TADA! Text to Animatable Digital Avatars ( http://arxiv.org/abs/2308.10899v1 )

ライセンス: Link先を確認
Tingting Liao, Hongwei Yi, Yuliang Xiu, Jiaxaing Tang, Yangyi Huang, Justus Thies, Michael J. Black(参考訳) テキスト記述を取り入れ,高品質な幾何学とライフスタイルを備えた表現型3Dアバターを製作し,従来のグラフィックパイプラインでアニメーションやレンダリングを行う,シンプルなyet- EffectiveアプローチであるTADを紹介した。 既存のテキストベースの文字生成手法は、テクスチャやテクスチャの質の点で制限されており、特に顔領域における幾何学とテクスチャの整合性のために現実的にアニメーションすることはできない。 これらの制限を克服するために、TADは2次元拡散モデルとアニマタブルパラメトリックボディモデルの相乗効果を利用する。 具体的には、3D変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導き、スコア蒸留サンプリング(SDS)を用いた階層的レンダリングを用いてテキストから高品質で詳細な3Dアバターを作成する。 形状とテクスチャの整合性を確保するため、生成した文字の正規表現とRGB画像を作成し、SDSトレーニングプロセスにそれらの潜伏埋め込みを利用する。 さらに、トレーニング中に生成された文字を変形させる様々な表現パラメータを導入し、生成した文字のセマンティクスが元のSMPL-Xモデルと一致し続けることを保証する。 総合的な評価は、TADが質的および量的両面で既存のアプローチを大幅に上回っていることを示している。 TADAは、アニメーションやレンダリングが可能な大規模なデジタル文字アセットの作成を可能にすると同時に、自然言語による編集も容易である。 コードは研究目的で公開されます。

We introduce TADA, a simple-yet-effective approach that takes textual descriptions and produces expressive 3D avatars with high-quality geometry and lifelike textures, that can be animated and rendered with traditional graphics pipelines. Existing text-based character generation methods are limited in terms of geometry and texture quality, and cannot be realistically animated due to inconsistent alignment between the geometry and the texture, particularly in the face region. To overcome these limitations, TADA leverages the synergy of a 2D diffusion model and an animatable parametric body model. Specifically, we derive an optimizable high-resolution body model from SMPL-X with 3D displacements and a texture map, and use hierarchical rendering with score distillation sampling (SDS) to create high-quality, detailed, holistic 3D avatars from text. To ensure alignment between the geometry and texture, we render normals and RGB images of the generated character and exploit their latent embeddings in the SDS training process. We further introduce various expression parameters to deform the generated character during training, ensuring that the semantics of our generated character remain consistent with the original SMPL-X model, resulting in an animatable character. Comprehensive evaluations demonstrate that TADA significantly surpasses existing approaches on both qualitative and quantitative measures. TADA enables creation of large-scale digital character assets that are ready for animation and rendering, while also being easily editable through natural language. The code will be public for research purposes.
翻訳日:2023-08-22 12:19:26 公開日:2023-08-21
# 階層的変形による物理認識メッシュ生成

Few-Shot Physically-Aware Articulated Mesh Generation via Hierarchical Deformation ( http://arxiv.org/abs/2308.10898v1 )

ライセンス: Link先を確認
Xueyi Liu and Bin Wang and He Wang and Li Yi(参考訳) 数ショットの物理的認識によるメッシュ生成の問題について検討する。 少数の例のみを含む明瞭なオブジェクトデータセットを観察することにより、高い視覚的忠実度と物理的妥当性を持つ多様なメッシュを生成できるモデルを学びたい。 以前のメッシュ生成モデルは、少数の例から多様なデータ空間を記述するのが困難であったり、サンプルの物理的妥当性を保証できなかったりする。 上記の課題について,我々は2つの重要なイノベーションを提案する。 1)大規模剛体メッシュから転置可能な変形パターンを借用して, 分割・分割の哲学に基づく階層的メッシュ変形に基づく生成モデルと, 限定的挑戦の軽減 2) 物理的に妥当な世代を奨励する物理特性を考慮した変形補正法。 提案手法は,従来手法よりも多様性が高く,視覚忠実度が高く,物理的妥当性のよい関節メッシュを生成できるため,6つの関節カテゴリについて広範囲に実験を行った。 さらに, アブレーション研究における2つの革新の確固たる貢献を検証した。 コード付きプロジェクトページはhttps://meowu7.github.io/few-arti-obj-genで入手できる。

We study the problem of few-shot physically-aware articulated mesh generation. By observing an articulated object dataset containing only a few examples, we wish to learn a model that can generate diverse meshes with high visual fidelity and physical validity. Previous mesh generative models either have difficulties in depicting a diverse data space from only a few examples or fail to ensure physical validity of their samples. Regarding the above challenges, we propose two key innovations, including 1) a hierarchical mesh deformation-based generative model based upon the divide-and-conquer philosophy to alleviate the few-shot challenge by borrowing transferrable deformation patterns from large scale rigid meshes and 2) a physics-aware deformation correction scheme to encourage physically plausible generations. We conduct extensive experiments on 6 articulated categories to demonstrate the superiority of our method in generating articulated meshes with better diversity, higher visual fidelity, and better physical validity over previous methods in the few-shot setting. Further, we validate solid contributions of our two innovations in the ablation study. Project page with code is available at https://meowuu7.github.io/few-arti-obj-gen.
翻訳日:2023-08-22 12:18:58 公開日:2023-08-21
# 言語モデルは聴くことができるか?

Can Language Models Learn to Listen? ( http://arxiv.org/abs/2308.10897v1 )

ライセンス: Link先を確認
Evonne Ng, Sanjay Subramanian, Dan Klein, Angjoo Kanazawa, Trevor Darrell, Shiry Ginosar(参考訳) 本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成する枠組みを提案する。 話者の単語の入力文字をタイムスタンプで入力すると,vq-vaeを用いて定量化された一連の聞き手の表情ジェスチャの応答を自己回帰的に予測する。 ジェスチャーは言語要素であるため、量子化された原子運動要素を変換器に基づく大規模言語モデルに追加の言語トークン入力として扱うことを提案する。 テキストのみに事前学習した言語モデルの重みで変換器を初期化すると、変換器をスクラッチからトレーニングするよりも、はるかに高品質なリスナー応答が得られる。 定量的指標と質的ユーザスタディを通して,我々の生成したリスナ動作は,言語セマンティクスを熟知し,反映していることを示す。 本評価では,音声テキストの時間的・意味的側面を活用できるモデルの能力を分析する。 プロジェクトページ: https://eecs.berkeley.edu/~evonne_ng/projects/text2listen/

We present a framework for generating appropriate facial responses from a listener in dyadic social interactions based on the speaker's words. Given an input transcription of the speaker's words with their timestamps, our approach autoregressively predicts a response of a listener: a sequence of listener facial gestures, quantized using a VQ-VAE. Since gesture is a language component, we propose treating the quantized atomic motion elements as additional language token inputs to a transformer-based large language model. Initializing our transformer with the weights of a language model pre-trained only on text results in significantly higher quality listener responses than training a transformer from scratch. We show that our generated listener motion is fluent and reflective of language semantics through quantitative metrics and a qualitative user study. In our evaluation, we analyze the model's ability to utilize temporal and semantic aspects of spoken text. Project page: https://people.eecs.berkeley.edu/~evonne_ng/projects/text2listen/
翻訳日:2023-08-22 12:18:41 公開日:2023-08-21
# 効率的な逆グラフィックスのための微分可能シャドーマッピング

Differentiable Shadow Mapping for Efficient Inverse Graphics ( http://arxiv.org/abs/2308.10896v1 )

ライセンス: Link先を確認
Markus Worchel and Marc Alexa(参考訳) トライアングルメッシュの微分可能なレンダリングにおいて,影を効率的に生成する方法を示す。 我々の中心的な観察は、光のレンダリングに基づく影の近似技術である事前フィルタリングシャドウマッピングが、既存のラスタライザと組み合わせることで、異なる視認性情報を得ることができることである。 我々は,微分可能なシャドウマップが微分可能な光輸送シミュレーションよりも1桁早く,同じ精度で計算できるという,いくつかの逆グラフィックス問題を示す。

We show how shadows can be efficiently generated in differentiable rendering of triangle meshes. Our central observation is that pre-filtered shadow mapping, a technique for approximating shadows based on rendering from the perspective of a light, can be combined with existing differentiable rasterizers to yield differentiable visibility information. We demonstrate at several inverse graphics problems that differentiable shadow maps are orders of magnitude faster than differentiable light transport simulation with similar accuracy -- while differentiable rasterization without shadows often fails to converge.
翻訳日:2023-08-22 12:18:24 公開日:2023-08-21
# 個人差分画像分類におけるアンロック精度と公正性

Unlocking Accuracy and Fairness in Differentially Private Image Classification ( http://arxiv.org/abs/2308.10888v1 )

ライセンス: Link先を確認
Leonard Berrada, Soham De, Judy Hanwen Shen, Jamie Hayes, Robert Stanforth, David Stutz, Pushmeet Kohli, Samuel L. Smith, Borja Balle(参考訳) プライバシ保存機械学習は、機密情報を漏らすことなく、プライベートデータでモデルをトレーニングすることを目的としている。 差分プライバシー(DP)は、正式なプライバシー保証を提供するため、プライバシ保護トレーニングのための金の標準フレームワークと考えられている。 しかし、非民間モデルと比較すると、dpで訓練されたモデルは精度が著しく低下することが多い。 個人分類器はまた、サブポピュレーション全体のパフォーマンス格差が大きく、公平性に関する懸念を生じさせると考えられている。 DPで訓練された分類器の低性能は、業界におけるプライバシー保護機械学習の普及を妨げている。 本稿では,事前学習データと下流タスク間の大きな分散シフトが存在する場合でも,dpを微調整した事前学習基礎モデルが非プライベート分類器と同等の精度を実現できることを示す。 2つの医用画像ベンチマークを含む4つのデータセットにわたって、プライベートな精度をプライベートに達成しています。 さらに,私的医療分類器は,非私的モデルよりも人口集団間のパフォーマンス格差が大きくない。 DPトレーニングを実用的で信頼性の高い技術にするこのマイルストーンは、マシンラーニング実践者が個人のプライバシーを保護しながら、機密性の高いデータセットで安全にトレーニングすることが可能な可能性がある。

Privacy-preserving machine learning aims to train models on private data without leaking sensitive information. Differential privacy (DP) is considered the gold standard framework for privacy-preserving training, as it provides formal privacy guarantees. However, compared to their non-private counterparts, models trained with DP often have significantly reduced accuracy. Private classifiers are also believed to exhibit larger performance disparities across subpopulations, raising fairness concerns. The poor performance of classifiers trained with DP has prevented the widespread adoption of privacy preserving machine learning in industry. Here we show that pre-trained foundation models fine-tuned with DP can achieve similar accuracy to non-private classifiers, even in the presence of significant distribution shifts between pre-training data and downstream tasks. We achieve private accuracies within a few percent of the non-private state of the art across four datasets, including two medical imaging benchmarks. Furthermore, our private medical classifiers do not exhibit larger performance disparities across demographic groups than non-private models. This milestone to make DP training a practical and reliable technology has the potential to widely enable machine learning practitioners to train safely on sensitive datasets while protecting individuals' privacy.
翻訳日:2023-08-22 12:17:56 公開日:2023-08-21
# セキュアストレージと盗聴器を用いた量子対称プライベート情報検索

Quantum Symmetric Private Information Retrieval with Secure Storage and Eavesdroppers ( http://arxiv.org/abs/2308.10883v1 )

ライセンス: Link先を確認
Alptug Aytekin, Mohamed Nomeir, Sajani Vithana and Sennur Ulukus(参考訳) 我々は、古典的および量子的変動として、$X$-secure、$E$-eavesdropped、$T$-colluding symmetric private information search (SPIR)を考える。 これは、古典的または量子的変動におけるX$-securityでSPIRを研究する最初の研究である。 まず、古典的な$X$-secure, $E$-eavesdropped, $T$-colluding SPIR (XSETSPIR) のスキームをクロス部分空間アライメント(CSA)の修正版に基づいて開発し、$R= 1\frac{X+\max(T,E)}{N}$とする。 修正されたスキームは、対称プライバシーの利点を付加して、$X$-secure PIRで使われるスキームと同じレートを達成する。 次に、このスキームを$N$-sumボックスの抽象化に基づいて量子的に拡張する。 これは量子プライベート情報検索(QPIR)における盗聴器の存在を考える最初の研究である。 量子変動において、盗聴者は、空気のデコダビリティのため、古典的なチャネルよりも量子チャネル上の情報へのアクセスが良好である。 そこで我々は,量子チャネル上の盗聴者と戦うための別の手法を開発した。 この研究において、$X$-secure, $E$-eavesdropped, $T$-colluding quantum SPIR (XSETQSPIR) が提案されたスキームは、データベース間の共有絡み合いから超高密度の符号化ゲインを維持する、すなわち、$R_Q = \min\left\{ 1, 2\left(1-\frac{X+\max(T,E)}{N}\right)\right$である。

We consider both the classical and quantum variations of $X$-secure, $E$-eavesdropped and $T$-colluding symmetric private information retrieval (SPIR). This is the first work to study SPIR with $X$-security in classical or quantum variations. We first develop a scheme for classical $X$-secure, $E$-eavesdropped and $T$-colluding SPIR (XSETSPIR) based on a modified version of cross subspace alignment (CSA), which achieves a rate of $R= 1 - \frac{X+\max(T,E)}{N}$. The modified scheme achieves the same rate as the scheme used for $X$-secure PIR with the extra benefit of symmetric privacy. Next, we extend this scheme to its quantum counterpart based on the $N$-sum box abstraction. This is the first work to consider the presence of eavesdroppers in quantum private information retrieval (QPIR). In the quantum variation, the eavesdroppers have better access to information over the quantum channel compared to the classical channel due to the over-the-air decodability. To that end, we develop another scheme specialized to combat eavesdroppers over quantum channels. The scheme proposed for $X$-secure, $E$-eavesdropped and $T$-colluding quantum SPIR (XSETQSPIR) in this work maintains the super-dense coding gain from the shared entanglement between the databases, i.e., achieves a rate of $R_Q = \min\left\{ 1, 2\left(1-\frac{X+\max(T,E)}{N}\right)\right\}$.
翻訳日:2023-08-22 12:17:37 公開日:2023-08-21
# AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes ( http://arxiv.org/abs/2308.07221v4 )

ライセンス: Link先を確認
Zhaohui Li and Haitao Wang and Xinghua Jiang(参考訳) 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。 まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。 既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音声特徴表現を得る。 さらに,Multi-Positive sample Contrastive (MPC) 学習手法の統合を開拓した。 同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。 実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、質の高い音声表現を導出する。 特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。 その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。 具体的には、AudioSet(2M,20K)やFSD50K(53.9,45.1、65.6)などのデータセットに対して、我々のアプローチは顕著な結果をもたらす。 私たちは、コードとモデルの両方をオープンに共有しました。

We propose a method named AudioFormer,which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially,we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model,we generate discrete acoustic codes and utilize them to train a masked language model (MLM),thereby obtaining audio feature representations. Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments,we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology,ultimately deriving high-quality audio representations. Notably,the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets,and even outperforms audio-visual multimodal classification models on select datasets. Specifically,our approach achieves remarkable results on datasets including AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and 65.6,respectively. We have openly shared both the code and models: https://github.com/LZH-0225/AudioFormer.git.
翻訳日:2023-08-22 10:32:18 公開日:2023-08-21
# iplan:分散マルチエージェント強化学習による異種交通のインテントアウェア計画

iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.06236v3 )

ライセンス: Link先を確認
Xiyang Wu, Rohan Chandra, Tianrui Guan, Amrit Singh Bedi, Dinesh Manocha(参考訳) 密集した均一な交通シナリオで安全かつ効率的に航行することは、近くのドライバーの行動や意図を推測できないため、自動運転車(AV)にとって困難である。 本研究では,高密度かつ不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。 インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。 エージェントの戦略に対するインセンティブは,運転行動や性格に基づく高レベルの意思決定のための行動インセンティブと,現在の交通状況に基づく衝突回避のための行動計画のためのインスタントインセンティブの2つをモデル化する。 提案手法により,エージェントは相手の行動インセンティブを推測し,その推測情報を意思決定や行動計画プロセスに統合することができる。 非協力型ナビゲーションと不均一道路という2つのシミュレーション環境で実験を行う。 ヘテロジニアスハイウェイでは,QMIXやMAPPOなどのMARLベースラインを集中訓練(CTDE)と比較すると,本手法は軽度・カオス性交通において4.3%,38.4%,成功率48.1%,カオス性交通において生存時間が80.6%であった。 また,分散トレーニング分散実行(dtde)ベースラインippoと比較し,軽度トラフィックとカオストラフィックでは12.7%,6.3%,成功率25.3%,生存時間13.7%のエピソディック報酬を示した。

Navigating safely and efficiently in dense and heterogeneous traffic scenarios is challenging for autonomous vehicles (AVs) due to their inability to infer the behaviors or intentions of nearby drivers. In this work, we introduce a distributed multi-agent reinforcement learning (MARL) algorithm that can predict trajectories and intents in dense and heterogeneous traffic scenarios. Our approach for intent-aware planning, iPLAN, allows agents to infer nearby drivers' intents solely from their local observations. We model two distinct incentives for agents' strategies: Behavioral Incentive for high-level decision-making based on their driving behavior or personality and Instant Incentive for motion planning for collision avoidance based on the current traffic state. Our approach enables agents to infer their opponents' behavior incentives and integrate this inferred information into their decision-making and motion-planning processes. We perform experiments on two simulation environments, Non-Cooperative Navigation and Heterogeneous Highway. In Heterogeneous Highway, results show that, compared with centralized training decentralized execution (CTDE) MARL baselines such as QMIX and MAPPO, our method yields a 4.3% and 38.4% higher episodic reward in mild and chaotic traffic, with 48.1% higher success rate and 80.6% longer survival time in chaotic traffic. We also compare with a decentralized training decentralized execution (DTDE) baseline IPPO and demonstrate a higher episodic reward of 12.7% and 6.3% in mild traffic and chaotic traffic, 25.3% higher success rate, and 13.7% longer survival time.
翻訳日:2023-08-22 10:31:52 公開日:2023-08-21
# GradTree: 勾配の未熟な軸方向決定木を学習する

GradTree: Learning Axis-Aligned Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v3 )

ライセンス: Link先を確認
Sascha Marton and Stefan L\"udtke and Christian Bartelt and Heiner Stuckenschmidt(参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。 しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。 したがって、共通のアプローチは各内部ノードの局所的な不純物を最小化する欲望成長アルゴリズムを用いてdtsを学ぶ。 残念なことに、この欲深い手順は不正確な木につながる可能性がある。 本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。 提案手法では,高密度dt表現上のストレートスルー演算子を用いたバックプロパゲーションを用いて,全木パラメータを協調的に最適化する。 提案手法は,バイナリ分類ベンチマークの既存手法を上回り,マルチクラスタスクの競合結果を得る。

Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to inaccurate trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation, to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks.
翻訳日:2023-08-22 10:31:20 公開日:2023-08-21
# 言語モデリングのための強化自己学習(rest)

Reinforced Self-Training (ReST) for Language Modeling ( http://arxiv.org/abs/2308.08998v2 )

ライセンス: Link先を確認
Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant, Alex Ahern, Miaosen Wang, Chenjie Gu, Wolfgang Macherey, Arnaud Doucet, Orhan Firat, Nando de Freitas(参考訳) 人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。 本稿では,再強化自己学習(Reinforced Self-Training, ReST)と呼ばれるバッチ強化学習(RL)に着想を得た,LLMと人間の嗜好を整合させる簡単なアルゴリズムを提案する。 最初のLLMポリシーが与えられた後、ReSTはポリシーからサンプルを生成してデータセットを生成し、オフラインのRLアルゴリズムを使用してLLMポリシーを改善する。 ReSTはトレーニングデータセットがオフラインで生成されるため、通常のオンラインRLHFメソッドよりも効率的です。 ReSTは、すべての生成学習設定に適用可能な一般的なアプローチであるが、機械翻訳への応用に焦点を当てる。 この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。

Reinforcement learning from human feedback (RLHF) can improve the quality of large language model's (LLM) outputs by aligning them with human preferences. We propose a simple algorithm for aligning LLMs with human preferences inspired by growing batch reinforcement learning (RL), which we call Reinforced Self-Training (ReST). Given an initial LLM policy, ReST produces a dataset by generating samples from the policy, which are then used to improve the LLM policy using offline RL algorithms. ReST is more efficient than typical online RLHF methods because the training dataset is produced offline, which allows data reuse. While ReST is a general approach applicable to all generative learning settings, we focus on its application to machine translation. Our results show that ReST can substantially improve translation quality, as measured by automated metrics and human evaluation on machine translation benchmarks in a compute and sample-efficient manner.
翻訳日:2023-08-22 10:27:16 公開日:2023-08-21
# 産業化社会のデジタル浸透のモデル化とそれに続くトランスフィギュレーション

Modeling Digital Penetration of the Industrialized Society and its Ensuing Transfiguration ( http://arxiv.org/abs/2308.08979v2 )

ライセンス: Link先を確認
Johannes Vrana, Ripudaman Singh(参考訳) 第4次産業革命は、デジタル技術が専門分野と社会空間に深く統合され、社会に有意義に奉仕する機会を与えている。 人間は、状況が明らかなときに社会福祉を革新的に改善する能力を持っている。 最初の3つの革命ではそうではなかった。 このように、社会は好意的にライフスタイルの変化を受け入れており、いくつかのネガティブな結果が好ましくない。 第4世代はまだ初期段階なので、もっとうまくコントロールできます。 本稿では, 価値創造, 価値消費, インフラの実現, 必要なスキル, ガバナンスを包括する, 産業生態系の統一モデルを提案する。 このデザイン思考視点は、デジタルトランスフォーメーションの消費者側を含むもので、デジタルトランスフィギュレーション(Digital Transfiguration)と呼ばれる次の大きなライフスタイル変化の舞台となる。 検証と理解の容易さのために、このモデルはよく理解された自動車産業に導かれる。 このモデルは、産業創造と社会消費の両方のデジタル浸透を、いくつかの利害関係者の変革の旅に合わせる形で統合する。

The Fourth Industrial Revolution, ushered by the deeper integration of digital technologies into professional and social spaces, provides an opportunity to meaningfully serve society. Humans have tremendous capability to innovatively improve social well-being when the situation is clear. Which was not the case during the first three revolutions. Thus, society has been accepting lifestyle changes willingly and several negative consequences unwillingly. Since the fourth one is still in its infancy, we can control it better. This paper presents a unified model of the industrialized ecosystem covering value creation, value consumption, enabling infrastructure, required skills, and additional governance. This design thinking viewpoint, which includes the consumer side of digital transformation, sets the stage for the next major lifestyle change, termed Digital Transfiguration. For validation and ease of comprehension, the model draws upon the well-understood automobile industry. This model unifies the digital penetration of both industrial creation and social consumption, in a manner that aligns several stakeholders on their transformation journey.
翻訳日:2023-08-22 10:26:58 公開日:2023-08-21
# 長寿命量子メモリによる101km光ファイバーの原子-光子絡み合い

Long-lived quantum memory enabling atom-photon entanglement over 101 km telecom fiber ( http://arxiv.org/abs/2308.08892v2 )

ライセンス: Link先を確認
Yiru Zhou, Pooja Malik, Florian Fertig, Matthias Bock, Tobias Bauer, Tim van Leent, Wei Zhang, Christoph Becher, Harald Weinfurter(参考訳) 長距離絡み合い分布は、セキュアな通信や分散量子コンピューティングなどの応用を可能にする量子ネットワークの鍵となるタスクである。 本稿では, 1 つの ^{87}$Rb 原子と長い光ファイバー上の 1 つの光子との絡み合いを拡大する新たな展開について報告する。 このような繊維を介して長い飛行時間に高い忠実性を維持するために、長寿命のクビット符号化を適用することにより、単一原子のコヒーレンス時間を7msに延長する。 さらに、光子の波長を偏光保存量子周波数変換によって通信Sバンドに変換することにより、ファイバーの減衰を最小化する。 これにより、70.8$\pm$2.4%以上の忠実度で101kmの光ファイバを通過した後、原子量子メモリと放出光子の絡み合いを観測できる。 しかし、原子や光子のコヒーレンスが失われて忠実度が低下することはなくなったが、検出器の暗黒数よりも現在の設定では、我々のプラットフォームが都市間の量子ネットワークリンクを実現するのに適していることを示している。

Long-distance entanglement distribution is the key task for quantum networks, enabling applications such as secure communication and distributed quantum computing. Here we report on novel developments extending the reach for sharing entanglement between a single $^{87}$Rb atom and a single photon over long optical fibers. To maintain a high fidelity during the long flight times through such fibers, the coherence time of the single atom is prolonged to 7 ms by applying a long-lived qubit encoding. In addition, the attenuation in the fibers is minimized by converting the photon's wavelength to the telecom S-Band via polarization-preserving quantum frequency conversion. This enables to observe entanglement between the atomic quantum memory and the emitted photon after passing 101 km of optical fiber with a fidelity better than 70.8$\pm$2.4%. The fidelity, however, is no longer reduced due to loss of coherence of the atom or photon but in the current setup rather due to detector dark counts, showing the suitability of our platform to realize city-to-city scale quantum network links.
翻訳日:2023-08-22 10:26:26 公開日:2023-08-21
# 対称重み付き一階モデルサンプリングのためのリフテッドアルゴリズム

Lifted Algorithms for Symmetric Weighted First-Order Model Sampling ( http://arxiv.org/abs/2308.08828v2 )

ライセンス: Link先を確認
Yuanhong Wang, Juhua Pu, Yuyi Wang and Ond\v{r}ej Ku\v{z}elka(参考訳) 重み付きモデルカウント(英: Weighted Model counting、WMC)は、命題式の全割り当て(すなわちモデル)の重み付き和を計算するタスクである。 同様に、重み付きモデルサンプリング(wms)は、各重みに比例する確率のモデルをランダムに生成することを目的としている。 wmc と wms はどちらも正確に解くのが難しく、$\#\mathsf{p}$-hard の複雑性クラスに分類される。 しかし、命題公式がコンパクトに表現され一階述語論理で表現できるならば、数え上げ問題は扱いやすいことがあることが知られている。 そのような場合、モデルカウント問題はドメインサイズの時間多項式で解くことができ、ドメインリフト可能(domain-liftable)として知られている。 重み付けされたモデルサンプリングについてもそうであるのか? 本稿では,この質問に対して肯定的に答える。 具体的には,1次論理の2変数フラグメントを量子化器でサンプリングする際の領域リフト性について,このフラグメントを時間多項式でドメインサイズで効率的にサンプリングするアルゴリズムを考案した。 さらに, 濃度制約の存在下においても, この結果が持続することを示した。 提案手法を実証的に検証するために, 組合せ構造を均一に生成し, 統計的関係モデルでサンプリングするために, 様々な一階式について実験を行った。 以上の結果から,本アルゴリズムは最先端のWMSサンプリング器よりも高い性能を示し,理論的結果を確認した。

Weighted model counting (WMC) is the task of computing the weighted sum of all satisfying assignments (i.e., models) of a propositional formula. Similarly, weighted model sampling (WMS) aims to randomly generate models with probability proportional to their respective weights. Both WMC and WMS are hard to solve exactly, falling under the $\#\mathsf{P}$-hard complexity class. However, it is known that the counting problem may sometimes be tractable, if the propositional formula can be compactly represented and expressed in first-order logic. In such cases, model counting problems can be solved in time polynomial in the domain size, and are known as domain-liftable. The following question then arises: Is it also the case for weighted model sampling? This paper addresses this question and answers it affirmatively. Specifically, we prove the domain-liftability under sampling for the two-variables fragment of first-order logic with counting quantifiers in this paper, by devising an efficient sampling algorithm for this fragment that runs in time polynomial in the domain size. We then further show that this result continues to hold even in the presence of cardinality constraints. To empirically verify our approach, we conduct experiments over various first-order formulas designed for the uniform generation of combinatorial structures and sampling in statistical-relational models. The results demonstrate that our algorithm outperforms a start-of-the-art WMS sampler by a substantial margin, confirming the theoretical results.
翻訳日:2023-08-22 10:25:55 公開日:2023-08-21
# テキスト認識のための自己蒸留正規化コネクショニスト時間的分類損失:単純かつ効果的なアプローチ

Self-distillation Regularized Connectionist Temporal Classification Loss for Text Recognition: A Simple Yet Effective Approach ( http://arxiv.org/abs/2308.08806v2 )

ライセンス: Link先を確認
Ziyin Zhang, Ning Lu, Minghui Liao, Yongshuai Huang, Cheng Li, Min Wang and Wei Peng(参考訳) テキスト認識手法は急速に発展しつつある。 強力なモジュール、言語モデル、un-および半教師なしの学習スキームなど、いくつかの高度なテクニックは、公開ベンチマークのパフォーマンスを継続的に押し上げる。 しかし、損失関数の観点から、テキスト認識モデルをいかに最適化するかという問題は概ね見過ごされている。 CTCに基づく手法は、性能と推論速度のバランスが良く、精度の低下に苦慮しているため、実際に広く用いられている。 CTC損失は、個々の文字を学習することを無視しながら、シーケンスターゲット全体の最適化を強調するためである。 本稿では,CTCモデルを用いた自己蒸留方式を提案する。 フレームワイズ正規化項をctc損失に取り入れ、個々の監督を強調し、潜在アライメントの最大化後アライメントを活用し、ctcベースのモデル間の蒸留で生じる不整合問題を解決する。 正規化ctc損失を蒸留接続主義時間的分類 (dctc) 損失と呼ぶ。 DCTCの損失はモジュールフリーで、余分なパラメータや推論遅延、追加のトレーニングデータやフェーズを必要としない。 公開ベンチマークの大規模な実験は、DCTCがこれらの欠点を全くなく、テキスト認識モデルの精度を最大2.6%向上させることができることを示した。

Text recognition methods are gaining rapid development. Some advanced techniques, e.g., powerful modules, language models, and un- and semi-supervised learning schemes, consecutively push the performance on public benchmarks forward. However, the problem of how to better optimize a text recognition model from the perspective of loss functions is largely overlooked. CTC-based methods, widely used in practice due to their good balance between performance and inference speed, still grapple with accuracy degradation. This is because CTC loss emphasizes the optimization of the entire sequence target while neglecting to learn individual characters. We propose a self-distillation scheme for CTC-based model to address this issue. It incorporates a framewise regularization term in CTC loss to emphasize individual supervision, and leverages the maximizing-a-posteriori of latent alignment to solve the inconsistency problem that arises in distillation between CTC-based models. We refer to the regularized CTC loss as Distillation Connectionist Temporal Classification (DCTC) loss. DCTC loss is module-free, requiring no extra parameters, longer inference lag, or additional training data or phases. Extensive experiments on public benchmarks demonstrate that DCTC can boost text recognition model accuracy by up to 2.6%, without any of these drawbacks.
翻訳日:2023-08-22 10:25:26 公開日:2023-08-21
# 分子光力学キャビティを用いた増幅周波数アップ変換赤外信号

Amplifying Frequency Up-Converted Infrared Signals with a Molecular Optomechanical Cavity ( http://arxiv.org/abs/2308.08782v2 )

ライセンス: Link先を確認
Fen Zou, Lei Du, Yong Li, Hui Dong(参考訳) 分子光メカニカルカップリングによって実現される周波数アップ変換は、最近、信号の量子コヒーレント変換を通じて赤外線信号を可視範囲に変換するための有望なアプローチとして登場した。 しかし、これらの変換信号の検出は、本質的に信号強度が弱いため、大きな課題となる。 本研究では,10〜7$分子からなる分子キャビティ系において,1000以上の因子で信号強度を増強できる増幅機構を提案する。 この機構は分子集合モードとストークスサイドバンドポンプとの強い結合強化を利用する。 我々の研究は赤外線信号を可視範囲にアップ変換するための実現可能なアプローチを示している。

Frequency up-conversion, enabled by molecular optomechanical coupling, has recently emerged as a promising approach for converting infrared signals into the visible range through quantum coherent conversion of signals. However, detecting these converted signals poses a significant challenge due to their inherently weak signal intensity. In this work, we propose an amplification mechanism capable of enhancing the signal intensity by a factor of 1000 or more in a molecular-cavity system consisting $10^{7}$ molecules. The mechanism takes advantage of the strong coupling enhancement with molecular collective mode and Stokes sideband pump. Our work demonstrates a feasible approach for up-converting infrared signals to the visible range.
翻訳日:2023-08-22 10:25:03 公開日:2023-08-21
# インコンテキスト学習のための実証実験

Exploring Demonstration Ensembling for In-context Learning ( http://arxiv.org/abs/2308.08780v2 )

ライセンス: Link先を確認
Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang(参考訳) インコンテキスト学習(ICL)は、与えられたタスク、すなわちデモのための入力出力ペアの言語モデル(LM)の例を示す。 ICLの標準的なアプローチは、テスト入力に続く複雑なデモでLMを促すことである。 このアプローチにはいくつかの問題があります。 まず、結合はモデル予測に対する各デモの貢献をほとんど制御しない。 これは、いくつかのデモがテスト例とは無関係である場合、準最適である。 第二に、いくつかのトランスモデルの入力長制限のため、特に長い入力タスクを扱う場合、多くの例をコンテキストに適合させることは不可能である。 本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。 DENSEはデモのサブセット(すなわちバケット)を使って出力を予測し、各サブセットから得られる出力確率を組み合わせて最終的な予測を生成する。 我々はgpt-jを用いて様々なセンシング手法を研究し、12の言語タスクを実験する。 我々の実験では、重み付けされたmax ensemblingがバニラ結合を最大2.4平均点で上回ることを示した。 コードはhttps://github.com/mukhal/icl-ensembling。

In-context learning (ICL) operates by showing language models (LMs) examples of input-output pairs for a given task, i.e., demonstrations. The standard approach for ICL is to prompt the LM with concatenated demonstrations followed by the test input. This approach suffers from some issues. First, concatenation offers almost no control over the contribution of each demo to the model prediction. This can be sub-optimal when some demonstrations are irrelevant to the test example. Second, due to the input length limit of some transformer models, it might be infeasible to fit many examples into the context, especially when dealing with long-input tasks. In this work, we explore Demonstration Ensembling (DENSE) as an alternative to simple concatenation. DENSE predicts outputs using subsets (i.e., buckets) of the demonstrations and then combines the output probabilities resulting from each subset to produce the final prediction. We study different ensembling methods using GPT-j and experiment on 12 language tasks. Our experiments show weighted max ensembling to outperform vanilla concatenation by as large as 2.4 average points. Code available at https://github.com/mukhal/icl-ensembling.
翻訳日:2023-08-22 10:24:52 公開日:2023-08-21
# 大規模言語モデルにおける連続的微調整時の破滅的蓄積に関する実証的研究

An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning ( http://arxiv.org/abs/2308.08747v2 )

ライセンス: Link先を確認
Yun Luo and Zhen Yang and Fandong Meng and Yafu Li and Jie Zhou and Yue Zhang(参考訳) 破滅的忘れ (catastrophic forgetting, cf) は、モデルが新しい情報を学ぶときに学習した情報を忘れると、機械学習で起こる現象である。 大規模言語モデル(LLM)は優れた性能を示しており、LCMの連続的な微調整にCFが存在するかどうかを明らかにすることは興味深い。 本研究では,ドメイン知識,推論,読み理解の観点から,llmsの知識における忘れられる現象を実証的に評価する。 実験の結果,1bから7bまでのLSMでは破滅的忘れが一般的に見られることがわかった。 さらに、スケールが大きくなるにつれて、忘れることの重大さも増大する。 デコーダのみのモデルBLOOMZとエンコーダ-デコーダモデルmT0を比較すると、BLOOMZは忘れられにくく、より多くの知識を維持している。 また、llmは、連続的な微調整中に言語バイアス(例えば、性別バイアス)を軽減できることも観察する。 さらに,alpacaは,連続的微調整時のllamaに比べて知識と能力が向上し,さらに微調整過程におけるllmの忘れられる現象の軽減に寄与することが示唆された。

Catastrophic forgetting (CF) is a phenomenon that occurs in machine learning when a model forgets previously learned information as it learns new information. As large language models (LLMs) have shown excellent performance, it is interesting to uncover whether CF exists in the continual fine-tuning of LLMs. In this study, we empirically evaluate the forgetting phenomenon in LLMs' knowledge, from the perspectives of domain knowledge, reasoning, and reading comprehension. The experiments demonstrate that catastrophic forgetting is generally observed in LLMs ranging from 1b to 7b. Furthermore, as the scale increases, the severity of forgetting also intensifies. Comparing the decoder-only model BLOOMZ with the encoder-decoder model mT0, BLOOMZ suffers less forgetting and maintains more knowledge. We also observe that LLMs can mitigate language bias (e.g. gender bias) during continual fine-tuning. Moreover, we find that ALPACA can maintain more knowledge and capacity compared with LLAMA during the continual fine-tuning, which implies that general instruction tuning can help mitigate the forgetting phenomenon of LLMs in the further fine-tuning process.
翻訳日:2023-08-22 10:24:36 公開日:2023-08-21
# 人工知能における意識:意識科学からの洞察

Consciousness in Artificial Intelligence: Insights from the Science of Consciousness ( http://arxiv.org/abs/2308.08708v2 )

ライセンス: Link先を確認
Patrick Butlin, Robert Long, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, Axel Constant, George Deane, Stephen M. Fleming, Chris Frith, Xu Ji, Ryota Kanai, Colin Klein, Grace Lindsay, Matthias Michel, Liad Mudrik, Megan A. K. Peters, Eric Schwitzgebel, Jonathan Simon, Rufin VanRullen(参考訳) 現在または近い将来のaiシステムが意識されるかどうかは、科学的な関心と公衆の関心の高まりのトピックである。 このレポートは、AI意識に対する厳密で実証的なアプローチ、すなわち既存のAIシステムを詳細に評価し、私たちの最も支持された意識の神経科学理論を考慮し、それを実証している。 我々は,リカレント処理理論,グローバルワークスペース理論,高次理論,予測処理,注意スキーマ理論など,いくつかの著名な科学的意識理論を調査した。 これらの理論から、これらの特性に対してAIシステムを評価することができる計算用語で解明された意識の「指標特性」を導出する。 これらの指標特性を最近のAIシステムの評価に利用し、将来のシステムがどのように実装されるかについて議論する。 私たちの分析は、現在のAIシステムが意識的でないことを示唆していますが、意識的なAIシステムを構築するための明らかな障壁がないことも示しています。

Whether current or near-term AI systems could be conscious is a topic of scientific interest and increasing public concern. This report argues for, and exemplifies, a rigorous and empirically grounded approach to AI consciousness: assessing existing AI systems in detail, in light of our best-supported neuroscientific theories of consciousness. We survey several prominent scientific theories of consciousness, including recurrent processing theory, global workspace theory, higher-order theories, predictive processing, and attention schema theory. From these theories we derive "indicator properties" of consciousness, elucidated in computational terms that allow us to assess AI systems for these properties. We use these indicator properties to assess several recent AI systems, and we discuss how future systems might implement them. Our analysis suggests that no current AI systems are conscious, but also shows that there are no obvious barriers to building conscious AI systems.
翻訳日:2023-08-22 10:24:13 公開日:2023-08-21
# ref-dvgo:リフレクションシーン再構成における品質効率向上のためのリフレクションアウェア直接ボクセルグリッド最適化

Ref-DVGO: Reflection-Aware Direct Voxel Grid Optimization for an Improved Quality-Efficiency Trade-Off in Reflective Scene Reconstruction ( http://arxiv.org/abs/2308.08530v3 )

ライセンス: Link先を確認
Georgios Kouros and Minye Wu and Shubham Shrivastava and Sushruth Nagesh and Punarjay Chakravarty and Tinne Tuytelaars(参考訳) ニューラル・ラミアンス・フィールド(nerfs)は、目覚ましい性能を示す新しい視点合成の分野に革命をもたらした。 しかし、反射オブジェクトのモデリングとレンダリングは依然として困難な問題である。 近年の手法は, 効率を犠牲にしながらも, 反射シーンの処理において, ベースラインよりも大幅に改善されている。 この作業では、効率と品質のバランスを取ることを目指しています。 そこで本研究では,従来のボリュームレンダリングに基づく暗黙的探索手法を用いて,復元品質の向上とトレーニングとレンダリングプロセスを高速化する。 我々は高効率密度グリッド表現を採用し、パイプライン内の反射放射率を再パラメータ化する。 提案手法は, 競合する手法と比較して, 競合する品質効率のトレードオフを実現する。 実験結果に基づいて, 反射物体を再構成する密度法の結果に影響を及ぼす要因に関する仮説を提案し, 議論する。 ソースコードはhttps://github.com/gkouros/ref-dvgoで入手できる。

Neural Radiance Fields (NeRFs) have revolutionized the field of novel view synthesis, demonstrating remarkable performance. However, the modeling and rendering of reflective objects remain challenging problems. Recent methods have shown significant improvements over the baselines in handling reflective scenes, albeit at the expense of efficiency. In this work, we aim to strike a balance between efficiency and quality. To this end, we investigate an implicit-explicit approach based on conventional volume rendering to enhance the reconstruction quality and accelerate the training and rendering processes. We adopt an efficient density-based grid representation and reparameterize the reflected radiance in our pipeline. Our proposed reflection-aware approach achieves a competitive quality efficiency trade-off compared to competing methods. Based on our experimental results, we propose and discuss hypotheses regarding the factors influencing the results of density-based methods for reconstructing reflective objects. The source code is available at https://github.com/gkouros/ref-dvgo.
翻訳日:2023-08-22 10:23:56 公開日:2023-08-21
# 思考のグラフ: 大きな言語モデルで精巧な問題を解決する

Graph of Thoughts: Solving Elaborate Problems with Large Language Models ( http://arxiv.org/abs/2308.09687v2 )

ライセンス: Link先を確認
Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Michal Podstawski, Hubert Niewiadomski, Piotr Nyczyk, Torsten Hoefler(参考訳) graph of thoughts (got): 大規模言語モデル(llm)におけるプロンプト機能を、chain-of-thoughtやtree of thoughts (tot)といったパラダイムによって提供されるものを超えて推進するフレームワークです。 GoTの鍵となるアイデアと主要な利点は、LLMによって生成された情報を任意のグラフとしてモデル化する能力であり、そこでは情報の単位(LLM思考)が頂点であり、エッジはこれらの頂点間の依存関係に対応する。 このアプローチにより、任意のLLM思考を相乗的な結果に組み合わせ、思考のネットワーク全体の本質を蒸留したり、フィードバックループを用いて思考を強化することができる。 例えば、totよりもソートの品質を62%向上させ、同時にコストを31%以上削減するなどである。 我々は、getが新しい思考変換によって拡張可能であることを保証し、それによって新しいプロンプトスキームを先導することができる。 この研究は、LLM推論を人間の思考や再発などの脳機構に近づけ、どちらも複雑なネットワークを形成する。

We introduce Graph of Thoughts (GoT): a framework that advances prompting capabilities in large language models (LLMs) beyond those offered by paradigms such as Chain-of-Thought or Tree of Thoughts (ToT). The key idea and primary advantage of GoT is the ability to model the information generated by an LLM as an arbitrary graph, where units of information ("LLM thoughts") are vertices, and edges correspond to dependencies between these vertices. This approach enables combining arbitrary LLM thoughts into synergistic outcomes, distilling the essence of whole networks of thoughts, or enhancing thoughts using feedback loops. We illustrate that GoT offers advantages over state of the art on different tasks, for example increasing the quality of sorting by 62% over ToT, while simultaneously reducing costs by >31%. We ensure that GoT is extensible with new thought transformations and thus can be used to spearhead new prompting schemes. This work brings the LLM reasoning closer to human thinking or brain mechanisms such as recurrence, both of which form complex networks.
翻訳日:2023-08-22 10:18:13 公開日:2023-08-21
# 合図木:マルチホップ・ビジュアル推論のための高速・スロー思考の組み合わせ

Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning ( http://arxiv.org/abs/2308.09658v2 )

ライセンス: Link先を確認
Pengbo Hu, Ji Qi, Xingyu Li, Hong Li, Xinqi Wang, Bing Quan, Ruiyu Wang, Yi Zhou(参考訳) 視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成するために、大きな言語モデル(LLM)を使用するという、有望なトレンドが浮かび上がっている。 LLMベースの計画として知られるこのパラダイムは、問題解決の柔軟性を提供し、より良い解釈可能性を提供する。 しかし、現在の研究はいくつかの推論ステップで簡単に答えられるような単純な質問の基本的なシナリオに限られている。 より困難なマルチホップの視覚的推論タスクの計画はまだ未定である。 特に,マルチホップ推論では,精度と計画探索の複雑さのトレードオフが顕著になる。 このアルゴリズムは高速なワンストップ生成を用いて効率の問題に対処するか、複雑な反復生成法を用いて精度を向上させる。 どちらも、効率とパフォーマンスの必要性のバランスをとらない。 人間の脳における認知の二重系, 速い思考過程, 遅い思考過程からインスピレーションを得て, ワンストップ推論(高速)とツリー・オブ・シント(スロー)を統合した階層的計画探索アルゴリズムを提案する。 私たちのアプローチは、推論ステップを大幅に節約しながら、パフォーマンスに成功します。 さらに, PTR と CLEVER データセットを再利用し, LLM に基づく計画探索アルゴリズムの性能と効率を評価するための体系的なフレームワークを開発した。 大規模な実験により,提案アルゴリズムの性能と効率の面で優位性を示す。 データセットとコードは近くリリースされる。

There emerges a promising trend of using large language models (LLMs) to generate code-like plans for complex inference tasks such as visual reasoning. This paradigm, known as LLM-based planning, provides flexibility in problem solving and endows better interpretability. However, current research is mostly limited to basic scenarios of simple questions that can be straightforward answered in a few inference steps. Planning for the more challenging multi-hop visual reasoning tasks remains under-explored. Specifically, under multi-hop reasoning situations, the trade-off between accuracy and the complexity of plan-searching becomes prominent. The prevailing algorithms either address the efficiency issue by employing the fast one-stop generation or adopt a complex iterative generation method to improve accuracy. Both fail to balance the need for efficiency and performance. Drawing inspiration from the dual system of cognition in the human brain, the fast and the slow think processes, we propose a hierarchical plan-searching algorithm that integrates the one-stop reasoning (fast) and the Tree-of-thought (slow). Our approach succeeds in performance while significantly saving inference steps. Moreover, we repurpose the PTR and the CLEVER datasets, developing a systematic framework for evaluating the performance and efficiency of LLMs-based plan-search algorithms under reasoning tasks at different levels of difficulty. Extensive experiments demonstrate the superiority of our proposed algorithm in terms of performance and efficiency. The dataset and code will be release soon.
翻訳日:2023-08-22 10:17:55 公開日:2023-08-21
# Poison Dart Frog: トレーニングデータの存在下での低いポゾンレートと高い攻撃成功率を備えたクリーンラベル攻撃

Poison Dart Frog: A Clean-Label Attack with Low Poisoning Rate and High Attack Success Rate in the Absence of Training Data ( http://arxiv.org/abs/2308.09487v2 )

ライセンス: Link先を確認
Binhao Ma, Jiahui Wang, Dejun Wang, Bo Meng(参考訳) バックドア攻撃をうまく起動するには、インジェクトされたデータを正しくラベル付けする必要がある。 したがって、クリーンラベル攻撃の概念が導入され、注入されたデータのラベルを変更する必要がないため、より危険である。 私たちの知る限りでは、既存のクリーンレーベルのバックドア攻撃は、トレーニングセット全体またはその一部に対する理解に大きく依存しています。 しかし、実際には、複数の独立したソースからしばしば収集されるデータセットのトレーニングのため、攻撃者がそれを持つことは非常に難しい。 現在のすべてのクリーンラベル攻撃とは異なり、我々は'Poison Dart Frog'と呼ばれる新しいクリーンラベル手法を提案する。 Poison Dart Frogは、いかなるトレーニングデータへのアクセスも必要としない。 CIFAR10、Tiny-ImageNet、TSRDでは、トレーニングセットサイズが0.1\%、0.025\%、0.4\%であるのに対し、Poison Dart FrogはLC、HTBA、BadNets、Blendに比べて高い攻撃成功率を達成する。 さらに、最先端の攻撃であるNARCISSUSと比較して、Poison Dart Frogはトレーニングデータなしで同様の攻撃成功率を達成する。 最後に、4つの典型的なバックドア防御アルゴリズムがPoison Dart Frogに対抗するのに苦労していることを示す。

To successfully launch backdoor attacks, injected data needs to be correctly labeled; otherwise, they can be easily detected by even basic data filters. Hence, the concept of clean-label attacks was introduced, which is more dangerous as it doesn't require changing the labels of injected data. To the best of our knowledge, the existing clean-label backdoor attacks largely relies on an understanding of the entire training set or a portion of it. However, in practice, it is very difficult for attackers to have it because of training datasets often collected from multiple independent sources. Unlike all current clean-label attacks, we propose a novel clean label method called 'Poison Dart Frog'. Poison Dart Frog does not require access to any training data; it only necessitates knowledge of the target class for the attack, such as 'frog'. On CIFAR10, Tiny-ImageNet, and TSRD, with a mere 0.1\%, 0.025\%, and 0.4\% poisoning rate of the training set size, respectively, Poison Dart Frog achieves a high Attack Success Rate compared to LC, HTBA, BadNets, and Blend. Furthermore, compared to the state-of-the-art attack, NARCISSUS, Poison Dart Frog achieves similar attack success rates without any training data. Finally, we demonstrate that four typical backdoor defense algorithms struggle to counter Poison Dart Frog.
翻訳日:2023-08-22 10:17:32 公開日:2023-08-21
# 高分解能ペトリディッシュ画像による微生物の検出

Transformer-based Detection of Microorganisms on High-Resolution Petri Dish Images ( http://arxiv.org/abs/2308.09436v2 )

ライセンス: Link先を確認
Nikolas Ebert, Didier Stricker, Oliver Wasenm\"uller(参考訳) 多くの医療や製薬のプロセスは、継続的な衛生モニタリングに関する厳格なガイドラインを持っている。 これはしばしば訓練された人員によってペトリ皿の微生物を手動で計数する労働集約的な作業である。 自動化の試みは、大きなスケーリングの違い、低い分離、低いコントラストなど、大きな課題によってしばしば苦労する。 これらの課題に対処するために,新しい変圧器変動を利用した高分解能検出パイプラインであるAttnPAFPNを導入する。 我々の合理化アプローチは、ほとんどのマルチスケールオブジェクト検出パイプラインに容易に統合できる。 公開されているAGARデータセットの包括的な評価では、現在の最先端技術よりもネットワークの精度が優れていることを示す。 提案手法のタスク非依存性能を示すため,COCOおよびLIVECellデータセットのさらなる実験を行った。

Many medical or pharmaceutical processes have strict guidelines regarding continuous hygiene monitoring. This often involves the labor-intensive task of manually counting microorganisms in Petri dishes by trained personnel. Automation attempts often struggle due to major challenges: significant scaling differences, low separation, low contrast, etc. To address these challenges, we introduce AttnPAFPN, a high-resolution detection pipeline that leverages a novel transformer variation, the efficient-global self-attention mechanism. Our streamlined approach can be easily integrated in almost any multi-scale object detection pipeline. In a comprehensive evaluation on the publicly available AGAR dataset, we demonstrate the superior accuracy of our network over the current state-of-the-art. In order to demonstrate the task-independent performance of our approach, we perform further experiments on COCO and LIVECell datasets.
翻訳日:2023-08-22 10:17:04 公開日:2023-08-21
# 制約付き画像スプライシング検出と局所化のためのマルチスケールターゲットアウェアフレームワーク

Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization ( http://arxiv.org/abs/2308.09357v2 )

ライセンス: Link先を確認
Yuxuan Tan, Yuanman Li, Limin Zeng, Jiaxiong Ye, Wei wang, Xia Li(参考訳) CISDL(Constrained Image Splicing Detection and Localization)は、2つの疑わしい画像間のスプライシング動作を検出し、両方の画像上にスプライシング領域をローカライズするマルチメディア法医学の基本課題である。 近年の研究では、深いマッチングの問題と見なされ、大きな進歩を遂げている。 しかし、既存のフレームワークは、通常、異なるプロセスとして特徴抽出と相関マッチングを実行するため、マッチングのための識別的特徴を学習する能力を妨げ、曖昧な背景画素からの干渉に影響を受けやすい。 本研究では,統合パイプラインにおける特徴抽出と相関マッチングを結合するマルチスケールなターゲット認識フレームワークを提案する。 従来の手法とは対照的に,特徴を学習し,プローブとドナー画像の相関マッチングを行う目標認識注意機構を設計する。 提案手法は,関連パッチの協調学習を効果的に促進し,特徴学習と相関マッチングの相互促進を行う。 さらに, スケール変換を扱うために, ターゲット認識フレームワークに容易に統合でき, 様々なスケールの情報を含むトークン間で, 注意プロセスを実行できるマルチスケール投影法を提案する。 我々の実験は、統一パイプラインを用いたモデルが、いくつかのベンチマークデータセット上で最先端の手法より優れており、スケール変換に対して堅牢であることを示した。

Constrained image splicing detection and localization (CISDL) is a fundamental task of multimedia forensics, which detects splicing operation between two suspected images and localizes the spliced region on both images. Recent works regard it as a deep matching problem and have made significant progress. However, existing frameworks typically perform feature extraction and correlation matching as separate processes, which may hinder the model's ability to learn discriminative features for matching and can be susceptible to interference from ambiguous background pixels. In this work, we propose a multi-scale target-aware framework to couple feature extraction and correlation matching in a unified pipeline. In contrast to previous methods, we design a target-aware attention mechanism that jointly learns features and performs correlation matching between the probe and donor images. Our approach can effectively promote the collaborative learning of related patches, and perform mutual promotion of feature learning and correlation matching. Additionally, in order to handle scale transformations, we introduce a multi-scale projection method, which can be readily integrated into our target-aware framework that enables the attention process to be conducted between tokens containing information of varying scales. Our experiments demonstrate that our model, which uses a unified pipeline, outperforms state-of-the-art methods on several benchmark datasets and is robust against scale transformations.
翻訳日:2023-08-22 10:16:52 公開日:2023-08-21
# E-Commerce Query Intent 分類のための生成言語モデリングによる検索精度の向上

Differentiable Retrieval Augmentation via Generative Language Modeling for E-commerce Query Intent Classification ( http://arxiv.org/abs/2308.09308v2 )

ライセンス: Link先を確認
Chenyu Zhao, Yunjiang Jiang, Yiming Qiu, Han Zhang, Wen-Yun Yang(参考訳) 知識検索と外部コーパスによる下流モデルを強化し,単にモデルパラメータの数を増大させるだけでなく,テキスト分類や質問応答など多くの自然言語処理(NLP)タスクにもうまく適用されている。 しかしながら、レトリバーと下流モデルを別々にあるいは非同期にトレーニングする既存の方法は、主に2つの部分間の非微分性のため、通常、エンドツーエンドのジョイントトレーニングと比較して性能が劣化する。 本稿では,新しい微分可能再構成によってこの問題に対処するために,生成言語モデル(dragan)による微分可能検索拡張を提案する。 本稿では,eコマース検索における難解なNLPタスク,すなわちクエリ意図分類における提案手法の有効性を示す。 実験結果とアブレーションの結果から,提案手法はオフライン評価とオンラインA/Bテストの両方において,最先端のベースラインを著しく改善することが示された。

Retrieval augmentation, which enhances downstream models by a knowledge retriever and an external corpus instead of by merely increasing the number of model parameters, has been successfully applied to many natural language processing (NLP) tasks such as text classification, question answering and so on. However, existing methods that separately or asynchronously train the retriever and downstream model mainly due to the non-differentiability between the two parts, usually lead to degraded performance compared to end-to-end joint training. In this paper, we propose Differentiable Retrieval Augmentation via Generative lANguage modeling(Dragan), to address this problem by a novel differentiable reformulation. We demonstrate the effectiveness of our proposed method on a challenging NLP task in e-commerce search, namely query intent classification. Both the experimental results and ablation study show that the proposed method significantly and reasonably improves the state-of-the-art baselines on both offline evaluation and online A/B test.
翻訳日:2023-08-22 10:16:28 公開日:2023-08-21
# v2a-mapper:基盤モデル接続による視覚-聴覚生成のための軽量ソリューション

V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models ( http://arxiv.org/abs/2308.09300v2 )

ライセンス: Link先を確認
Heng Wang, Jianbo Ma, Santiago Pascual, Richard Cartwright, Weidong Cai(参考訳) 基礎モデル(FM)の上に人工知能(AI)システムを構築することは、AI研究における新たなパラダイムになりつつある。 膨大なデータから学習した代表的および生成能力は、スクラッチから余分なトレーニングをすることなく、容易に適応し、幅広い下流タスクに移行することができる。 しかし、音声モダリティが関与する場合、クロスモーダル生成におけるFMの活用は未検討のままである。 一方,視覚入力から意味的関連音を自動生成することは,モーダル・ジェネレーション研究において重要な課題である。 このvision-to-audio(v2a)生成問題を解決するために、既存の手法では、小さなデータセットを使って複雑なシステムをスクラッチから設計し構築する傾向がある。 本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。 まず視覚的CLIPの潜在空間と聴覚的CLAPモデルとの領域ギャップについて検討する。 次に,CLIP と CLAP 空間間の視覚的入力を変換することで,領域ギャップを埋めるシンプルなマッパー機構 (V2A-Mapper) を提案する。 変換されたCLAP埋め込みを条件に、事前訓練された音声生成FM AudioLDMを採用し、高忠実で視覚的に整合した音を生成する。 従来の手法と比較して,本手法ではV2A-Mapperの迅速な訓練しか必要としない。 さらに、V2A-Mapperの選択に関する広範な実験を行い、生成マッパーが忠実度と可変性(FD)に優れ、レグレッションマッパーが相対性(CS)に若干優れていることを示す。 2つのV2Aデータセットの客観的評価と主観評価は、現在の最先端手法と比較して、提案手法の優位性を示し、パラメータは86%少なく、FDとCSは53%、CSは19%改善した。

Building artificial intelligence (AI) systems on top of a set of foundation models (FMs) is becoming a new paradigm in AI research. Their representative and generative abilities learnt from vast amounts of data can be easily adapted and transferred to a wide range of downstream tasks without extra training from scratch. However, leveraging FMs in cross-modal generation remains under-researched when audio modality is involved. On the other hand, automatically generating semantically-relevant sound from visual input is an important problem in cross-modal generation studies. To solve this vision-to-audio (V2A) generation problem, existing methods tend to design and build complex systems from scratch using modestly sized datasets. In this paper, we propose a lightweight solution to this problem by leveraging foundation models, specifically CLIP, CLAP, and AudioLDM. We first investigate the domain gap between the latent space of the visual CLIP and the auditory CLAP models. Then we propose a simple yet effective mapper mechanism (V2A-Mapper) to bridge the domain gap by translating the visual input between CLIP and CLAP spaces. Conditioned on the translated CLAP embedding, pretrained audio generative FM AudioLDM is adopted to produce high-fidelity and visually-aligned sound. Compared to previous approaches, our method only requires a quick training of the V2A-Mapper. We further analyze and conduct extensive experiments on the choice of the V2A-Mapper and show that a generative mapper is better at fidelity and variability (FD) while a regression mapper is slightly better at relevance (CS). Both objective and subjective evaluation on two V2A datasets demonstrate the superiority of our proposed method compared to current state-of-the-art approaches - trained with 86% fewer parameters but achieving 53% and 19% improvement in FD and CS, respectively.
翻訳日:2023-08-22 10:16:12 公開日:2023-08-21
# 大規模言語モデルの推論能力の向上:グラフベースの検証アプローチ

Enhancing Reasoning Capabilities of Large Language Models: A Graph-Based Verification Approach ( http://arxiv.org/abs/2308.09267v2 )

ライセンス: Link先を確認
Lang Cao(参考訳) 大きな言語モデル(LLM)は、特に数学の単語問題のような複雑な推論タスクにおいて、特別に設計されたプロンプトによってガイドされるときに、印象的な推論能力を示す。 これらのモデルは典型的にはチェーン・オブ・シント・アプローチを使ってタスクを解決し、推論能力を高めるだけでなく、問題解決プロセスに関する貴重な洞察を提供する。 しかし, LLMの推論能力を高める余地は依然として大きい。 いくつかの研究は、llm出力検証器の統合は、追加のモデルトレーニングを必要とせずに推論精度を高めることを示唆している。 本稿では,これらの研究に追従し,LLMの推論能力をさらに増強するグラフベースの新しい手法を提案する。 LLMによって生成される推論タスクに対する複数の解は、異なる推論経路からの中間ステップ間の論理的接続により、推論グラフとして表現できると仮定する。 そこで本研究では,LLMが生成した解を分析し,検証するReasoning Graph Verifier (RGV)を提案する。 実験結果から, LLMの推論能力の向上だけでなく, これらのモデルの推論性能の向上の観点からも, 既存の検証手法よりも優れていることがわかった。

Large Language Models (LLMs) have showcased impressive reasoning capabilities, particularly when guided by specifically designed prompts in complex reasoning tasks such as math word problems. These models typically solve tasks using a chain-of-thought approach, which not only bolsters their reasoning abilities but also provides valuable insights into their problem-solving process. However, there is still significant room for enhancing the reasoning abilities of LLMs. Some studies suggest that the integration of an LLM output verifier can boost reasoning accuracy without necessitating additional model training. In this paper, we follow these studies and introduce a novel graph-based method to further augment the reasoning capabilities of LLMs. We posit that multiple solutions to a reasoning task, generated by an LLM, can be represented as a reasoning graph due to the logical connections between intermediate steps from different reasoning paths. Therefore, we propose the Reasoning Graph Verifier (RGV) to analyze and verify the solutions generated by LLMs. By evaluating these graphs, models can yield more accurate and reliable results.Our experimental results show that our graph-based verification method not only significantly enhances the reasoning abilities of LLMs but also outperforms existing verifier methods in terms of improving these models' reasoning performance.
翻訳日:2023-08-22 10:15:40 公開日:2023-08-21
# 計量学習のための一般化サムプーリング

Generalized Sum Pooling for Metric Learning ( http://arxiv.org/abs/2308.09228v2 )

ライセンス: Link先を確認
Yeti Z. Gurbuz, Ozan Sener and A. Ayd{\i}n Alatan(参考訳) ディープメトリック学習の一般的なアーキテクチャ選択は、畳み込みニューラルネットワークとグローバル平均プーリング(GAP)である。 簡単に言えば、GAPは情報を集約する非常に効果的な方法です。 GAPの有効性の1つの可能な説明は、各特徴ベクトルを異なる意味的実体を表すものとして、GAPを凸結合として考えることである。 この観点から、GAPを一般化し、学習可能な一般化和プーリング法(GSP)を提案する。 GSPは2つの異なる能力でGAPを改善します。 一 意味的実体のサブセットを選択し、迷惑情報を無視して効果的に学習する能力 二 各団体の重要度に対応する重みを学習すること。 形式的には、エントロピー・スムースド最適輸送問題(entropy-smoothed optimal transport problem)を提案し、それがギャップの厳密な一般化であることを示す。 この最適化問題は,GAPの直接学習可能な代替品として利用することができる解析的勾配を満足することを示す。 また,GSPの学習を容易にするため,ゼロショットロスを提案する。 提案手法の有効性を4つの一般的なメトリクス学習ベンチマークで評価した。 GSP-DML Frameworkのコードは以下の通り。

A common architectural choice for deep metric learning is a convolutional neural network followed by global average pooling (GAP). Albeit simple, GAP is a highly effective way to aggregate information. One possible explanation for the effectiveness of GAP is considering each feature vector as representing a different semantic entity and GAP as a convex combination of them. Following this perspective, we generalize GAP and propose a learnable generalized sum pooling method (GSP). GSP improves GAP with two distinct abilities: i) the ability to choose a subset of semantic entities, effectively learning to ignore nuisance information, and ii) learning the weights corresponding to the importance of each entity. Formally, we propose an entropy-smoothed optimal transport problem and show that it is a strict generalization of GAP, i.e., a specific realization of the problem gives back GAP. We show that this optimization problem enjoys analytical gradients enabling us to use it as a direct learnable replacement for GAP. We further propose a zero-shot loss to ease the learning of GSP. We show the effectiveness of our method with extensive evaluations on 4 popular metric learning benchmarks. Code is available at: GSP-DML Framework
翻訳日:2023-08-22 10:15:22 公開日:2023-08-21
# パラメトリック不安定性からバックアクションエバディング測定を保護する

Protecting backaction-evading measurements from parametric instability ( http://arxiv.org/abs/2308.09168v2 )

ライセンス: Link先を確認
E. P. Ruddy, Y. Jiang, N. E. Frattini, K. O. Quinlan, and K. W. Lehnert(参考訳) パラメトリック結合発振器のシステムにおける単一四倍子の無ノイズ測定は、理論的には2つの発振器の和と差周波数を励起し、バックアクションエバディング(bae)スキームを実現することで可能である。 これは純粋な3波混合システムにおいて最も単純なシナリオでは当てはまるが、この方式の実装は、システムの不安定化とノイズの追加という不要な高次パラメトリックプロセスによって妨げられる。 総和と差分周波数から2つのポンプを変形させることでシステムを安定させ,BAE性能を回復し,非アクセス不能な協調動作を可能とした。 また,弱い信号検出実験(PRX QUANTUM 4, 020302 (2023))で示された加速度は,このデチューニング技術により達成可能であることを示した。

Noiseless measurement of a single quadrature in systems of parametrically coupled oscillators is theoretically possible by pumping at the sum and difference frequencies of the two oscillators, realizing a backaction-evading (BAE) scheme. Although this would hold true in the simplest scenario for a system with pure three-wave mixing, implementations of this scheme are hindered by unwanted higher-order parametric processes that destabilize the system and add noise. We show analytically that detuning the two pumps from the sum and difference frequencies can stabilize the system and fully recover the BAE performance, enabling operation at otherwise inaccessible cooperativities. We also show that the acceleration demonstrated in a weak signal detection experiment [PRX QUANTUM 4, 020302 (2023)] was only achievable because of this detuning technique.
翻訳日:2023-08-22 10:15:06 公開日:2023-08-21