このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230826となっている論文です。

PDF登録状況(公開日: 20230826)

TitleAuthorsAbstract論文公表日・翻訳日
# c-rusted: 欠点のないcにおけるrustのメリット

C-rusted: The Advantages of Rust, in C, without the Disadvantages ( http://arxiv.org/abs/2302.05331v3 )

ライセンス: Link先を確認
Roberto Bagnara, Abramo Bagnara, Federico Serafini(参考訳) c-rustedは、言語、システム、ユーザ定義リソースの所有権、排他性と共有性、オブジェクトの動的特性とプログラム実行中の進化方法、名目的型付けとサブタイプなどを表現するためにcプログラムを(部分的に)アノテートできる革新的な技術である。 注釈付きCプログラムは、ISO Cコードを処理することができるコンパイルツールチェーンの修正されていないバージョンで変換することができる。 静的アナライザがエラーを警告しない場合、アノテーションはそれ自身と注釈付きCコードの間で確実に一貫性があり、この場合、アノテーション付き部分は大規模な論理クラス、セキュリティ、実行時のエラーから確実に除外される。

C-rusted is an innovative technology whereby C programs can be (partly) annotated so as to express: ownership, exclusivity and shareability of language, system and user-defined resources; dynamic properties of objects and the way they evolve during program execution; nominal typing and subtyping. The (partially) annotated C programs can be translated with unmodified versions of any compilation toolchain capable of processing ISO C code. The annotated C program parts can be validated by static analysis: if the static analyzer flags no error, then the annotations are provably coherent among themselves and with respect to annotated C code, in which case said annotated parts are provably exempt from a large class of logic, security, and run-time errors.
翻訳日:2023-10-24 13:13:46 公開日:2023-08-26
# LLMに基づく断層定位の基礎的検討

A Preliminary Evaluation of LLM-Based Fault Localization ( http://arxiv.org/abs/2308.05487v2 )

ライセンス: Link先を確認
Sungmin Kang, Gabin An, Shin Yoo(参考訳) 大規模言語モデル(LLM)は、複数のソフトウェアエンジニアリング問題において驚くほどのパフォーマンスを示している。 しかし、フォールトローカライズ(fl)にはまだ適用されていないため、潜在的に巨大なコードベースからバグの原因となるコード要素を見つけなければならない。 それでも、FLへのLLMアプリケーションには、パフォーマンスと説明可能性の両方において、開発者に利益をもたらす可能性がある。 そこで本研究では,単一障害テストのみを必要とする自動障害定位手法であるautoflを提案し,その障害定位プロセスにおいて,与えられたテストが失敗した理由を説明する。 OpenAI LLMの関数呼び出しAPIであるChatGPTを使って、大きなソースコードリポジトリを探索できるツールを提供しています。 この結果から,広く使用されている defects4j ベンチマークにおいて,autofl は,先行研究から比較したすべてのスタンドアロン手法よりも,最初の試行で故障したメソッドを識別できることがわかった。 それでも性能向上の余地は十分あり、将来的な研究分野として言語モデルに基づくFLのさらなる実験を奨励する。

Large Language Models (LLMs) have shown a surprising level of performance on multiple software engineering problems. However, they have not yet been applied to Fault Localization (FL), in which one must find the code element responsible for a bug from a potentially vast codebase. Nonetheless, LLM application to FL has the potential to benefit developers both in terms of performance and explainability. In this work, we present AutoFL, an automated fault localization technique that only requires a single failing test, and in its fault localization process generates an explanation about why the given test fails. Using the function call API of the OpenAI LLM, ChatGPT, we provide tools that allow it to explore a large source code repository, which would otherwise pose a significant challenge as it would be impossible to fit all the source code within the limited prompt length. Our results indicate that, on the widely used Defects4J benchmark, AutoFL can identify the faulty method on the first try more often than all standalone techniques we compared against from prior work. Nonetheless, there is ample room to improve performance, and we encourage further experimentation of language model-based FL as a promising research area.
翻訳日:2023-10-23 14:40:40 公開日:2023-08-26
# オープンソースプロジェクトの新参者のためのパーソナライズド第一号レコメンデーション

Personalized First Issue Recommender for Newcomers in Open Source Projects ( http://arxiv.org/abs/2308.09038v2 )

ライセンス: Link先を確認
Wenxin Xiao, Jingyue Li, Hao He, Ruiqiao Qiu, and Minghui Zhou(参考訳) 多くのオープンソースプロジェクトが、新規参入者を惹きつけ、維持するための優れた最初の問題(GFI)を提供している。 いくつかの自動GFIレコメンダが提案されているが、既存のレコメンダは個々の新参者の違いを考慮せずにジェネリックGFIのレコメンデーションに制限されている。 しかし,ジェネリックGFIと新参者の多様な背景とのミスマッチを観察し,失敗,オンボーディングの回避,課題解決の遅れを指摘した。 この問題に対処するために、新参者向けのパーソナライズされたファーストイシュー(PFI)がミスマッチを減らすのに役立つと仮定する。 仮定を正当化するために、37人の新参者とその最初の問題が複数のプロジェクトで解決されたことを経験的に分析した。 同じ新参者によって解決された最初の問題は、タスクタイプ、プログラミング言語、プロジェクトドメインにおける類似点を共有している。 これらの知見は、最先端アプローチを改善するためのPFIレコメンデータの必要性を浮き彫りにした。 そこで本研究では,新参者選択問題の特徴と新参者選択問題の特徴との関係を解析することにより,新参者選択に影響を及ぼす特徴を同定する。 専門的な好み、OSS経験、活動性、そして新参者の感情が、最初の問題に対してパーソナライズされた選択を促していることがわかった。 これらの結果に基づき,lamdamart を用いて特定された特徴を活用し,新参者候補の課題をランク付けするパーソナライズドファーストイシューレコメンダ (pfirec) を提案する。 GitHubプロジェクト100の68,858件のデータセットを使用して,PFIRecを評価した。 評価結果は、PFIRecが既存の第一号推薦者よりも優れており、最上位の推奨問題が特定の新参者に適した確率を2倍にし、新参者による適切な第一号特定の試みの3分の1を中央値で減らしていることを示している。

Many open source projects provide good first issues (GFIs) to attract and retain newcomers. Although several automated GFI recommenders have been proposed, existing recommenders are limited to recommending generic GFIs without considering differences between individual newcomers. However, we observe mismatches between generic GFIs and the diverse background of newcomers, resulting in failed attempts, discouraged onboarding, and delayed issue resolution. To address this problem, we assume that personalized first issues (PFIs) for newcomers could help reduce the mismatches. To justify the assumption, we empirically analyze 37 newcomers and their first issues resolved across multiple projects. We find that the first issues resolved by the same newcomer share similarities in task type, programming language, and project domain. These findings underscore the need for a PFI recommender to improve over state-of-the-art approaches. For that purpose, we identify features that influence newcomers' personalized selection of first issues by analyzing the relationship between possible features of the newcomers and the characteristics of the newcomers' chosen first issues. We find that the expertise preference, OSS experience, activeness, and sentiment of newcomers drive their personalized choice of the first issues. Based on these findings, we propose a Personalized First Issue Recommender (PFIRec), which employs LamdaMART to rank candidate issues for a given newcomer by leveraging the identified influential features. We evaluate PFIRec using a dataset of 68,858 issues from 100 GitHub projects. The evaluation results show that PFIRec outperforms existing first issue recommenders, potentially doubling the probability that the top recommended issue is suitable for a specific newcomer and reducing one-third of a newcomer's unsuccessful attempts to identify suitable first issues, in the median.
翻訳日:2023-10-23 14:11:05 公開日:2023-08-26
# 強化学習を用いたUI適応のための逆モデルの比較検討

A Comparative Study on Reward Models for UI Adaptation with Reinforcement Learning ( http://arxiv.org/abs/2308.13937v1 )

ライセンス: Link先を確認
Daniel Gaspar Figueiredo, Silvia Abrah\~ao, Marta Fern\'andez-Diego, Emilio Insfran(参考訳) ソフトウェアシステムのユーザインタフェース(ui)をユーザ要件や使用状況に適応させることは困難である。 主な難点は、エンドユーザに価値を与えるために、適切なタイミングで適切な適応を適切な場所で提案することである。 機械学習技術の最近の進歩は、適応をより効果的にサポートする有用な方法を提供すると信じている。 特に、強化学習(RL)は、ユーザエクスペリエンス(UX)を改善するために、使用状況ごとにインターフェイスをパーソナライズするために使用することができる。 しかし、UI適応におけるRLの課題は、各アダプティブ代替の報酬を決定することである。 最近の研究では、この課題に対処するための報酬モデルの使用について検討されているが、このタイプのモデルに関する実証的な証拠はない。 本稿では、rlを用いたui適応の文脈における報酬モデル生成のための2つの異なる手法の有効性を検討することを目的とした確認研究設計について述べる。(1)予測型人間-コンピュータインタラクション(hci)モデル(hci)のみから導出した報酬モデル(hci&hf)、(2)人的フィードバックによる予測型hciモデル(hci&hf)である。 コントロールされた実験では、HCIとHCI&HFの2つの治療法を備えたAB/BAクロスオーバー設計を使用する。 これら2つの処理の操作が、適応ユーザインタフェース(AUI)と相互作用する際のUXにどのように影響するかを判断する。 UXは、ユーザエンゲージメントとユーザ満足度の観点から測定され、予測的HCIモデルとユーザインタラクション満足度アンケート(QUIS)によってそれぞれ運用される。 2つの報酬モデルの性能をユーザ好みに適応する能力とUXを改善する能力で比較することにより、報奨モデルがRLを用いたUI適応を促進する方法の理解に寄与する。

Adapting the User Interface (UI) of software systems to user requirements and the context of use is challenging. The main difficulty consists of suggesting the right adaptation at the right time in the right place in order to make it valuable for end-users. We believe that recent progress in Machine Learning techniques provides useful ways in which to support adaptation more effectively. In particular, Reinforcement learning (RL) can be used to personalise interfaces for each context of use in order to improve the user experience (UX). However, determining the reward of each adaptation alternative is a challenge in RL for UI adaptation. Recent research has explored the use of reward models to address this challenge, but there is currently no empirical evidence on this type of model. In this paper, we propose a confirmatory study design that aims to investigate the effectiveness of two different approaches for the generation of reward models in the context of UI adaptation using RL: (1) by employing a reward model derived exclusively from predictive Human-Computer Interaction (HCI) models (HCI), and (2) by employing predictive HCI models augmented by Human Feedback (HCI&HF). The controlled experiment will use an AB/BA crossover design with two treatments: HCI and HCI&HF. We shall determine how the manipulation of these two treatments will affect the UX when interacting with adaptive user interfaces (AUI). The UX will be measured in terms of user engagement and user satisfaction, which will be operationalized by means of predictive HCI models and the Questionnaire for User Interaction Satisfaction (QUIS), respectively. By comparing the performance of two reward models in terms of their ability to adapt to user preferences with the purpose of improving the UX, our study contributes to the understanding of how reward modelling can facilitate UI adaptation using RL.
翻訳日:2023-10-23 12:27:20 公開日:2023-08-26
# スキャンパス予測としてのプログラマ意識のモデル化

Modeling Programmer Attention as Scanpath Prediction ( http://arxiv.org/abs/2308.13920v1 )

ライセンス: Link先を確認
Aakash Bansal, Chia-Yi Su, Zachary Karas, Yifan Zhang, Yu Huang, Toby Jia-Jun Li, and Collin McMillan(参考訳) 本稿では,眼球運動のスキャンパスを予測し,プログラマの注意をモデリングする新たな取り組みを開始する。 プログラマの注意は、プログラミングタスクを実行するときに人々が取り込む情報を指す。 プログラマの注意のモデルは、人々にとってどんな情報が重要かを予測するマシンを参照します。 プログラマーの注意のモデルは、研究者がより良いインターフェイス、補助技術、より人間らしいAIを構築するのを助けるため重要である。 SEの研究者たちは長年、マウスクリック、キーロギング、IDEインタラクションといった機能に基づいたモデルを構築してきた。 しかし、この地域の聖杯はスキャンパス予測であり、人が視覚刺激を受ける眼球固定の順序を予測する。 人の目の動きは、ある人が情報を取り入れている最も具体的な証拠だと考えられている。 スキャンパス予測は悪名高い難題だが、低コストで高精度な視線追跡装置の出現と、ソースコードのより大規模な言語モデルによって解決されると信じている。 本研究では,27人のプログラマとプロトタイプのスキャンパス予測器による視線追跡実験を行い,事前結果を提示し,早期のコミュニティフィードバックを得る。

This paper launches a new effort at modeling programmer attention by predicting eye movement scanpaths. Programmer attention refers to what information people intake when performing programming tasks. Models of programmer attention refer to machine prediction of what information is important to people. Models of programmer attention are important because they help researchers build better interfaces, assistive technologies, and more human-like AI. For many years, researchers in SE have built these models based on features such as mouse clicks, key logging, and IDE interactions. Yet the holy grail in this area is scanpath prediction -- the prediction of the sequence of eye fixations a person would take over a visual stimulus. A person's eye movements are considered the most concrete evidence that a person is taking in a piece of information. Scanpath prediction is a notoriously difficult problem, but we believe that the emergence of lower-cost, higher-accuracy eye tracking equipment and better large language models of source code brings a solution within grasp. We present an eye tracking experiment with 27 programmers and a prototype scanpath predictor to present preliminary results and obtain early community feedback.
翻訳日:2023-10-23 12:26:46 公開日:2023-08-26
# ソフトウェアモデルリファクタリングにおける遺伝的アルゴリズムの性能

Performance of Genetic Algorithms in the Context of Software Model Refactoring ( http://arxiv.org/abs/2308.13875v1 )

ライセンス: Link先を確認
Vittorio Cortellessa, Daniele Di Pompeo, Michele Tucci(参考訳) ソフトウェアシステムは、新しい機能、要求、保守活動のために継続的に進化します。 ソフトウェア進化の文脈では、ソフトウェアリファクタリングは戦略的に関連づけられた。 可能なソフトウェアリファクタリングのスペースは、ソフトウェアシステムの代替案を生み出すさまざまなリファクタリングアクションの組み合わせによって与えられるため、通常は非常に大きい。 多目的アルゴリズムは、異なる目的を同時に追求することで代替物を見つける能力を示している。 ソフトウェアモデルリファクタリングの文脈におけるそのようなアルゴリズムのパフォーマンスは、非常に重要である。 そこで本研究では,3つの遺伝的アルゴリズムの性能解析を行い,その性能と解の質について比較する。 その結果,アルゴリズムの性能に有意差があることが判明した(例えば,pesa2は最速であり,nsga-iiはメモリ使用量が最も少ない)。

Software systems continuously evolve due to new functionalities, requirements, or maintenance activities. In the context of software evolution, software refactoring has gained a strategic relevance. The space of possible software refactoring is usually very large, as it is given by the combinations of different refactoring actions that can produce software system alternatives. Multi-objective algorithms have shown the ability to discover alternatives by pursuing different objectives simultaneously. Performance of such algorithms in the context of software model refactoring is of paramount importance. Therefore, in this paper, we conduct a performance analysis of three genetic algorithms to compare them in terms of performance and quality of solutions. Our results show that there are significant differences in performance among the algorithms (e.g., PESA2 seems to be the fastest one, while NSGA-II shows the least memory usage).
翻訳日:2023-10-23 12:26:30 公開日:2023-08-26
# どちらが優れたプログラミングアシスタントか? chatgptとスタックオーバーフローの比較研究

Which is a better programming assistant? A comparative study between chatgpt and stack overflow ( http://arxiv.org/abs/2308.13851v1 )

ライセンス: Link先を確認
Jinrun Liu, Xinyu Tang, Linlin Li, Panpan Chen, Yepang Liu(参考訳) プログラマは、しばしばq\&a webサイトから助けを求め、プログラミング中に遭遇する問題を解決する。 Stack Overflowは10年以上にわたって,この目的のために広く使用されているプラットフォームです。 近年、ChatGPTのような革命的なAIプラットフォームは、自然言語インタラクションによる効率的でパーソナライズされたプログラミング支援によって、プログラマの間で急速に人気を集めている。 どちらのプラットフォームもプログラマに貴重な支援を提供することができますが、どのプラットフォームがプログラマの生産性を高めるのに効果的かは不明です。 本稿では,stack overflow と chatgpt の性能をプログラマの生産性向上に比較するために,探索的ユーザ調査を行った。 同様のプログラミング能力を持つ学生の2つのグループは、アルゴリズムの課題、ライブラリの使用、デバッグという3つの異なるプログラミングタスクを解決するために2つのプラットフォームを使用するように指示された。 実験では、生成したコードの品質と2つのグループのタスクの完了に要する時間を測定して比較した。 結果は、コード品質に関して、ChatGPTがStack Overflowを著しく上回り、アルゴリズムやライブラリ関連のタスクを完了させる一方で、Stack Overflowはデバッグタスクに優れていることを示している。 タスク完了のスピードに関して、ChatGPTグループはアルゴリズム上の課題ではStack Overflowグループよりも明らかに速いが、他の2つのタスクでは同様のパフォーマンスがある。 さらに,実験後調査を行い,プラットフォームがプログラミングタスクの完了にどのように役立ったのかについて検討した。 chatgptとstack overflowの長所と短所を要約するために質問紙を分析した。 これらを比較することで,両プラットフォームのプログラミング支援における多種多様なパフォーマンスの背景を明らかにした。

Programmers often seek help from Q\&A websites to resolve issues they encounter during programming. Stack Overflow has been a widely used platform for this purpose for over a decade. Recently, revolutionary AI-powered platforms like ChatGPT have quickly gained popularity among programmers for their efficient and personalized programming assistance via natural language interactions. Both platforms can offer valuable assistance to programmers, but it's unclear which is more effective at enhancing programmer productivity. In our paper, we conducted an exploratory user study to compare the performance of Stack Overflow and ChatGPT in enhancing programmer productivity. Two groups of students with similar programming abilities were instructed to use the two platforms to solve three different types of programming tasks: algorithmic challenges, library usage, and debugging. During the experiments, we measured and compared the quality of code produced and the time taken to complete tasks for the two groups. The results show that, concerning code quality, ChatGPT outperforms Stack Overflow significantly in helping complete algorithmic and library-related tasks, while Stack Overflow is better for debugging tasks. Regarding task completion speed, the ChatGPT group is obviously faster than the Stack Overflow group in the algorithmic challenge, but the two groups have a similar performance in the other two tasks. Additionally, we conducted a post-experiment survey with the participants to understand how the platforms have helped them complete the programming tasks. We analyzed the questionnaires to summarize ChatGPT and Stack Overflow's strengths and weaknesses pointed out by the participants. By comparing these, we identified the reasons behind the two platforms' divergent performances in programming assistance.
翻訳日:2023-10-23 12:26:19 公開日:2023-08-26
# 複雑性パラドックス:複雑性科学のレンズによるモデリング教育の分析

The complexity paradox: An analysis of modeling education through the lens of complexity science ( http://arxiv.org/abs/2308.13809v1 )

ライセンス: Link先を確認
Daniel Str\"uber(参考訳) モデリングは、設計、分析、利害関係者のコミュニケーションをサポートすることで、ソフトウェア開発の複雑さを和らげようとしている。 逆に、教育者による経験から、学生はモデリングを複雑さを減らさずに、複雑さを増すものとして知覚することが多い。 本稿では,複雑なシステム研究の理論的枠組みである複雑性科学のレンズを用いたモデリング教育について分析する。 医学、プロジェクトマネジメント、持続可能性といった分野における一般教育の枠組みとして複雑性科学が用いられている教育学文献を再考する。 教育文献をモデル化することによる複雑性に関する課題を再考し、複雑性の観点から議論し、モデリングを教える際の複雑性の試行を推奨する。

Modeling seeks to tame complexity during software development, by supporting design, analysis, and stakeholder communication. Paradoxically, experiences made by educators indicate that students often perceive modeling as adding complexity, instead of reducing it. In this position paper, I analyse modeling education from the lens of complexity science, a theoretical framework for the study of complex systems. I revisit pedagogical literature where complexity science has been used as a framework for general education and subject-specific education in disciplines such as medicine, project management, and sustainability. I revisit complexity-related challenges from modeling education literature, discuss them in the light of complexity and present recommendations for taming complexity when teaching modeling.
翻訳日:2023-10-23 12:25:51 公開日:2023-08-26
# ResyDuo:データモデルとCFベースのレコメンデータシステムを組み合わせてArduinoプロジェクトを開発

ResyDuo: Combining data models and CF-based recommender systems to develop Arduino projects ( http://arxiv.org/abs/2308.13808v1 )

ライセンス: Link先を確認
Juri Di Rocco and Claudio Di Sipio(参考訳) iotベースのシステムを指定する場合、ソフトウェア開発者はハードウェアコンポーネントの選択から実際のソースコードの記述に至るまで、一連の課題に直面する必要がある。 専用の開発環境は存在するが、熟練していないユーザは、適切なコンポーネントを選択する際の過度な問題に悩む可能性がある。 本稿では,MDEとレコメンダシステムを組み合わせることで,Arduino開発者を支援するプロトタイプResyDuoを提案する。 e. ハードウェアコンポーネントとソフトウェアライブラリ。 特に,専用データモデルを用いて関連情報を収集することにより,広く採用されている協調フィルタリングアルゴリズムを利用する。 ResyDuoは,ProjectHubリポジトリに格納されているタグや既存のArduinoプロジェクトを使用して,ハードウェアコンポーネントを取得することができる。 そして、同定されたハードウェアデバイスに基づいて、最終的に対応するソフトウェアライブラリを検索する。 ResyDuoにはWebベースのインタフェイスがあり、ユーザがその下開発中のArduinoプロジェクトを容易に選択して構成できる。 ResyDuosの性能を評価するために、CFアルゴリズムのハイパーパラメータを最適化するためにグリッド探索戦略を採用することで、10倍のクロスバリデーションを実行する。 評価の結果, 測定値の観点で改善の余地はあるものの, 有意な結果が得られた。

While specifying an IoT-based system, software developers have to face a set of challenges, spanning from selecting the hardware components to writing the actual source code. Even though dedicated development environments are in place, a nonexpert user might struggle with the over-choice problem in selecting the proper component. By combining MDE and recommender systems, this paper proposes an initial prototype, called ResyDuo, to assist Arduino developers by providing two different artifacts, i. e. , hardware components and software libraries. In particular, we make use of a widely adopted collaborative filtering algorithm by collecting relevant information by means of a dedicated data model. ResyDuo can retrieve hardware components by using tags or existing Arduino projects stored on the ProjectHub repository. Then, the system can eventually retrieve corresponding software libraries based on the identified hardware devices. ResyDuo is equipped with a web-based interface that allows users to easily select and configure the under-developing Arduino project. To assess ResyDuos performances, we run the ten-fold crossvalidation by adopting the grid search strategy to optimize the hyperparameters of the CF-based algorithm. The conducted evaluation shows encouraging results even though there is still room for improvement in terms of the examined metrics.
翻訳日:2023-10-23 12:25:39 公開日:2023-08-26
# 養殖用自律型水中ロボットシステム

Autonomous Underwater Robotic System for Aquaculture Applications ( http://arxiv.org/abs/2308.14762v1 )

ライセンス: Link先を確認
Waseem Akram, Muhayyuddin Ahmed, Lyes Saad Saoud, Lakmal Seneviratne, and Irfan Hussain(参考訳) アクアカルチャーは世界の魚の消費の半分以上を生産する食料生産部門である。 しかし、これらのアクアファームは、漁獲量、植生、網の穴などの重要な課題をもたらし、魚類生産の効率と持続性に大きな影響を与えている。 現在、ダイバーおよび/または遠隔操作車両がアクアファームの検査と維持のために配備されており、このアプローチは高価であり、高度に熟練した人間操作者を必要とする。 本研究の目的は, 生物汚染, 植生, 網穴, プラスチックなどの異なる養殖網の欠陥をリアルタイムに検出し, ROV処理を指向した養殖網ペンの自動欠陥検出システムを開発することである。 提案システムは,アクアネット周辺の車両移動に対する深層学習に基づく欠陥検出法とフィードバック制御法を統合し,網状画像の明確なシーケンスを取得し,検査タスクによって網状画像の状態を検査する。 この研究は、水文化検査、海洋ロボティクス、深層学習の分野に貢献し、コスト削減、品質向上、運用の容易化を目的としている。

Aquaculture is a thriving food-producing sector producing over half of the global fish consumption. However, these aquafarms pose significant challenges such as biofouling, vegetation, and holes within their net pens and have a profound effect on the efficiency and sustainability of fish production. Currently, divers and/or remotely operated vehicles are deployed for inspecting and maintaining aquafarms; this approach is expensive and requires highly skilled human operators. This work aims to develop a robotic-based automatic net defect detection system for aquaculture net pens oriented to on- ROV processing and real-time detection of different aqua-net defects such as biofouling, vegetation, net holes, and plastic. The proposed system integrates both deep learning-based methods for aqua-net defect detection and feedback control law for the vehicle movement around the aqua-net to obtain a clear sequence of net images and inspect the status of the net via performing the inspection tasks. This work contributes to the area of aquaculture inspection, marine robotics, and deep learning aiming to reduce cost, improve quality, and ease of operation.
翻訳日:2023-08-30 17:17:13 公開日:2023-08-26
# プラグインカーネルリッジ回帰推定器を用いた導関数の推定について

On the Estimation of Derivatives Using Plug-in Kernel Ridge Regression Estimators ( http://arxiv.org/abs/2006.01350v4 )

ライセンス: Link先を確認
Zejian Liu and Meng Li(参考訳) 未知関数の重要な非パラメトリック関数として広く応用されている回帰関数の導関数を推定する問題について検討する。 標準解析は特定のデリバティブ順序に合わせることができ、パラメータチューニングは特に高階微分に対して困難な課題である。 本稿では,多次元サポートや任意の混合部分微分に広く適用可能な,ランダムな設計による非パラメトリック回帰の簡易なプラグインカーネルリッジ回帰(KRR)推定器を提案する。 回帰関数とその導関数を包含する統一的な方法で提案する推定器の挙動を研究する非漸近解析を行い,強い$l_\infty$ノルムの下でのカーネルの一般クラスに対する2つの誤差境界を導出する。 多項式減衰固有値を持つカーネルに特化した具体例において、提案した推定器は、H\older と Sobolev クラスの関数の微分を推定するための対数係数まで最小値の最適率を復元する。 興味深いことに、提案する推定器は、任意の階数導関数のチューニングパラメータを同じ選択で最適な収束率を達成する。 そこで提案した推定器は, 導関数の順序に自動的に適応し, 実際に容易にチューニングできるような, 導関数に対する \textit{plug-in property} を享受する。 シミュレーションにより,提案手法の既存手法と比較して,有限サンプル性能が良好であることを示し,ミニマックス最適性に関する理論的知見を裏付ける。

We study the problem of estimating the derivatives of a regression function, which has a wide range of applications as a key nonparametric functional of unknown functions. Standard analysis may be tailored to specific derivative orders, and parameter tuning remains a daunting challenge particularly for high-order derivatives. In this article, we propose a simple plug-in kernel ridge regression (KRR) estimator in nonparametric regression with random design that is broadly applicable for multi-dimensional support and arbitrary mixed-partial derivatives. We provide a non-asymptotic analysis to study the behavior of the proposed estimator in a unified manner that encompasses the regression function and its derivatives, leading to two error bounds for a general class of kernels under the strong $L_\infty$ norm. In a concrete example specialized to kernels with polynomially decaying eigenvalues, the proposed estimator recovers the minimax optimal rate up to a logarithmic factor for estimating derivatives of functions in H\"older and Sobolev classes. Interestingly, the proposed estimator achieves the optimal rate of convergence with the same choice of tuning parameter for any order of derivatives. Hence, the proposed estimator enjoys a \textit{plug-in property} for derivatives in that it automatically adapts to the order of derivatives to be estimated, enabling easy tuning in practice. Our simulation studies show favorable finite sample performance of the proposed method relative to several existing methods and corroborate the theoretical findings on its minimax optimality.
翻訳日:2023-08-30 02:31:49 公開日:2023-08-26
# 歩行者属性認識に関する調査

Pedestrian Attribute Recognition: A Survey ( http://arxiv.org/abs/1901.07474v2 )

ライセンス: Link先を確認
Xiao Wang, Shaofei Zheng, Rui Yang, Aihua Zheng, Zhe Chen, Jin Tang, and Bin Luo(参考訳) 歩行者属性の認識は,映像監視において重要な役割を担うため,コンピュータビジョンコミュニティにおいて重要な課題である。 このタスクを扱うために多くのアルゴリズムが提案されている。 本論文の目的は,従来の手法や深層学習ネットワークに基づく既存の作品をレビューすることである。 まず,歩行者属性認識(PAR,略してPAR)の背景として,歩行者属性の基本概念とそれに対応する課題を紹介する。 第2に,一般的なデータセットや評価基準を含む既存のベンチマークを紹介する。 第3に,マルチタスク学習とマルチラベル学習の概念を分析し,これら2つの学習アルゴリズムと歩行者属性認識の関係を説明する。 また、ディープラーニングコミュニティに広く適用されている人気のあるネットワークアーキテクチャについてもレビューする。 第4に、属性グループやパートベースなど、このタスクの一般的なソリューションを分析します。 第5に,歩行者属性を考慮に入れ,より優れた性能を実現するアプリケーションを示す。 最後に,本論文を要約し,歩行者属性認識のためのいくつかの研究方向を示す。 歩行者属性認識に関する最も最先端の成果を追跡するために、githubを継続的に更新します。

Recognizing pedestrian attributes is an important task in the computer vision community due to it plays an important role in video surveillance. Many algorithms have been proposed to handle this task. The goal of this paper is to review existing works using traditional methods or based on deep learning networks. Firstly, we introduce the background of pedestrian attribute recognition (PAR, for short), including the fundamental concepts of pedestrian attributes and corresponding challenges. Secondly, we introduce existing benchmarks, including popular datasets and evaluation criteria. Thirdly, we analyze the concept of multi-task learning and multi-label learning and also explain the relations between these two learning algorithms and pedestrian attribute recognition. We also review some popular network architectures which have been widely applied in the deep learning community. Fourthly, we analyze popular solutions for this task, such as attributes group, part-based, etc. Fifthly, we show some applications that take pedestrian attributes into consideration and achieve better performance. Finally, we summarize this paper and give several possible research directions for pedestrian attribute recognition. We continuously update the following GitHub to keep tracking the most cutting-edge related works on pedestrian attribute recognition~\url{https://github.com/wangxiao5791509/Pedestrian-Attribute-Recognition-Paper-List}
翻訳日:2023-08-30 02:30:10 公開日:2023-08-26
# ネットワーク, ゲーム, 学習の関連性

The Confluence of Networks, Games and Learning ( http://arxiv.org/abs/2105.08158v2 )

ライセンス: Link先を確認
Tao Li, Guanze Peng, Quanyan Zhu and Tamer Basar(参考訳) 近年、スマートグリッド管理、無線通信、サイバーセキュリティ、マルチエージェント自律システムなど、現代的なネットワークアプリケーションにおける技術やサービスの大幅な進歩が見られる。 ネットワークエンティティの異質性を考慮すると、新たなネットワークアプリケーションは、動的あるいは敵対的な環境での不確実性と混乱に応答する分散ネットワークインテリジェンスを作成するために、ゲーム理論モデルと学習ベースのアプローチを要求する。 本稿では,ネットワーク上でのマルチエージェント意思決定を理解するための理論的基盤を確立するネットワーク,ゲーム,学習の融合について述べる。 本稿では,確率近似理論の枠組みにおけるゲーム理論学習アルゴリズムの選択的概要と,次世代無線通信ネットワーク,スマートグリッド,分散機械学習など,現代のネットワークシステムの代表的文脈における応用について述べる。 ネットワーク上でのゲーム理論学習に関する既存の研究に加えて、人工知能の最近の発展に関連するゲームにおける学習に関する新しい角度と研究の取り組みも強調する。 新しい角度のいくつかは、我々の研究の関心から外されている。 本論文の全体的な目的は,ネットワークシステムにおけるゲーム理論学習手法の導入の強みと課題を明確に把握し,さらに,理論的および応用研究における実りある将来研究の方向性を明らかにすることである。

Recent years have witnessed significant advances in technologies and services in modern network applications, including smart grid management, wireless communication, cybersecurity as well as multi-agent autonomous systems. Considering the heterogeneous nature of networked entities, emerging network applications call for game-theoretic models and learning-based approaches in order to create distributed network intelligence that responds to uncertainties and disruptions in a dynamic or an adversarial environment. This paper articulates the confluence of networks, games and learning, which establishes a theoretical underpinning for understanding multi-agent decision-making over networks. We provide an selective overview of game-theoretic learning algorithms within the framework of stochastic approximation theory, and associated applications in some representative contexts of modern network systems, such as the next generation wireless communication networks, the smart grid and distributed machine learning. In addition to existing research works on game-theoretic learning over networks, we highlight several new angles and research endeavors on learning in games that are related to recent developments in artificial intelligence. Some of the new angles extrapolate from our own research interests. The overall objective of the paper is to provide the reader a clear picture of the strengths and challenges of adopting game-theoretic learning methods within the context of network systems, and further to identify fruitful future research directions on both theoretical and applied studies.
翻訳日:2023-08-30 02:23:28 公開日:2023-08-26
# 確率微分方程式の定常分布を最適化するための連続時間確率勾配降下

Continuous-time stochastic gradient descent for optimizing over the stationary distribution of stochastic differential equations ( http://arxiv.org/abs/2202.06637v2 )

ライセンス: Link先を確認
Ziheng Wang and Justin Sirignano(参考訳) 確率微分方程式(sde)モデルの定常分布を最適化するための連続時間確率勾配降下法を開発した。 このアルゴリズムは定常分布の勾配の推定値を用いてSDEモデルのパラメータを継続的に更新する。 勾配推定はSDE状態導体の前方伝播を用いて同時に更新され、漸近的に最も急降下する方向に収束する。 線形SDEモデル(多次元Ornstein-Uhlenbeckプロセス)に対するオンライン前方伝播アルゴリズムの収束性を厳密に証明し、非線形例に対する数値結果を示す。 この証明は、最も急降下する方向に関するパラメータ進化の変動を分析する必要がある。 ゆらぎに関する境界は、アルゴリズムのオンラインの性質のため取得が困難である(例えば、パラメータの変化に伴って定常分布が継続的に変化する)。 ポアソン偏微分方程式 (poisson partial differential equation, pdes) の解の境界を証明し、アルゴリズムのパラメータ変動の解析に用いる。 我々のアルゴリズムは、SDEモデルの統計的校正と、データと確率過程のエルゴード性が適切なモデリングフレームワークである長期水平地平線に対する確率的最適制御を含む様々な数学的ファイナンス応用に適用できる。 例えば、SDEの高次元最適制御のためのニューラルネットワーク制御の学習や、リミテッドオーダーブックイベントの確率的ポイントプロセスモデルのトレーニングなどである。

We develop a new continuous-time stochastic gradient descent method for optimizing over the stationary distribution of stochastic differential equation (SDE) models. The algorithm continuously updates the SDE model's parameters using an estimate for the gradient of the stationary distribution. The gradient estimate is simultaneously updated using forward propagation of the SDE state derivatives, asymptotically converging to the direction of steepest descent. We rigorously prove convergence of the online forward propagation algorithm for linear SDE models (i.e., the multi-dimensional Ornstein-Uhlenbeck process) and present its numerical results for nonlinear examples. The proof requires analysis of the fluctuations of the parameter evolution around the direction of steepest descent. Bounds on the fluctuations are challenging to obtain due to the online nature of the algorithm (e.g., the stationary distribution will continuously change as the parameters change). We prove bounds for the solutions of a new class of Poisson partial differential equations (PDEs), which are then used to analyze the parameter fluctuations in the algorithm. Our algorithm is applicable to a range of mathematical finance applications involving statistical calibration of SDE models and stochastic optimal control for long time horizons where ergodicity of the data and stochastic process is a suitable modeling framework. Numerical examples explore these potential applications, including learning a neural network control for high-dimensional optimal control of SDEs and training stochastic point process models of limit order book events.
翻訳日:2023-08-30 02:17:06 公開日:2023-08-26
# 低回路深さでゴーマンス・ウィリアムソンのマックスカットに収束し、計算的に打ち負かされるカスタムミキサー付きウォームスタートQAOA

Warm-Started QAOA with Custom Mixers Provably Converges and Computationally Beats Goemans-Williamson's Max-Cut at Low Circuit Depths ( http://arxiv.org/abs/2112.11354v3 )

ライセンス: Link先を確認
Reuben Tate and Jai Moondra and Bryan Gard and Greg Mohler and Swati Gupta(参考訳) 我々は、Farhi et al. (2014) の量子近似最適化アルゴリズム (QAOA) を一般化し、任意の分離可能な初期状態をミキサーと組み合わせることで、開始状態がミキシングハミルトンの最も励起状態となるようにする。 重み付きグラフ上でMax-Cutをシミュレートすることで、QAOA-warmestと呼ぶQAOAのこのバージョンを実証する。 max-cut's semi-definiteプログラムに対する解のランダム投射を用いて得られる2ドルと3ドルの近似を用いて、開始状態をウォームスタートとして初期化し、ウォームスタート依存のカスタムミキサーを定義する。 これらのウォームスタートは、カオア回路を一定値の近似値である$0.658$、非負のエッジ重みを持つグラフの$0.585$で初期化し、既知の自明(つまり標準初期化に$0.5$)の最悪のケース境界を$p=0$で改善することを示している。 さらに, 分離可能な初期状態を持つqaoa-warmestは, 断熱限界の下では$p\rightarrow \infty$としてmax-cutに収束することを示した。 しかし、ウォームスタートの選択はマックス・カットへの収束率に大きな影響を与え、我々のウォームスタートが既存のアプローチに比べて早く収束できることを実証的に示す。 さらに,従来のQAOA,古典的なGoemans-Williamsonアルゴリズム,および1148ドルのグラフ(最大111ドルノード)と深さ$p=8$のインスタンスライブラリに対して,カスタムミキサーを含まないウォームスタートしたQAOAよりも高い品質低下を示した。 さらに、現在のIBM-QおよびQuantinuumハードウェアの実験において、QAOA-warmestがFarhiらの標準QAOAよりも優れていることを示す。

We generalize the Quantum Approximate Optimization Algorithm (QAOA) of Farhi et al. (2014) to allow for arbitrary separable initial states with corresponding mixers such that the starting state is the most excited state of the mixing Hamiltonian. We demonstrate this version of QAOA, which we call QAOA-warmest, by simulating Max-Cut on weighted graphs. We initialize the starting state as a warm-start using $2$ and $3$-dimensional approximations obtained using randomized projections of solutions to Max-Cut's semi-definite program, and define a warm-start dependent custom mixer. We show that these warm-starts initialize the QAOA circuit with constant-factor approximations of $0.658$ for $2$-dimensional and $0.585$ for $3$-dimensional warm-starts for graphs with non-negative edge weights, improving upon previously known trivial (i.e., $0.5$ for standard initialization) worst-case bounds at $p=0$. These factors in fact lower bound the approximation achieved for Max-Cut at higher circuit depths, since we also show that QAOA-warmest with any separable initial state converges to Max-Cut under the adiabatic limit as $p\rightarrow \infty$. However, the choice of warm-starts significantly impacts the rate of convergence to Max-Cut, and we show empirically that our warm-starts achieve a faster convergence compared to existing approaches. Additionally, our numerical simulations show higher quality cuts compared to standard QAOA, the classical Goemans-Williamson algorithm, and a warm-started QAOA without custom mixers for an instance library of $1148$ graphs (upto $11$ nodes) and depth $p=8$. We further show that QAOA-warmest outperforms the standard QAOA of Farhi et al. in experiments on current IBM-Q and Quantinuum hardware.
翻訳日:2023-08-30 02:14:39 公開日:2023-08-26
# マルチスケールグラフネットワークによる時間積分粗粒分子動力学シミュレーション

Simulate Time-integrated Coarse-grained Molecular Dynamics with Multi-Scale Graph Networks ( http://arxiv.org/abs/2204.10348v3 )

ライセンス: Link先を確認
Xiang Fu, Tian Xie, Nathan J. Rebello, Bradley D. Olsen, Tommi Jaakkola(参考訳) 分子動力学(MD)シミュレーションは様々な科学領域に必須であるが、計算コストが高い。 学習に基づく力場はアブ・イニシアトMDシミュレーションの高速化において大きな進歩を遂げているが、大規模なシステムや小さな時間ステップ(フェムト秒レベル)での推論が遅いため、多くの実世界のアプリケーションでは不十分である。 これらの課題に対処するために、非常に大きな時間ステップ(ナノ秒レベル)で粗粒MDを直接シミュレートするマルチスケールグラフニューラルネットワークと、シミュレーション不安定性を緩和する拡散モデルに基づく新しい洗練されたモジュールを学習する。 本手法の有効性は, 単鎖粗粒ポリマーと多成分liイオンポリマー電解質の2つの複合系で実証された。 評価のために、モデルが訓練されていない異なる化学組成を持つシステムの訓練軌道よりもずっと長い軌道をシミュレートする。 構造的および動的性質は、フェムト秒状態から抜け出して古典的な力場よりも数桁高い速度で正確に回復することができる。

Molecular dynamics (MD) simulation is essential for various scientific domains but computationally expensive. Learning-based force fields have made significant progress in accelerating ab-initio MD simulation but are not fast enough for many real-world applications due to slow inference for large systems and small time steps (femtosecond-level). We aim to address these challenges by learning a multi-scale graph neural network that directly simulates coarse-grained MD with a very large time step (nanosecond-level) and a novel refinement module based on diffusion models to mitigate simulation instability. The effectiveness of our method is demonstrated in two complex systems: single-chain coarse-grained polymers and multi-component Li-ion polymer electrolytes. For evaluation, we simulate trajectories much longer than the training trajectories for systems with different chemical compositions that the model is not trained on. Structural and dynamical properties can be accurately recovered at several orders of magnitude higher speed than classical force fields by getting out of the femtosecond regime.
翻訳日:2023-08-30 02:04:08 公開日:2023-08-26
# 外因性非定常変動の存在下での適応実験

Adaptive Experimentation in the Presence of Exogenous Nonstationary Variation ( http://arxiv.org/abs/2202.09036v4 )

ライセンス: Link先を確認
Chao Qin and Daniel Russo(参考訳) 人口展開のための治療用アームの選択を目的とした実験について検討する。 マルチアームバンディットアルゴリズムは、観測されたフィードバックに基づいて、ハイパフォーマンスなアームに対する計測作業を動的に割り当てることで効率を向上させることができる。 しかし、そのような力学は、実験中に腕のパフォーマンスに影響を及ぼす非定常外因性要因に直面する不安定な挙動をもたらす可能性がある。 そこで我々は,著名なトンプソンサンプリングアルゴリズムのよりロバストな変種であるトンプソンサンプリング法(dts)を提案する。 観察が蓄積されるにつれて、DTSは、観察された治療決定が行われたコンテキストを制御しながら、腕の集団レベルのパフォーマンスを予測する。 ここでの文脈は、治療対象の国のような、理解可能な変化源を捉えたり、治療の時間を単に記録したりすることができる。 我々は,実験中および実験後におけるdtsの後悔と,その外因性変異に対する回復力と,探索と搾取の間の微妙なバランスを示す。 本研究の証明は, 後方分布の進化を解析するために, 逆傾向重みを応用し, 文献上の確立された方法から逸脱した。 新たな理解が本当に必要であることを示すため、人気の上位信頼バウンドアルゴリズムのデコングド変種が完全に失敗する可能性があることを示す。

We investigate experiments that are designed to select a treatment arm for population deployment. Multi-armed bandit algorithms can enhance efficiency by dynamically allocating measurement effort towards higher performing arms based on observed feedback. However, such dynamics can result in brittle behavior in the face of nonstationary exogenous factors influencing arms' performance during the experiment. To counter this, we propose deconfounded Thompson sampling (DTS), a more robust variant of the prominent Thompson sampling algorithm. As observations accumulate, DTS projects the population-level performance of an arm while controlling for the context within which observed treatment decisions were made. Contexts here might capture a comprehensible source of variation, such as the country of a treated individual, or simply record the time of treatment. We provide bounds on both within-experiment and post-experiment regret of DTS, illustrating its resilience to exogenous variation and the delicate balance it strikes between exploration and exploitation. Our proofs leverage inverse propensity weights to analyze the evolution of the posterior distribution, a departure from established methods in the literature. Hinting that new understanding is indeed necessary, we show that a deconfounded variant of the popular upper confidence bound algorithm can fail completely.
翻訳日:2023-08-30 02:02:32 公開日:2023-08-26
# 再帰的変分級法に基づく分子・物質特性計算のための短期量子アルゴリズム

Near-term quantum algorithm for computing molecular and materials properties based on recursive variational series methods ( http://arxiv.org/abs/2206.09881v3 )

ライセンス: Link先を確認
Phillip W. K. Jensen, Peter D. Johnson, and Alexander A. Kunitsa(参考訳) 分子や物質の特性を決定することは、量子コンピューティングの第一の応用の一つである。 この分野の大きな疑問は: 実用的価値の問題を解決するために、不完全な短期量子コンピュータをどのように使うのか? 近距離量子デバイスを用いて分子の特性を推定する量子アルゴリズムを提案する。 この方法は帰納的変分級数推定法であり、チェビシェフ多項式の項で興味のある作用素を拡張し、変分量子アルゴリズムを用いて展開の各項を評価する。 エネルギー領域における一粒子グリーン関数と時間領域における自己相関関数を計算し,本手法を検証した。

Determining the properties of molecules and materials is one of the premier applications of quantum computing. A major question in the field is: how might we use imperfect near-term quantum computers to solve problems of practical value? We propose a quantum algorithm to estimate the properties of molecules using near-term quantum devices. The method is a recursive variational series estimation method, where we expand an operator of interest in terms of Chebyshev polynomials and evaluate each term in the expansion using a variational quantum algorithm. We test our method by computing the one-particle Green's function in the energy domain and the autocorrelation function in the time domain.
翻訳日:2023-08-30 01:55:26 公開日:2023-08-26
# エッジデバイスにおけるdnnコールド推論の促進

Boosting DNN Cold Inference on Edge Devices ( http://arxiv.org/abs/2206.07446v2 )

ライセンス: Link先を確認
Rongjie Yi, Ting Cao, Ao Zhou, Xiao Ma, Shangguang Wang, Mengwei Xu(参考訳) 現在、DNNはエッジデバイス上でユビキタスである。 重要性とユースケースの増大に伴い、すべてのDNNをデバイスメモリに詰め込んで、各推論がウォームアップされることを期待する可能性は低い。 そのため,DNNモデルの読み出し,初期化,実行プロセスであるコールド推論が一般的になり,その性能の最適化が急務に求められている。 そこで我々は,dnn演算子毎に適切なカーネル(実装)を選択すること,ディスク上の後変換重みをキャッシュすることで重み変換プロセスをバイパスすること,非対称プロセッサ上で多数のカーネルの実行をパイプライン化すること,という3つの新しい最適化ノブ上に,最初のオンデバイス推論エンジンであるnnv12を提案する。 巨大な探索空間に対処するため、nnv12はヒューリスティックベースのスキームを採用し、最適に近いカーネルスケジューリング計画を得る。 NNV12のプロトタイプを完全実装し,その性能評価を行った。 NNV12は、それぞれエッジCPUとGPU上の最先端のDNNエンジンと比較して15.2xと401.5xに達する。

DNNs are ubiquitous on edge devices nowadays. With its increasing importance and use cases, it's not likely to pack all DNNs into device memory and expect that each inference has been warmed up. Therefore, cold inference, the process to read, initialize, and execute a DNN model, is becoming commonplace and its performance is urgently demanded to be optimized. To this end, we present NNV12, the first on-device inference engine that optimizes for cold inference NNV12 is built atop 3 novel optimization knobs: selecting a proper kernel (implementation) for each DNN operator, bypassing the weights transformation process by caching the post-transformed weights on disk, and pipelined execution of many kernels on asymmetric processors. To tackle with the huge search space, NNV12 employs a heuristic-based scheme to obtain a near-optimal kernel scheduling plan. We fully implement a prototype of NNV12 and evaluate its performance across extensive experiments. It shows that NNV12 achieves up to 15.2x and 401.5x compared to the state-of-the-art DNN engines on edge CPUs and GPUs, respectively.
翻訳日:2023-08-30 01:54:11 公開日:2023-08-26
# 事前特徴と注意力強化画像インペインティングの学習

Learning Prior Feature and Attention Enhanced Image Inpainting ( http://arxiv.org/abs/2208.01837v2 )

ライセンス: Link先を確認
Chenjie Cao, Qiaole Dong, Yanwei Fu(参考訳) 近年の多くの絵画作品は、ディープニューラルネットワーク(dnn)を利用して画像復元のための様々な事前情報をモデル化することで印象的な成果を上げている。 残念なことに、これらの手法の性能は、バニラ畳み込みニューラルネットワーク(CNN)バックボーンの表現能力によって大きく制限されており、一方、自己教師付き事前学習による視覚変換器(ViT)は、多くの視覚認識や物体検出タスクにおいて大きな可能性を示している。 自然な質問は、塗装タスクがvitバックボーンから大きな利益を得られるかどうかである。 しかし、塗装は認識タスクと根本的に異なる逆問題であるため、塗装ネットワークにおける新しいバックボーンを直接置き換えることは簡単ではない。 そこで本稿では,事前学習によるマスク付きオートエンコーダ(mae)をインペインティングモデルに組み込むことにより,インペインティングプロセスの向上を図る。 さらに,masked領域とunmasked領域の長距離依存性をより学習させるために,MAEの注意点を用いた手法を提案する。 本論文では, インペインティングと自己教師付き事前学習モデルについて十分なアブレーションが議論されている。 さらに,places2 と ffhq の両方で実験を行い,提案モデルの有効性を示した。 コードと事前訓練されたモデルはhttps://github.com/ewrfcas/MAE-FARで公開されている。

Many recent inpainting works have achieved impressive results by leveraging Deep Neural Networks (DNNs) to model various prior information for image restoration. Unfortunately, the performance of these methods is largely limited by the representation ability of vanilla Convolutional Neural Networks (CNNs) backbones.On the other hand, Vision Transformers (ViT) with self-supervised pre-training have shown great potential for many visual recognition and object detection tasks. A natural question is whether the inpainting task can be greatly benefited from the ViT backbone? However, it is nontrivial to directly replace the new backbones in inpainting networks, as the inpainting is an inverse problem fundamentally different from the recognition tasks. To this end, this paper incorporates the pre-training based Masked AutoEncoder (MAE) into the inpainting model, which enjoys richer informative priors to enhance the inpainting process. Moreover, we propose to use attention priors from MAE to make the inpainting model learn more long-distance dependencies between masked and unmasked regions. Sufficient ablations have been discussed about the inpainting and the self-supervised pre-training models in this paper. Besides, experiments on both Places2 and FFHQ demonstrate the effectiveness of our proposed model. Codes and pre-trained models are released in https://github.com/ewrfcas/MAE-FAR.
翻訳日:2023-08-30 01:43:19 公開日:2023-08-26
# TuneUp: グラフニューラルネットワークのトレーニング戦略をシンプルに改善

TuneUp: A Simple Improved Training Strategy for Graph Neural Networks ( http://arxiv.org/abs/2210.14843v2 )

ライセンス: Link先を確認
Weihua Hu, Kaidi Cao, Kexin Huang, Edward W Huang, Karthik Subbian, Kenji Kawaguchi, Jure Leskovec(参考訳) 最近のグラフニューラルネットワーク(gnns)の進歩にもかかわらず、そのトレーニング戦略はほとんど未調査のままである。 従来のトレーニング戦略は、元のグラフ内のすべてのノードについて等しく学習し、特定のノードが他のノードよりも学習が難しい場合が多いため、準最適である。 本稿では、GNNの予測性能を改善するための簡単なカリキュラムベースのトレーニング戦略であるTuneUpを紹介する。 TuneUpはGNNを2段階に分けて運行している。 第1段階では、TuneUpは従来のトレーニングを適用して、強力なベースGNNを取得する。 ベースGNNは、ヘッドノード(大きな次数を持つノード)ではよく機能するが、テールノード(小さな次数を持つノード)では性能が低い。 したがって、tuneupの第2段階は、合成生成された末尾ノードデータに対してベースgnnをさらに訓練することにより、難しい末尾ノードの予測を改善することに焦点を当てている。 理論上はチューナップの解析を行い,末尾ノードの一般化性能が向上することを示す。 TuneUpは実装が簡単で、幅広いGNNアーキテクチャや予測タスクに適用できる。 5つの異なるGNNアーキテクチャ、3種類の予測タスク、およびトランスダクティブおよびインダクティブ設定によるTuneUpの広範囲な評価は、TuneUpが尾ノードのベースGNNの性能を大幅に改善し、ヘッドノードのパフォーマンスも改善していることを示している。 全体としてtuneupは、トランスダクティブと挑戦的なインダクティブ設定において、それぞれ57.6%と92.2%の相対的なパフォーマンス改善を実現している。

Despite recent advances in Graph Neural Networks (GNNs), their training strategies remain largely under-explored. The conventional training strategy learns over all nodes in the original graph(s) equally, which can be sub-optimal as certain nodes are often more difficult to learn than others. Here we present TuneUp, a simple curriculum-based training strategy for improving the predictive performance of GNNs. TuneUp trains a GNN in two stages. In the first stage, TuneUp applies conventional training to obtain a strong base GNN. The base GNN tends to perform well on head nodes (nodes with large degrees) but less so on tail nodes (nodes with small degrees). Therefore, the second stage of TuneUp focuses on improving prediction on the difficult tail nodes by further training the base GNN on synthetically generated tail node data. We theoretically analyze TuneUp and show it provably improves generalization performance on tail nodes. TuneUp is simple to implement and applicable to a broad range of GNN architectures and prediction tasks. Extensive evaluation of TuneUp on five diverse GNN architectures, three types of prediction tasks, and both transductive and inductive settings shows that TuneUp significantly improves the performance of the base GNN on tail nodes, while often even improving the performance on head nodes. Altogether, TuneUp produces up to 57.6% and 92.2% relative predictive performance improvement in the transductive and the challenging inductive settings, respectively.
翻訳日:2023-08-30 01:36:24 公開日:2023-08-26
# マルチビュー推論: 単語問題に対する一貫性のあるコントラスト学習

Multi-View Reasoning: Consistent Contrastive Learning for Math Word Problem ( http://arxiv.org/abs/2210.11694v2 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Yanna Ma, Xiaoxia Cheng, Zeqi Tan, Qingpeng Nong, Weiming Lu(参考訳) 数学用語問題解決者は、テキストの量に関する正確な関係推論と、多様な方程式の信頼性の高い生成の両方を必要とする。 現在のシーケンシャル・トゥ・ツリー(英語版)あるいは関係抽出法は、これを固定的な視点からのみ考慮し、複雑な意味論と多様な方程式を同時に扱うのに苦労している。 しかし、人間の解法には自然に二つの一貫した理性的見解がある:トップダウンとボトムアップ(英語版)、数学の方程式も複数の等価な形式で表すことができる:プレオーダーとポストオーダー(英語版)である。 より完全なセマンティクスから方程式マッピングのためのマルチビューコントラスト学習を提案する。 プロセス全体は、トップダウン分解とボトムアップ構成の2つの独立した、一貫したビューに分離されている。 2つの言語にまたがる複数のデータセットの実験は、我々のアプローチが既存のベースライン、特に複雑な問題において著しく優れていることを示している。 また、一貫したアライメントの後、マルチビューは両方のビューのメリットを吸収し、数学的法則に整合したより多様な結果を生成することができることを示す。

Math word problem solver requires both precise relation reasoning about quantities in the text and reliable generation for the diverse equation. Current sequence-to-tree or relation extraction methods regard this only from a fixed view, struggling to simultaneously handle complex semantics and diverse equations. However, human solving naturally involves two consistent reasoning views: top-down and bottom-up, just as math equations also can be expressed in multiple equivalent forms: pre-order and post-order. We propose a multi-view consistent contrastive learning for a more complete semantics-to-equation mapping. The entire process is decoupled into two independent but consistent views: top-down decomposition and bottom-up construction, and the two reasoning views are aligned in multi-granularity for consistency, enhancing global generation and precise reasoning. Experiments on multiple datasets across two languages show our approach significantly outperforms the existing baselines, especially on complex problems. We also show after consistent alignment, multi-view can absorb the merits of both views and generate more diverse results consistent with the mathematical laws.
翻訳日:2023-08-30 01:35:00 公開日:2023-08-26
# TransVisDrone: 空中ビデオにおける視覚に基づくドローン間検出のための時空間変換器

TransVisDrone: Spatio-Temporal Transformer for Vision-based Drone-to-Drone Detection in Aerial Videos ( http://arxiv.org/abs/2210.08423v2 )

ライセンス: Link先を確認
Tushar Sangam, Ishan Rajendrakumar Dave, Waqas Sultani, Mubarak Shah(参考訳) 視覚フィードを用いたドローン対ドローン検出には、ドローン衝突の検出、ドローン攻撃の検出、他のドローンとの飛行調整など、重要な応用がある。 しかし、既存の手法は計算コストがかかり、非エンドツーエンドの最適化に従い、複雑なマルチステージパイプラインを持つため、エッジデバイスでのリアルタイムデプロイメントには適さない。 本稿では,計算効率の高いエンドツーエンドソリューションを提供する,単純かつ効率的なフレームワークである \textit{transvisdrone}を提案する。 我々はCSPDarkNet-53ネットワークを用いてオブジェクト関連空間特徴とVideoSwinモデルを学習し、ドローンの動きの時空間依存性を学習することで、挑戦的なシナリオにおけるドローン検出を改善する。 nps 0.95, fldrones 0.75, aot 0.80の3つの挑戦的実世界のデータセット(平均精度@0.5iou)において最先端の性能を達成し, 従来の手法よりも高いスループットを実現する。 また,エッジデバイスへの展開能力と,ドローンコラボレーション(encounter)検出における有用性を示す。 プロジェクト: \url{https://tusharsangam.github.io/transvisdrone-project-page/}

Drone-to-drone detection using visual feed has crucial applications, such as detecting drone collisions, detecting drone attacks, or coordinating flight with other drones. However, existing methods are computationally costly, follow non-end-to-end optimization, and have complex multi-stage pipelines, making them less suitable for real-time deployment on edge devices. In this work, we propose a simple yet effective framework, \textit{TransVisDrone}, that provides an end-to-end solution with higher computational efficiency. We utilize CSPDarkNet-53 network to learn object-related spatial features and VideoSwin model to improve drone detection in challenging scenarios by learning spatio-temporal dependencies of drone motion. Our method achieves state-of-the-art performance on three challenging real-world datasets (Average Precision@0.5IOU): NPS 0.95, FLDrones 0.75, and AOT 0.80, and a higher throughput than previous methods. We also demonstrate its deployment capability on edge devices and its usefulness in detecting drone-collision (encounter). Project: \url{https://tusharsangam.github.io/TransVisDrone-project-page/}.
翻訳日:2023-08-30 01:34:39 公開日:2023-08-26
# 力は十分ではない:分子シミュレーションによる機械学習力場の評価と評価

Forces are not Enough: Benchmark and Critical Evaluation for Machine Learning Force Fields with Molecular Simulations ( http://arxiv.org/abs/2210.07237v2 )

ライセンス: Link先を確認
Xiang Fu, Zhenghao Wu, Wujie Wang, Tian Xie, Sinan Keten, Rafael Gomez-Bombarelli, Tommi Jaakkola(参考訳) 分子動力学(MD)シミュレーション技術は様々な自然科学応用に広く用いられている。 機械学習(ML)力場(FF)モデルは、原子構造から直接力を予測することによって、アブ・イニシアトシミュレーションを置き換える。 この領域ではかなり進歩したにもかかわらず、こうした手法は主に力/エネルギー予測誤差によってベンチマークされるが、実用的なユースケースは現実的なmd軌道を生成することである。 学習MDシミュレーションのための新しいベンチマークスイートを導入することで、このギャップを埋めることを目指している。 我々は、水、有機分子、ペプチド、および材料を含む代表的なmdシステムをキュレートし、各システムの科学的目的に応じた設計評価指標を提供する。 我々は、最先端(SOTA)ML FFモデルの集合をベンチマークし、特に、一般的にベンチマークされる力の精度が、関連するシミュレーション指標とうまく一致していないことを示す。 我々は、選択したSOTAメソッドがいつ、どのように失敗するかを示し、さらなる改善の方向性を提供する。 具体的には、安定性をMLモデルの改善の鍵となる指標とみなす。 ベンチマークスイートには、ML FFによるトレーニングとシミュレーションのための総合的なオープンソースコードベースが付属しています。

Molecular dynamics (MD) simulation techniques are widely used for various natural science applications. Increasingly, machine learning (ML) force field (FF) models begin to replace ab-initio simulations by predicting forces directly from atomic structures. Despite significant progress in this area, such techniques are primarily benchmarked by their force/energy prediction errors, even though the practical use case would be to produce realistic MD trajectories. We aim to fill this gap by introducing a novel benchmark suite for learned MD simulation. We curate representative MD systems, including water, organic molecules, a peptide, and materials, and design evaluation metrics corresponding to the scientific objectives of respective systems. We benchmark a collection of state-of-the-art (SOTA) ML FF models and illustrate, in particular, how the commonly benchmarked force accuracy is not well aligned with relevant simulation metrics. We demonstrate when and how selected SOTA methods fail, along with offering directions for further improvement. Specifically, we identify stability as a key metric for ML models to improve. Our benchmark suite comes with a comprehensive open-source codebase for training and simulation with ML FFs to facilitate future work.
翻訳日:2023-08-30 01:34:17 公開日:2023-08-26
# 報酬シェーピングによるロボットナビゲーションのための深層強化学習の一般化

Generalization in Deep Reinforcement Learning for Robotic Navigation by Reward Shaping ( http://arxiv.org/abs/2209.14271v2 )

ライセンス: Link先を確認
Victor R. F. Miranda, Armando A. Neto, Gustavo M. Freitas, Leonardo A. Mozelli(参考訳) 本稿では,LDARのような限られた範囲の外部受動センサのみを備えた未知の作業空間において,ロボットが目標位置に向かって移動する局所ナビゲーション問題におけるDRLアルゴリズムの適用について検討する。 DRLに基づく衝突回避ポリシーにはいくつかの利点があるが、適切な行動を学ぶ能力がセンサー範囲に限られると、局所的なミニマの影響を受けやすい。 ほとんどのロボットは非構造環境でタスクを実行するため、特に訓練されていないシナリオにおいて、局所的なミニマを回避できる一般的なローカルナビゲーションポリシーを求めることが非常に興味深い。 そこで本研究では,訓練段階で得られた地図情報を組み込んだ新たな報酬機能を提案する。 また、ANNのトレーニングにはSACアルゴリズムを使用し、最先端の文献では他のものよりも効果的であることを示す。 sim-to-sim とsim-to-real の一連の実験により,提案した報酬と SAC は局所最小値と衝突回避率で比較した手法より優れていることを示した。

In this paper, we study the application of DRL algorithms in the context of local navigation problems, in which a robot moves towards a goal location in unknown and cluttered workspaces equipped only with limited-range exteroceptive sensors, such as LiDAR. Collision avoidance policies based on DRL present some advantages, but they are quite susceptible to local minima, once their capacity to learn suitable actions is limited to the sensor range. Since most robots perform tasks in unstructured environments, it is of great interest to seek generalized local navigation policies capable of avoiding local minima, especially in untrained scenarios. To do so, we propose a novel reward function that incorporates map information gained in the training stage, increasing the agent's capacity to deliberate about the best course of action. Also, we use the SAC algorithm for training our ANN, which shows to be more effective than others in the state-of-the-art literature. A set of sim-to-sim and sim-to-real experiments illustrate that our proposed reward combined with the SAC outperforms the compared methods in terms of local minima and collision avoidance.
翻訳日:2023-08-30 01:33:29 公開日:2023-08-26
# 5G基地局交通予測のためのフェデレートラーニング

Federated Learning for 5G Base Station Traffic Forecasting ( http://arxiv.org/abs/2211.15220v2 )

ライセンス: Link先を確認
Vasileios Perifanis, Nikolaos Pavlidis, Remous-Aris Koutsiamanis, Pavlos S. Efraimidis(参考訳) セルラートラフィック予測は、5gモバイルネットワークがインテリジェントで効率的なインフラ計画と管理を可能にするために非常に重要である。 ただし、利用可能なデータは基地局のログ情報に限られている。 したがって、様々な分野にまたがる新たな観察に一般化できる高品質な予測を生成するための訓練方法が求められている。 従来のアプローチでは、複数の基地局から測定を収集し、それらを中央エンティティに送信し、取得データを使用して機械学習操作を実行する必要がある。 ローカルな観察を広めることで、機密性とパフォーマンスに関する懸念が高まり、機械学習技術の適用性が損なわれる。 この問題に対処するために,様々な分散学習手法が提案されているが,そのトラフィック予測への応用は未定である。 本研究では,時系列予測のための生局LTEデータに適用したフェデレーション学習の有効性を検討する。 我々は、5つの異なるニューラルネットワークアーキテクチャを用いて、1段階の予測を評価する。 その結果,フェデレート設定に適応した学習アーキテクチャは,集中型設定に等価な予測誤差を与えることがわかった。 さらに,基地局における前処理技術により予測精度が向上する一方,高度な統合アグリゲータは単純なアプローチを超越しない。 環境影響を考慮したシミュレーションでは、連合学習が二酸化炭素排出量とエネルギー消費を減らす可能性を秘めている。 最後に、合成データを用いた大規模シナリオを考察し、フェデレーション学習が集中的な設定よりも計算と通信のコストを低減させることを示す。

Cellular traffic prediction is of great importance on the path of enabling 5G mobile networks to perform intelligent and efficient infrastructure planning and management. However, available data are limited to base station logging information. Hence, training methods for generating high-quality predictions that can generalize to new observations across diverse parties are in demand. Traditional approaches require collecting measurements from multiple base stations, transmitting them to a central entity and conducting machine learning operations using the acquire data. The dissemination of local observations raises concerns regarding confidentiality and performance, which impede the applicability of machine learning techniques. Although various distributed learning methods have been proposed to address this issue, their application to traffic prediction remains highly unexplored. In this work, we investigate the efficacy of federated learning applied to raw base station LTE data for time-series forecasting. We evaluate one-step predictions using five different neural network architectures trained with a federated setting on non-identically distributed data. Our results show that the learning architectures adapted to the federated setting yield equivalent prediction error to the centralized setting. In addition, preprocessing techniques on base stations enhance forecasting accuracy, while advanced federated aggregators do not surpass simpler approaches. Simulations considering the environmental impact suggest that federated learning holds the potential for reducing carbon emissions and energy consumption. Finally, we consider a large-scale scenario with synthetic data and demonstrate that federated learning reduces the computational and communication costs compared to centralized settings.
翻訳日:2023-08-30 01:15:30 公開日:2023-08-26
# PointCLIP V2: 強力な3Dオープンワールド学習のためのCLIPとGPTの実証

PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning ( http://arxiv.org/abs/2211.11682v2 )

ライセンス: Link先を確認
Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Ziyao Zeng, Zipeng Qin, Shanghang Zhang, Peng Gao(参考訳) 大規模な事前学習されたモデルは、視覚と言語の両方のタスクで有望なオープンワールドパフォーマンスを示している。 しかし、3Dポイントクラウド上の転送容量はまだ制限されており、分類タスクのみに制限されている。 本稿では,まずCLIPとGPTを共同で,PointCLIP V2という名前の3Dオープンワールド学習者として,ゼロショット3D分類,セグメンテーション,検出の可能性を完全に解放する。 3Dデータを事前訓練された言語知識と整合させるため、PointCLIP V2には2つの重要な設計が含まれている。 視覚的には、形状投影モジュールを介してCLIPに、より現実的な深度マップを生成し、投影された点雲間の領域ギャップを自然な画像で絞り込む。 テキストの最後には,CLIPのテキストエンコーダの入力として,GPTモデルに3D固有のテキストを生成するように促す。 3D領域でのトレーニングがなければ、この手法はポイントCLIPを+42.90%、+40.44%、+28.75%の精度でゼロショットの3D分類を行うことができる。 それに加えて、v2は、少数の3d分類、ゼロショット3d部分セグメンテーション、および3dオブジェクト検出に簡単な方法で拡張することができ、統一3dオープンワールド学習の一般化能力を示しています。

Large-scale pre-trained models have shown promising open-world performance for both vision and language tasks. However, their transferred capacity on 3D point clouds is still limited and only constrained to the classification task. In this paper, we first collaborate CLIP and GPT to be a unified 3D open-world learner, named as PointCLIP V2, which fully unleashes their potential for zero-shot 3D classification, segmentation, and detection. To better align 3D data with the pre-trained language knowledge, PointCLIP V2 contains two key designs. For the visual end, we prompt CLIP via a shape projection module to generate more realistic depth maps, narrowing the domain gap between projected point clouds with natural images. For the textual end, we prompt the GPT model to generate 3D-specific text as the input of CLIP's textual encoder. Without any training in 3D domains, our approach significantly surpasses PointCLIP by +42.90%, +40.44%, and +28.75% accuracy on three datasets for zero-shot 3D classification. On top of that, V2 can be extended to few-shot 3D classification, zero-shot 3D part segmentation, and 3D object detection in a simple manner, demonstrating our generalization ability for unified 3D open-world learning.
翻訳日:2023-08-30 01:14:40 公開日:2023-08-26
# 双方向情報非対称性下でのシグナリングへのコミットメント

Commitment with Signaling under Double-sided Information Asymmetry ( http://arxiv.org/abs/2212.11446v3 )

ライセンス: Link先を確認
Tao Li and Quanyan Zhu(参考訳) ゲームにおける情報非対称性は、他のプレイヤーに戦略的に情報を開示することで、情報有利なプレイヤーが他人の信念を操作することを可能にする。 この研究はバイエルン・スタックルベルグのゲームにおいて、混合戦略のコミットメントからサンプリングされたリーダーの実際の行動が従者から隠された両面の情報非対称性を考える。 対照的に、フォロワーは自分の支払いに関する情報をプライベートに保持している。 双方に非対称な情報を与えると、重要な疑問が生じる: \emph{es the leader's information advantage than the followinger's? ここで、我々は、リーダーが実行した行動に関する部分的な情報を明らかにするシグナル装置を適切に設計することで、リーダーが合図無しに、より高い期待する有用性を達成することができることを実証する。 さらに、数学プログラミングツールを利用するベイジアン・スタックルバーグゲームにおける以前の作品とは異なり、指導者のコミットメントを信念空間上の確率測度として解釈する。 このような確率的言語は解析を大幅に単純化し、間接的なシグナリングスキームを許容し、提案したゲームモデルの下での平衡の幾何学的特徴付けに繋がる。

Information asymmetry in games enables players with the information advantage to manipulate others' beliefs by strategically revealing information to other players. This work considers a double-sided information asymmetry in a Bayesian Stackelberg game, where the leader's realized action, sampled from the mixed strategy commitment, is hidden from the follower. In contrast, the follower holds private information about his payoff. Given asymmetric information on both sides, an important question arises: \emph{Does the leader's information advantage outweigh the follower's?} We answer this question affirmatively in this work, where we demonstrate that by adequately designing a signaling device that reveals partial information regarding the leader's realized action to the follower, the leader can achieve a higher expected utility than that without signaling. Moreover, unlike previous works on the Bayesian Stackelberg game where mathematical programming tools are utilized, we interpret the leader's commitment as a probability measure over the belief space. Such a probabilistic language greatly simplifies the analysis and allows an indirect signaling scheme, leading to a geometric characterization of the equilibrium under the proposed game model.
翻訳日:2023-08-30 01:04:25 公開日:2023-08-26
# EvoX: スケーラブル進化計算のための分散GPUアクセラレーションフレームワーク

EvoX: A Distributed GPU-accelerated Framework for Scalable Evolutionary Computation ( http://arxiv.org/abs/2301.12457v6 )

ライセンス: Link先を確認
Beichen Huang, Ran Cheng, Zhuozhao Li, Yaochu Jin, Kay Chen Tan(参考訳) 進化計算(Evolutionary Computation、EC)は、自然進化のプロセスからインスピレーションを得て、人工知能の不可欠な側面としての地位を確立した。 適応性や広大な問題空間をナビゲートする能力など、そのユニークな特性は、特にエンジニアリング設計のような最適化を必要とする領域において、不可欠である。 今日のデータ駆動の状況では、ECにおけるスケーラビリティの必要性は、特に複雑なシステムや大規模データの増加により、これまで以上に顕著になっている。 しかし、多くの既存のECライブラリは質素なスケールで設計されており、現代の問題に対する要求が高まっているため不足している。 先駆的なGPU加速ECライブラリの出現は一歩前進するが、柔軟性、計算効率、アーキテクチャの堅牢性といった制限に悩まされている。 これらの課題に対処するため,本稿では,ECアルゴリズムの自動化,分散,異種実行に適した,包括的かつスケーラブルなフレームワークであるEvoXを紹介する。 Central to EvoXは、効率的な分散実行のための階層的な状態管理戦略によって強化されたECアルゴリズム開発プロセスを合理化する関数型プログラミングモデルである。 これに加えて、EvoXの機能を活用することで、さまざまな問題解決シナリオを扱うように設計されたECアルゴリズムの豊富なライブラリを提供する。 実験の結果,evoxのシステム性能とモデル性能が両立した。 EvoXのコードはhttps://github.com/EMI-Group/EvoXで公開されている。

Evolutionary Computation (EC), drawing inspiration from natural evolutionary processes, has solidified its place as an integral facet of Artificial Intelligence. Its unique attributes, such as adaptability and the capability to navigate vast problem spaces, have rendered it indispensable, especially in domains demanding optimization like engineering design. In today's data-driven landscape, the need for scalability in EC is more pronounced than ever, especially with the rise in complex systems and large-scale data. However, many existing EC libraries, designed for modest scales, fall short in catering to the heightened demands of modern problems. The advent of some pioneering GPU-accelerated EC libraries is a step forward, but they too grapple with limitations, particularly in terms of flexibility, computational efficiency, and architectural robustness. To address these challenges, this paper introduces EvoX: a comprehensive, scalable framework tailored for the automated, distributed, and heterogeneous execution of EC algorithms. Central to EvoX is a functional programming model that streamlines the EC algorithm development process, bolstered by a hierarchical state management strategy for efficient distributed execution. Alongside this, leveraging the capabilities of EvoX, we present a rich library of EC algorithms designed to handle a spectrum of problem-solving scenarios. Experimental results demonstrate both the superior system performance and model performance of EvoX. The code of EvoX is available at https://github.com/EMI-Group/EvoX.
翻訳日:2023-08-30 00:56:21 公開日:2023-08-26
# IBM量子コンピュータ上での量子ビット力学におけるパルス形状効果

Pulse shape effects in qubit dynamics demonstrated on an IBM quantum computer ( http://arxiv.org/abs/2301.10004v2 )

ライセンス: Link先を確認
Ivo S. Mihov and Nikolay V. Vitanov(参考訳) 本稿では,一定キャリア周波数のパルス形外界と量子ビットのコヒーレント相互作用について検討する。 我々は、長方形、ガウス型、双曲型、二乗型双曲型、指数型の5つの異なるパルス形状に対して、遷移線プロファイル(変形の遷移確率の依存性)を理論的、実験的に探求する。 sech$^2$ の全ての場合の理論的な記述は、シュル=オディンガー方程式の解析解や文献で得られる正確な近似に基づいている。 sech$^2$ パルスに対しては、非常に正確なローゼンツェナー予想を用いて遷移確率の解析式を導出する。 同じ予想はガウスパルスや指数パルスに対しても非常に正確な近似をもたらすことが判明した。 実験結果はIBMQの量子プロセッサの1つで得られる。 理論と実験の間の優れた一致が観察され、遷移確率プロファイルのパルス形状依存性の微妙な特徴を示す。 平均絶対誤差 -- 適合の精度の尺度 -- は、一般的なロレンツ的適合と比較して、解析モデルに対して4から8倍の改善が特徴である。 さらに、量子ビットの共振周波数の不確かさは、ローレンツ方程式と比較して解析モデルに対して4の係数で減少する。 これらの結果は、量子力学の解析モデリングの精度と、IBMQの量子ビットの優れたコヒーレント特性の両方を示している。

We present a study of the coherent interaction of a qubit with a pulse-shaped external field of a constant carrier frequency. We explore, theoretically and experimentally, the transition line profile -- the dependence of the transition probability on the detuning -- for five different pulse shapes: rectangular, Gaussian, hyperbolic-secant, squared hyperbolic-secant and exponential. The theoretical description for all cases but sech$^2$ is based on the analytical solutions to the Schr\"odinger equation or accurate approximations available in the literature. For the sech$^2$ pulse we derive an analytical expression for the transition probability using the Rosen-Zener conjecture, which proves very accurate. The same conjecture turns out to provide a very accurate approximation for the Gaussian and exponential pulses too. The experimental results are obtained with one of IBMQ's quantum processors. An excellent agreement between theory and experiment is observed, demonstrating some pulse-shape-dependent fine features of the transition probability profile. The mean absolute error -- a measure of the accuracy of the fit -- features an improvement by a factor of 4 to 8 for the analytic models compared to the commonly used Lorentzian fits. Moreover, the uncertainty of the qubit's resonance frequency is reduced by a factor of 4 for the analytic models compared to the Lorentzian fits. These results demonstrate both the accuracy of the analytic modelling of quantum dynamics and the excellent coherent properties of IBMQ's qubit.
翻訳日:2023-08-30 00:55:40 公開日:2023-08-26
# 原子式上のワンホップ推論を用いた論理メッセージパッシングネットワーク

Logical Message Passing Networks with One-hop Inference on Atomic Formulas ( http://arxiv.org/abs/2301.08859v4 )

ライセンス: Link先を確認
Zihao Wang, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) 知識グラフ(KG)に対する複雑なクエリアンサーリング(CQA)は多くのアプリケーションをサポートするために多くの注目を集めています。 KGは通常不完全であるので、複雑なニューラルネットワークで集合演算子をパラメータ化することで論理的クエリに答えるニューラルモデルが提案されている。 しかし、そのような手法は通常、多くの実体とゼロからの組込みを持つ神経集合演算子を訓練するが、組込み演算子や神経集合演算子がパフォーマンスにどのように寄与するかは定かではない。 本稿では,KG埋め込みをニューラルネットワーク演算子から分解する,複雑なクエリ応答のための単純なフレームワークを提案する。 複雑なクエリを問合せグラフに表現することを提案する。 問合せグラフ上では、局所的な原子式上のワンホップ推論と、複雑な問合せ応答のグローバル論理推論を結合する論理メッセージパッシングニューラルネットワーク(LMPNN)を提案する。 我々は、既存の有効なKG埋め込みを利用して、原子式上のワンホップ推論を行い、その結果をLMPNNで渡されるメッセージと見なす。 論理式全体に対する推論プロセスはLMPNNの前方通過に変換され、局所的な情報を漸進的に集約して解答の埋め込みを予測する。 異なるタイプのクエリに対する複雑な論理推論は、LMPNNアーキテクチャに基づいたトレーニング例から学習される。 理論的には、我々のクエリグラフ補充は、一般的なオペレータツリーの定式化よりも一般的であるため、我々のアプローチはより広範な複雑なKGクエリに適用できる。 経験的に、我々のアプローチは新しい最先端のニューラルCQAモデルをもたらす。 本研究は,複雑なkg問合せ課題と知識グラフ表現学習の長期的成果とのギャップを橋渡しする。

Complex Query Answering (CQA) over Knowledge Graphs (KGs) has attracted a lot of attention to potentially support many applications. Given that KGs are usually incomplete, neural models are proposed to answer the logical queries by parameterizing set operators with complex neural networks. However, such methods usually train neural set operators with a large number of entity and relation embeddings from the zero, where whether and how the embeddings or the neural set operators contribute to the performance remains not clear. In this paper, we propose a simple framework for complex query answering that decomposes the KG embeddings from neural set operators. We propose to represent the complex queries into the query graph. On top of the query graph, we propose the Logical Message Passing Neural Network (LMPNN) that connects the local one-hop inferences on atomic formulas to the global logical reasoning for complex query answering. We leverage existing effective KG embeddings to conduct one-hop inferences on atomic formulas, the results of which are regarded as the messages passed in LMPNN. The reasoning process over the overall logical formulas is turned into the forward pass of LMPNN that incrementally aggregates local information to finally predict the answers' embeddings. The complex logical inference across different types of queries will then be learned from training examples based on the LMPNN architecture. Theoretically, our query-graph represenation is more general than the prevailing operator-tree formulation, so our approach applies to a broader range of complex KG queries. Empirically, our approach yields the new state-of-the-art neural CQA model. Our research bridges the gap between complex KG query answering tasks and the long-standing achievements of knowledge graph representation learning.
翻訳日:2023-08-30 00:55:15 公開日:2023-08-26
# モーション情報に基づくサーベイランス映像における飛行鳥物体検出アルゴリズム

Flying Bird Object Detection Algorithm in Surveillance Video Based on Motion Information ( http://arxiv.org/abs/2301.01917v3 )

ライセンス: Link先を確認
Ziwei Sun, Zexi Hua, Hengcao Li, Haiyan Zhong(参考訳) 動き情報(fbod-bmi)に基づくフライングバード物体検出アルゴリズムを提案し,単一フレームでは物体の特徴が明確ではなく,監視ビデオでは物体のサイズが小さい(低信号対雑音比(snr))という問題を解く。 第一に、ConvLSTM-PANモデル構造は、不審な空飛ぶ鳥の物体を捕捉するために設計されており、このモデルが入力される前に、隣り合う多フレーム上の空飛ぶ鳥の物体の時空間的特徴をConvLSTM(Convolutional Long and Short Time Memory)ネットワークが集約した。 次に、疑わしい飛鳥の物体を追跡し、その動き範囲(mr)を計算するために物体追跡アルゴリズムを用いる。 同時に、不審な飛鳥物体のmrの大きさをその移動速度に応じて適応的に調整する(特に、飛鳥がゆっくり動く場合は、飛鳥物体を検出するために必要な環境情報を確保するため、飛鳥の速度に応じてmrを拡大する)。 フライングバードオブジェクトの適応時空間キューブ(ASt-Cubes)を生成し、フライングバードオブジェクトのSNRを改善し、必要な環境情報を適応的に保持する。 最後に、ast-cubesに基づく軽量なu字型ネット(lw-usn)は、疑わしい飛鳥物体の誤検出を拒絶し、実際の飛鳥物体の位置を返す飛鳥物体を検出するように設計されている。 空飛ぶ鳥を含む監視映像を実験データセットとして無人トラクション変電所に収集し、アルゴリズムの性能を検証する。 実験の結果,本論文で提案する動作情報に基づく飛鳥物体検出手法は,監視映像において飛鳥物体を効果的に検出できることがわかった。

A Flying Bird Object Detection algorithm Based on Motion Information (FBOD-BMI) is proposed to solve the problem that the features of the object are not obvious in a single frame, and the size of the object is small (low Signal-to-Noise Ratio (SNR)) in surveillance video. Firstly, a ConvLSTM-PAN model structure is designed to capture suspicious flying bird objects, in which the Convolutional Long and Short Time Memory (ConvLSTM) network aggregated the Spatio-temporal features of the flying bird object on adjacent multi-frame before the input of the model and the Path Aggregation Network (PAN) located the suspicious flying bird objects. Then, an object tracking algorithm is used to track suspicious flying bird objects and calculate their Motion Range (MR). At the same time, the size of the MR of the suspicious flying bird object is adjusted adaptively according to its speed of movement (specifically, if the bird moves slowly, its MR will be expanded according to the speed of the bird to ensure the environmental information needed to detect the flying bird object). Adaptive Spatio-temporal Cubes (ASt-Cubes) of the flying bird objects are generated to ensure that the SNR of the flying bird objects is improved, and the necessary environmental information is retained adaptively. Finally, a LightWeight U-Shape Net (LW-USN) based on ASt-Cubes is designed to detect flying bird objects, which rejects the false detections of the suspicious flying bird objects and returns the position of the real flying bird objects. The monitoring video including the flying birds is collected in the unattended traction substation as the experimental dataset to verify the performance of the algorithm. The experimental results show that the flying bird object detection method based on motion information proposed in this paper can effectively detect the flying bird object in surveillance video.
翻訳日:2023-08-30 00:54:18 公開日:2023-08-26
# 未認識環境下での公正なバイアス評価と検出のためのファクトファクト推論

Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness under Unawareness setting ( http://arxiv.org/abs/2302.08204v2 )

ライセンス: Link先を確認
Giandomenico Cornacchia, Vito Walter Anelli, Fedelucio Narducci, Azzurra Ragone, Eugenio Di Sciascio(参考訳) 現在のAI規制では、不公平な結果を防ぐために、アルゴリズムの意思決定プロセスにセンシティブな特徴(性別、人種、宗教など)を破棄する必要がある。 しかし、トレーニングセットにセンシティブな特徴がなくても、アルゴリズムは識別を継続することができる。 実際、センシティブな機能が省略された場合(無意識下でのフェアネス)、それらはいわゆるプロキシ機能との非線形関係によって推測される。 本研究では,機密機能が破棄された場合でも継続可能な機械学習モデルの潜在的な隠れバイアスを明らかにする方法を提案する。 本研究は,ブラックボックス予測器が非現実的推論によってまだ偏りがあるかどうかを明らかにすることができることを示す。 より詳しくは、予測器が負の分類結果を提供する場合、まず、識別されたユーザカテゴリの反実例を作成し、正の結果を得る。 そして、同じ偽物サンプルが外部の分類器(センシティブな特徴を対象とする)を供給し、ポジティブな結果に必要なユーザ特性の変更が個人を非差別グループへ移動させたかどうかを明らかにする。 これが起こると、決定プロセスにおける差別行動の警告サインになる可能性がある。 さらに,特定機密情報のプロキシである特徴を決定するために,原サンプルからの反事実の偏差を利用する。 我々の実験は、たとえモデルが繊細な特徴を伴わずに訓練されたとしても、しばしば差別バイアスを被ることを示した。

Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm's decision-making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so called proxy features. In this work, we propose a way to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded. This study shows that it is possible to unveil whether the black-box predictor is still biased by exploiting counterfactual reasoning. In detail, when the predictor provides a negative classification outcome, our approach first builds counterfactual examples for a discriminated user category to obtain a positive outcome. Then, the same counterfactual samples feed an external classifier (that targets a sensitive feature) that reveals whether the modifications to the user characteristics needed for a positive outcome moved the individual to the non-discriminated group. When this occurs, it could be a warning sign for discriminatory behavior in the decision process. Furthermore, we leverage the deviation of counterfactuals from the original sample to determine which features are proxies of specific sensitive information. Our experiments show that, even if the model is trained without sensitive features, it often suffers discriminatory biases.
翻訳日:2023-08-30 00:44:26 公開日:2023-08-26
# DPA-P2PNet:正確なポイントベース細胞検出のための変形可能な提案対応P2PNet

DPA-P2PNet: Deformable Proposal-aware P2PNet for Accurate Point-based Cell Detection ( http://arxiv.org/abs/2303.02602v2 )

ライセンス: Link先を確認
Zhongyi Shui, Sunyi Zheng, Chenglu Zhu, Shichuan Zhang, Xiaoxuan Yu, Honglin Li, Jingxiong Li, Pingyi Chen, Lin Yang(参考訳) 低コストなデータアノテーションの下で高性能な細胞センシングを追求するポイントベース細胞検出(PCD)は、計算病理学のコミュニティで注目を集めている。 中間密度マップ表現に依存する主流のPCD法とは異なり、P2PNet(Point-to-Point Network)は近年PCDのエンドツーエンドソリューションとして登場し、印象的な細胞検出精度と効率を示している。 それでも、P2PNetは、ポイントプロポーザルのスケールに依存しない性質のため、単一レベルの特徴マップからのデコードに制限されている。 さらに、プリセットされた点の提案の空間分布は細胞のそれと偏りがあり、不正確な細胞局在をもたらす。 これらの制限を解消するため,本稿ではDPA-P2PNetについて述べる。 提案手法は,階層的特徴マップ上のポイント提案の座標に従ってデコードを行うマルチスケール特徴を直接抽出する。 そこで本研究では, 細胞局在を促進するため, 細胞の位置バイアスを軽減するために, 変形可能な点の提案をさらに考案する。 DPA-P2PNetのマルチフィールド・オブ・ビュー(mFoV)変異体をモデル入力として,高レベル組織構造と低レベル細胞形態を併用した臨床病理学的診断に着想を得た。 最後に,免疫組織化学組織像データに基づく初の自己監督前訓練を行い,PCDタスクにおける4つの代表的自己監督手法の適合性を評価する。 3つのベンチマークと大規模かつ実世界のインターバルデータセットの実験結果から,提案モデルが最先端モデルよりも優れていることが示された。 コードとトレーニング済みのウェイトが利用可能だ。

Point-based cell detection (PCD), which pursues high-performance cell sensing under low-cost data annotation, has garnered increased attention in computational pathology community. Unlike mainstream PCD methods that rely on intermediate density map representations, the Point-to-Point network (P2PNet) has recently emerged as an end-to-end solution for PCD, demonstrating impressive cell detection accuracy and efficiency. Nevertheless, P2PNet is limited to decoding from a single-level feature map due to the scale-agnostic property of point proposals, which is insufficient to leverage multi-scale information. Moreover, the spatial distribution of pre-set point proposals is biased from that of cells, leading to inaccurate cell localization. To lift these limitations, we present DPA-P2PNet in this work. The proposed method directly extracts multi-scale features for decoding according to the coordinates of point proposals on hierarchical feature maps. On this basis, we further devise deformable point proposals to mitigate the positional bias between proposals and potential cells to promote cell localization. Inspired by practical pathological diagnosis that usually combines high-level tissue structure and low-level cell morphology for accurate cell classification, we propose a multi-field-of-view (mFoV) variant of DPA-P2PNet to accommodate additional large FoV images with tissue information as model input. Finally, we execute the first self-supervised pre-training on immunohistochemistry histopathology image data and evaluate the suitability of four representative self-supervised methods on the PCD task. Experimental results on three benchmarks and a large-scale and real-world interval dataset demonstrate the superiority of our proposed models over the state-of-the-art counterparts. Codes and pre-trained weights will be available.
翻訳日:2023-08-30 00:35:31 公開日:2023-08-26
# 制約付きプロキシ学習によるDeep Ordinal Classificationのためのクラスレイアウト制御

Controlling Class Layout for Deep Ordinal Classification via Constrained Proxies Learning ( http://arxiv.org/abs/2303.00396v4 )

ライセンス: Link先を確認
Cong Wang, Zhiwei Jiang, Yafeng Yin, Zifeng Cheng, Shiping Ge, Qing Gu(参考訳) 深い順序の分類では、順序の分類に特有のよく構造化された特徴空間を学ぶことは、クラス間の順序の性質を適切に捉えるのに役立つ。 直観的には、ユークリッド距離計量を用いると、特徴空間における理想的な順序配置は、サンプルクラスタが空間内の直線に沿ってクラス順に配置されることである。 しかし、機能空間の特定のレイアウトに合致するようにサンプルを強制することは難しい問題である。 そこで本研究では,各順序クラスのプロキシを学習し,それらのプロキシを制約することでクラス全体のレイアウトを調整可能な,制約付きプロキシ学習(Constrained Proxies Learning, CPL)手法を提案する。 具体的には,ハードレイアウト制約とソフトレイアウト制約の2種類の戦略を提案する。 ハードレイアウト制約は、プロキシの生成を直接制御して、厳密な線形レイアウトまたは半円形レイアウト(すなわち厳密な順序レイアウトの2つのインスタンス)に配置させることによって実現される。 ソフトレイアウトの制約は、プロキシレイアウトが常に各プロキシ(つまり緩やかな順序のレイアウト)に対して、アンモダルプロキシとプロキシの類似性分布を生成するように制約することで実現される。 実験により,提案手法は特徴抽出器の同一設定下で従来の深部順序分類法よりも優れていることが示された。

For deep ordinal classification, learning a well-structured feature space specific to ordinal classification is helpful to properly capture the ordinal nature among classes. Intuitively, when Euclidean distance metric is used, an ideal ordinal layout in feature space would be that the sample clusters are arranged in class order along a straight line in space. However, enforcing samples to conform to a specific layout in the feature space is a challenging problem. To address this problem, in this paper, we propose a novel Constrained Proxies Learning (CPL) method, which can learn a proxy for each ordinal class and then adjusts the global layout of classes by constraining these proxies. Specifically, we propose two kinds of strategies: hard layout constraint and soft layout constraint. The hard layout constraint is realized by directly controlling the generation of proxies to force them to be placed in a strict linear layout or semicircular layout (i.e., two instantiations of strict ordinal layout). The soft layout constraint is realized by constraining that the proxy layout should always produce unimodal proxy-to-proxies similarity distribution for each proxy (i.e., to be a relaxed ordinal layout). Experiments show that the proposed CPL method outperforms previous deep ordinal classification methods under the same setting of feature extractor.
翻訳日:2023-08-30 00:34:58 公開日:2023-08-26
# グラフ畳み込みネットワークに対する意味的バックドア攻撃

A semantic backdoor attack against Graph Convolutional Networks ( http://arxiv.org/abs/2302.14353v4 )

ライセンス: Link先を確認
Jiazhu Dai, Zhipeng Xiong(参考訳) グラフ畳み込みネットワーク(GCN)は、様々なグラフ構造化タスクの問題に対処するのに非常に効果的である。 しかし、最近の研究では、GCNはバックドア攻撃と呼ばれる新しい種類の脅威に弱いことが示されており、敵は隠れバックドアをGCNに注入することで、攻撃されたモデルが良質なサンプルに対して良好に動作するようにしているが、攻撃者が定義したトリガーによって隠れバックドアがアクティベートされた場合、その予測は攻撃者が指定したターゲットラベルに変更される。 セマンティックバックドアアタック(semantic backdoor attack)は、ディープニューラルネットワーク(dnn)に対する新たなタイプのバックドアアタックであり、サンプルの自然発生したセマンティクス機能は、感染したdnnモデルが予め定義されたセマンティクス機能を含むテストサンプルを、テストサンプルを変更する必要なしに誤って分類するようにバックドアトリガーとして機能することができる。 バックドアトリガーは、サンプルの自然に発生するセマンティックな特徴であるため、セマンティックバックドア攻撃はより受け入れがたいものであり、新しい深刻な脅威を引き起こす。 本稿では,このようなセマンティックバックドア攻撃がGCNに対して可能かどうかを考察し,GCNにおけるセキュリティ脆弱性の存在を明らかにするために,グラフ分類の文脈下でGCNに対するセマンティックバックドア攻撃(SBAG)を提案する。 SBAGはサンプルの特定の種類のノードをバックドアトリガーとして使用し、トレーニングデータを汚染することでGCNモデルに隠れたバックドアを注入する。 バックドアがアクティベートされ、GCNモデルは、サンプルが十分なトリガーノードを含む限り、修正されていないサンプルでも攻撃者が指定した悪意のある分類結果を与える。 4つのグラフデータセット上でSBAGを評価し,実験結果からSBAGが有効であることが示唆された。

Graph convolutional networks (GCNs) have been very effective in addressing the issue of various graph-structured related tasks. However, recent research has shown that GCNs are vulnerable to a new type of threat called a backdoor attack, where the adversary can inject a hidden backdoor into GCNs so that the attacked model performs well on benign samples, but its prediction will be maliciously changed to the attacker-specified target label if the hidden backdoor is activated by the attacker-defined trigger. A semantic backdoor attack is a new type of backdoor attack on deep neural networks (DNNs), where a naturally occurring semantic feature of samples can serve as a backdoor trigger such that the infected DNN models will misclassify testing samples containing the predefined semantic feature even without the requirement of modifying the testing samples. Since the backdoor trigger is a naturally occurring semantic feature of the samples, semantic backdoor attacks are more imperceptible and pose a new and serious threat. In this paper, we investigate whether such semantic backdoor attacks are possible for GCNs and propose a semantic backdoor attack against GCNs (SBAG) under the context of graph classification to reveal the existence of this security vulnerability in GCNs. SBAG uses a certain type of node in the samples as a backdoor trigger and injects a hidden backdoor into GCN models by poisoning training data. The backdoor will be activated, and the GCN models will give malicious classification results specified by the attacker even on unmodified samples as long as the samples contain enough trigger nodes. We evaluate SBAG on four graph datasets and the experimental results indicate that SBAG is effective.
翻訳日:2023-08-30 00:34:35 公開日:2023-08-26
# 不正確なラベル分布学習

Inaccurate Label Distribution Learning ( http://arxiv.org/abs/2302.13000v2 )

ライセンス: Link先を確認
Zhiqiang Kou, Yuheng Jia, Jing Wang, Xin Geng(参考訳) ラベル分布学習(LDL)は、ラベルの集合(ラベル分布(LD)と呼ばれる)のインスタンスとの関係を予測するためにモデルを訓練する。 以前のLCL法は、トレーニングインスタンスのLDが正確であると仮定していた。 しかし、トレーニングインスタンスに高度に正確なLDをアノテートするのは時間がかかり、非常にコストがかかるため、実際には、収集されたLDは通常不正確で、アノテートエラーによって乱される。 本稿では,まず,不正確なLDL,すなわちうるさいLDを用いたLCLモデルの開発について検討する。 雑音のLD行列は理想的なLD行列とスパース雑音行列の線形結合であると仮定する。 その結果、不正確なLDLの問題は逆問題となり、そこでは理想的なLDとノイズ行列をノイズLDから回復することを目的としている。 理想 ld 行列はラベルの相関関係により低ランクであると仮定し、グラフでキャプチャされたインスタンスの局所幾何構造を利用して理想 ld の回復を支援する。 これは、同様のインスタンスが同じLDを共有する可能性が高いという前提に基づいている。 提案手法はグラフ正規化低ランク・スパース分解問題として定式化され,乗算器の交互方向法により数値解される。 さらに、検索されたラベル分布を考慮し、特殊な目的関数を用いてLD予測モデルをLDLに誘導する。 様々な実世界のタスクから複数のデータセットに対して行った広範囲な実験は、提案手法の有効性を効果的に実証する。 \end{abstract}

Label distribution learning (LDL) trains a model to predict the relevance of a set of labels (called label distribution (LD)) to an instance. The previous LDL methods all assumed the LDs of the training instances are accurate. However, annotating highly accurate LDs for training instances is time-consuming and very expensive, and in reality the collected LD is usually inaccurate and disturbed by annotating errors. For the first time, this paper investigates the problem of inaccurate LDL, i.e., developing an LDL model with noisy LDs. We assume that the noisy LD matrix is a linear combination of an ideal LD matrix and a sparse noise matrix. Consequently, the problem of inaccurate LDL becomes an inverse problem, where the objective is to recover the ideal LD and noise matrices from the noisy LDs. We hypothesize that the ideal LD matrix is low-rank due to the correlation of labels and utilize the local geometric structure of instances captured by a graph to assist in recovering the ideal LD. This is based on the premise that similar instances are likely to share the same LD. The proposed model is finally formulated as a graph-regularized low-rank and sparse decomposition problem and numerically solved by the alternating direction method of multipliers. Furthermore, a specialized objective function is utilized to induce a LD predictive model in LDL, taking into account the recovered label distributions. Extensive experiments conducted on multiple datasets from various real-world tasks effectively demonstrate the efficacy of the proposed approach. \end{abstract}
翻訳日:2023-08-30 00:33:33 公開日:2023-08-26
# 量子ガス顕微鏡による正弦-ゴードンモデルにおけるソリトンの作製と解析

Preparing and Analyzing Solitons in the sine-Gordon Model with Quantum Gas Microscopes ( http://arxiv.org/abs/2303.16221v2 )

ライセンス: Link先を確認
Elisabeth Wybo, Alvise Bastianello, Monika Aidelsburger, Immanuel Bloch, Michael Knap(参考訳) sine-Gordonモデルは、多くの量子多体系において低エネルギー理論として現れる。 ここでは, 強い反発相互作用を持つトンネル結合Bose-Hubbard鎖を, 量子状態の深いSine-Gordonモデルの実現として理論的に検討する。 超低温原子の量子ガス顕微鏡によるソリトンの生成と解析のためのプロトコルを提案する。 行列の積状態に基づく数値シミュレーションにより, 生成プロトコルと検出プロトコルを特徴付け, 実験要件を考察した。

The sine-Gordon model emerges as a low-energy theory in a plethora of quantum many-body systems. Here, we theoretically investigate tunnel-coupled Bose-Hubbard chains with strong repulsive interactions as a realization of the sine-Gordon model deep in the quantum regime. We propose protocols for quantum gas microscopes of ultracold atoms to prepare and analyze solitons, that are the fundamental topological excitations of the emergent sine-Gordon theory. With numerical simulations based on matrix product states we characterize the preparation and detection protocols and discuss the experimental requirements.
翻訳日:2023-08-30 00:25:48 公開日:2023-08-26
# 言語モデル行動: 総合的な調査

Language Model Behavior: A Comprehensive Survey ( http://arxiv.org/abs/2303.11504v2 )

ライセンス: Link先を確認
Tyler A. Chang and Benjamin K. Bergen(参考訳) トランスフォーマー言語モデルは広く注目を集めているが、その生成したテキストはしばしばNLP研究者にも驚かされる。 本稿では,タスク固有の微調整前における英語モデル行動に関する250以上の最近の研究について論じる。 言語モデルは構文、意味論、実用論、世界知識、推論において基本的な能力を持っているが、これらの能力は特定の入力や表面的特徴に敏感である。 モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。 これらの弱点の多くは、テキストにおける学習パターンの過度な一般化や過度な一般化とみなすことができる。 我々は最近の結果を合成し、大規模言語モデル機能について現在知られていることを強調し、応用研究や言語モデルを用いた隣接分野の研究のためのリソースを提供する。

Transformer language models have received widespread public attention, yet their generated text is often surprising even to NLP researchers. In this survey, we discuss over 250 recent studies of English language model behavior before task-specific fine-tuning. Language models possess basic capabilities in syntax, semantics, pragmatics, world knowledge, and reasoning, but these capabilities are sensitive to specific inputs and surface features. Despite dramatic increases in generated text quality as models scale to hundreds of billions of parameters, the models are still prone to unfactual responses, commonsense errors, memorized text, and social biases. Many of these weaknesses can be framed as over-generalizations or under-generalizations of learned patterns in text. We synthesize recent results to highlight what is currently known about large language model capabilities, thus providing a resource for applied work and for research in adjacent fields that use language models.
翻訳日:2023-08-30 00:24:15 公開日:2023-08-26
# 維持が必要なのは

Retention Is All You Need ( http://arxiv.org/abs/2304.03103v2 )

ライセンス: Link先を確認
Karishma Mohiuddin, Mirza Ariful Alam, Mirza Mohtashim Alam, Pascal Welke, Michael Martin, Jens Lehmann, Sahar Vahdati(参考訳) 熟練した従業員は組織の最も重要な柱です。 それにもかかわらず、ほとんどの組織は高い負担と離職率に直面しています。 いくつかの機械学習モデルは、誘惑とその因果要因を分析するために開発されたが、これらのモデルの解釈は不透明のままである。 本稿では,人的資源(HR)意思決定支援システム(HR-DSS)を提案する。 このシステムは、機械学習モデルが提供する予測を解釈するHR部門を支援するように設計されている。 実験では8つの機械学習モデルを用いて予測を行った。 我々は、SHAP説明可能性プロセスによる最高の性能モデルによる結果をさらに処理し、SHAP値を用いて、HRに有用な自然言語説明を生成する。 さらに,「What-if-analysis」を用いて,個人従業員の誘惑に対する妥当な原因を観察することを目的とする。 その結果、各個人の特定の支配的特徴を調整することで、情報的ビジネス決定を通じて、従業員の誘惑が従業員の保持に変わる可能性が示唆された。

Skilled employees are the most important pillars of an organization. Despite this, most organizations face high attrition and turnover rates. While several machine learning models have been developed to analyze attrition and its causal factors, the interpretations of those models remain opaque. In this paper, we propose the HR-DSS approach, which stands for Human Resource (HR) Decision Support System, and uses explainable AI for employee attrition problems. The system is designed to assist HR departments in interpreting the predictions provided by machine learning models. In our experiments, we employ eight machine learning models to provide predictions. We further process the results achieved by the best-performing model by the SHAP explainability process and use the SHAP values to generate natural language explanations which can be valuable for HR. Furthermore, using "What-if-analysis", we aim to observe plausible causes for attrition of an individual employee. The results show that by adjusting the specific dominant features of each individual, employee attrition can turn into employee retention through informative business decisions.
翻訳日:2023-08-30 00:16:14 公開日:2023-08-26
# 人間支援のためのビジュアルプランナーとしての事前学習言語モデル

Pretrained Language Models as Visual Planners for Human Assistance ( http://arxiv.org/abs/2304.09179v3 )

ライセンス: Link先を確認
Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain, Ruta Desai(参考訳) 複雑な多段階目標を達成するためにユーザを導くことができるマルチモーダルAIアシスタントを追求する中で,我々は,VPA(Visual Planning for Assistance)の課題を提案する。 簡潔な自然言語のゴール(例えば「棚を作る」など)と、ユーザの進捗状況のビデオが与えられた場合、VPAの目的は、計画、すなわち「砂の棚」や「塗料の棚」といった一連のアクションを考案して、指定された目標を実現することである。 これは、ユーザの進捗を(未熟な)ビデオから評価し、それを自然言語の目的、すなわち、どのアクションを選択し、どの順番で実行するかという要件に関連付ける必要がある。 そのため、長いビデオ履歴と任意に複雑なアクション依存関係を扱う必要がある。 これらの課題に対処するため、VPAをビデオアクションセグメンテーションと予測に分解する。 重要なのは,予測ステップをマルチモーダルシーケンスモデリング問題として定式化し,(シーケンスモデルとして)事前学習したlmsの強度を活用できることである。 Visual Language Model Based Planner (VLaMP)と呼ばれるこの新しいアプローチは、生成されたプランの品質を計測する一連のメトリクスでベースラインを上回っます。 さらに,包括的アブレーションにより,各成分言語前訓練,視覚観察,目標情報の値も分離した。 すべてのデータ、モデルチェックポイント、トレーニングコードをオープンソース化しました。

In our pursuit of advancing multi-modal AI assistants capable of guiding users to achieve complex multi-step goals, we propose the task of "Visual Planning for Assistance (VPA)". Given a succinct natural language goal, e.g., "make a shelf", and a video of the user's progress so far, the aim of VPA is to devise a plan, i.e., a sequence of actions such as "sand shelf", "paint shelf", etc. to realize the specified goal. This requires assessing the user's progress from the (untrimmed) video, and relating it to the requirements of natural language goal, i.e., which actions to select and in what order? Consequently, this requires handling long video history and arbitrarily complex action dependencies. To address these challenges, we decompose VPA into video action segmentation and forecasting. Importantly, we experiment by formulating the forecasting step as a multi-modal sequence modeling problem, allowing us to leverage the strength of pre-trained LMs (as the sequence model). This novel approach, which we call Visual Language Model based Planner (VLaMP), outperforms baselines across a suite of metrics that gauge the quality of the generated plans. Furthermore, through comprehensive ablations, we also isolate the value of each component--language pre-training, visual observations, and goal information. We have open-sourced all the data, model checkpoints, and training code.
翻訳日:2023-08-30 00:06:43 公開日:2023-08-26
# No Easy Way Out: ヘイトとハラスメントを抑えるためのExtremist Forumの非プラットフォーム化の効果

No Easy Way Out: the Effectiveness of Deplatforming an Extremist Forum to Suppress Hate and Harassment ( http://arxiv.org/abs/2304.07037v4 )

ライセンス: Link先を確認
Anh V. Vu, Alice Hutchings, Ross Anderson(参考訳) 世界中の議員や政策立案者は、オンライン上で違法で有害で望ましくない物質を抑制する選択肢を議論している。 いくつかの定量的データから,オンライン上での嫌がらせや嫌がらせを抑制するための活動コミュニティの非プラットフォーム化は,いくつかのit企業を巻き込んでも困難であることが示された。 私たちのケーススタディは、2022年末に最大かつ最長のハラスメントフォーラムであるkiwi farmsが崩壊したことです。 数ヵ月間、多くのテクノロジー企業が積極的に参加していたが、このキャンペーンはフォーラムを閉鎖し、不快なコンテンツを削除できなかった。 大衆の意識を高めながら、急激なプラットフォーム変位と交通の断片化につながった。 活動の一部はテレグラムに移され、トラフィックは主要領域から以前放棄された代替手段に移行した。 フォーラムは数週間間断続的に停止し、その後、キャンペーンの主導するコミュニティは関心を失い、トラフィックはメインドメインに戻され、ユーザーはすぐに戻って、フォーラムはオンラインに戻り、さらに接続が深まった。 フォーラムのメンバーはその後すぐにこの事件についての議論を中止し、フォーラムの活動、アクティブユーザ、スレッド、投稿、トラフィックは全て半分に削減された。 裁判所命令のないコミュニティの非プラットフォーム化は、検閲と言論の自由に関する哲学的問題、オンラインコンテンツモデレーションにおける産業の役割に関する倫理的および法的問題、民間人対政府の行動の有効性に関する実践的問題を引き起こす。 個別のサービス提供者に対して一連の裁判所命令を用いて分散したコミュニティを構築することは、検閲がキーメンテナを逮捕したり、加わったり、妨げたりすることなく、無力化できなければ、非常に効果的とは思えない。

Legislators and policymakers worldwide are debating options for suppressing illegal, harmful and undesirable material online. Drawing on several quantitative data sources, we show that deplatforming an active community to suppress online hate and harassment, even with a substantial concerted effort involving several tech firms, can be hard. Our case study is the disruption of the largest and longest-running harassment forum Kiwi Farms in late 2022, which is probably the most extensive industry effort to date. Despite the active participation of a number of tech companies over several consecutive months, this campaign failed to shut down the forum and remove its objectionable content. While briefly raising public awareness, it led to rapid platform displacement and traffic fragmentation. Part of the activity decamped to Telegram, while traffic shifted from the primary domain to previously abandoned alternatives. The forum experienced intermittent outages for several weeks, after which the community leading the campaign lost interest, traffic was directed back to the main domain, users quickly returned, and the forum was back online and became even more connected. The forum members themselves stopped discussing the incident shortly thereafter, and the net effect was that forum activity, active users, threads, posts and traffic were all cut by about half. Deplatforming a community without a court order raises philosophical issues about censorship versus free speech; ethical and legal issues about the role of industry in online content moderation; and practical issues on the efficacy of private-sector versus government action. Deplatforming a dispersed community using a series of court orders against individual service providers appears unlikely to be very effective if the censor cannot incapacitate the key maintainers, whether by arresting them, enjoining them or otherwise deterring them.
翻訳日:2023-08-30 00:05:10 公開日:2023-08-26
# PGTask: 対話からのプロファイル生成タスクの導入

PGTask: Introducing the Task of Profile Generation from Dialogues ( http://arxiv.org/abs/2304.06634v2 )

ライセンス: Link先を確認
Rui Ribeiro, Joao P. Carvalho, Lu\'isa Coheur(参考訳) 近年,プロファイル情報をモデルに活用して対話システムのパーソナライズを試みている。 しかし、この知識は乏しく入手が困難であり、対話からプロファイル情報を抽出・生成することが基本的な資産となっている。 この制限を超えるために、プロファイル生成タスク(PGTask)を導入する。 本稿では,対話コーパスから抽出した関連する発話に対応するプロファイル文を含む,この問題に対する新たなデータセットを提案する。 さらに、最先端手法を用いて、この新しいデータセットのプロファイル生成のベンチマークを提供する。 本研究では,プロファイル生成の課題を明らかにするとともに,新たな研究方向性を期待する。

Recent approaches have attempted to personalize dialogue systems by leveraging profile information into models. However, this knowledge is scarce and difficult to obtain, which makes the extraction/generation of profile information from dialogues a fundamental asset. To surpass this limitation, we introduce the Profile Generation Task (PGTask). We contribute with a new dataset for this problem, comprising profile sentences aligned with related utterances, extracted from a corpus of dialogues. Furthermore, using state-of-the-art methods, we provide a benchmark for profile generation on this novel dataset. Our experiments disclose the challenges of profile generation, and we hope that this introduces a new research direction.
翻訳日:2023-08-30 00:04:36 公開日:2023-08-26
# MOST: オブジェクト発見のための自己教師型トランスフォーマを用いた複数オブジェクトローカライゼーション

MOST: Multiple Object localization with Self-supervised Transformers for object discovery ( http://arxiv.org/abs/2304.05387v2 )

ライセンス: Link先を確認
Sai Saketh Rambhatla, Ishan Misra, Rama Chellappa, Abhinav Shrivastava(参考訳) 本研究における教師なしオブジェクトローカライゼーションの課題に取り組む。 近年、自己教師付き学習で訓練されたトランスフォーマーは、このタスクのために訓練されることなく、オブジェクトのローカライゼーション特性を示すことが示されている。 本研究では,自己教師付き学習を用いて訓練されたトランスフォーマの機能を実世界画像内の複数の物体にローカライズする,自己教師付きトランスフォーマ (most) を用いた複数のオブジェクトローカライズを提案する。 MOSTはボックスカウントを使って機能の類似性マップを分析し、前景のパッチに横たわるトークンを識別するフラクタル解析ツールである。 識別されたトークンはクラスタ化され、各クラスタのトークンは前景の領域にバウンディングボックスを生成するために使用される。 最近の最先端のオブジェクトローカライズ方法とは異なり、MOSTは画像ごとに複数のオブジェクトをローカライズし、PASCAL-VOC 07、12、COCO20kデータセット上で複数のオブジェクトローカライズおよび発見ベンチマークでSOTAアルゴリズムより優れている。 さらに,オブジェクト検出器の自己教師付き事前学習にほとんどが利用可能であり,完全で半教師付きオブジェクト検出と教師なし領域提案生成において一貫した改善が得られている。

We tackle the challenging task of unsupervised object localization in this work. Recently, transformers trained with self-supervised learning have been shown to exhibit object localization properties without being trained for this task. In this work, we present Multiple Object localization with Self-supervised Transformers (MOST) that uses features of transformers trained using self-supervised learning to localize multiple objects in real world images. MOST analyzes the similarity maps of the features using box counting; a fractal analysis tool to identify tokens lying on foreground patches. The identified tokens are then clustered together, and tokens of each cluster are used to generate bounding boxes on foreground regions. Unlike recent state-of-the-art object localization methods, MOST can localize multiple objects per image and outperforms SOTA algorithms on several object localization and discovery benchmarks on PASCAL-VOC 07, 12 and COCO20k datasets. Additionally, we show that MOST can be used for self-supervised pre-training of object detectors, and yields consistent improvements on fully, semi-supervised object detection and unsupervised region proposal generation.
翻訳日:2023-08-30 00:03:20 公開日:2023-08-26
# 3次元楕円PDEの有限要素解法における代数的乗法を高速化するディープラーニングアルゴリズム

A Deep Learning algorithm to accelerate Algebraic Multigrid methods in Finite Element solvers of 3D elliptic PDEs ( http://arxiv.org/abs/2304.10832v2 )

ライセンス: Link先を確認
Matteo Caldana, Paola F. Antonietti, Luca Dede'(参考訳) 代数的乗法(英語版)(AMG)は方程式の線形系の最も効率的な解法の一つであり、偏微分方程式(PDE)の離散化に起因する問題の解法として広く用いられている。 AMG法の最も厳しい制限は、微調整を必要とするパラメータへの依存である。 特に、強いしきい値パラメータは、AMG法で必要とされる連続的に粗い格子の構成に基づくため、最も関連性が高い。 本稿では,有限要素解法として用いる場合のAMG法の計算コストを最小化する新しいDeep Learningアルゴリズムを提案する。 我々のアルゴリズムは既存のコードに対して最小限の変更を必要とする。 提案するニューラルネットワーク(ann)は、線形システムのスパース行列を白黒画像として解釈し、プール演算子を利用して小さなマルチチャネル画像に変換することにより、強しきい値パラメータの値をチューニングする。 実験により,プーリングは大きなスパース行列を処理する計算コストを低減し,手前の回帰タスクに必要な特徴を保存できることを実証した。 提案アルゴリズムは, 異なる3次元空間で定義される高次拡散係数を持つ問題と非構造格子で離散化し, 高度不均一ヤング率を持つ線形弾性問題を含む大規模データセット上で学習する。 トレーニングデータセットに存在しない係数やジオメトリの問題に対して,本手法は計算時間を最大30%削減する。

Algebraic multigrid (AMG) methods are among the most efficient solvers for linear systems of equations and they are widely used for the solution of problems stemming from the discretization of Partial Differential Equations (PDEs). The most severe limitation of AMG methods is the dependence on parameters that require to be fine-tuned. In particular, the strong threshold parameter is the most relevant since it stands at the basis of the construction of successively coarser grids needed by the AMG methods. We introduce a novel Deep Learning algorithm that minimizes the computational cost of the AMG method when used as a finite element solver. We show that our algorithm requires minimal changes to any existing code. The proposed Artificial Neural Network (ANN) tunes the value of the strong threshold parameter by interpreting the sparse matrix of the linear system as a black-and-white image and exploiting a pooling operator to transform it into a small multi-channel image. We experimentally prove that the pooling successfully reduces the computational cost of processing a large sparse matrix and preserves the features needed for the regression task at hand. We train the proposed algorithm on a large dataset containing problems with a highly heterogeneous diffusion coefficient defined in different three-dimensional geometries and discretized with unstructured grids and linear elasticity problems with a highly heterogeneous Young's modulus. When tested on problems with coefficients or geometries not present in the training dataset, our approach reduces the computational time by up to 30%.
翻訳日:2023-08-29 23:55:58 公開日:2023-08-26
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト

Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v3 )

ライセンス: Link先を確認
Fangwen Wu, Jingxuan He, Yufei Yin, Yanbin Hao, Gang Huang, Lechao Cheng(参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。 MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けた鍵を誘導する新しいフレームワークを考案した。 マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。 さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。 一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。

This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to highlight semantic regions in weakly supervised semantic segmentation. MCC adroitly draws inspiration from masked image modeling and contrastive learning to devise a novel framework that induces keys to contract toward semantic regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance.
翻訳日:2023-08-29 23:46:11 公開日:2023-08-26
# TinyMLを用いた心室不整脈診断の検討

TinyML Design Contest for Life-Threatening Ventricular Arrhythmia Detection ( http://arxiv.org/abs/2305.05105v3 )

ライセンス: Link先を確認
Zhenge Jia, Dawei Li, Cong Liu, Liqi Liao, Xiaowei Xu, Lichuan Ping, Yiyu Shi(参考訳) 2022年に第41回iccad(international conference on computer-aided design)で開催された最初のacm/ieee tinyml design contest(tdc)は、挑戦的で多ヶ月にわたる研究開発コンペティションである。 TDC'22は、組み込みデバイスにおける人工知能/機械学習(AI/ML)アルゴリズムの革新と実装を必要とする現実世界の医療問題に焦点を当てている。 TDC'22の課題は、ICD(Indusable Cardioverter-Defibrillator)で使用される低消費電力マイクロコントローラ上での、生命を脅かす心室不整脈に対する新しいAI/MLベースのリアルタイム検出アルゴリズムを開発することである。 このデータセットは、90人の被験者から8種類のリズムに対して、38,0005秒間心電図(IEGM)セグメントを含む。 専用ハードウェアプラットフォームは、STマイクロエレクトロニクスが製造したNUCLEO-L432KCである。 TDC'22は世界中の多人数チームに開放されており、50以上の組織から150以上のチームが集まった。 本稿ではまず,医療問題,データセット,評価手順について詳細に述べる。 さらに、主要なチームによって開発されたデザインを実証し、議論する。 本稿では、健康モニタリングアプリケーションのための将来のTinyML設計の改善の方向性について述べる。

The first ACM/IEEE TinyML Design Contest (TDC) held at the 41st International Conference on Computer-Aided Design (ICCAD) in 2022 is a challenging, multi-month, research and development competition. TDC'22 focuses on real-world medical problems that require the innovation and implementation of artificial intelligence/machine learning (AI/ML) algorithms on implantable devices. The challenge problem of TDC'22 is to develop a novel AI/ML-based real-time detection algorithm for life-threatening ventricular arrhythmia over low-power microcontrollers utilized in Implantable Cardioverter-Defibrillators (ICDs). The dataset contains more than 38,000 5-second intracardiac electrograms (IEGMs) segments over 8 different types of rhythm from 90 subjects. The dedicated hardware platform is NUCLEO-L432KC manufactured by STMicroelectronics. TDC'22, which is open to multi-person teams world-wide, attracted more than 150 teams from over 50 organizations. This paper first presents the medical problem, dataset, and evaluation procedure in detail. It further demonstrates and discusses the designs developed by the leading teams as well as representative results. This paper concludes with the direction of improvement for the future TinyML design for health monitoring applications.
翻訳日:2023-08-29 23:44:41 公開日:2023-08-26
# 確率論理プログラミングシステムfusemateにおけるボトムアップグラウンド

Bottom-Up Grounding in the Probabilistic Logic Programming System Fusemate ( http://arxiv.org/abs/2305.18924v3 )

ライセンス: Link先を確認
Peter Baumgartner, Elena Tartaglia(参考訳) 本稿では,Fusemate確率論理プログラミングシステムを紹介する。 fusemateの推論エンジンは、確率的推論のための接地成分と変数除去方法を含む。 Fusemateは他のシステムと異なり、一般的なトップダウン方式ではなくボトムアップ方式でプログラムを基盤にしている。 ボトムアップのグラウンドングは、様々なサポートサイズの分布を動的に生成するなど、いくつかの理由から魅力的だが、グラウンド節の生成量を制御するのが難しくなる。 本稿では,クエリに不整合な規則を呈示するクエリ誘導関連テストと接点を交互に行うことで,この問題に対処する。 本手法を詳細に紹介し,(隠れ)マルコフモデルのような"時間"を伴う例を示す。 本実験は,最先端の確率論理プログラミングシステム,特に高分岐問題と比較して,競合性や優れた性能を示す。

This paper introduces the Fusemate probabilistic logic programming system. Fusemate's inference engine comprises a grounding component and a variable elimination method for probabilistic inference. Fusemate differs from most other systems by grounding the program in a bottom-up way instead of the common top-down way. While bottom-up grounding is attractive for a number of reasons, e.g., for dynamically creating distributions of varying support sizes, it makes it harder to control the amount of ground clauses generated. We address this problem by interleaving grounding with a query-guided relevance test which prunes rules whose bodies are inconsistent with the query. We present our method in detail and demonstrate it with examples that involve "time", such as (hidden) Markov models. Our experiments demonstrate competitive or better performance compared to a state-of-the art probabilistic logic programming system, in particular for high branching problems.
翻訳日:2023-08-29 23:36:55 公開日:2023-08-26
# 大規模言語モデルを破壊的にする鍵としてのドメイン特化 - 総合的な調査

Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey ( http://arxiv.org/abs/2305.18703v5 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Jian Pei, and Liang Zhao(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。 しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。 ドメイン仕様技術は多くのアプリケーションで大きな言語モデルを破壊的にする鍵となる。 特に、これらのハードルを解決するために、近年、LLMの領域特化に関する研究や実践が顕著に増加している。 この新たな研究分野は、影響の実質的な可能性を秘めており、この領域で進行中の研究をより要約し指導するために、包括的かつ体系的なレビューを必要としている。 本稿では,大規模言語モデルアプリケーションに不可欠な新たな方向性である,大規模言語モデルのドメイン仕様技術に関する包括的調査を紹介する。 まず, LLM のアクセシビリティに基づいた LLM ドメイン特殊化手法を分類し, 各サブカテゴリの枠組み, 相互の関係, 相違点を要約する系統分類法を提案する。 第二に、専門的なllmから劇的に利益を得られる重要なアプリケーションドメインの広範な分類を提示し、それらの実用的意義とオープンな課題について論じる。 最後に、この分野の現在の研究状況と今後のトレンドについて考察する。

Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). Domain specification techniques are key to make large language models disruptive in many applications. Specifically, to solve these hurdles, there has been a notable increase in research and practices conducted in recent years on the domain specialization of LLMs. This emerging field of study, with its substantial potential for impact, necessitates a comprehensive and systematic review to better summarize and guide ongoing work in this area. In this article, we present a comprehensive survey on domain specification techniques for large language models, an emerging direction critical for large language model applications. First, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. Second, we present an extensive taxonomy of critical application domains that can benefit dramatically from specialized LLMs, discussing their practical significance and open challenges. Last, we offer our insights into the current research status and future trends in this area.
翻訳日:2023-08-29 23:36:38 公開日:2023-08-26
# 医療のためのナレッジグラフに関する調査 : リソース、アプリケーション、およびpromise

A Survey on Knowledge Graphs for Healthcare: Resources, Applications, and Promises ( http://arxiv.org/abs/2306.04802v2 )

ライセンス: Link先を確認
Hejie Cui, Jiaying Lu, Shiyu Wang, Ran Xu, Wenjing Ma, Shaojun Yu, Yue Yu, Xuan Kan, Chen Ling, Liang Zhao, Joyce Ho, Fei Wang, Carl Yang(参考訳) 医療知識グラフ(Healthcare knowledge graphs, HKGs)は、医療知識を構造化され解釈可能な方法で組織化するための有望なツールとして登場し、医療概念とその関係を包括的に把握している。 しかし、データの不均一性や範囲の限定といった課題は残っており、hkgの分野でさらなる研究の必要性を強調している。 本研究は,hkgsの包括的概要を初めて概観する。 我々は,hkg構築のためのパイプラインとキー技術(スクラッチから統合まで)と共通利用アプローチ(モデルフリーとモデルベース)を要約する。 研究者に貴重なリソースを提供するため、我々は既存のHKG(リソースはhttps://github.com/lujiaying/Awesome-HealthCare-KnowledgeBaseで利用可能)を、取得したデータタイプとアプリケーションドメインに基づいて整理し、関連する統計情報を補完する。 応用セクションでは、さまざまな医療領域におけるHKGの変革的影響を、詳細な基礎科学研究からハイレベルな臨床決定支援まで、探究する。 最後に,大規模言語モデルの時代における包括的かつ正確なhkg作成の機会に着目し,医療提供に革命をもたらす可能性を示し,臨床予測の解釈可能性と信頼性を高めた。

Healthcare knowledge graphs (HKGs) have emerged as a promising tool for organizing medical knowledge in a structured and interpretable way, which provides a comprehensive view of medical concepts and their relationships. However, challenges such as data heterogeneity and limited coverage remain, emphasizing the need for further research in the field of HKGs. This survey paper serves as the first comprehensive overview of HKGs. We summarize the pipeline and key techniques for HKG construction (i.e., from scratch and through integration), as well as the common utilization approaches (i.e., model-free and model-based). To provide researchers with valuable resources, we organize existing HKGs (The resource is available at https://github.com/lujiaying/Awesome-HealthCare-KnowledgeBase) based on the data types they capture and application domains, supplemented with pertinent statistical information. In the application section, we delve into the transformative impact of HKGs across various healthcare domains, spanning from fine-grained basic science research to high-level clinical decision support. Lastly, we shed light on the opportunities for creating comprehensive and accurate HKGs in the era of large language models, presenting the potential to revolutionize healthcare delivery and enhance the interpretability and reliability of clinical prediction.
翻訳日:2023-08-29 23:23:43 公開日:2023-08-26
# オンラインコミュニティにおける言語スタイルマッチングの探求 : 社会的文脈と会話ダイナミクスの役割

Exploring Linguistic Style Matching in Online Communities: The Role of Social Context and Conversation Dynamics ( http://arxiv.org/abs/2307.02758v2 )

ライセンス: Link先を確認
Aparna Ananthasubramaniam, Hong Chen, Jason Yan, Kenan Alkiek, Jiaxin Pei, Agrima Seth, Lavinia Dunagan, Minje Choi, Benjamin Litterer, David Jurgens(参考訳) 会話における言語スタイルマッチング(LSM)は、力や説得といった社会的影響のいくつかの側面を反映することができる。 しかし、LSMがRedditのようなプラットフォーム上でのオンラインコミュニケーションの結果とどのように関係しているのかは不明な疑問である。 本研究では,Redditにおける二者会話スレッドの大規模コーパスを分析し,機能語の使用と形式性という2種類のスタイルを用いて,LSMのすべての発生を識別する。 このフレームワークを用いて、Reddit内のいくつかの社会的要因(ポストとサブレディット機能、会話深度、ユーザ在任率、コメントの議論)によって、LSMのレベルが会話でどのように異なるかを検討する。 最後に,コミュニティ禁止後の身分喪失に伴うlsmの変化を測定した。 その結果,Redditでの会話におけるLSMの相互作用が,コミュニティのダイナミクスを理解する上での会話の関与を理解することの重要性が示唆された。

Linguistic style matching (LSM) in conversations can be reflective of several aspects of social influence such as power or persuasion. However, how LSM relates to the outcomes of online communication on platforms such as Reddit is an unknown question. In this study, we analyze a large corpus of two-party conversation threads in Reddit where we identify all occurrences of LSM using two types of style: the use of function words and formality. Using this framework, we examine how levels of LSM differ in conversations depending on several social factors within Reddit: post and subreddit features, conversation depth, user tenure, and the controversiality of a comment. Finally, we measure the change of LSM following loss of status after community banning. Our findings reveal the interplay of LSM in Reddit conversations with several community metrics, suggesting the importance of understanding conversation engagement when understanding community dynamics.
翻訳日:2023-08-29 23:13:08 公開日:2023-08-26
# BERTを用いたツイートの絵文字予測

Emoji Prediction in Tweets using BERT ( http://arxiv.org/abs/2307.02054v3 )

ライセンス: Link先を確認
Muhammad Osama Nusrat, Zeeshan Habib, Mehreen Alam and Saad Ahmed Jamal(参考訳) 近年、ソーシャルメディアにおける絵文字の利用は劇的に増加し、オンラインコミュニケーションを理解する上で重要な要素となっている。 しかし,テキスト中の絵文字の意味を予測することは,そのあいまいさから難しい課題である。 本研究では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。 我々はBERTをテキストと絵文字の両方を含む大量のテキスト(ツイート)で微調整し、与えられたテキストに最適な絵文字を予測する。 実験の結果,75%以上の精度で絵文字を予測する手法が最先端モデルよりも優れていることがわかった。 この研究は自然言語処理、感情分析、ソーシャルメディアマーケティングに潜在的な応用がある。

In recent years, the use of emojis in social media has increased dramatically, making them an important element in understanding online communication. However, predicting the meaning of emojis in a given text is a challenging task due to their ambiguous nature. In this study, we propose a transformer-based approach for emoji prediction using BERT, a widely-used pre-trained language model. We fine-tuned BERT on a large corpus of text (tweets) containing both text and emojis to predict the most appropriate emoji for a given text. Our experimental results demonstrate that our approach outperforms several state-of-the-art models in predicting emojis with an accuracy of over 75 percent. This work has potential applications in natural language processing, sentiment analysis, and social media marketing.
翻訳日:2023-08-29 23:12:52 公開日:2023-08-26
# 高次タスクアフィニティによるグラフ上のマルチタスク学習の促進

Boosting Multitask Learning on Graphs through Higher-Order Task Affinities ( http://arxiv.org/abs/2306.14009v2 )

ライセンス: Link先を確認
Dongyue Li, Haotian Ju, Aneesh Sharma, and Hongyang R. Zhang(参考訳) 与えられたグラフ上のノードラベルの予測は、コミュニティ検出や分子グラフ予測など、多くのアプリケーションで広く研究されている問題である。 本稿では,グラフ上の複数のノードラベリング関数を同時に予測し,マルチタスク学習の観点からこの問題を再考する。 各コミュニティメンバシップはバイナリノード分類タスクである。 マルチタスク学習を複数のコミュニティ検出に適用した場合,タスク関係はノードのラベル付けによって非常に非線形であるため,複雑な重複パターンにより負の移動が頻繁に発生する。 この課題に対処するため,高次タスク親和性尺度に基づくグループにタスクをクラスタリングするアルゴリズムを開発した。 そして、各タスクグループにマルチタスクモデルを適合させ、ベースラインモデルの上にブースティング手順を発生させます。 他のタスクと他のタスクのランダムなサブセットの存在下での1つのタスクの予測損失として、2つのタスク間の高次タスク親和性測度を推定する。 次に,アフィニティスコア行列上のスペクトルクラスタリングを用いてタスクグルーピングを同定する。 高次アフィニティスコアを効率的に計算するための速度アップ手法をいくつか設計し,ペアワイズタスクアフィニティよりも高い精度で負の転送を予測できることを示した。 各種のコミュニティ検出および分子グラフ予測データセットを用いて,既存の手法と比較して良好な結果を得た。 最後に、グラフ上のタスクの植込みブロックモデルの下では、アフィニティスコアが確実にタスクをグループに分割できることを示す理論的分析を提供する。

Predicting node labels on a given graph is a widely studied problem with many applications, including community detection and molecular graph prediction. This paper considers predicting multiple node labeling functions on graphs simultaneously and revisits this problem from a multitask learning perspective. For a concrete example, consider overlapping community detection: each community membership is a binary node classification task. Due to complex overlapping patterns, we find that negative transfer is prevalent when we apply naive multitask learning to multiple community detection, as task relationships are highly nonlinear across different node labeling. To address the challenge, we develop an algorithm to cluster tasks into groups based on a higher-order task affinity measure. We then fit a multitask model on each task group, resulting in a boosting procedure on top of the baseline model. We estimate the higher-order task affinity measure between two tasks as the prediction loss of one task in the presence of another task and a random subset of other tasks. Then, we use spectral clustering on the affinity score matrix to identify task grouping. We design several speedup techniques to compute the higher-order affinity scores efficiently and show that they can predict negative transfers more accurately than pairwise task affinities. We validate our procedure using various community detection and molecular graph prediction data sets, showing favorable results compared with existing methods. Lastly, we provide a theoretical analysis to show that under a planted block model of tasks on graphs, our affinity scores can provably separate tasks into groups.
翻訳日:2023-08-29 23:11:28 公開日:2023-08-26
# AspectCSE:コントラスト学習と構造化知識を用いたアスペクトベースの意味的テクスチャ類似性のための文埋め込み

AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity Using Contrastive Learning and Structured Knowledge ( http://arxiv.org/abs/2307.07851v3 )

ライセンス: Link先を確認
Tim Schopf, Emanuel Gerber, Malte Ostendorff, Florian Matthes(参考訳) 総称文埋め込みは意味的テキストの類似性の粗い近似を提供するが、テキストを類似させる特定の側面を無視する。 逆にアスペクトベースの文埋め込みは、特定の事前定義されたアスペクトに基づいたテキスト間の類似性を提供する。 したがって、テキストの類似性予測は特定の要求に向けられ、より説明しやすい。 本稿では,アスペクトに基づく文埋め込みのコントラスト学習手法であるAspectCSEを提案する。 その結果,AspectCSEは,複数の側面にわたる情報検索タスクの平均3.97%の改善を実現していることがわかった。 また、ウィキデータ知識グラフ特性を用いて、類似性予測において複数の特定の側面が同時に考慮されるマルチアスペクト文埋め込みのモデルを訓練する。 マルチアスペクト埋め込みはアスペクト固有の情報検索タスクにおける単一アスペクト埋め込みよりも優れていることを示す。 最後に、アスペクトに基づく文埋め込み空間を調べ、異なるアスペクトラベル間の明示的な類似性トレーニングなしにも、意味的に類似したアスペクトラベルの埋め込みがしばしば近いことを実証する。

Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels.
翻訳日:2023-08-29 23:03:42 公開日:2023-08-26
# aiベースの政治問題ポーリングの可能性の実証

Demonstrations of the Potential of AI-based Political Issue Polling ( http://arxiv.org/abs/2307.04781v2 )

ライセンス: Link先を確認
Nathan E. Sanders, Alex Ulinich, Bruce Schneier(参考訳) 政治投票は数十億ドルの産業であり、米国や世界中の国々の社会的な軌道に大きな影響を与えている。 しかし、コスト、可用性、正確さを強調する要因によって、問題となっている。 同時に、人工知能(AI)チャットボットは、より洗練された大規模言語モデル(LLM)によって、人間の行動に魅力的なスタンドインとなっている。 aiチャットボットは、議論を呼ぶ問題に対する世論を、キャンペーンや利害団体、世論調査会社によって使われる程度に予測する効果的なツールになるのだろうか? そこで我々は,チャットgptから人的調査回答を抽出し,人口統計学的要因によって記述された人物の政策質問に対する反応をシミュレートし,順序的数値応答スコアとテキスト的正当化の両方を生成するための迅速な工学的手法を開発した。 大規模な実験を行い、人間の調査よりもはるかに低いコストで、何千というシミュレーション応答をクエリします。 本研究では,シミュレーションデータと協調選挙研究(CES)の人事投票データとの比較を行った。 また,ChatGPTは,中絶禁止や米国最高裁判所の承認などの政策問題,特にそのイデオロギー的ブレークダウン(典型的には85%)において,世論の平均レベルと分布の両方を予想する上で有効であることがわかった。 しかし、人口レベルでの違いを予想することは成功していない。 さらに、ChatGPTは、ウクライナでの戦争への米国の関与支援など、訓練データ収集後に生じた新しい政策問題に過度に一般化する傾向にある。 私たちの研究は、現在の世代のAIチャットボットの強みと限界を仮想公開やオンラインリスニングプラットフォームとして理解すること、LLM開発における今後の方向性、そして政治領域へのAIツールの応用について、私たちの理解に影響を与えています。 (橋渡し)

Political polling is a multi-billion dollar industry with outsized influence on the societal trajectory of the United States and nations around the world. However, it has been challenged by factors that stress its cost, availability, and accuracy. At the same time, artificial intelligence (AI) chatbots have become compelling stand-ins for human behavior, powered by increasingly sophisticated large language models (LLMs). Could AI chatbots be an effective tool for anticipating public opinion on controversial issues to the extent that they could be used by campaigns, interest groups, and polling firms? We have developed a prompt engineering methodology for eliciting human-like survey responses from ChatGPT, which simulate the response to a policy question of a person described by a set of demographic factors, and produce both an ordinal numeric response score and a textual justification. We execute large scale experiments, querying for thousands of simulated responses at a cost far lower than human surveys. We compare simulated data to human issue polling data from the Cooperative Election Study (CES). We find that ChatGPT is effective at anticipating both the mean level and distribution of public opinion on a variety of policy issues such as abortion bans and approval of the US Supreme Court, particularly in their ideological breakdown (correlation typically >85%). However, it is less successful at anticipating demographic-level differences. Moreover, ChatGPT tends to overgeneralize to new policy issues that arose after its training data was collected, such as US support for involvement in the war in Ukraine. Our work has implications for our understanding of the strengths and limitations of the current generation of AI chatbots as virtual publics or online listening platforms, future directions for LLM development, and applications of AI tools to the political domain. (Abridged)
翻訳日:2023-08-29 23:01:57 公開日:2023-08-26
# ゼロショットデータ圧縮による道路異常検出のためのエッジストレージ管理

Edge Storage Management Recipe with Zero-Shot Data Compression for Road Anomaly Detection ( http://arxiv.org/abs/2307.04298v2 )

ライセンス: Link先を確認
YeongHyeon Park and Uju Gim and Myung Jin Kim(参考訳) 近年の研究では,データ収集を同時に行うエッジコンピューティングに基づく道路異常検出システムについて述べる。 しかし、エッジコンピュータはデータストレージが小さいが、既存のモデルを更新したり、新しい方法を開発したりするために、収集したオーディオサンプルを長時間保存する必要がある。 したがって,高忠実度オーディオを保存しつつ,効率的なストレージ管理手法を検討すべきである。 低分解能マイクのようなハードウェアパースペクティブなアプローチは、ファイルサイズを減らす直感的な方法であるが、高周波コンポーネントを根本的に遮断するため推奨されない。 一方、収集した高解像度オーディオをコンパクトなコードに符号化する計算ファイル圧縮手法は、対応する復号法も提供するので推奨すべきである。 そこで本研究では,単純かつ効果的なオートエンコーダに基づくデータ圧縮手法を提案する。 事前訓練されたオートエンコーダはオーディオ超解像のために訓練され、任意のサンプリングレートを符号化または復号することができる。 さらに、エッジから中央サーバへのデータ転送の通信コストも削減される。 比較実験の結果,ゼロショット音声圧縮とデ圧縮は異常検出性能を高く保ち,ストレージと送信効率を向上することを確認した。

Recent studies show edge computing-based road anomaly detection systems which may also conduct data collection simultaneously. However, the edge computers will have small data storage but we need to store the collected audio samples for a long time in order to update existing models or develop a novel method. Therefore, we should consider an approach for efficient storage management methods while preserving high-fidelity audio. A hardware-perspective approach, such as using a low-resolution microphone, is an intuitive way to reduce file size but is not recommended because it fundamentally cuts off high-frequency components. On the other hand, a computational file compression approach that encodes collected high-resolution audio into a compact code should be recommended because it also provides a corresponding decoding method. Motivated by this, we propose a way of simple yet effective pre-trained autoencoder-based data compression method. The pre-trained autoencoder is trained for the purpose of audio super-resolution so it can be utilized to encode or decode any arbitrary sampling rate. Moreover, it will reduce the communication cost for data transmission from the edge to the central server. Via the comparative experiments, we confirm that the zero-shot audio compression and decompression highly preserve anomaly detection performance while enhancing storage and transmission efficiency.
翻訳日:2023-08-29 23:01:13 公開日:2023-08-26
# StyleGAN3:翻訳と回転の等価性向上のための生成ネットワーク

StyleGAN3: Generative Networks for Improving the Equivariance of Translation and Rotation ( http://arxiv.org/abs/2307.03898v2 )

ライセンス: Link先を確認
Tianlei Zhu, Junqi Chen, Renzhe Zhu, Gaurav Gupta(参考訳) StyleGANは、顔の姿勢やアイデンティティに影響を及ぼすスタイルや、髪、しわ、肌の色、その他の詳細に影響を及ぼすノイズを利用することができる。 これらのうち、画像処理の結果はスタイルGANの異なるバージョンによって若干異なる。 その結果, styleGAN2 と styleGAN3 の2つの改良版の比較が本研究の主な焦点となる。 FFHQデータセットをデータセットとして使用し,FID,EQ-T,EQ-Rをモデル評価に使用した。 結局、Stylegan3バージョンは同値性を改善するためのより良い生成ネットワークであることが判明した。 私たちの発見は、アニメーションやビデオの作成にポジティブな影響を与えます。

StyleGAN can use style to affect facial posture and identity features, and noise to affect hair, wrinkles, skin color and other details. Among these, the outcomes of the picture processing will vary slightly between different versions of styleGAN. As a result, the comparison of performance differences between styleGAN2 and the two modified versions of styleGAN3 will be the main focus of this study. We used the FFHQ dataset as the dataset and FID, EQ-T, and EQ-R were used to be the assessment of the model. In the end, we discovered that Stylegan3 version is a better generative network to improve the equivariance. Our findings have a positive impact on the creation of animation and videos.
翻訳日:2023-08-29 23:00:53 公開日:2023-08-26
# 複数フレームからの同時温度推定と非均一性補正

Simultaneous temperature estimation and nonuniformity correction from multiple frames ( http://arxiv.org/abs/2307.12297v2 )

ライセンス: Link先を確認
Navot Oz, Omri Berman, Nir Sochen, David Mendelovich, Iftach Klapp(参考訳) 赤外線カメラは農業、医療、セキュリティなど様々な用途で温度測定に広く利用されている。 しかし、低コストのマイクロボロメーターベースの赤外線カメラは、空間的に異質な非均一性や温度測定のドリフトが起こりやすく、実用的なシナリオでは使用性に制限がある。 これらの制約に対処するため、低コストのマイクロボロメータベースの赤外線カメラで捉えた複数のフレームから温度推定と非均一性補正(NUC)を同時に行う新しい手法を提案する。 我々は、カメラの物理的イメージ獲得モデルを利用して、カーネル予測ネットワーク(kpn)と呼ばれるディープラーニングアーキテクチャに組み込む。 また,環境温度をモデルに組み込んだ新しいオフセットブロックを提案し,温度推定の重要な要因であるカメラのオフセットを推定する。 その結果, フレーム数が温度推定とNUCの精度に有意な影響を及ぼすことが明らかとなった。 さらに,オフセットブロックの導入により,バニラKPNに比べて性能が大幅に向上した。 この方法は、無人航空機に搭載された低コストの赤外線カメラが収集した実データに基づいてテストされ、科学的なグレードの放射計と比較すると、平均的な誤差は0.27-0.54^\circ c$であった。 本手法は, 温度推定とNUCを同時に行うための高精度かつ効率的な解法であり, 幅広い応用に重要な意味を持つ。

IR cameras are widely used for temperature measurements in various applications, including agriculture, medicine, and security. Low-cost IR cameras have the immense potential to replace expensive radiometric cameras in these applications; however, low-cost microbolometer-based IR cameras are prone to spatially variant nonuniformity and to drift in temperature measurements, which limit their usability in practical scenarios. To address these limitations, we propose a novel approach for simultaneous temperature estimation and nonuniformity correction (NUC) from multiple frames captured by low-cost microbolometer-based IR cameras. We leverage the camera's physical image-acquisition model and incorporate it into a deep-learning architecture termed kernel prediction network (KPN), which enables us to combine multiple frames despite imperfect registration between them. We also propose a novel offset block that incorporates the ambient temperature into the model and enables us to estimate the offset of the camera, which is a key factor in temperature estimation. Our findings demonstrate that the number of frames has a significant impact on the accuracy of the temperature estimation and NUC. Moreover, introduction of the offset block results in significantly improved performance compared to vanilla KPN. The method was tested on real data collected by a low-cost IR camera mounted on an unmanned aerial vehicle, showing only a small average error of $0.27-0.54^\circ C$ relative to costly scientific-grade radiometric cameras. Our method provides an accurate and efficient solution for simultaneous temperature estimation and NUC, which has important implications for a wide range of practical applications.
翻訳日:2023-08-29 22:54:36 公開日:2023-08-26
# 外部推論:多言語モデルと人的フィードバックを両立させる

External Reasoning: Towards Multi-Large-Language-Models Interchangeable Assistance with Human Feedback ( http://arxiv.org/abs/2307.12057v2 )

ライセンス: Link先を確認
Akide Liu(参考訳) 記憶は、脳の海馬とニューロン内で視覚的および言語的な情報を保持できる重要な人間の機能として認識され、学習の生涯を通じて現実の課題に対処するために取り出すことができる。 取得した知識の応用による複雑なAIタスクの解決は、人工知能の実現に向けた一歩である。 しかし、GPT-3.5 や GPT-4 \cite{brown2020 Language, leiter2023chatgpt, zaitsu2023distinguishing, OpenAI2023GPT4TR} のような大規模言語モデル(LLMs)の流行にもかかわらず、言語理解、生成、相互作用、推論において顕著な能力を示しており、広範で継続的な進化する知識基盤の処理を妨げるコンテキスト長の制約によって阻害されている。 本稿では,外部リポジトリからの知識の選択的統合を通じてLLMを拡張できることを示すとともに,ChatPDFで実証した外部推論のための新しい方法論を提案する。 このアプローチの中心は、複数の llm interchange assistance} に基づく階層化されたポリシーである \textbf{external reasoning based on multiple llm interchange assistance} in \cref{fig:overall} の確立である。 この手法の総合的な評価は複数のLCMを用いて行われ、その結果はChatPDF.comを含む既存のソリューションを上回り、 \cref{comparison} における最先端のパフォーマンスを示す。 さらに,本手法は LLM による全文の直接処理よりも効率がよいことを強調した。 ソースコードは: \url{https://github.com/AkideLiu/ANLP} で公開されている。

Memory is identified as a crucial human faculty that allows for the retention of visual and linguistic information within the hippocampus and neurons in the brain, which can subsequently be retrieved to address real-world challenges that arise through a lifetime of learning. The resolution of complex AI tasks through the application of acquired knowledge represents a stride toward the realization of artificial general intelligence. However, despite the prevalence of Large Language Models (LLMs) like GPT-3.5 and GPT-4 \cite{brown2020language, leiter2023chatgpt, zaitsu2023distinguishing, OpenAI2023GPT4TR} , which have displayed remarkable capabilities in language comprehension, generation, interaction, and reasoning, they are inhibited by constraints on context length that preclude the processing of extensive, continually evolving knowledge bases. This paper proposes that LLMs could be augmented through the selective integration of knowledge from external repositories, and in doing so, introduces a novel methodology for External Reasoning, exemplified by ChatPDF. Central to this approach is the establishment of a tiered policy for \textbf{External Reasoning based on Multiple LLM Interchange Assistance} in \cref{fig:overall}, where the level of support rendered is modulated across entry, intermediate, and advanced tiers based on the complexity of the query, with adjustments made in response to human feedback. A comprehensive evaluation of this methodology is conducted using multiple LLMs and the results indicate state-of-the-art performance in \cref{comparison} , surpassing existing solutions including ChatPDF.com. Moreover, the paper emphasizes that this approach is more efficient compared to the direct processing of full text by LLMs. The source code is publicly available at: \url{https://github.com/AkideLiu/ANLP}.
翻訳日:2023-08-29 22:54:06 公開日:2023-08-26
# ステレオ・アテンションによるトップダウン立体画像品質評価

Towards Top-Down Stereoscopic Image Quality Assessment via Stereo Attention ( http://arxiv.org/abs/2308.04156v2 )

ライセンス: Link先を確認
Huilin Zhang, Sumei Li, Yongli Chang(参考訳) 立体画像品質評価(SIQA)は、3Dコンテンツの視覚的体験を評価し改善する上で重要な役割を担っている。 SIQAの既存の双眼鏡特性と注意法は有望な性能を達成した。 しかし、これらのボトムアップアプローチは、人間の視覚システム(HVS)の本質的な特徴を利用するには不十分である。 本稿では,SIQAをステレオアテンションとして,品質評価プロセスの指針としてトップダウン視点を用いた新しいネットワークを提案する。 提案手法は,高次双眼信号から低次単眼信号への誘導を実現する一方,両眼・単眼情報は処理パイプライン全体を通して段階的に校正することができる。 我々は,ステレオ知覚におけるトップダウン哲学を実現するために,一般化ステレオアテンション(sat)ブロックを設計する。 このブロックは、融合生成アテンションマップを2つの低レベル単眼特徴の表現に影響を与える高レベル双眼鏡変調器として利用する。 さらに、霊長類一次視覚野の両眼反応が単眼反応の総和よりも小さいことを示す最近の知見を考慮に入れたエネルギー係数(EC)を導入する。 適応ECは両眼反応の大きさを柔軟に調整できるため,我々の枠組み内での頑健な両眼特徴の形成が促進される。 単眼的特徴の2つの枝の総和と減算から最も識別的品質情報を抽出するために,ミンプールとマックスプール操作を各枝に適用する二重プール戦略を用いる。 実験結果から,SIQA分野における視覚知覚特性のシミュレーションと最先端化におけるトップダウン手法の優位性を強調した。 この作業のコードはhttps://github.com/fanning-zhang/satnetで入手できる。

Stereoscopic image quality assessment (SIQA) plays a crucial role in evaluating and improving the visual experience of 3D content. Existing binocular properties and attention-based methods for SIQA have achieved promising performance. However, these bottom-up approaches are inadequate in exploiting the inherent characteristics of the human visual system (HVS). This paper presents a novel network for SIQA via stereo attention, employing a top-down perspective to guide the quality assessment process. Our proposed method realizes the guidance from high-level binocular signals down to low-level monocular signals, while the binocular and monocular information can be calibrated progressively throughout the processing pipeline. We design a generalized Stereo AttenTion (SAT) block to implement the top-down philosophy in stereo perception. This block utilizes the fusion-generated attention map as a high-level binocular modulator, influencing the representation of two low-level monocular features. Additionally, we introduce an Energy Coefficient (EC) to account for recent findings indicating that binocular responses in the primate primary visual cortex are less than the sum of monocular responses. The adaptive EC can tune the magnitude of binocular response flexibly, thus enhancing the formation of robust binocular features within our framework. To extract the most discriminative quality information from the summation and subtraction of the two branches of monocular features, we utilize a dual-pooling strategy that applies min-pooling and max-pooling operations to the respective branches. Experimental results highlight the superiority of our top-down method in simulating the property of visual perception and advancing the state-of-the-art in the SIQA field. The code of this work is available at https://github.com/Fanning-Zhang/SATNet.
翻訳日:2023-08-29 21:07:44 公開日:2023-08-26
# 基本となるパターンを明らかにする:データセットの類似性、パフォーマンス、一般化

Revealing the Underlying Patterns: Investigating Dataset Similarity, Performance, and Generalization ( http://arxiv.org/abs/2308.03580v2 )

ライセンス: Link先を確認
Akshit Achara, Ram Krishna Pandey(参考訳) 教師付きディープラーニングモデルは、特定のタスクで許容できるパフォーマンスを達成するために、大量のラベル付きデータを必要とする。 しかし、見当たらないデータでテストすると、そのモデルはうまく機能しないかもしれない。 したがって、モデルは一般化を改善するために、追加および様々なラベル付きデータで訓練される必要がある。 本研究の目的は,モデルとその性能,一般化を理解することである。 モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。 提案する距離メトリクスとモデル性能を組み合わせることで,候補アーキテクチャのプールから適切なモデル/アーキテクチャを選択することができる。 これらのモデルの一般化は,少数の未確認画像(例えば,1,3,7)をトレーニングセットに追加するだけで改善できることを示した。 提案手法は、動的環境における未知のデータに対するモデル性能の推定を行い、トレーニングとアノテーションのコストを削減する。

Supervised deep learning models require significant amount of labelled data to achieve an acceptable performance on a specific task. However, when tested on unseen data, the models may not perform well. Therefore, the models need to be trained with additional and varying labelled data to improve the generalization. In this work, our goal is to understand the models, their performance and generalization. We establish image-image, dataset-dataset, and image-dataset distances to gain insights into the model's behavior. Our proposed distance metric when combined with model performance can help in selecting an appropriate model/architecture from a pool of candidate architectures. We have shown that the generalization of these models can be improved by only adding a small number of unseen images (say 1, 3 or 7) into the training set. Our proposed approach reduces training and annotation costs while providing an estimate of model performance on unseen data in dynamic environments.
翻訳日:2023-08-29 21:06:51 公開日:2023-08-26
# 大規模言語モデルが集合オピニオンダイナミクスに及ぼす影響の定量化

Quantifying the Impact of Large Language Models on Collective Opinion Dynamics ( http://arxiv.org/abs/2308.03313v2 )

ライセンス: Link先を確認
Chao Li, Xing Su, Haoying Han, Cong Xue, Chunmo Zheng, Chao Fan(参考訳) 意見表現と交換のプロセスは民主主義社会の重要な要素である。 従来のメディアと異なる意見形成過程において、人々は大きな言語モデル(LLM)と相互作用するので、LLMの影響はますます認識され、懸念されている。 しかし、LLMが意見表現や社会的意見ネットワークの交換の過程にどのように影響するかについての知識は限られている。 そこで我々は, LLMの意見, 認知的受容性, 利用戦略をエンコードする意見ネットワークダイナミクスモデルを作成し, 様々なシナリオにおいて, LLMが意見ダイナミクスに与える影響をシミュレートする。 シミュレーションの結果は、効果的な需要指向の意見ネットワーク介入を知らせる。 本研究の結果から, LLMのアウトプットは, 集団的意見差に一意かつ肯定的な影響を及ぼすことが明らかとなった。 認知受容性の集団的意見形成に対する限界効果は非線形であり、減少傾向を示す。 LLMに部分的に依存すると、意見交換のプロセスがより激しくなり、意見の多様性がより有利になる。 実際、LLMの使用を全面的に禁止するよりも、人々が部分的にLLMに依存している場合、38.6%の意見の多様性がある。 意見の最適な多様性は、使用せず、部分的に頼りで、完全にllmに頼らない人の割合がおよそ4:12:1に達したときに発見された。 我々の実験は、反対/中立/ランダムの意見を持つ追加のエージェントを導入することで、LLMの偏りや有害な出力の影響を効果的に軽減できることを示した。 本研究は,LLM の時代における意見力学に関する貴重な知見を提供し,不適切な出力の欠点と LLM の使用に対処するために,特定のシナリオに合わせたカスタマイズされた介入の必要性を強調した。

The process of opinion expression and exchange is a critical component of democratic societies. As people interact with large language models (LLMs) in the opinion shaping process different from traditional media, the impacts of LLMs are increasingly recognized and being concerned. However, the knowledge about how LLMs affect the process of opinion expression and exchange of social opinion networks is very limited. Here, we create an opinion network dynamics model to encode the opinions of LLMs, cognitive acceptability and usage strategies of individuals, and simulate the impact of LLMs on opinion dynamics in a variety of scenarios. The outcomes of the simulations inform about effective demand-oriented opinion network interventions. The results from this study suggested that the output opinion of LLMs has a unique and positive effect on the collective opinion difference. The marginal effect of cognitive acceptability on collective opinion formation is nonlinear and shows a decreasing trend. When people partially rely on LLMs, the exchange process of opinion becomes more intense and the diversity of opinion becomes more favorable. In fact, there is 38.6% more opinion diversity when people all partially rely on LLMs, compared to prohibiting the use of LLMs entirely. The optimal diversity of opinion was found when the fractions of people who do not use, partially rely on, and fully rely on LLMs reached roughly 4:12:1. Our experiments also find that introducing extra agents with opposite/neutral/random opinions, we can effectively mitigate the impact of biased/toxic output from LLMs. Our findings provide valuable insights into opinion dynamics in the age of LLMs, highlighting the need for customized interventions tailored to specific scenarios to address the drawbacks of improper output and use of LLMs.
翻訳日:2023-08-29 21:06:38 公開日:2023-08-26
# DLSIA:科学画像解析のためのディープラーニング

DLSIA: Deep Learning for Scientific Image Analysis ( http://arxiv.org/abs/2308.02559v2 )

ライセンス: Link先を確認
Eric J Roberts, Tanny Chavez, Alexander Hexemer, Petrus H. Zwart(参考訳) dlsia(deep learning for scientific image analysis)というpythonベースの機械学習ライブラリを導入することで、さまざまな科学領域の科学者や研究者が、さまざまなカスタマイズ可能な畳み込みニューラルネットワーク(cnn)アーキテクチャを使用して、ダウンストリームデータ処理や実験・イン・ザ・ループコンピューティングのシナリオで使用される画像解析のさまざまなタスクを可能にする。 DLSIAは、オートエンコーダ、チューニング可能なU-Net、パラメータリーン混合スケールネットワーク(MSDNets)などの使いやすいアーキテクチャを備えている。 さらに,ランダムグラフとスパース接続を用いて生成するsparse mixed-scale network (smsnets)を導入する。 実験データの規模と複雑さが拡大するにつれて、dlsiaはcnnの構築とcnnの複雑さを抽象化し、科学者が機械学習のアプローチを調整し、発見を加速し、学際的なコラボレーションを育み、科学的画像分析の研究を進めることができる。

We introduce DLSIA (Deep Learning for Scientific Image Analysis), a Python-based machine learning library that empowers scientists and researchers across diverse scientific domains with a range of customizable convolutional neural network (CNN) architectures for a wide variety of tasks in image analysis to be used in downstream data processing, or for experiment-in-the-loop computing scenarios. DLSIA features easy-to-use architectures such as autoencoders, tunable U-Nets, and parameter-lean mixed-scale dense networks (MSDNets). Additionally, we introduce sparse mixed-scale networks (SMSNets), generated using random graphs and sparse connections. As experimental data continues to grow in scale and complexity, DLSIA provides accessible CNN construction and abstracts CNN complexities, allowing scientists to tailor their machine learning approaches, accelerate discoveries, foster interdisciplinary collaboration, and advance research in scientific image analysis.
翻訳日:2023-08-29 21:06:08 公開日:2023-08-26
# driveadapter:エンドツーエンド自動運転における知覚と計画の結合障壁を破る

DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving ( http://arxiv.org/abs/2308.00398v2 )

ライセンス: Link先を確認
Xiaosong Jia, Yulu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, Hongyang Li(参考訳) エンドツーエンドの自動運転は、生のセンサーデータを入力として、ego車両の予定軌道や制御信号を直接出力する、完全に微分可能なシステムを構築することを目的としている。 最先端のメソッドは通常 'Teacher-Student' パラダイムに従う。 教師モデルは、運転戦略を学ぶために特権情報(周囲のエージェントとマップ要素の基底状態)を使用する。 学習モデルでは,生のセンサデータのみにアクセスでき,教師モデルが収集したデータに対して行動クローニングを行う。 学習計画において知覚部分のノイズを除去することにより、最先端の作業は、結合した作業よりもはるかに少ないデータでより良いパフォーマンスを達成することができる。 しかし,現在の教師・教師パラダイムでは,生センサ入力の冗長でノイズの多い性質と,行動のクローン化のカジュアルな混乱の問題から,学生モデルでは計画ヘッドをスクラッチから学習する必要がある。 本研究は,教師の強いモデルを直接採用して計画を行い,生徒モデルが認知的部分に集中する可能性について検討することを目的とする。 また,SOTA認識モデルを用いた場合であっても,教師モデルの必要な入力を直接学習させることで,予測された特権入力と接地トラストとの間の大きな分配ギャップから生じる運転性能が低下することが判明した。 この目的のために,DriveAdapterを提案する。DriveAdapterは,学生(知覚)と教師(計画)モジュール間の機能アライメント目的機能を備えたアダプタである。 また、純粋学習型教師モデル自体が不完全であり、時折安全ルールを破るので、不完全教師機能のためのマスクを用いた行動誘導型特徴学習法を提案し、手作りルールの先行を学習プロセスに注入する。

End-to-end autonomous driving aims to build a fully differentiable system that takes raw sensor data as inputs and directly outputs the planned trajectory or control signals of the ego vehicle. State-of-the-art methods usually follow the `Teacher-Student' paradigm. The Teacher model uses privileged information (ground-truth states of surrounding agents and map elements) to learn the driving strategy. The student model only has access to raw sensor data and conducts behavior cloning on the data collected by the teacher model. By eliminating the noise of the perception part during planning learning, state-of-the-art works could achieve better performance with significantly less data compared to those coupled ones. However, under the current Teacher-Student paradigm, the student model still needs to learn a planning head from scratch, which could be challenging due to the redundant and noisy nature of raw sensor inputs and the casual confusion issue of behavior cloning. In this work, we aim to explore the possibility of directly adopting the strong teacher model to conduct planning while letting the student model focus more on the perception part. We find that even equipped with a SOTA perception model, directly letting the student model learn the required inputs of the teacher model leads to poor driving performance, which comes from the large distribution gap between predicted privileged inputs and the ground-truth. To this end, we propose DriveAdapter, which employs adapters with the feature alignment objective function between the student (perception) and teacher (planning) modules. Additionally, since the pure learning-based teacher model itself is imperfect and occasionally breaks safety rules, we propose a method of action-guided feature learning with a mask for those imperfect teacher features to further inject the priors of hand-crafted rules into the learning process.
翻訳日:2023-08-29 21:05:27 公開日:2023-08-26
# STAEformer: 時空間適応型埋め込みによる交通予報用バニラ変圧器SOTA

STAEformer: Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting ( http://arxiv.org/abs/2308.10425v3 )

ライセンス: Link先を確認
Hangchen Liu, Zheng Dong, Renhe Jiang, Jiewen Deng, Jinliang Deng, Quanjun Chen and Xuan Song(参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な発展に伴い、正確な交通予測が重要な課題となっている。 重要なボトルネックは、複雑な時空間的トラフィックパターンを捉えることだ。 近年、この問題に対処するために複雑なアーキテクチャを持つ多数のニューラルネットワークが提案されている。 しかし、ネットワークアーキテクチャの進歩は性能向上に遭遇している。 本研究では,バニラ変圧器において優れた結果が得られる時空間適応埋め込みと呼ばれる新しい成分を提案する。 提案した時空間適応型エンベディングトランス (STAEformer) は, 5つの実世界の交通予測データセットに対して最先端の性能を実現する。 さらに,交通時系列の時空間関係と時系列情報を効果的に把握することにより,時空間適応埋め込みが交通予測において重要な役割を果たすことを示した。

With the rapid development of the Intelligent Transportation System (ITS), accurate traffic forecasting has emerged as a critical challenge. The key bottleneck lies in capturing the intricate spatio-temporal traffic patterns. In recent years, numerous neural networks with complicated architectures have been proposed to address this issue. However, the advancements in network architectures have encountered diminishing performance gains. In this study, we present a novel component called spatio-temporal adaptive embedding that can yield outstanding results with vanilla transformers. Our proposed Spatio-Temporal Adaptive Embedding transformer (STAEformer) achieves state-of-the-art performance on five real-world traffic forecasting datasets. Further experiments demonstrate that spatio-temporal adaptive embedding plays a crucial role in traffic forecasting by effectively capturing intrinsic spatio-temporal relations and chronological information in traffic time series.
翻訳日:2023-08-29 20:45:57 公開日:2023-08-26
# スパイキング拡散:スパイキングニューラルネットワークを用いたベクトル量子離散拡散モデル

Spiking-Diffusion: Vector Quantized Discrete Diffusion Model with Spiking Neural Networks ( http://arxiv.org/abs/2308.10187v2 )

ライセンス: Link先を確認
Mingxuan Liu, Rui Wen, and Hong Chen(参考訳) スパイキングニューラルネットワーク(SNN)は、そのバイナリとイベント駆動アーキテクチャにより、エネルギー効率のよいニューロモルフィックチップに多大な可能性を持っている。 SNNは主に分類タスクで使用されているが、画像生成タスクの探索は限られている。 このギャップを埋めるために,ベクトル量子化離散拡散モデルに基づくスパイキング拡散モデルを提案する。 まず,SNN(VQ-SVAE)を用いたベクトル量子化変分オートエンコーダを開発し,画像の離散潜在空間を学習する。 VQ-SVAEでは、画像特徴はスパイク発火速度とシナプス後電位の両方を用いて符号化され、適応スパイク発生器はスパイク列車の形で埋め込み特徴を復元するように設計されている。 次に、離散潜在空間における吸収状態拡散を行い、SNNで拡散拡散画像デコーダ(SDID)を構築する。 私たちの仕事は、SNN層から完全に拡散モデルを構築する最初のものです。 MNIST、FMNIST、KMNIST、Leters、Cifar10の実験結果は、スパイキング拡散が既存のSNNベースの生成モデルより優れていることを示している。 上記のデータセット上で37.50, 91.98, 59.23, 67.41, 120.5のfidをそれぞれ達成し, 58.60\%, 18.75\%, 64.51\%, 29.75\%, 44.88\%の削減を行った。 私たちのコードは \url{https://github.com/Arktis2022/Spiking-Diffusion} で公開されます。

Spiking neural networks (SNNs) have tremendous potential for energy-efficient neuromorphic chips due to their binary and event-driven architecture. SNNs have been primarily used in classification tasks, but limited exploration on image generation tasks. To fill the gap, we propose a Spiking-Diffusion model, which is based on the vector quantized discrete diffusion model. First, we develop a vector quantized variational autoencoder with SNNs (VQ-SVAE) to learn a discrete latent space for images. In VQ-SVAE, image features are encoded using both the spike firing rate and postsynaptic potential, and an adaptive spike generator is designed to restore embedding features in the form of spike trains. Next, we perform absorbing state diffusion in the discrete latent space and construct a spiking diffusion image decoder (SDID) with SNNs to denoise the image. Our work is the first to build the diffusion model entirely from SNN layers. Experimental results on MNIST, FMNIST, KMNIST, Letters, and Cifar10 demonstrate that Spiking-Diffusion outperforms the existing SNN-based generation model. We achieve FIDs of 37.50, 91.98, 59.23, 67.41, and 120.5 on the above datasets respectively, with reductions of 58.60\%, 18.75\%, 64.51\%, 29.75\%, and 44.88\% in FIDs compared with the state-of-art work. Our code will be available at \url{https://github.com/Arktis2022/Spiking-Diffusion}.
翻訳日:2023-08-29 20:45:15 公開日:2023-08-26
# 確率的ゆらぎに基づく拡散モデルに対するメンバーシップ推論攻撃

A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models ( http://arxiv.org/abs/2308.12143v2 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang(参考訳) メンバーシップ推論攻撃(mia)は、モデルをクエリすることで、機械学習モデルのトレーニングセットにレコードが存在するかどうかを識別する。 古典的分類モデルのMIAはよく研究されており、最近の研究でMIAを生成モデルに移植する方法が研究されている。 本研究は,既存の生成モデル用に設計されたmiasが,主に対象モデルのオーバーフィットに依存することを示唆する。 しかし,従来のMIAでは性能が低かったため,様々な正規化手法を用いることでオーバーフィッティングを回避することができる。 オーバーフィッティングとは異なり、暗記はディープラーニングモデルが最適なパフォーマンスを達成するために必須であり、より一般的な現象である。 生成モデルにおける記憶化は、メンバーレコード周辺のレコード生成確率分布の増加に繋がる。 そこで本稿では,各レコードのゆらぎを解析し,これらの傾向を検知して会員を推測するブラックボックスMIAである確率変動評価メンバーシップ推論攻撃(PFAMI)を提案する。 複数の生成モデルとデータセットにわたる広範な実験を行い、PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができることを示した。

Membership Inference Attack (MIA) identifies whether a record exists in a machine learning model's training set by querying the model. MIAs on the classic classification models have been well-studied, and recent works have started to explore how to transplant MIA onto generative models. Our investigation indicates that existing MIAs designed for generative models mainly depend on the overfitting in target models. However, overfitting can be avoided by employing various regularization techniques, whereas existing MIAs demonstrate poor performance in practice. Unlike overfitting, memorization is essential for deep learning models to attain optimal performance, making it a more prevalent phenomenon. Memorization in generative models leads to an increasing trend in the probability distribution of generating records around the member record. Therefore, we propose a Probabilistic Fluctuation Assessing Membership Inference Attack (PFAMI), a black-box MIA that infers memberships by detecting these trends via analyzing the overall probabilistic fluctuations around given records. We conduct extensive experiments across multiple generative models and datasets, which demonstrate PFAMI can improve the attack success rate (ASR) by about 27.9% when compared with the best baseline.
翻訳日:2023-08-29 20:37:16 公開日:2023-08-26
# データ駆動型解析とExBプラズマの低次モデリングのための動的モード分解:II ダイナミクス予測

Dynamic Mode Decomposition for data-driven analysis and reduced-order modelling of ExB plasmas: II. dynamics forecasting ( http://arxiv.org/abs/2308.13727v1 )

ライセンス: Link先を確認
Farbod Faraji, Maryam Reza, Aaron Knoll, J. Nathan Kutz(参考訳) この記事のパート1では,変数予測最適化に基づく動的モード分解(DMD)アルゴリズムの変種であるOptimized DMD(OPT-DMD)が,ExBシミュレーション構成における様々な物理パラメータを表わすテストケースにおいて,データに基づく支配的時空間整合モードの堅牢な同定を可能にすることを実証した。 本論文では,OPT-DMDが構築により安定な低次モデル(ROM)を生成することを制約できるため,本アルゴリズムの応用を拡張し,ホールスラスタの半径-方位および軸-方位断面を表す構成におけるプラズマ力学の時間予測に向けた線形ROMの有効性を,各試験ケースにおけるシミュレーションパラメータの範囲を越えて検討する。 OPT-DMD ROMの予測能力は、主に短期的ダイナミクス予測または言い換えれば、大規模なトレーニング・テストデータの比率で評価される。 しかし, 長期力学予測におけるROMの有用性は, ラジアル・アジムタール構成の例にも見られる。 モデルの予測性能は様々なテストケースで異種である。 にもかかわらず、非常に過渡的な振る舞いを示さないテストケースでは顕著な予測性が観察される。 さらに,すべての事例において,OPT-DMD ROM から得られた地上構造と再構成データとの誤差は,トレーニングとテストウインドウの両方で時間とともに制限される。 その結果,OPT-DMDはプラズマ状態が準周期的にグローバルに進化するシステムにおいて,計算コストが低く,データ駆動の低次モデルを高精度に予測できる信頼性の高い手法として証明されている。

In part I of the article, we demonstrated that a variant of the Dynamic Mode Decomposition (DMD) algorithm based on variable projection optimization, called Optimized DMD (OPT-DMD), enables a robust identification of the dominant spatiotemporally coherent modes underlying the data across various test cases representing different physical parameters in an ExB simulation configuration. As the OPT-DMD can be constrained to produce stable reduced-order models (ROMs) by construction, in this paper, we extend the application of the OPT-DMD and investigate the capabilities of the linear ROM from this algorithm toward forecasting in time of the plasma dynamics in configurations representative of the radial-azimuthal and axial-azimuthal cross-sections of a Hall thruster and over a range of simulation parameters in each test case. The predictive capacity of the OPT-DMD ROM is assessed primarily in terms of short-term dynamics forecast or, in other words, for large ratios of training-to-test data. However, the utility of the ROM for long-term dynamics forecasting is also presented for an example case in the radial-azimuthal configuration. The model's predictive performance is heterogeneous across various test cases. Nonetheless, a remarkable predictiveness is observed in the test cases that do not exhibit highly transient behaviors. Moreover, in all investigated cases, the error between the ground-truth and the reconstructed data from the OPT-DMD ROM remains bounded over time within both the training and the test window. As a result, despite its limitation in terms of generalized applicability to all plasma conditions, the OPT-DMD is proven as a reliable method to develop low computational cost and highly predictive data-driven reduced-order models in systems with a quasi-periodic global evolution of the plasma state.
翻訳日:2023-08-29 19:40:47 公開日:2023-08-26
# データ駆動解析とExBプラズマの低次モデリングのための動的モード分解:I. 時空間コヒーレントパターンの抽出

Dynamic Mode Decomposition for data-driven analysis and reduced-order modelling of ExB plasmas: I. Extraction of spatiotemporally coherent patterns ( http://arxiv.org/abs/2308.13726v1 )

ライセンス: Link先を確認
Farbod Faraji, Maryam Reza, Aaron Knoll, J. Nathan Kutz(参考訳) 本稿では,データ駆動解析のための動的モード分解 (dmd) アルゴリズムの有用性と一般化性について検討し, クロスフィールドexb構成におけるプラズマダイナミクスの低次モデリングについて述べる。 dmdアルゴリズムは解釈可能なデータ駆動方式であり、データ内の時空間的コヒーレント構造(パターン)の時間発展を記述する最も適した線形モデルを見つける。 我々はDMDを、コスト効率の低いPIC方式に基づいて、PIC符号を用いて生成された広範囲な高忠実度データセットに適用した。 本稿ではまず,DMDの概念とその基盤となる固有直交値と特異値の分解法について概説する。 次に2種類のDMDが導入された。 そこで本研究では, シミュレーション条件の範囲内での高忠実度データから支配的時空間モードの同定と抽出の観点から, DMD適用結果について述べる。 変動予測最適化(OPT-DMD)に基づくDMD変種は,データに基づくモードの同定において基本的DMD法よりも優れており,より信頼性の高い地下構造復元を実現することが実証された。 また、複数のテストケースにおいて、オプトdmd抽出モードの離散周波数スペクトルがデータの高速フーリエ変換からの時間スペクトルと一致していることが示されている。 この観察により、OPT-DMDは、周波数スペクトルにおける支配モードの空間構造を一意に明らかにすることにより、従来のスペクトル分析を強化し、プラズマ現象の時空間特性についてよりアクセスしやすく包括的な情報を得られることが示唆された。

In this two-part article, we evaluate the utility and the generalizability of the Dynamic Mode Decomposition (DMD) algorithm for data-driven analysis and reduced-order modelling of plasma dynamics in cross-field ExB configurations. The DMD algorithm is an interpretable data-driven method that finds a best-fit linear model describing the time evolution of spatiotemporally coherent structures (patterns) in data. We have applied the DMD to extensive high-fidelity datasets generated using a particle-in-cell (PIC) code based on a cost-efficient reduced-order PIC scheme. In this part, we first provide an overview of the concept of DMD and its underpinning Proper Orthogonal and Singular Value Decomposition methods. Two of the main DMD variants are next introduced. We then present and discuss the results of the DMD application in terms of the identification and extraction of the dominant spatiotemporal modes from high-fidelity data over a range of simulation conditions. We demonstrate that the DMD variant based on variable projection optimization (OPT-DMD) outperforms the basic DMD method in identification of the modes underlying the data, leading to notably more reliable reconstruction of the ground-truth. Furthermore, we show in multiple test cases that the discrete frequency spectrum of OPT-DMD-extracted modes is consistent with the temporal spectrum from the Fast Fourier Transform of the data. This observation implies that the OPT-DMD augments the conventional spectral analyses by being able to uniquely reveal the spatial structure of the dominant modes in the frequency spectra, thus, yielding more accessible, comprehensive information on the spatiotemporal characteristics of the plasma phenomena.
翻訳日:2023-08-29 19:40:13 公開日:2023-08-26
# ISR-LLM:長期連続タスク計画のための反復的自己精製大言語モデル

ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon Sequential Task Planning ( http://arxiv.org/abs/2308.13724v1 )

ライセンス: Link先を確認
Zhehua Zhou, Jiayang Song, Kunpeng Yao, Zhan Shu, Lei Ma(参考訳) 自然言語処理分野における大規模言語モデル(LLM)の成果に触発された最近の研究は、ロボット工学における複雑な長期的タスク計画課題に対するLLMの適用に関する調査を開始した。 LLMは、タスクに依存しないプランナーとして一般化可能性を高め、人間のインストラクターと計画システムとの柔軟な相互作用を促進する可能性を提供するのに有利である。 しかし、LLMによって生成されたタスクプランは、実現可能性と正確性に欠けることが多い。 この課題に対処するために,反復的な自己修復プロセスを通じてLLMに基づく計画を改善する新しいフレームワークであるISR-LLMを紹介する。 フレームワークは、前処理、計画、反復的な自己修正の3つのステップで機能する。 事前処理の間、自然言語入力を計画ドメイン定義言語(pddl)に変換するためにllmトランスレータが使用される。 計画段階では、LCMプランナーが初期計画を定式化し、検証器を用いて反復自己精製工程で評価・精錬する。 ISR-LLMの3つの異なる計画領域における性能について検討する。 その結果, ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を著しく向上させることができることがわかった。 さらに、自然言語命令を扱うことの広範な適用性と一般化性も維持する。

Motivated by the substantial achievements observed in Large Language Models (LLMs) in the field of natural language processing, recent research has commenced investigations into the application of LLMs for complex, long-horizon sequential task planning challenges in robotics. LLMs are advantageous in offering the potential to enhance the generalizability as task-agnostic planners and facilitate flexible interaction between human instructors and planning systems. However, task plans generated by LLMs often lack feasibility and correctness. To address this challenge, we introduce ISR-LLM, a novel framework that improves LLM-based planning through an iterative self-refinement process. The framework operates through three sequential steps: preprocessing, planning, and iterative self-refinement. During preprocessing, an LLM translator is employed to convert natural language input into a Planning Domain Definition Language (PDDL) formulation. In the planning phase, an LLM planner formulates an initial plan, which is then assessed and refined in the iterative self-refinement step by using a validator. We examine the performance of ISR-LLM across three distinct planning domains. The results show that ISR-LLM is able to achieve markedly higher success rates in task accomplishments compared to state-of-the-art LLM-based planners. Moreover, it also preserves the broad applicability and generalizability of working with natural language instructions.
翻訳日:2023-08-29 19:39:48 公開日:2023-08-26
# Time-to-Pattern: スケーラブル時系列要約のための情報理論的教師なし学習

Time-to-Pattern: Information-Theoretic Unsupervised Learning for Scalable Time Series Summarization ( http://arxiv.org/abs/2308.13722v1 )

ライセンス: Link先を確認
Alireza Ghods, Trong Nghia Hoang, and Diane Cook(参考訳) データ要約は、データセットから解釈可能なサブセットと代表サブセットを生成するプロセスである。 既存の時系列要約手法は、しばしばデータを要約するために手動で考案された類似関数のセットを用いて繰り返し列を探索する。 しかし、そのようなアプローチは、級数類似性のヒューリスティックな定義と組み合わされた徹底的な探索によって引き起こされる制限に苦しめられている。 このようなアプローチは、生成されたデータサマリーの多様性と包括性に影響する。 これらの制約を緩和するため,我々は,最少記述長の概念に従い,最も有意義な情報をエンコードする多様なパターンのセットを見つけることを目的とした,時系列要約手法t2p(time-to-pattern)を提案する。 T2Pは、解釈可能なように設計された潜在空間上の離散時系列の情報埋め込みを学習する深層生成モデルとして実装される。 人工的および実世界の実験により、T2Pはノイズや複雑な環境でも情報的パターンを発見することが判明した。 さらに,t2pの性能は,パターンの多様性と処理のスケーラビリティにおいて従来よりも向上し,時系列要約におけるアルゴリズムの有効性を実証した。

Data summarization is the process of generating interpretable and representative subsets from a dataset. Existing time series summarization approaches often search for recurring subsequences using a set of manually devised similarity functions to summarize the data. However, such approaches are fraught with limitations stemming from an exhaustive search coupled with a heuristic definition of series similarity. Such approaches affect the diversity and comprehensiveness of the generated data summaries. To mitigate these limitations, we introduce an approach to time series summarization, called Time-to-Pattern (T2P), which aims to find a set of diverse patterns that together encode the most salient information, following the notion of minimum description length. T2P is implemented as a deep generative model that learns informative embeddings of the discrete time series on a latent space specifically designed to be interpretable. Our synthetic and real-world experiments reveal that T2P discovers informative patterns, even in noisy and complex settings. Furthermore, our results also showcase the improved performance of T2P over previous work in pattern diversity and processing scalability, which conclusively demonstrate the algorithm's effectiveness for time series summarization.
翻訳日:2023-08-29 19:39:17 公開日:2023-08-26
# Singable Lyric Translationのための計算的評価フレームワーク

A Computational Evaluation Framework for Singable Lyric Translation ( http://arxiv.org/abs/2308.13715v1 )

ライセンス: Link先を確認
Haven Kim, Kento Watanabe, Masataka Goto, Juhan Nam(参考訳) 歌詞翻訳は、音楽の世界的な共鳴を増幅し、文化的分裂を橋渡しし、普遍的なつながりを育む上で重要な役割を果たしている。 歌詞の翻訳は、従来の翻訳タスクとは異なり、歌唱性と意味論の微妙なバランスを必要とする。 本稿では,歌詞の音節・言語・文化的側面をシームレスに統合した,歌唱可能な歌詞翻訳の定量的評価のための計算枠組みを提案する。 本フレームワークは,音節数距離,音素繰り返し類似度,音楽構造距離,意味類似度を測定する4つの指標からなる。 提案手法の有効性を検証するために,英語,日本語,韓国語の歌詞を行別,セクション別で正確に調整した歌唱可能な歌詞データセットを収集し,歌唱可能歌詞と非歌唱可能歌詞の比較分析を行った。 多学際的アプローチは,リリック翻訳の技術を支える重要な要素に対する洞察を与え,計算リリック翻訳評価の将来に向けた確固たる基礎研究を確立させる。

Lyric translation plays a pivotal role in amplifying the global resonance of music, bridging cultural divides, and fostering universal connections. Translating lyrics, unlike conventional translation tasks, requires a delicate balance between singability and semantics. In this paper, we present a computational framework for the quantitative evaluation of singable lyric translation, which seamlessly integrates musical, linguistic, and cultural dimensions of lyrics. Our comprehensive framework consists of four metrics that measure syllable count distance, phoneme repetition similarity, musical structure distance, and semantic similarity. To substantiate the efficacy of our framework, we collected a singable lyrics dataset, which precisely aligns English, Japanese, and Korean lyrics on a line-by-line and section-by-section basis, and conducted a comparative analysis between singable and non-singable lyrics. Our multidisciplinary approach provides insights into the key components that underlie the art of lyric translation and establishes a solid groundwork for the future of computational lyric translation assessment.
翻訳日:2023-08-29 19:38:45 公開日:2023-08-26
# 心血管疾患検出のための連合学習の約束と課題--スコッピング文献レビュー

Uncovering Promises and Challenges of Federated Learning to Detect Cardiovascular Diseases: A Scoping Literature Review ( http://arxiv.org/abs/2308.13714v1 )

ライセンス: Link先を確認
Sricharan Donkada, Seyedamin Pouriyeh, Reza M. Parizi, Meng Han, Nasrin Dehbozorgi, Nazmus Sakib, Quan Z. Sheng(参考訳) 心臓血管疾患(CVD)は世界的な死因であり、早期発見は患者の予後を大幅に改善させる。 機械学習(ML)モデルはCVDの早期診断に役立つが、その性能はモデルトレーニングで利用可能なデータによって制限される。 医療におけるプライバシーの懸念は、正確なMLモデルをトレーニングするためのデータを取得するのを難しくする。 フェデレートラーニング(FL)は、機械学習の新たなアプローチであり、個々のデータオーナのプライバシを損なうことなく、複数のソースのデータ上でモデルをトレーニングすることができる。 本稿では,CVD検出のためのFLの現状について概説する。 本稿では,様々な論文で提案されているFLモデルについて検討し,その利点と課題について論じる。 また、FLと従来の集中型学習アプローチを比較し、モデルの精度、プライバシ、データ分散処理能力の違いを強調します。 最後に,FLの現在の課題とCVD検出の限界について批判的な分析を行い,今後の研究への可能性について論じる。 本研究の目的は,CVD検出におけるFLの現状を概観し,CVD検出モデルの精度とプライバシ向上の可能性を明らかにすることである。

Cardiovascular diseases (CVD) are the leading cause of death globally, and early detection can significantly improve outcomes for patients. Machine learning (ML) models can help diagnose CVDs early, but their performance is limited by the data available for model training. Privacy concerns in healthcare make it harder to acquire data to train accurate ML models. Federated learning (FL) is an emerging approach to machine learning that allows models to be trained on data from multiple sources without compromising the privacy of the individual data owners. This survey paper provides an overview of the current state-of-the-art in FL for CVD detection. We review the different FL models proposed in various papers and discuss their advantages and challenges. We also compare FL with traditional centralized learning approaches and highlight the differences in terms of model accuracy, privacy, and data distribution handling capacity. Finally, we provide a critical analysis of FL's current challenges and limitations for CVD detection and discuss potential avenues for future research. Overall, this survey paper aims to provide a comprehensive overview of the current state-of-the-art in FL for CVD detection and to highlight its potential for improving the accuracy and privacy of CVD detection models.
翻訳日:2023-08-29 19:37:45 公開日:2023-08-26
# zc3: ゼロショットのクロス言語コードクローン検出

ZC3: Zero-Shot Cross-Language Code Clone Detection ( http://arxiv.org/abs/2308.13754v1 )

ライセンス: Link先を確認
Jia Li, Chongyang Tao, Zhi Jin, Fang Liu, Jia Allen Li, Ge Li(参考訳) 開発者はプログラミングの生産性を向上させるためにコードクローンを導入する。 既存の多くの研究はモノリンガルコードクローン検出において顕著な性能を達成した。 しかし、ソフトウェア開発の間、多くの開発者が異なる言語で意味論的に等価なプログラムを書き、異なるプラットフォームをサポートし、開発者がある言語から別の言語にプロジェクトを翻訳するのを手助けします。 言語間の並列データ収集、特に低リソース言語のための収集は高価で時間がかかり、並列データに依存しない効果的な言語横断モデルの設計が重要な問題である。 本稿では,ゼロショット言語コードクローン検出のためのZC3という新しい手法を提案する。 zc3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。 これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を活用して、異なる言語間で整合した表現を生成するためにモデルをさらに制約する。 このアプローチを評価するために,4つの代表的な言語間クローン検出データセットについて広範な実験を行った。 実験の結果、ZC3は最先端のベースラインを67.12%、51.39%、14.85%、そして53.01%でそれぞれ上回った。 異なる言語の表現分布についても検討し,本手法の有効性について考察する。

Developers introduce code clones to improve programming productivity. Many existing studies have achieved impressive performance in monolingual code clone detection. However, during software development, more and more developers write semantically equivalent programs with different languages to support different platforms and help developers translate projects from one language to another. Considering that collecting cross-language parallel data, especially for low-resource languages, is expensive and time-consuming, how designing an effective cross-language model that does not rely on any parallel data is a significant problem. In this paper, we propose a novel method named ZC3 for Zero-shot Cross-language Code Clone detection. ZC3 designs the contrastive snippet prediction to form an isomorphic representation space among different programming languages. Based on this, ZC3 exploits domain-aware learning and cycle consistency learning to further constrain the model to generate representations that are aligned among different languages meanwhile are diacritical for different types of clones. To evaluate our approach, we conduct extensive experiments on four representative cross-language clone detection datasets. Experimental results show that ZC3 outperforms the state-of-the-art baselines by 67.12%, 51.39%, 14.85%, and 53.01% on the MAP score, respectively. We further investigate the representational distribution of different languages and discuss the effectiveness of our method.
翻訳日:2023-08-29 19:27:23 公開日:2023-08-26
# 画像に基づく特許検索のための効率的な表現の学習

Learning Efficient Representations for Image-Based Patent Retrieval ( http://arxiv.org/abs/2308.13749v1 )

ライセンス: Link先を確認
Hongsong Wang and Yuqi Zhang(参考訳) 特許取得は、過去数十年間、知的財産と情報検索コミュニティの研究者から大きな関心を集めてきた。 しかし、既存のアプローチのほとんどは特許のテキスト情報とメタデータ情報に依存しており、コンテンツベースの画像に基づく特許検索が研究されることはほとんどない。 特許出願画像の特徴に基づいて,この課題に対して単純で軽量なモデルを提案する。 ベルとホイッスルがなければ、このアプローチは大規模ベンチマークで他のベンチマークよりも大幅に優れ、平均的精度(mAP)スコアで最先端の33.5%向上する。 さらなる実験により、このモデルは93.5%という驚くほど高いmAPを達成するために精巧にスケールできることが明らかになった。 本手法はECCV 2022 特許図画像検索チャレンジで第1位である。

Patent retrieval has been attracting tremendous interest from researchers in intellectual property and information retrieval communities in the past decades. However, most existing approaches rely on textual and metadata information of the patent, and content-based image-based patent retrieval is rarely investigated. Based on traits of patent drawing images, we present a simple and lightweight model for this task. Without bells and whistles, this approach significantly outperforms other counterparts on a large-scale benchmark and noticeably improves the state-of-the-art by 33.5% with the mean average precision (mAP) score. Further experiments reveal that this model can be elaborately scaled up to achieve a surprisingly high mAP of 93.5%. Our method ranks first in the ECCV 2022 Patent Diagram Image Retrieval Challenge.
翻訳日:2023-08-29 19:27:02 公開日:2023-08-26
# PE-MED:インタラクティブな医用画像分割のためのプロンプトエンハンスメント

PE-MED: Prompt Enhancement for Interactive Medical Image Segmentation ( http://arxiv.org/abs/2308.13746v1 )

ライセンス: Link先を確認
Ao Chang, Xing Tao, Xin Yang, Yuhao Huang, Xinrui Zhou, Jiajun Zeng, Ruobing Huang, Dong Ni(参考訳) インタラクティブ・メディカル・イメージ・セグメンテーション(interactive medical image segmentation)とは、ユーザとイメージの間のインタラクション(クリックなど)を通じて、関心対象の正確なセグメンテーションを指す。 近年、豊富な注釈付きデータに依存しず、完全自動セグメンテーションよりも柔軟であるため、広く研究されている。 しかし、現在の研究は、ある相互作用にマイニングされた知識や複数の相互作用の関係を含む、ユーザが提供するプロンプト情報(例えばポイント)を十分に研究していない。 そこで本稿では,対話型医用画像セグメンテーションのための高速強調機能を備えた新しいフレームワークpe-medを提案する。 まず,最初のプロンプトに基づいてウォーム初期セグメンテーション結果を生成するための自己ループ戦略を提案する。 これは、最初の相互作用の後の最初の入力として空白マスクに遭遇するなど、非常に好ましくないシナリオを防ぐことができる。 第2に,ネットワークのユーザクリックに対する応答性を向上し,一つのインタラクションにおいて有用な情報をマイニングするための新しいPrompt Attention Learning Module (PALM)を提案する。 最後に,複数のインタラクション間の時間的関係を抽出し,モデルの安定性を高めるために,時系列情報伝達(tsip)機構を構築する。 また,SOTA (State-of-the-art Medical Image segmentation algorithm) との比較実験により,精度と安定性が向上した。

Interactive medical image segmentation refers to the accurate segmentation of the target of interest through interaction (e.g., click) between the user and the image. It has been widely studied in recent years as it is less dependent on abundant annotated data and more flexible than fully automated segmentation. However, current studies have not fully explored user-provided prompt information (e.g., points), including the knowledge mined in one interaction, and the relationship between multiple interactions. Thus, in this paper, we introduce a novel framework equipped with prompt enhancement, called PE-MED, for interactive medical image segmentation. First, we introduce a Self-Loop strategy to generate warm initial segmentation results based on the first prompt. It can prevent the highly unfavorable scenarios, such as encountering a blank mask as the initial input after the first interaction. Second, we propose a novel Prompt Attention Learning Module (PALM) to mine useful prompt information in one interaction, enhancing the responsiveness of the network to user clicks. Last, we build a Time Series Information Propagation (TSIP) mechanism to extract the temporal relationships between multiple interactions and increase the model stability. Comparative experiments with other state-of-the-art (SOTA) medical image segmentation algorithms show that our method exhibits better segmentation accuracy and stability.
翻訳日:2023-08-29 19:26:49 公開日:2023-08-26
# グラフ上の離散時間量子ウォークによる正規化ラプラシアンを用いた離散schr\"odinger方程式の近似法

A method of approximation of discrete Schr\"odinger equation with the normalized Laplacian by discrete-time quantum walk on graphs ( http://arxiv.org/abs/2308.13741v1 )

ライセンス: Link先を確認
Kei Saito, Etsuo Segawa(参考訳) 離散時間量子ウォークモデルによって誘導されるグラフ上の連続時間量子ウォークモデルのクラスをパラメータ $\epsilon\in [0,1]$ で提案する。 ここで、本論文で扱うグラフは有限ケースと無限ケースの両方に適用できる。 誘導された連続時間量子ウォークは、正規化されたラプラシアンによって駆動される(自由)離散シュル=オディンガー方程式の拡張版である:重み付きエルミート元はスカラー値だけでなく、基底となる離散時間量子ウォークに依存する行列値も持つ。 各離散時間量子ウォークのパラメータ$\epsilon$を長い時間制限で適切に設定し、その誘導された連続時間量子ウォークと同一視し、離散時間に対して小さな誤差$\delta$で誘導された連続時間量子ウォークを近似する実行時間を与える。 また、連続時間量子ウォークの詳細なスペクトル情報についても検討する。

We propose a class of continuous-time quantum walk models on graphs induced by a certain class of discrete-time quantum walk models with the parameter $\epsilon\in [0,1]$. Here the graph treated in this paper can be applied both finite and infinite cases. The induced continuous-time quantum walk is an extended version of the (free) discrete-Schr\"odinger equation driven by the normalized Laplacian: the element of the weighted Hermitian takes not only a scalar value but also a matrix value depending on the underlying discrete-time quantum walk. We show that each discrete-time quantum walk with an appropriate setting of the parameter $\epsilon$ in the long time limit identifies with its induced continuous-time quantum walk and give the running time for the discrete-time to approximate the induced continuous-time quantum walk with a small error $\delta$. We also investigate the detailed spectral information on the induced continuous-time quantum walk.
翻訳日:2023-08-29 19:26:26 公開日:2023-08-26
# Devignet: アダプティブチャネルを拡張したデュアルアグリゲーション・フュージョン・トランスによる高分解能Vignetting除去

Devignet: High-Resolution Vignetting Removal via a Dual Aggregated Fusion Transformer With Adaptive Channel Expansion ( http://arxiv.org/abs/2308.13739v1 )

ライセンス: Link先を確認
Shenghong Luo, Xuhang Chen, Weiwen Chen, Zinuo Li, Shuqiang Wang, Chi-Man Pun(参考訳) Vignettingは一般的に、レンズ設計、不適切なレンズフードの使用、カメラセンサーの制限などの要因から生じる画像の劣化として発生する。 この劣化は、画像の詳細、色精度に影響を与え、計算写真における課題を示す。 既存のウィグネット除去アルゴリズムは主に理想的な物理仮定と手作りパラメータに依存しており、不規則なヴィグネット除去と準最適結果の非効率な除去をもたらす。 さらに、実世界のビグネッティングデータセットの実質的な欠如は、ビグネッティング削除の客観的かつ総合的な評価を妨げる。 これらの課題に対処するために,vignette削除のための先駆的なデータセットであるvigsetを提案する。 vigsetには、様々な条件下でのvinettingとvignetting-freeの両方の高精細度画像(5340\times3697$)が含まれている。 さらに,新たな周波数認識トランスフォーマアーキテクチャであるdevignetを導入する。 ラプラシアンピラミッド分解により,グローバルな特徴を処理し,低周波領域での磁化を除去するDual Aggregated Fusion Transformerを提案する。 さらに,高周波領域の詳細を強化するために,適応チャネル拡張モジュールを導入する。 実験により,提案モデルが既存の最先端手法より優れていることが示された。

Vignetting commonly occurs as a degradation in images resulting from factors such as lens design, improper lens hood usage, and limitations in camera sensors. This degradation affects image details, color accuracy, and presents challenges in computational photography. Existing vignetting removal algorithms predominantly rely on ideal physics assumptions and hand-crafted parameters, resulting in ineffective removal of irregular vignetting and suboptimal results. Moreover, the substantial lack of real-world vignetting datasets hinders the objective and comprehensive evaluation of vignetting removal. To address these challenges, we present Vigset, a pioneering dataset for vignette removal. Vigset includes 983 pairs of both vignetting and vignetting-free high-resolution ($5340\times3697$) real-world images under various conditions. In addition, We introduce DeVigNet, a novel frequency-aware Transformer architecture designed for vignetting removal. Through the Laplacian Pyramid decomposition, we propose the Dual Aggregated Fusion Transformer to handle global features and remove vignetting in the low-frequency domain. Additionally, we introduce the Adaptive Channel Expansion Module to enhance details in the high-frequency domain. The experiments demonstrate that the proposed model outperforms existing state-of-the-art methods.
翻訳日:2023-08-29 19:26:07 公開日:2023-08-26
# 哲学と心理学と数学の融合のための哲学と心理学

On Philomatics and Psychomatics for Combining Philosophy and Psychology with Mathematics ( http://arxiv.org/abs/2308.13738v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Morteza Babaie(参考訳) 哲学と心理学と数学のハイブリッドな組み合わせとして、哲学と精神医学の概念を提案する。 この組み合わせの動機は、分析哲学の欲求を満たすこと、哲学の科学を提唱すること、哲学による数学的アルゴリズムを正当化すること、哲学と数学の両方の抽象化である。 フィロマティクスと精神学の様々な例を列挙し、そのいくつかはより深く説明されている。 第一の例は、文脈原理、意味論的ホリズム、および数学における注意機構による意味の使用理論の間の関係の分析である。 もう一つの例は、哲学におけるプラトンの形式論と弦理論、オブジェクト指向プログラミング、機械学習におけるホログラフィック原理との関係である。 最後に、ウィトゲンシュタインの族類似性と数学におけるクラスタリングの関係を説明する。 本稿では哲学と心理学を数学と組み合わせた研究の扉を開く。

We propose the concepts of philomatics and psychomatics as hybrid combinations of philosophy and psychology with mathematics. We explain four motivations for this combination which are fulfilling the desire of analytical philosophy, proposing science of philosophy, justifying mathematical algorithms by philosophy, and abstraction in both philosophy and mathematics. We enumerate various examples for philomatics and psychomatics, some of which are explained in more depth. The first example is the analysis of relation between the context principle, semantic holism, and the usage theory of meaning with the attention mechanism in mathematics. The other example is on the relations of Plato's theory of forms in philosophy with the holographic principle in string theory, object-oriented programming, and machine learning. Finally, the relation between Wittgenstein's family resemblance and clustering in mathematics is explained. This paper opens the door of research for combining philosophy and psychology with mathematics.
翻訳日:2023-08-29 19:25:47 公開日:2023-08-26
# AI生成音楽の評価手法に関する総合調査

A Comprehensive Survey for Evaluation Methodologies of AI-Generated Music ( http://arxiv.org/abs/2308.13736v1 )

ライセンス: Link先を確認
Zeyu Xiong, Weitao Wang, Jing Yu, Yue Lin, Ziyan Wang(参考訳) 近年、AIが生成する音楽は大きな進歩を遂げ、複数のモデルがマルチモーダルな複雑な音楽ジャンルやシーンでうまく機能している。 客観的な指標は生成的音楽の評価に使用できるが、しばしば音楽評価の解釈可能性に欠ける。 そのため、研究者はしばしば主観的なユーザスタディを使って生成した作品の質を評価するが、これは客観的な指標よりもリソース集約的で再現性が低い。 本研究の目的は,ai生成音楽を評価するための主観的,客観的,複合的手法を総合的に評価することであり,それぞれのアプローチの利点と欠点を強調することである。 究極的には、この研究は音楽評価の分野で生成aiを統一するための貴重な参考となる。

In recent years, AI-generated music has made significant progress, with several models performing well in multimodal and complex musical genres and scenes. While objective metrics can be used to evaluate generative music, they often lack interpretability for musical evaluation. Therefore, researchers often resort to subjective user studies to assess the quality of the generated works, which can be resource-intensive and less reproducible than objective metrics. This study aims to comprehensively evaluate the subjective, objective, and combined methodologies for assessing AI-generated music, highlighting the advantages and disadvantages of each approach. Ultimately, this study provides a valuable reference for unifying generative AI in the field of music evaluation.
翻訳日:2023-08-29 19:25:34 公開日:2023-08-26
# mst圧縮:最小スパンディングツリーを用いたバイナリニューラルネットワークの圧縮と高速化

MST-compression: Compressing and Accelerating Binary Neural Networks with Minimum Spanning Tree ( http://arxiv.org/abs/2308.13735v1 )

ライセンス: Link先を確認
Quang Hieu Vo, Linh-Tam Tran, Sung-Ho Bae, Lok-Won Kim and Choong Seon Hong(参考訳) バイナリニューラルネットワーク(bnns)は、アクティベーションと重み付けに1ビット表現を使用することで、エッジコンピューティングデバイスにおける計算コストとメモリストレージを削減するために広く採用されている。 しかしながら、ニューラルネットワークが精度を向上し、実用的な要件を満たすためにより広く、より深くなるにつれて、計算の負担はバイナリバージョンにおいても大きな課題である。 これらの問題に対処するために,BNNの圧縮と高速化を学習する最小スパンニングツリー(MST)圧縮法を提案する。 提案するアーキテクチャは,2次畳み込みにおける出力チャネルを,再利用可能なチャネルの重みと異なる重み付きxnor演算を用いて計算できるという先行研究からの観測を活用している。 まず、出力チャネルに対応する頂点を持つ完全連結グラフを構築し、2つの頂点間の距離は、これらの出力に使用される重み集合間の異なる値の数である。 次に、最小深度でグラフのMSTを提案し、計算コストとレイテンシを低減することを目的とした出力計算を並べ替える。 さらに,トレーニング中のMST距離を削減できる新しい学習アルゴリズムを提案する。 ベンチマークモデルによる実験結果から,提案手法は信頼できない精度低下を伴う圧縮比を達成し,資源制約のあるエッジコンピューティングデバイスに有望なアプローチであることが示された。

Binary neural networks (BNNs) have been widely adopted to reduce the computational cost and memory storage on edge-computing devices by using one-bit representation for activations and weights. However, as neural networks become wider/deeper to improve accuracy and meet practical requirements, the computational burden remains a significant challenge even on the binary version. To address these issues, this paper proposes a novel method called Minimum Spanning Tree (MST) compression that learns to compress and accelerate BNNs. The proposed architecture leverages an observation from previous works that an output channel in a binary convolution can be computed using another output channel and XNOR operations with weights that differ from the weights of the reused channel. We first construct a fully connected graph with vertices corresponding to output channels, where the distance between two vertices is the number of different values between the weight sets used for these outputs. Then, the MST of the graph with the minimum depth is proposed to reorder output calculations, aiming to reduce computational cost and latency. Moreover, we propose a new learning algorithm to reduce the total MST distance during training. Experimental results on benchmark models demonstrate that our method achieves significant compression ratios with negligible accuracy drops, making it a promising approach for resource-constrained edge-computing devices.
翻訳日:2023-08-29 19:25:22 公開日:2023-08-26
# mcmc速度測定による学習変動オートエンコーダ

Learning variational autoencoders via MCMC speed measures ( http://arxiv.org/abs/2308.13731v1 )

ライセンス: Link先を確認
Marcel Hirt, Vasileios Kreouzis, Petros Dellaportas(参考訳) 変分オートエンコーダ(VAE)は、エビデンス・ロウアー・バウンド(ELBO)を最大化することで効率よく訓練できる確率ベース生成モデルである。 より厳密な変動境界を得るための変動分布の表現性の向上と、生成性能の向上に多くの進展があった。 マルコフ連鎖モンテカルロ法(MCMC)法は変分密度の構成に利用されてきたが、潜伏変数モデルに対する提案分布を適応するための勾配法はあまり注目されていない。 この研究は、短周期のメトロポリス調整ランゲヴィン (MALA) やハミルトンモンテカルロ (HMC) 連鎖に対するエントロピーに基づく適応を示唆し、ログエビデンスに束縛されたより厳密な変動を最適化する。 実験により、このアプローチは高い保持率のログライクな状態と、生成指標の改善をもたらすことが示された。 我々の暗黙的変分密度は階層的vaesに生じる潜在階層表現の複雑な後続幾何学に適応できる。

Variational autoencoders (VAEs) are popular likelihood-based generative models which can be efficiently trained by maximizing an Evidence Lower Bound (ELBO). There has been much progress in improving the expressiveness of the variational distribution to obtain tighter variational bounds and increased generative performance. Whilst previous work has leveraged Markov chain Monte Carlo (MCMC) methods for the construction of variational densities, gradient-based methods for adapting the proposal distributions for deep latent variable models have received less attention. This work suggests an entropy-based adaptation for a short-run Metropolis-adjusted Langevin (MALA) or Hamiltonian Monte Carlo (HMC) chain while optimising a tighter variational bound to the log-evidence. Experiments show that this approach yields higher held-out log-likelihoods as well as improved generative metrics. Our implicit variational density can adapt to complicated posterior geometries of latent hierarchical representations arising in hierarchical VAEs.
翻訳日:2023-08-29 19:24:59 公開日:2023-08-26
# Muffin: オフザシェルフモデルの統一によるマルチディメンジョンAIフェアネスに向けたフレームワーク

Muffin: A Framework Toward Multi-Dimension AI Fairness by Uniting Off-the-Shelf Models ( http://arxiv.org/abs/2308.13730v1 )

ライセンス: Link先を確認
Yi Sheng, Junhuan Yang, Lei Yang, Yiyu Shi, Jingtongf Hu, Weiwen Jiang(参考訳) モデルフェアネス(すなわちバイアス)は、幅広いAIアプリケーションにおいて最も重要な問題の一つとなっている。 自動運転車における不公平なモデルは、コーナーケース(例えば、極端な天候)が十分に考慮されない場合や、aiモデルが特定のグループ(例えば茶色と黒の肌)を誤診した場合、医療格差を引き起こす可能性がある。 近年では不公平に対処する研究が盛んに行われており、主に肌の色調などの不公平な属性に焦点が当てられているが、現実のデータは複数の属性を持つことが多く、「多次元公正」と呼ばれる複数の属性に不公平が存在する。 本稿ではまず,不公平な属性間の強い相関関係を明らかにする。すなわち,ある属性に対する公平性を最適化することは,他の属性の崩壊につながる。 そこで本研究では,複数の属性の公平性を向上させるために,既成モデルを統合する自動ツールを含むマルチディメンション・フェアネス・フレームワークであるmuffinを提案する。 2つの不公平属性を持つ皮膚科学データセットのケーススタディでは、既存のアプローチは第1属性に対して21.05%の公平性を達成でき、第2属性は1.85%不公平にすることができる。 一方、提案されたMuffinは複数のモデルを組み合わせて、両方の属性に対して26.32%と20.37%の公平性を同時に達成することができる。

Model fairness (a.k.a., bias) has become one of the most critical problems in a wide range of AI applications. An unfair model in autonomous driving may cause a traffic accident if corner cases (e.g., extreme weather) cannot be fairly regarded; or it will incur healthcare disparities if the AI model misdiagnoses a certain group of people (e.g., brown and black skin). In recent years, there have been emerging research works on addressing unfairness, and they mainly focus on a single unfair attribute, like skin tone; however, real-world data commonly have multiple attributes, among which unfairness can exist in more than one attribute, called 'multi-dimensional fairness'. In this paper, we first reveal a strong correlation between the different unfair attributes, i.e., optimizing fairness on one attribute will lead to the collapse of others. Then, we propose a novel Multi-Dimension Fairness framework, namely Muffin, which includes an automatic tool to unite off-the-shelf models to improve the fairness on multiple attributes simultaneously. Case studies on dermatology datasets with two unfair attributes show that the existing approach can achieve 21.05% fairness improvement on the first attribute while it makes the second attribute unfair by 1.85%. On the other hand, the proposed Muffin can unite multiple models to achieve simultaneously 26.32% and 20.37% fairness improvement on both attributes; meanwhile, it obtains 5.58% accuracy gain.
翻訳日:2023-08-29 19:24:39 公開日:2023-08-26
# マルチメディア検索のための中央類似度マルチビューハッシュ

Central Similarity Multi-View Hashing for Multimedia Retrieval ( http://arxiv.org/abs/2308.13774v1 )

ライセンス: Link先を確認
Jian Zhu, Wen Cheng, Yu Cui, Chang Tang, Yuyang Dai, Yong Li, Lingfang Zeng(参考訳) マルチビュー異種データのハッシュ表現学習がマルチメディア検索の精度向上の鍵となる。 しかし,既存の手法では局所的類似性を利用し,多視点特徴の活用が困難であり,検索精度が低下している。 現在の方法は、モデルのトレーニングにのみローカル類似性を使用する。 これらの方法はグローバルな類似性を無視する。 さらに、最近の作品では重み付けされた和や結合によってマルチビュー機能を融合させている。 これらの融合法は様々な視点の相互作用を捉えるには不十分である。 本稿では,CSMVH(Central similarity Multi-View Hashing)法を提案する。 中央類似性学習は、ハッシュセンターとサンプルのグローバル類似性を利用する局所類似性問題を解決するために用いられる。 従来のアプローチよりもゲートベース融合の方が優れていることを示す実証実験データを提示する。 MS COCOとNUS-WIDEでは、提案したCSMVHは最先端の手法よりも大きなマージン(平均精度(mAP)が11.41%向上する)で性能が向上する。

Hash representation learning of multi-view heterogeneous data is the key to improving the accuracy of multimedia retrieval. However, existing methods utilize local similarity and fall short of deeply fusing the multi-view features, resulting in poor retrieval accuracy. Current methods only use local similarity to train their model. These methods ignore global similarity. Furthermore, most recent works fuse the multi-view features via a weighted sum or concatenation. We contend that these fusion methods are insufficient for capturing the interaction between various views. We present a novel Central Similarity Multi-View Hashing (CSMVH) method to address the mentioned problems. Central similarity learning is used for solving the local similarity problem, which can utilize the global similarity between the hash center and samples. We present copious empirical data demonstrating the superiority of gate-based fusion over conventional approaches. On the MS COCO and NUS-WIDE, the proposed CSMVH performs better than the state-of-the-art methods by a large margin (up to 11.41% mean Average Precision (mAP) improvement).
翻訳日:2023-08-29 19:19:10 公開日:2023-08-26
# グループ知識による残留ネットワークの強化

Boosting Residual Networks with Group Knowledge ( http://arxiv.org/abs/2308.13772v1 )

ライセンス: Link先を確認
Shengji Tang, Peng Ye, Baopu Li, Weihao Lin, Tao Chen, Tong He, Chong Yu, Wanli Ouyang(参考訳) 最近の研究は、暗黙のアンサンブルモデルの新しい視点から残留ネットワークを理解する。 この観点から、確率深度や刺激訓練といった従来の手法は、サブネットのサンプリングとトレーニングにより、残留ネットワークの性能をさらに向上させた。 しかし、両者は異なる能力を持つ全てのサブネットに対して同じ監督を行い、訓練中にサブネットが生み出す貴重な知識を無視している。 本書では,同じ種類の監督を用いることによって生じる重要な知識蒸留ギャップを緩和し,サブネットを活用した多様な知識の提供を提唱する。 このモチベーションに基づいて,残余ネットワークの性能向上のためのグループ知識ベーストレーニングフレームワークを提案する。 具体的には、すべてのサブネットをサブネットサンプリングによって階層群に暗黙的に分割し、トレーニング中に各グループの異なるサブネットの知識を集約し、上位レベルのグループ知識を利用して下位レベルのサブネットグループを監督する。 また,より大規模なサブネットを自然にサンプリングするサブネットサンプリング手法を開発した。 従来のサブネットトレーニングや他の手法と比較して,複数のデータセットとネットワーク構造において,最適な効率性と性能上のトレードオフを実現する。 コードはまもなくリリースされる。

Recent research understands the residual networks from a new perspective of the implicit ensemble model. From this view, previous methods such as stochastic depth and stimulative training have further improved the performance of the residual network by sampling and training of its subnets. However, they both use the same supervision for all subnets of different capacities and neglect the valuable knowledge generated by subnets during training. In this manuscript, we mitigate the significant knowledge distillation gap caused by using the same kind of supervision and advocate leveraging the subnets to provide diverse knowledge. Based on this motivation, we propose a group knowledge based training framework for boosting the performance of residual networks. Specifically, we implicitly divide all subnets into hierarchical groups by subnet-in-subnet sampling, aggregate the knowledge of different subnets in each group during training, and exploit upper-level group knowledge to supervise lower-level subnet groups. Meanwhile, We also develop a subnet sampling strategy that naturally samples larger subnets, which are found to be more helpful than smaller subnets in boosting performance for hierarchical groups. Compared with typical subnet training and other methods, our method achieves the best efficiency and performance trade-offs on multiple datasets and network structures. The code will be released soon.
翻訳日:2023-08-29 19:18:56 公開日:2023-08-26
# 量子化学ハミルトニアンの量子位相推定のための PrePARE 回路の古典的変動最適化

Classical variational optimization of PREPARE circuit for quantum phase estimation of quantum chemistry Hamiltonians ( http://arxiv.org/abs/2308.13770v1 )

ライセンス: Link先を確認
Hayata Morisaki, Kosuke Mitarai, Keisuke Fujii, Yuya O. Nakagawa(参考訳) 量子化学における分子ハミルトニアンの量子位相推定のための$\texttt{prepare}$回路を構築するために,量子回路の量子回路のみの変分最適化を用いた手法を提案する。 $\texttt{PREPARE}$回路は、ハミルトニアンの項の係数を確率振幅として符号化する量子状態を生成し、量子位相推定の最先端の効率的な実装において重要な役割を果たす。 我々は自動量子回路符号化アルゴリズム [shirakawa $\textit{et al.] を用いる。 これは、量子回路の古典的シミュレーションを必要とする o(\log n)$ qubits で、n$ はハミルトニアン数の量子ビット数である。 生成された$\texttt{PREPARE}$ 回路は補助量子ビットを必要としない。 本手法は,様々な分子の量子化学ハミルトニアンに対して得られた$\texttt{prepare}$回路のt$ゲート数を調べることで実証する。 利用可能な論理量子ビット数と$t$ゲート数は、フォールトトレラント量子コンピューティングの初期段階で制限されるため、提案手法は、このような限られた能力で量子位相推定を行うために特に有用である。

We propose a method for constructing $\texttt{PREPARE}$ circuits for quantum phase estimation of a molecular Hamiltonian in quantum chemistry by using variational optimization of quantum circuits solely on classical computers. The $\texttt{PREPARE}$ circuit generates a quantum state which encodes the coefficients of the terms in the Hamiltonian as probability amplitudes and plays a crucial role in the state-of-the-art efficient implementations of quantum phase estimation. We employ the automatic quantum circuit encoding algorithm [Shirakawa $\textit{et al.}$, arXiv:2112.14524] to construct $\texttt{PREPARE}$ circuits, which requires classical simulations of quantum circuits of $O(\log N)$ qubits with $N$ being the number of qubits of the Hamiltonian. The generated $\texttt{PREPARE}$ circuits do not need any ancillary qubit. We demonstrate our method by investigating the number of $T$-gates of the obtained $\texttt{PREPARE}$ circuits for quantum chemistry Hamiltonians of various molecules, which shows a constant-factor reduction compared to previous approaches that do not use ancillary qubits. Since the number of available logical qubits and $T$ gates will be limited at the early stage of the fault-tolerant quantum computing, the proposed method is particularly of use for performing the quantum phase estimation with such limited capability.
翻訳日:2023-08-29 19:18:38 公開日:2023-08-26
# detectron2 による bengali ドキュメントレイアウト解析

Bengali Document Layout Analysis with Detectron2 ( http://arxiv.org/abs/2308.13769v1 )

ライセンス: Link先を確認
Md Ataullha and Mahedi Hassan Rabby and Mushfiqur Rahman and Tahsina Bintay Azam(参考訳) 文書のデジタル化は、歴史的記録の保存、効率的な文書管理、OCR研究の進展に不可欠である。 Document Layout Analysis (DLA)は文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。 さまざまなレイアウトや履歴文書、Bengaliのようなユニークなスクリプトを扱う場合には、包括的なBengali DLAデータセットの欠如が問題になる。 我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。 Mask R-CNN R-50, R-101, X-101, PubLayNetの事前トレーニング済み重量と未トレーニング重量のいずれにおいても, BaDLADデータセットには, テキストボックス, 段落, 画像, 表の4つのカテゴリがある。 以上の結果から,ベンガル文書のセグメンテーションにおけるモデルの有効性が示唆された。 速度・精度のトレードオフを議論し,事前訓練した重み付けの重要性を強調する。 本研究は, 文書レイアウト解析, 効率的な文書管理, OCR研究におけるMask R-CNNの適用性を拡大するとともに, 微調整とデータ拡張の今後の道筋を示唆するものである。

Document digitization is vital for preserving historical records, efficient document management, and advancing OCR (Optical Character Recognition) research. Document Layout Analysis (DLA) involves segmenting documents into meaningful units like text boxes, paragraphs, images, and tables. Challenges arise when dealing with diverse layouts, historical documents, and unique scripts like Bengali, hindered by the lack of comprehensive Bengali DLA datasets. We improved the accuracy of the DLA model for Bengali documents by utilizing advanced Mask R-CNN models available in the Detectron2 library. Our evaluation involved three variants: Mask R-CNN R-50, R-101, and X-101, both with and without pretrained weights from PubLayNet, on the BaDLAD dataset, which contains human-annotated Bengali documents in four categories: text boxes, paragraphs, images, and tables. Results show the effectiveness of these models in accurately segmenting Bengali documents. We discuss speed-accuracy tradeoffs and underscore the significance of pretrained weights. Our findings expand the applicability of Mask R-CNN in document layout analysis, efficient document management, and OCR research while suggesting future avenues for fine-tuning and data augmentation.
翻訳日:2023-08-29 19:18:13 公開日:2023-08-26
# 言語モデルの敵対的微調整:問題コンテンツの生成と検出のための反復最適化アプローチ

Adversarial Fine-Tuning of Language Models: An Iterative Optimisation Approach for the Generation and Detection of Problematic Content ( http://arxiv.org/abs/2308.13768v1 )

ライセンス: Link先を確認
Charles O'Neill, Jack Miller, Ioana Ciuca, Yuan-Sen Ting, Thang Bui(参考訳) 本稿では,大規模言語モデル(llm)における意図しない有害コンテンツ生成の課題に挑戦し,敵対的微調整を用いた新しい2段階最適化手法を提案する。 当社の2段階アプローチでは,潜在的に有害なプロンプトを生成するように微調整された敵モデルと,これらのプロンプトを識別するために反復的に最適化されたジャッジモデルを採用しています。 この敵対的なサイクルでは、2つのモデルがプロンプトフェーズでお互いを上回り、詳細なチューニングに使用されるリッチな例のデータセットを生成します。 このプロンプトと微調整の反復的な応用は、継続的な洗練と性能の向上を可能にする。 提案手法の性能は,gpt-4で検出されない問題のあるプロンプトと,議論の激しいプロンプトの選択からなるデータセットの分類精度によって評価される。 我々は,この挑戦的なデータセット上での判定モデルの分類精度が,最適化プロセスによって著しく向上することを示す。 さらに,このプロセスのわずか数ラウンドでGPT-4よりも13倍の精度を達成できる初歩的なモデルであるtexttt{ada} が,有毒なコメント識別などの並列タスクにおける性能を向上させることを示す。

In this paper, we tackle the emerging challenge of unintended harmful content generation in Large Language Models (LLMs) with a novel dual-stage optimisation technique using adversarial fine-tuning. Our two-pronged approach employs an adversarial model, fine-tuned to generate potentially harmful prompts, and a judge model, iteratively optimised to discern these prompts. In this adversarial cycle, the two models seek to outperform each other in the prompting phase, generating a dataset of rich examples which are then used for fine-tuning. This iterative application of prompting and fine-tuning allows continuous refinement and improved performance. The performance of our approach is evaluated through classification accuracy on a dataset consisting of problematic prompts not detected by GPT-4, as well as a selection of contentious but unproblematic prompts. We show considerable increase in classification accuracy of the judge model on this challenging dataset as it undergoes the optimisation process. Furthermore, we show that a rudimentary model \texttt{ada} can achieve 13\% higher accuracy on the hold-out test set than GPT-4 after only a few rounds of this process, and that this fine-tuning improves performance in parallel tasks such as toxic comment identification.
翻訳日:2023-08-29 19:17:48 公開日:2023-08-26
# DiffI2I:画像間翻訳のための効率的な拡散モデル

DiffI2I: Efficient Diffusion Model for Image-to-Image Translation ( http://arxiv.org/abs/2308.13767v1 )

ライセンス: Link先を確認
Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng Tian, Wenming Yang, Radu Timotfe, Luc Van Gool(参考訳) 拡散モデル (dm) は画像合成のための sota アプローチとして登場した。 しかし、既存のDMは画像間翻訳(I2I)タスクではうまく機能しない。 画像合成と異なり、超解像度などのI2Iタスクでは、GT画像に応じて結果を生成する必要がある。 画像合成のための従来のDMは、画像全体を推定するために広範囲の反復と大規模なデノナイジングモデルを必要とするため、生成能力は高いが、I2Iのアーティファクトや非効率につながる。 この課題に対処するため、我々はDiffI2Iと呼ばれるI2Iのためのシンプルで効率的で強力なDMフレームワークを提案する。 具体的には、diffi2iは、コンパクトi2i事前抽出ネットワーク(cpen)、ダイナミックi2i変換器(di2iformer)、デノージングネットワークの3つのキーコンポーネントからなる。 我々はDiffI2Iを事前訓練とDMトレーニングの2段階で訓練する。 事前トレーニングのために、GTと入力画像はCPEN$_{S1}$に入力され、コンパクトなI2I事前表現(IPR)がDI2Iformerを導く。 第2段階では、dmは入力画像のみを使用してcpen$_{s1}$と同じirpを推定するように訓練される。 従来のDMと比較して、コンパクトなIPRにより、DiffI2Iはより正確な結果を得ることができ、より軽量な denoising ネットワークとより少ないイテレーションを使用することができる。 diffi2i は様々な i2i タスクを広範囲に実験し,計算負荷を大幅に削減しながら sota 性能を実現する。

The Diffusion Model (DM) has emerged as the SOTA approach for image synthesis. However, the existing DM cannot perform well on some image-to-image translation (I2I) tasks. Different from image synthesis, some I2I tasks, such as super-resolution, require generating results in accordance with GT images. Traditional DMs for image synthesis require extensive iterations and large denoising models to estimate entire images, which gives their strong generative ability but also leads to artifacts and inefficiency for I2I. To tackle this challenge, we propose a simple, efficient, and powerful DM framework for I2I, called DiffI2I. Specifically, DiffI2I comprises three key components: a compact I2I prior extraction network (CPEN), a dynamic I2I transformer (DI2Iformer), and a denoising network. We train DiffI2I in two stages: pretraining and DM training. For pretraining, GT and input images are fed into CPEN$_{S1}$ to capture a compact I2I prior representation (IPR) guiding DI2Iformer. In the second stage, the DM is trained to only use the input images to estimate the same IRP as CPEN$_{S1}$. Compared to traditional DMs, the compact IPR enables DiffI2I to obtain more accurate outcomes and employ a lighter denoising network and fewer iterations. Through extensive experiments on various I2I tasks, we demonstrate that DiffI2I achieves SOTA performance while significantly reducing computational burdens.
翻訳日:2023-08-29 19:17:26 公開日:2023-08-26
# 効率的なrgb-t追跡のための統一単段変圧器ネットワーク

Unified Single-Stage Transformer Network for Efficient RGB-T Tracking ( http://arxiv.org/abs/2308.13764v1 )

ライセンス: Link先を確認
Jianqiang Xia, DianXi Shi, Ke Song, Linna Song, XiaoLei Wang, Songchang Jin, Li Zhou, Yu Cheng, Lei Jin, Zheng Zhu, Jianan Li, Gang Wang, Junliang Xing, Jian Zhao(参考訳) 既存のRGB-T追跡ネットワークの多くは、モダリティ間の相互作用や相互誘導に欠ける、異なる方法でモダリティ特徴を抽出している。 これにより、ターゲットの多様なデュアルモダリティの外観とモダリティ間の動的関係に適応するネットワークの能力が制限される。 さらに、これらのネットワークに続く3段階の核融合追跡パラダイムは、追跡速度を著しく制限する。 これらの問題を克服するために,上記3段階を自己着脱機構により二重埋め込み層を有する単一vit(vision transformer)バックボーンに統一する,統一型単段変圧器rgb-tトラッキングネットワーク,ustrackを提案する。 この構造により、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。 同時に、これらの特徴間の関係モデリングを行い、予測のためのより良い目標背景識別性を持つ探索領域融合特徴を効率的に取得する。 さらに,モダリティの信頼性に基づく新しい特徴選択機構を導入し,予測に対する不正なモダリティの影響を緩和し,トラッキング性能をさらに向上する。 3つのRGB-T追跡ベンチマークの大規模な実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示した。 特に、VTUAVデータセットの短期および長期サブセットにおけるMPR/MSRは、11.1$\%$/11.7$\%$と11.3$\%$/9.7$\%$に増加した。

Most existing RGB-T tracking networks extract modality features in a separate manner, which lacks interaction and mutual guidance between modalities. This limits the network's ability to adapt to the diverse dual-modality appearances of targets and the dynamic relationships between the modalities. Additionally, the three-stage fusion tracking paradigm followed by these networks significantly restricts the tracking speed. To overcome these problems, we propose a unified single-stage Transformer RGB-T tracking network, namely USTrack, which unifies the above three stages into a single ViT (Vision Transformer) backbone with a dual embedding layer through self-attention mechanism. With this structure, the network can extract fusion features of the template and search region under the mutual interaction of modalities. Simultaneously, relation modeling is performed between these features, efficiently obtaining the search region fusion features with better target-background discriminability for prediction. Furthermore, we introduce a novel feature selection mechanism based on modality reliability to mitigate the influence of invalid modalities for prediction, further improving the tracking performance. Extensive experiments on three popular RGB-T tracking benchmarks demonstrate that our method achieves new state-of-the-art performance while maintaining the fastest inference speed 84.2FPS. In particular, MPR/MSR on the short-term and long-term subsets of VTUAV dataset increased by 11.1$\%$/11.7$\%$ and 11.3$\%$/9.7$\%$.
翻訳日:2023-08-29 19:16:58 公開日:2023-08-26
# コンテキストはどのように役立つのか? パッセージとパーソナライズされた文脈の協調的検索の検討

How Can Context Help? Exploring Joint Retrieval of Passage and Personalized Context ( http://arxiv.org/abs/2308.13760v1 )

ライセンス: Link先を確認
Hui Wan, Hongkang Li, Songtao Lu, Xiaodong Cui, Marina Danilevsky(参考訳) 外部パーソナライズされたコンテキスト情報を文書化された会話システムに統合することは、潜在的なビジネス価値を持つが、十分に研究されていない。 文脈認識型文書化対話システムの概念に動機づけられ,文脈認識文検索の課題について紹介する。 この目的のために特別にキュレートされたデータセットも構築しています。 本稿では,この課題に対処する複数のベースラインシステムについて述べるとともに,パス検索においてコンテキスト情報を有効に活用するパーソナライズされたコンテキスト認識探索(PCAS)を提案する。 複数の高密度検索システムで行った実験結果から,提案手法は,最も関連性の高い経路を検索する際のベースラインを上回るだけでなく,利用可能なコンテキストの特定にも優れることがわかった。 我々は、我々の貢献が将来の研究成果をこの将来的な方向に刺激する触媒になることを期待している。

The integration of external personalized context information into document-grounded conversational systems has significant potential business value, but has not been well-studied. Motivated by the concept of personalized context-aware document-grounded conversational systems, we introduce the task of context-aware passage retrieval. We also construct a dataset specifically curated for this purpose. We describe multiple baseline systems to address this task, and propose a novel approach, Personalized Context-Aware Search (PCAS), that effectively harnesses contextual information during passage retrieval. Experimental evaluations conducted on multiple popular dense retrieval systems demonstrate that our proposed approach not only outperforms the baselines in retrieving the most relevant passage but also excels at identifying the pertinent context among all the available contexts. We envision that our contributions will serve as a catalyst for inspiring future research endeavors in this promising direction.
翻訳日:2023-08-29 19:16:29 公開日:2023-08-26
# samdsk: 医学画像分割における半教師付き学習のためのsegment anythingモデルとドメイン固有知識を組み合わせる

SamDSK: Combining Segment Anything Model with Domain-Specific Knowledge for Semi-Supervised Learning in Medical Image Segmentation ( http://arxiv.org/abs/2308.13759v1 )

ライセンス: Link先を確認
Yizhe Zhang, Tao Zhou, Shuo Wang, Ye Wu, Pengfei Gu, Danny Z. Chen(参考訳) Segment Anything Model (SAM)は、さまざまな下流画像セグメンテーションタスクのための汎用的な知覚ツールとして機能し、さまざまなオブジェクトを自然な画像に分割する機能を示す。 対照的に、医療画像分割タスクはドメイン固有知識(dsk)に依存することが多い。 本稿では,医療画像セグメンテーションモデルの構築において,セグメンテーション基盤モデル(SAM)とドメイン固有の知識を組み合わせた,ラベルのない画像の信頼性の高い利用法を提案する。 提案手法は反復的であり,(1)セグメンテーションモデルトレーニング,(2)訓練されたセグメンテーションモデルによるラベル付き集合の拡大,(2)ラベル付き集合,sam,およびドメイン固有知識からなる。 これら2つのステージはラベル付きセットにこれ以上のサンプルが追加されないまで繰り返される。 サム生成セグメンテーション提案と画素レベルと画像レベルdskを組み合わせた新しい最適マッチングベース手法を開発し,反復ステージ(2)においてラベルなし画像のアノテーションを構築する。 実験では, 超音波画像における乳癌の分画法, 内視鏡画像におけるポリープの分画法, 皮膚病変の分画法の有効性について検討した。 本研究は,医用画像セグメンテーションにおける半教師あり学習の新たな方向性を創出するものであり,セグメンテーション基礎モデルが,医用画像セグメンテーションにおけるラベル効率の学習の貴重なツールとして活用できる。

The Segment Anything Model (SAM) exhibits a capability to segment a wide array of objects in natural images, serving as a versatile perceptual tool for various downstream image segmentation tasks. In contrast, medical image segmentation tasks often rely on domain-specific knowledge (DSK). In this paper, we propose a novel method that combines the segmentation foundation model (i.e., SAM) with domain-specific knowledge for reliable utilization of unlabeled images in building a medical image segmentation model. Our new method is iterative and consists of two main stages: (1) segmentation model training; (2) expanding the labeled set by using the trained segmentation model, an unlabeled set, SAM, and domain-specific knowledge. These two stages are repeated until no more samples are added to the labeled set. A novel optimal-matching-based method is developed for combining the SAM-generated segmentation proposals and pixel-level and image-level DSK for constructing annotations of unlabeled images in the iterative stage (2). In experiments, we demonstrate the effectiveness of our proposed method for breast cancer segmentation in ultrasound images, polyp segmentation in endoscopic images, and skin lesion segmentation in dermoscopic images. Our work initiates a new direction of semi-supervised learning for medical image segmentation: the segmentation foundation model can be harnessed as a valuable tool for label-efficient segmentation learning in medical image segmentation.
翻訳日:2023-08-29 19:16:12 公開日:2023-08-26
# i-Align: 解釈可能な知識グラフアライメントモデル

i-Align: an interpretable knowledge graph alignment model ( http://arxiv.org/abs/2308.13755v1 )

ライセンス: Link先を確認
Bayu Distiawan Trisedya, Flora D Salim, Jeffrey Chan, Damiano Spina, Falk Scholer, Mark Sanderson(参考訳) 知識グラフ(KG)は多くの下流アプリケーションにとって重要なリソースになりつつある。 しかし、その不完全さは潜在能力を制限する可能性がある。 したがって、この問題を軽減するには継続的なキュレーションが必要である。 この問題に対処する戦略の1つは、KGアライメント、すなわち、2つ以上のKGをマージすることでより完全なKGを形成することである。 本稿では,解釈可能なKGアライメントモデルi-Alignを提案する。 既存のKGアライメントモデルとは異なり、i-Alignは高アライメント性能を維持しながら各アライメント予測の説明を提供する。 専門家はこの説明を使ってアライメント予測の正確性をチェックすることができる。 したがって、KGの高品質は、キュレーション過程(例えば、2つのKGのマージ過程)の間に維持することができる。 この目的のために、新しいトランスフォーマーベースのグラフエンコーダ(Trans-GE)が、エンティティの隣人(構造体)からの情報を集約するためのi-Alignのキーコンポーネントとして提案されている。 Trans-GEはエッジゲートアテンションを使用して、隣接行列と自己アテンション行列を組み合わせて、隣のエンティティから情報アグリゲーションを制御するゲーティングメカニズムを学ぶ。 また、履歴埋め込みを使用して、Trans-GEをミニバッチ(または小さなサブグラフ)でトレーニングし、大きなKGをエンコードする際のスケーラビリティの問題に対処する。 i-Alignのもうひとつのコンポーネントは、エンティティの属性を集約するTransformerエンコーダである。 このように、i-Alignは注意重みに基づく最も影響力のある属性/隣者の集合の形で説明を生成することができる。 i-アリンの力を示すために広範な実験が行われている。 実験には、モデルの有効性、生成した説明の質、大きなkgを調整するための実用性など、いくつかの側面が含まれている。 その結果,i-alignの有効性が示された。

Knowledge graphs (KGs) are becoming essential resources for many downstream applications. However, their incompleteness may limit their potential. Thus, continuous curation is needed to mitigate this problem. One of the strategies to address this problem is KG alignment, i.e., forming a more complete KG by merging two or more KGs. This paper proposes i-Align, an interpretable KG alignment model. Unlike the existing KG alignment models, i-Align provides an explanation for each alignment prediction while maintaining high alignment performance. Experts can use the explanation to check the correctness of the alignment prediction. Thus, the high quality of a KG can be maintained during the curation process (e.g., the merging process of two KGs). To this end, a novel Transformer-based Graph Encoder (Trans-GE) is proposed as a key component of i-Align for aggregating information from entities' neighbors (structures). Trans-GE uses Edge-gated Attention that combines the adjacency matrix and the self-attention matrix to learn a gating mechanism to control the information aggregation from the neighboring entities. It also uses historical embeddings, allowing Trans-GE to be trained over mini-batches, or smaller sub-graphs, to address the scalability issue when encoding a large KG. Another component of i-Align is a Transformer encoder for aggregating entities' attributes. This way, i-Align can generate explanations in the form of a set of the most influential attributes/neighbors based on attention weights. Extensive experiments are conducted to show the power of i-Align. The experiments include several aspects, such as the model's effectiveness for aligning KGs, the quality of the generated explanations, and its practicality for aligning large KGs. The results show the effectiveness of i-Align in these aspects.
翻訳日:2023-08-29 19:15:46 公開日:2023-08-26
# FFPN:超音波画像分割のための特徴ピラミッドネットワーク

FFPN: Fourier Feature Pyramid Network for Ultrasound Image Segmentation ( http://arxiv.org/abs/2308.13790v1 )

ライセンス: Link先を確認
Chaoyu Chen, Xin Yang, Rusi Chen, Junxuan Yu, Liwei Du, Jian Wang, Xindi Hu, Yan Cao, Yingying Liu and Dong Ni(参考訳) 超音波(US)画像セグメンテーションは多くのシナリオにおいてリアルタイムかつ高精度な解析を必要とする活発な研究領域である。 精度と効率のバランスをとるために、DTSフレームワークが最近提案されている。 しかし、既存のアプローチは不適切な輪郭の符号化に苦しむか、効果的にエンコード結果を活用することができない。 本稿では,前述の問題に対処するために,フーリエ特徴ピラミッドネットワーク (ffpn) と呼ばれる新しいフーリエアンカーベースのdtsフレームワークを提案する。 この論文の貢献は2つある。 まず、FFPNはFourier Descriptorsを使って輪郭を適切にエンコードする。 具体的には、同様の振幅と周波数を持つフーリエ級数を特徴マップの同じ層にマッピングし、エンコードされたフーリエ情報を効果的に活用する。 第2に, FFPN によるコントラル提案と改良機能に基づく Contour Smpling Refinement (CSR) モジュールを提案する。 このモジュールは、予測された輪郭の周りの豊富な特徴を抽出し、さらに詳細な情報を取り込み、輪郭を洗練する。 3つの大規模かつ難解なデータセットの広範な実験結果から,本手法は他のdts法よりも精度と効率において優れていた。 さらに,本フレームワークは他の検出タスクやセグメンテーションタスクによく対応できる。

Ultrasound (US) image segmentation is an active research area that requires real-time and highly accurate analysis in many scenarios. The detect-to-segment (DTS) frameworks have been recently proposed to balance accuracy and efficiency. However, existing approaches may suffer from inadequate contour encoding or fail to effectively leverage the encoded results. In this paper, we introduce a novel Fourier-anchor-based DTS framework called Fourier Feature Pyramid Network (FFPN) to address the aforementioned issues. The contributions of this paper are two fold. First, the FFPN utilizes Fourier Descriptors to adequately encode contours. Specifically, it maps Fourier series with similar amplitudes and frequencies into the same layer of the feature map, thereby effectively utilizing the encoded Fourier information. Second, we propose a Contour Sampling Refinement (CSR) module based on the contour proposals and refined features produced by the FFPN. This module extracts rich features around the predicted contours to further capture detailed information and refine the contours. Extensive experimental results on three large and challenging datasets demonstrate that our method outperforms other DTS methods in terms of accuracy and efficiency. Furthermore, our framework can generalize well to other detection or segmentation tasks.
翻訳日:2023-08-29 19:08:12 公開日:2023-08-26
# プランクスケール物理学からの光のスクイーズ

Squeezing of light from Planck-scale physics ( http://arxiv.org/abs/2308.13788v1 )

ライセンス: Link先を確認
Danilo Artigas, Killian Martineau, Jakub Mielczarek(参考訳) 本稿では,プランクスケール効果による非古典的な光の発生の可能性を検討する。 この目的のために、ハイゼンベルクの不確かさ関係の変形モデルがシングルモードおよびマルチモード光に広く研究されている。 このモデルにより変形した分散関係が導かれ、光子の到着時に進行する。 鍵となる発見は、このモデルが光の状態を絞る振動パターンにもつながることだ。 さらに、振動の振幅はエネルギー固有状態に対して一定であるが、消滅作用素の固有値 $\alpha \neq0 $ を持つコヒーレント状態に対して時間とともに線形な成長を示す。 この2つ目のケースは、天体物理学的な光子にとって重要な、スクイーズと位相空間の変位の蓄積につながる。 特に、$\alpha \sim 1$では、gigaparsec距離で放射される光学スペクトルのコヒーレント光は、10^4$の振幅でスクイーズを得る。 これは、遠い天体物理源に由来する光の非古典的性質の測定が、これらの予測をテストするために窓を開くことを示唆している。

In this article, the possibility of generating non-classical light due to Planck-scale effects is considered. For this purpose, a widely studied model of deformation of the Heisenberg uncertainty relation is applied to single-mode and multi-mode lights. The model leads to a deformed dispersion relation, which manifests in an advancement in the time of arrival of photons. The key finding is that the model also leads to an oscillatory pattern of squeezing of the state of light. Furthermore, while the amplitude of the oscillations is constant for the energy eigenstates, it exhibits linear growth over time for the coherent states with the annihilation operator eigenvalue $\alpha \neq0 $. This second case leads to the accumulation of squeezing and phase space displacement, which can be significant for astrophysical photons. In particular, for $\alpha \sim 1$, coherent light in the optical spectrum emitted at gigaparsec distances acquires squeezing with the amplitude of the order of $10^4$. This suggests that measurements of the non-classical properties of light originating from distant astrophysical sources may open a window to test these predictions.
翻訳日:2023-08-29 19:07:52 公開日:2023-08-26
# ORES: オープン語彙対応ビジュアル合成

ORES: Open-vocabulary Responsible Visual Synthesis ( http://arxiv.org/abs/2308.13785v1 )

ライセンス: Link先を確認
Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan(参考訳) 特定の視覚概念の合成を避けることは、責任ある視覚合成において不可欠な課題である。 しかし、責任ある視覚合成のために避けるべき視覚概念は、地域、コンテキスト、使用シナリオによって多様である傾向がある。 本研究では,新たなタスクであるオープンボキャブラリー責任視覚合成(ores)を定式化し,ユーザが希望するコンテンツを入力することを可能にしながら,禁断の視覚概念を回避できるようにする。 この問題に対処するために,2段階干渉(TIN)フレームワークを提案する。 紹介することで 1)大規模言語モデル(LLM)による学習可能な指導による書き直し 2)拡散合成モデルへの迅速な介入により,任意の概念を回避しつつ,可能な限りユーザのクエリに従うイメージを効果的に合成することができる。 ORESを評価するために、公開データセット、ベースラインモデル、ベンチマークを提供する。 実験により,画像生成のリスク低減に本手法の有効性が示された。 視覚合成におけるLCMの可能性を明らかにする。 コードとデータセットは公開されています。

Avoiding synthesizing specific visual concepts is an essential challenge in responsible visual synthesis. However, the visual concept that needs to be avoided for responsible visual synthesis tends to be diverse, depending on the region, context, and usage scenarios. In this work, we formalize a new task, Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model is able to avoid forbidden visual concepts while allowing users to input any desired content. To address this problem, we present a Two-stage Intervention (TIN) framework. By introducing 1) rewriting with learnable instruction through a large-scale language model (LLM) and 2) synthesizing with prompt intervention on a diffusion synthesis model, it can effectively synthesize images avoiding any concepts but following the user's query as much as possible. To evaluate on ORES, we provide a publicly available dataset, baseline models, and benchmark. Experimental results demonstrate the effectiveness of our method in reducing risks of image generation. Our work highlights the potential of LLMs in responsible visual synthesis. Our code and dataset is public available.
翻訳日:2023-08-29 19:07:34 公開日:2023-08-26
# リモートチャージとアンチエイジング量子電池

Remote-charging and anti-aging quantum battery ( http://arxiv.org/abs/2308.13784v1 )

ライセンス: Link先を確認
Wan-Lu Song, Hai-Bin Liu, Bin Zhou, Wan-Li Yang, and Jun-Hong An(参考訳) 量子バッテリ(qb)は、量子効果を利用してエネルギーを貯蔵し供給する。 しかし、この分野には2つの課題がある。 1つは、環境誘起脱コヒーレンスによりエネルギー損失とQBの老化が生じ、もう1つは、充電器-QB結合強度の減少と距離の増大がQBの充電を非効率にすることである。 本稿では、QBと充電器を矩形中空金属導波路に結合させることにより、遠隔充電を実現するQB方式を提案する。 導波路中のqb,帯電器,電磁環境からなる全系のエネルギースペクトルに2つの境界状態が形成される限り,理想的な帯電を実現することが判明した。 脱コヒーレンスの構造的役割を用いて、我々のQBは老化に免疫を持つ。 さらに、直接の充電器とqbのやりとりを使わずに、長距離ワイヤレス充電の方式で動作します。 この2つの課題を効果的に克服し, 貯留層工学によるqbの実践的実現に向けた洞察に富んだガイドラインを提供する。

Quantum battery (QB) makes use of quantum effects to store and supply energy, which may outperform its classical counterpart. However, there are two challenges in this field. One is that the environment induced decoherence causes the energy loss and the aging of QB, the other is that the decreasing of the charger-QB coupling strength with increasing their distance makes the charging of QB become inefficiently. Here, we propose a QB scheme to realize a remote charging via coupling the QB and the charger to a rectangular hollow metal waveguide. It is found that an ideal charging is realized as long as two bound states are formed in the energy spectrum of the total system consisting of the QB, the charger, and the electromagnetic environment in the waveguide. Using the constructive role of the decoherence, our QB is immune to the aging. Additionally, without resorting to the direct charger-QB interaction, our scheme works in a way of long-range and wireless-like charging. Effectively overcoming the two challenges, our result supplies an insightful guideline to the practical realization of QB by reservoir engineering.
翻訳日:2023-08-29 19:07:17 公開日:2023-08-26
# チャネル選択正規化による一般化光度適応

Generalized Lightness Adaptation with Channel Selective Normalization ( http://arxiv.org/abs/2308.13783v1 )

ライセンス: Link先を確認
Mingde Yao, Jie Huang, Xin Jin, Ruikang Xu, Shenglong Zhou, Man Zhou, Zhiwei Xiong(参考訳) 光度適応は、低光度画像強調、画像修正、逆トーンマッピングなど、複数の側面をカバーする予期しない視覚劣化を避けるために、画像処理の成功に不可欠である。 既存の方法は通常、訓練された明るさ条件でうまく機能するが、その限定的な一般化能力のため、未知の条件ではあまり機能しない。 この制限に対処するため,CSNormと呼ばれるチャネルフィルタリング設計により,従来の正規化手法を拡張した新しい一般化光度適応アルゴリズムを提案する。 提案するcsnormは、光度関連チャネルの統計を意図的に正規化し、他のチャネルを変更せず、特徴の一般化と識別を改善する。 CSNormを最適化するために、光度関連チャネルを効果的に識別する交互トレーニング戦略を提案する。 我々のCSNormを搭載したモデルは、一つの光度条件でのみ訓練される必要があり、未知の光度条件に対して十分に一般化することができる。 複数のベンチマークデータセットに対する実験結果から,CSNormが既存の光度適応手法の一般化能力を高める効果が示された。 コードはhttps://github.com/mdyao/csnormで入手できる。

Lightness adaptation is vital to the success of image processing to avoid unexpected visual deterioration, which covers multiple aspects, e.g., low-light image enhancement, image retouching, and inverse tone mapping. Existing methods typically work well on their trained lightness conditions but perform poorly in unknown ones due to their limited generalization ability. To address this limitation, we propose a novel generalized lightness adaptation algorithm that extends conventional normalization techniques through a channel filtering design, dubbed Channel Selective Normalization (CSNorm). The proposed CSNorm purposely normalizes the statistics of lightness-relevant channels and keeps other channels unchanged, so as to improve feature generalization and discrimination. To optimize CSNorm, we propose an alternating training strategy that effectively identifies lightness-relevant channels. The model equipped with our CSNorm only needs to be trained on one lightness condition and can be well generalized to unknown lightness conditions. Experimental results on multiple benchmark datasets demonstrate the effectiveness of CSNorm in enhancing the generalization ability for the existing lightness adaptation methods. Code is available at https://github.com/mdyao/CSNorm.
翻訳日:2023-08-29 19:06:57 公開日:2023-08-26
# 論理グラフに基づく命令生成のための言語モデルによる計画

Planning with Logical Graph-based Language Model for Instruction Generation ( http://arxiv.org/abs/2308.13782v1 )

ライセンス: Link先を確認
Fan Zhang, Kebing Jin, and Hankz Hankui Zhuo(参考訳) 自然言語テキストを生成するための大規模言語モデルの優れた性能にもかかわらず、ニューラルネットワークが自由形式のテキストから暗黙のルールをキャプチャすることが困難であるため、与えられたタスクに従って正しい論理を持つテキストを生成することは困難である。 本稿では,より有効なテキスト生成と解釈のために,論理を言語モデルに融合するグラフ型言語モデルである論理glmを提案する。 具体的には、まず自然言語命令から情報を取得し、一般にドメインを記述する論理ベイズグラフを構築する。 次に、言語モデルトレーニングのガイドとして論理スケルトンを生成し、言語モデルにドメイン知識を注入する。 最後に、グラフと言語モデルの検索ポリシーを収束するまで交互に最適化する。 実験結果から,ロジカルGLMはより小規模なトレーニングデータと少ないパラメータを用いながら,従来の言語モデルと比較して効率的かつ効率的であることが示唆された。 本手法は、内在化ドメイン知識により、より正確な論理を持つ命令テキストを生成することができる。 さらに、論理グラフの使用は言語モデルの内部メカニズムを反映し、ブラックボックスモデルの解釈可能性を向上させる。

Despite the superior performance of large language models to generate natural language texts, it is hard to generate texts with correct logic according to a given task, due to the difficulties for neural models to capture implied rules from free-form texts. In this paper, we propose a novel graph-based language model, Logical-GLM, to infuse logic into language models for more valid text generation and interpretability. Specifically, we first capture information from natural language instructions and construct logical bayes graphs that generally describe domains. Next, we generate logical skeletons to guide language model training, infusing domain knowledge into language models. Finally, we alternately optimize the searching policy of graphs and language models until convergence. The experimental results show that Logical-GLM is both effective and efficient compared with traditional language models, despite using smaller-scale training data and fewer parameters. Our approach can generate instructional texts with more correct logic owing to the internalized domain knowledge. Moreover, the usage of logical graphs reflects the inner mechanism of the language models, which improves the interpretability of black-box models.
翻訳日:2023-08-29 19:06:39 公開日:2023-08-26
# SCESAMEによるゼロショットエッジ検出: セグメンテーションモデル推定のためのスペクトルクラスタリングに基づくアンサンブル

Zero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model Estimation ( http://arxiv.org/abs/2308.13779v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Yusuke Takase, Hiroyuki Kambe, Ryosuke Nakamoto(参考訳) 本稿では,SCESAMEを用いた新たなゼロショットエッジ検出法を提案する。SCESAMEは,Segment Anything Model(SAM)に基づくSegment Anything Model Estimationのためのスペクトルクラスタリングに基づくアンサンブルである。 SAMはセグメンテーションタスクの基礎モデルであり、SAMの興味深い応用の1つは、画像全体のゼロショットセグメンテーションマスクを生成する自動マスク生成(AMG)である。 AMGはエッジ検出に適用できるが、エッジの過剰検出の問題に悩まされる。 SCESAMEによるエッジ検出は,(1)小さなマスクの除去,(2)スペクトルクラスタリングによるマスクの組み合わせ,(2)マスクの位置と重なりを考慮した,(3)エッジ検出後のアーティファクトの除去という3つのステップでこの問題を克服する。 bsds500とnyudv2の2つのデータセットでエッジ検出実験を行った。 我々のゼロショットアプローチは単純だが、BSDS500の実験結果は7年前の人間のパフォーマンスとCNNベースの手法とほぼ同じ性能を示した。 NYUDv2実験では、最近のCNNベースの手法とほぼ同等の性能を発揮した。 これらの結果から,本手法は将来のゼロショットエッジ検出手法の強力なベースラインとなる可能性が示唆された。 さらに、SCESAMEはエッジ検出だけでなく、他の下流のゼロショットタスクにも適用できる。

This paper proposes a novel zero-shot edge detection with SCESAME, which stands for Spectral Clustering-based Ensemble for Segment Anything Model Estimation, based on the recently proposed Segment Anything Model (SAM). SAM is a foundation model for segmentation tasks, and one of the interesting applications of SAM is Automatic Mask Generation (AMG), which generates zero-shot segmentation masks of an entire image. AMG can be applied to edge detection, but suffers from the problem of overdetecting edges. Edge detection with SCESAME overcomes this problem by three steps: (1) eliminating small generated masks, (2) combining masks by spectral clustering, taking into account mask positions and overlaps, and (3) removing artifacts after edge detection. We performed edge detection experiments on two datasets, BSDS500 and NYUDv2. Although our zero-shot approach is simple, the experimental results on BSDS500 showed almost identical performance to human performance and CNN-based methods from seven years ago. In the NYUDv2 experiments, it performed almost as well as recent CNN-based methods. These results indicate that our method has the potential to be a strong baseline for future zero-shot edge detection methods. Furthermore, SCESAME is not only applicable to edge detection, but also to other downstream zero-shot tasks.
翻訳日:2023-08-29 19:06:22 公開日:2023-08-26
# 大規模勾配に基づく因子分析器の混合学習

Large-scale gradient-based training of Mixtures of Factor Analyzers ( http://arxiv.org/abs/2308.13778v1 )

ライセンス: Link先を確認
Alexander Gepperth(参考訳) ガウス混合モデル(gmms)は、データ分析における標準的なツールである。 しかし、必要となる全共分散行列(CM)のサイズのため、高次元データ(例えば画像)に適用すると問題が発生するが、対角的または球面的CMの使用は厳しい制約を課すことが多い。 MFAモデル(Mixture of Factor Analysisr)は、GMMの重要拡張であり、 \textit{factor loadings} $l$ に基づいて、対角線とフルCMのスムーズな補間を可能にする。 MFAは高次元画像データのモデリングに成功している。 本稿は,確率的勾配降下による高次元mfaトレーニングをランダムな遠心初期化から開始する新しい手法と理論解析に寄与する。 これはトレーニングと初期化を大幅に単純化し、大量のデータでトレーニングする場合の期待最大化(em)のようなバッチタイプのアルゴリズムの問題を回避する。 さらに,行列行列行列型補題の特性を生かして,訓練終了後の行列反転を必要としない精度行列に基づいて,mfa訓練と推論・サンプリングが可能であることを証明した。 トレーニング時に、このメソッドは$l\times l$ matricesのみの反転を必要とする。 理論解析と証明の他に、SVHNやMNISTのような典型的な画像データセットにMFAを適用し、サンプル生成と外れ値検出を行う能力を実証する。

Gaussian Mixture Models (GMMs) are a standard tool in data analysis. However, they face problems when applied to high-dimensional data (e.g., images) due to the size of the required full covariance matrices (CMs), whereas the use of diagonal or spherical CMs often imposes restrictions that are too severe. The Mixture of Factor analyzers (MFA) model is an important extension of GMMs, which allows to smoothly interpolate between diagonal and full CMs based on the number of \textit{factor loadings} $l$. MFA has successfully been applied for modeling high-dimensional image data. This article contributes both a theoretical analysis as well as a new method for efficient high-dimensional MFA training by stochastic gradient descent, starting from random centroid initializations. This greatly simplifies the training and initialization process, and avoids problems of batch-type algorithms such Expectation-Maximization (EM) when training with huge amounts of data. In addition, by exploiting the properties of the matrix determinant lemma, we prove that MFA training and inference/sampling can be performed based on precision matrices, which does not require matrix inversions after training is completed. At training time, the methods requires the inversion of $l\times l$ matrices only. Besides the theoretical analysis and proofs, we apply MFA to typical image datasets such as SVHN and MNIST, and demonstrate the ability to perform sample generation and outlier detection.
翻訳日:2023-08-29 19:05:59 公開日:2023-08-26
# 自己監督型スケーラブルディープ圧縮センシング

Self-Supervised Scalable Deep Compressed Sensing ( http://arxiv.org/abs/2308.13777v1 )

ライセンス: Link先を確認
Bin Chen, Xuanyu Zhang, Shuai Liu, Yongbing Zhang, Jian Zhang(参考訳) 圧縮センシング(CS)はサンプリングコストを削減するための有望なツールである。 現在のディープニューラルネットワーク(NN)ベースのCS手法は、ラベル付き測定地上真実(GT)データを収集し、実際のアプリケーションに一般化する際の課題に直面している。 本稿では,新しい$\mathbf{s}$elf-教師付き s$\mathbf{c}$alable deep cs 法を提案し,$\mathbf{scl}$ と呼ばれる$\mathbf{l}$earning スキームと$\mathbf{net}$works の族$\mathbf{scnet}$ からなる。 我々のSCLは二重ドメイン損失と4段階回復戦略を含んでいる。 前者は、データ/情報利用を最大化するために、2つの測定部における交差一貫性と、任意の比率と行列に関するサンプリング・再構成サイクル一貫性を奨励する。 後者は、テストサンプルと学習NNの内部特性の外部測定に先立って、共通信号を徐々に活用して精度を向上させることができる。 SCNetは最適化アルゴリズムからの明示的なガイダンスと高度なNNブロックからの暗黙の正規化を組み合わせて、協調的な信号表現を学ぶ。 1-/2-/3-Dの自然および科学的な信号をカバーする実捕集データに関する理論的解析と実験により,既存の自己監督手法に対する手法の有効性,優れた性能,柔軟性,一般化能力が実証された。

Compressed sensing (CS) is a promising tool for reducing sampling costs. Current deep neural network (NN)-based CS methods face challenges in collecting labeled measurement-ground truth (GT) data and generalizing to real applications. This paper proposes a novel $\mathbf{S}$elf-supervised s$\mathbf{C}$alable deep CS method, comprising a $\mathbf{L}$earning scheme called $\mathbf{SCL}$ and a family of $\mathbf{Net}$works named $\mathbf{SCNet}$, which does not require GT and can handle arbitrary sampling ratios and matrices once trained on a partial measurement set. Our SCL contains a dual-domain loss and a four-stage recovery strategy. The former encourages a cross-consistency on two measurement parts and a sampling-reconstruction cycle-consistency regarding arbitrary ratios and matrices to maximize data/information utilization. The latter can progressively leverage common signal prior in external measurements and internal characteristics of test samples and learned NNs to improve accuracy. SCNet combines the explicit guidance from optimization algorithms with implicit regularization from advanced NN blocks to learn a collaborative signal representation. Our theoretical analyses and experiments on simulated and real captured data, covering 1-/2-/3-D natural and scientific signals, demonstrate the effectiveness, superior performance, flexibility, and generalization ability of our method over existing self-supervised methods and its significant potential in competing against state-of-the-art supervised methods.
翻訳日:2023-08-29 19:05:37 公開日:2023-08-26
# editsum: ソースコード要約のための検索および編集フレームワーク

EditSum: A Retrieve-and-Edit Framework for Source Code Summarization ( http://arxiv.org/abs/2308.13775v1 )

ライセンス: Link先を確認
Jia Allen Li, Yongmin Li, Ge Li, Xing Hu, Xin Xia, Zhi Jin(参考訳) 既存の研究によると、コード要約は開発者がソースコードを理解し維持するのに役立ちます。 残念ながら、これらの要約はソフトウェアプロジェクトで欠落したり時代遅れになったりすることが多い。 コード要約は、ソースコードのための自然言語記述を自動的に生成することを目的としている。 コード要約は高度に構造化され、反復的なパターンを持つ。 パターン化された単語の他に、コード要約には重要なキーワードが含まれており、コードの機能を反映するための鍵となる。 しかし、最先端のアプローチはキーワードの予測に乏しく、結果として生成された要約は情報不足に陥る。 この問題を軽減するために,コード要約のためのEditSumという新しい検索・編集手法を提案する。 具体的には、editsumは事前に定義されたコーパスから類似のコードスニペットを取得し、その要約をプロトタイプサマリとして扱い、パターンを学習する。 そして、EditSumがプロトタイプを自動的に編集し、プロトタイプのパターンと入力コードのセマンティック情報を組み合わせる。 私たちのモチベーションは、検索したプロトタイプがポストジェネレーションの出発点として優れたものであることです。 後編集処理は、プロトタイプのパターン化された単語をさらに再利用し、入力コードの意味情報に基づいてキーワードを生成する。 大規模なjavaコーパスで実験を行い,editsumが最先端のアプローチをかなり上回っていることを実験的に証明した。 人間の評価は、EditSumが生成した要約がより情報的で有用であることを証明している。 また、EditSumがパターン化された単語やキーワードの予測に有効であることを検証した。

Existing studies show that code summaries help developers understand and maintain source code. Unfortunately, these summaries are often missing or outdated in software projects. Code summarization aims to generate natural language descriptions automatically for source code. Code summaries are highly structured and have repetitive patterns. Besides the patternized words, a code summary also contains important keywords, which are the key to reflecting the functionality of the code. However, the state-of-the-art approaches perform poorly on predicting the keywords, which leads to the generated summaries suffering a loss in informativeness. To alleviate this problem, this paper proposes a novel retrieve-and-edit approach named EditSum for code summarization. Specifically, EditSum first retrieves a similar code snippet from a pre-defined corpus and treats its summary as a prototype summary to learn the pattern. Then, EditSum edits the prototype automatically to combine the pattern in the prototype with the semantic information of input code. Our motivation is that the retrieved prototype provides a good start-point for post-generation because the summaries of similar code snippets often have the same pattern. The post-editing process further reuses the patternized words in the prototype and generates keywords based on the semantic information of input code. We conduct experiments on a large-scale Java corpus and experimental results demonstrate that EditSum outperforms the state-of-the-art approaches by a substantial margin. The human evaluation also proves the summaries generated by EditSum are more informative and useful. We also verify that EditSum performs well on predicting the patternized words and keywords.
翻訳日:2023-08-29 19:05:02 公開日:2023-08-26
# SyMOT-Flow:最大平均誤差を持つ2つの任意の分布に対する最適輸送流の学習

SyMOT-Flow: Learning optimal transport flow for two arbitrary distributions with maximum mean discrepancy ( http://arxiv.org/abs/2308.13815v1 )

ライセンス: Link先を確認
Zhe Xiong, Qiaoqiao Ding, Xiaoqun Zhang(参考訳) サンプルから2つの未知の確率分布間の変換を見つけることは、複雑なデータ分布をモデル化し、密度推定、サンプル生成、統計推論などのタスクを実行するために重要である。 このような変換のための強力なフレームワークの1つはフローの正規化であり、未知の分布を可逆ネットワークを用いて標準正規分布に変換する。 本稿では, 2つの未知分布のサンプル間の対称最大平均差を最小化し, 可逆変換を訓練するsymot-flowと呼ばれる新しいモデルを提案し, 最適な輸送コストを正規化として取り入れ, 近距離かつ解釈可能な変換を得る。 結果として得られた変換はより安定で正確なサンプル生成をもたらす。 提案モデルに対するいくつかの理論的結果を確立し,その効果を低次元図示例および前方逆流から得られた高次元生成サンプルを用いて実証する。

Finding a transformation between two unknown probability distributions from samples is crucial for modeling complex data distributions and perform tasks such as density estimation, sample generation, and statistical inference. One powerful framework for such transformations is normalizing flow, which transforms an unknown distribution into a standard normal distribution using an invertible network. In this paper, we introduce a novel model called SyMOT-Flow that trains an invertible transformation by minimizing the symmetric maximum mean discrepancy between samples from two unknown distributions, and we incorporate an optimal transport cost as regularization to obtain a short-distance and interpretable transformation. The resulted transformation leads to more stable and accurate sample generation. We establish several theoretical results for the proposed model and demonstrate its effectiveness with low-dimensional illustrative examples as well as high-dimensional generative samples obtained through the forward and reverse flows.
翻訳日:2023-08-29 18:59:32 公開日:2023-08-26
# クラウドカウントやローカライゼーションなどのためのPoint-Query Quadtree

Point-Query Quadtree for Crowd Counting, Localization, and More ( http://arxiv.org/abs/2308.13814v1 )

ライセンス: Link先を確認
Chengxin Liu, Hao Lu, Zhiguo Cao, Tongliang Liu(参考訳) 群衆数を分解可能な点問合せプロセスとして見ることができることを示す。 この定式化は任意の点を入力とし、点が群であり、位置がどこにあるかという共同の理由を与える。 しかし、クエリ処理は、必要なクエリポイントの数に関する根本的な問題を引き起こす。 過小評価があまりにも少なく、計算オーバーヘッドが増加します。 このジレンマに対処するため,ポイントクエリ・クワッドツリー(point-query quadtree)という分解可能な構造を導入し,新しいカウントモデル(Point quEry Transformer,PET)を提案する。 PETはデータ依存のクワッドツリー分割による分解可能なポイントクエリを実装しており、各クエリポイントは必要に応じて4つの新しいポイントに分割できる。 このような問い合わせプロセスは、入出力と入出力の両方が解釈可能かつ操作可能なので、直感的で普遍的な群衆のモデリングをもたらす。 本報告では,PET の群衆関連タスクへの活用を実演し,完全教師付きクラウドカウントとローカライゼーション,部分アノテーション学習,ポイントアノテーションの改良,そして最先端のパフォーマンスの報告を行う。 単一のカウントモデルが、異なる学習パラダイムにまたがる複数のクラウド関連タスクに対処できることを初めて示す。 コードはhttps://github.com/cxliu0/PETで入手できる。

We show that crowd counting can be viewed as a decomposable point querying process. This formulation enables arbitrary points as input and jointly reasons whether the points are crowd and where they locate. The querying processing, however, raises an underlying problem on the number of necessary querying points. Too few imply underestimation; too many increase computational overhead. To address this dilemma, we introduce a decomposable structure, i.e., the point-query quadtree, and propose a new counting model, termed Point quEry Transformer (PET). PET implements decomposable point querying via data-dependent quadtree splitting, where each querying point could split into four new points when necessary, thus enabling dynamic processing of sparse and dense regions. Such a querying process yields an intuitive, universal modeling of crowd as both the input and output are interpretable and steerable. We demonstrate the applications of PET on a number of crowd-related tasks, including fully-supervised crowd counting and localization, partial annotation learning, and point annotation refinement, and also report state-of-the-art performance. For the first time, we show that a single counting model can address multiple crowd-related tasks across different learning paradigms. Code is available at https://github.com/cxliu0/PET.
翻訳日:2023-08-29 18:59:17 公開日:2023-08-26
# 大規模言語モデルを用いたダイナミクス対応テキスト・ビデオ拡散

Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models ( http://arxiv.org/abs/2308.13812v1 )

ライセンス: Link先を確認
Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua(参考訳) テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。 既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である複雑な時間力学モデリングに関して重要な限界(例えばアクション発生障害、粗雑なビデオ運動)に悩まされる。 本研究では,高品質なT2V生成のためのDMの映像力学の認識を強化することを検討する。 人間の直感に触発されて,入力テキストからキーアクションを適切な時間順に抽出する(ステップ1),アクションスケジュールを動的シーングラフ(dsg)表現に変換する(ステップ2),dsg内のシーンを十分に合理的な詳細情報で豊かにする(ステップ3)など,革新的な動的シーンマネージャ(dysen)モジュールを設計した。 コンテキスト内学習を通じて既存の強力なllm(例えばchatgpt)を活用することで、dysenは(ほぼ)人間レベルの時間的ダイナミクス理解を実現する。 最後に、アクションシーンの詳細が豊富な映像DSGを微細な時空間特徴として符号化し、ビデオ生成用バックボーンT2V DMに統合する。 一般的なt2vデータセットに関する実験は、特に複雑なアクションのシナリオにおいて、我々のフレームワークが、かなりマージンの先行技術を上回ることを示唆しています。 プロジェクトページ: https://haofei.vip/dysen-vdm

Text-to-video (T2V) synthesis has gained increasing attention in the community, in which the recently emerged diffusion models (DMs) have promisingly shown stronger performance than the past approaches. While existing state-of-the-art DMs are competent to achieve high-resolution video generation, they may largely suffer from key limitations (e.g., action occurrence disorders, crude video motions) with respect to the intricate temporal dynamics modeling, one of the crux of video synthesis. In this work, we investigate strengthening the awareness of video dynamics for DMs, for high-quality T2V generation. Inspired by human intuition, we design an innovative dynamic scene manager (dubbed as Dysen) module, which includes (step-1) extracting from input text the key actions with proper time-order arrangement, (step-2) transforming the action schedules into the dynamic scene graph (DSG) representations, and (step-3) enriching the scenes in the DSG with sufficient and reasonable details. Taking advantage of the existing powerful LLMs (e.g., ChatGPT) via in-context learning, Dysen realizes (nearly) human-level temporal dynamics understanding. Finally, the resulting video DSG with rich action scene details is encoded as fine-grained spatio-temporal features, integrated into the backbone T2V DM for video generating. Experiments on popular T2V datasets suggest that our framework consistently outperforms prior arts with significant margins, especially in the scenario with complex actions. Project page at https://haofei.vip/Dysen-VDM
翻訳日:2023-08-29 18:58:55 公開日:2023-08-26
# 強化学習に基づく新しいクラス発見のためのマルチモーダル特徴融合ネットワーク

Reinforcement Learning Based Multi-modal Feature Fusion Network for Novel Class Discovery ( http://arxiv.org/abs/2308.13801v1 )

ライセンス: Link先を確認
Qiang Li, Qiuyang Ma, Weizhi Nie, Anan Liu(参考訳) 深層学習技術の発達により、教師あり学習は人間を上回るパフォーマンスを達成した。 研究者は様々なデータモダリティに対応する多数のモデルを設計し、監督されたタスクで優れた結果を得た。 しかし、複数の分野におけるデータの指数的な増加に伴い、ラベルなしデータの認識と分類が次第にホットトピックになりつつある。 本稿では,オープンセット領域における新しいクラス発見を効果的に解決するために,人間の認知過程をシミュレートする強化学習フレームワークを用いた。 我々は,マルチモーダル情報から特徴を抽出・融合し,機能空間をより包括的に理解することを目的とした,メンバ・ツー・リードのマルチエージェントフレームワークを展開した。 さらに,本手法は,モデルトレーニングを強化する自己指導型学習の導入を促進する。 厳密な制約条件からゆるやかな制約条件のクラスタリング手法を用いて,トレーニング期間中にラベルなしデータのサブセットに対する信頼可能なラベルの生成を可能にした。 この反復的なプロセスは、未知のデータの探索的学習に似ている。 これらのメカニズムは、環境フィードバックから受け取った報酬に基づいてネットワークパラメータをまとめて更新する。 このプロセスは、探索学習の範囲を効果的に制御し、未知のデータカテゴリにおける学習の精度を確保する。 我々は,os-mn40,os-mn40-miss,cifar10を用いた3次元領域と2次元領域の両方において,このアプローチの性能を示す。 我々のアプローチは競争力のある結果をもたらす。

With the development of deep learning techniques, supervised learning has achieved performances surpassing those of humans. Researchers have designed numerous corresponding models for different data modalities, achieving excellent results in supervised tasks. However, with the exponential increase of data in multiple fields, the recognition and classification of unlabeled data have gradually become a hot topic. In this paper, we employed a Reinforcement Learning framework to simulate the cognitive processes of humans for effectively addressing novel class discovery in the Open-set domain. We deployed a Member-to-Leader Multi-Agent framework to extract and fuse features from multi-modal information, aiming to acquire a more comprehensive understanding of the feature space. Furthermore, this approach facilitated the incorporation of self-supervised learning to enhance model training. We employed a clustering method with varying constraint conditions, ranging from strict to loose, allowing for the generation of dependable labels for a subset of unlabeled data during the training phase. This iterative process is similar to human exploratory learning of unknown data. These mechanisms collectively update the network parameters based on rewards received from environmental feedback. This process enables effective control over the extent of exploration learning, ensuring the accuracy of learning in unknown data categories. We demonstrate the performance of our approach in both the 3D and 2D domains by employing the OS-MN40, OS-MN40-Miss, and Cifar10 datasets. Our approach achieves competitive competitive results.
翻訳日:2023-08-29 18:58:23 公開日:2023-08-26
# DM-VTON:モバイルリアルタイムバーチャルトライオン

DM-VTON: Distilled Mobile Real-time Virtual Try-On ( http://arxiv.org/abs/2308.13798v1 )

ライセンス: Link先を確認
Khoi-Nguyen Nguyen-Ngoc and Thanh-Tung Phan-Nguyen and Khanh-Duy Le and Tam V. Nguyen and Minh-Triet Tran and Trung-Nghia Le(参考訳) ファッション電子商取引業界は近年、著しい成長をみせており、画像ベースのバーチャル試行技術で拡張現実(Augmented Reality, AAR)体験をオンラインショッピングプラットフォームに組み込む方法を模索している。 しかし、既存の研究は主に、基礎となる機械学習モデルのランタイムという重要な側面を見落としている。 既存の方法は出力品質を優先するが、実行時間を無視することが多く、限られた範囲のデバイスでアプリケーションを制限している。 このギャップに対処するため,我々は,シンプルで効率的な仮想試行フレームワークであるDistilled Mobile Real-time Virtual Try-On (DM-VTON)を提案する。 本手法は,強力な教員ネットワークを活用した知識蒸留方式に基づいて,学生ネットワークの指導を人間による解析に頼らずに行う。 特に,学生ネットワーク内に効率的なモバイル生成モジュールを導入し,高品質な出力を確保しつつ,実行時間を著しく削減した。 さらに,トレーニング画像に見られる限られたポーズ変動に対処するために,データ合成のための仮想試行法を提案する。 実験結果から,提案手法は1台のNvidia Tesla T4 GPUで毎秒40フレームを実現でき,メモリは37MBしか消費せず,出力品質は他の最先端の方法とほぼ同等であることがわかった。 DM-VTONは、多様な専門的な訓練作業に適した、ライフスタイルの服装の人間像の生成に加えて、リアルタイムAR応用の進展を促進する。 https://sites.google.com/view/ltnghia/research/DMVTON

The fashion e-commerce industry has witnessed significant growth in recent years, prompting exploring image-based virtual try-on techniques to incorporate Augmented Reality (AR) experiences into online shopping platforms. However, existing research has primarily overlooked a crucial aspect - the runtime of the underlying machine-learning model. While existing methods prioritize enhancing output quality, they often disregard the execution time, which restricts their applications on a limited range of devices. To address this gap, we propose Distilled Mobile Real-time Virtual Try-On (DM-VTON), a novel virtual try-on framework designed to achieve simplicity and efficiency. Our approach is based on a knowledge distillation scheme that leverages a strong Teacher network as supervision to guide a Student network without relying on human parsing. Notably, we introduce an efficient Mobile Generative Module within the Student network, significantly reducing the runtime while ensuring high-quality output. Additionally, we propose Virtual Try-on-guided Pose for Data Synthesis to address the limited pose variation observed in training images. Experimental results show that the proposed method can achieve 40 frames per second on a single Nvidia Tesla T4 GPU and only take up 37 MB of memory while producing almost the same output quality as other state-of-the-art methods. DM-VTON stands poised to facilitate the advancement of real-time AR applications, in addition to the generation of lifelike attired human figures tailored for diverse specialized training tasks. https://sites.google.com/view/ltnghia/research/DMVTON
翻訳日:2023-08-29 18:58:00 公開日:2023-08-26
# DeLELSTM: 分解に基づく線形説明可能なLSTMによる時系列の瞬時・長期的影響の把握

DeLELSTM: Decomposition-based Linear Explainable LSTM to Capture Instantaneous and Long-term Effects in Time Series ( http://arxiv.org/abs/2308.13797v1 )

ライセンス: Link先を確認
Chaoqun Wang, Yijun Li, Xiangqian Sun, Qi Wu, Dongdong Wang and Zhixiang Huang(参考訳) 時系列予測は様々な実世界のアプリケーションで広く使われている。 時系列予測におけるディープラーニングモデル,特にリカレントニューラルネットワーク(RNN)の有望な結果にもかかわらず,高スループットアプリケーションにおいて重要な時系列モデルの説明はほとんど注目されていない。 本稿では,分解に基づく線形説明可能LSTM(DeLELSTM)を提案し,LSTMの解釈性を改善する。 従来、rnnの解釈性は、変数の重要性と時間の重要性にのみ集中する。 さらに,新たなデータによる即時的影響と,歴史的データの長期的影響を区別する。 具体的には、DeLELSTMは標準LSTMとテンソル化LSTMの2つのコンポーネントから構成される。 テンソル化LSTMは、行列 $\mathbf{h}_t$ を構成するユニークな隠れ状態を持つ各変数を割り当て、標準LSTMは共有隠れ状態 $\mathbf{H}_t$ を持つすべての変数をモデル化する。 過去の情報 $\mathbf{h}_{t-1}$ と新鮮な情報 $\mathbf{h}_{t}-\mathbf{h}_{t-1}$ の線形結合に$\mathbf{h}_t$ を分解することで、各変数の瞬時の影響と長期的な効果を得ることができる。 さらに、線形回帰の利点は、説明を透明かつ明確にする。 3つの経験的データセット上でのDeLELSTMの有効性と解釈性を示す。 大規模な実験により,提案手法は基本手法と競合する性能を示し,ドメイン知識に対する信頼性の高い説明を提供する。

Time series forecasting is prevalent in various real-world applications. Despite the promising results of deep learning models in time series forecasting, especially the Recurrent Neural Networks (RNNs), the explanations of time series models, which are critical in high-stakes applications, have received little attention. In this paper, we propose a Decomposition-based Linear Explainable LSTM (DeLELSTM) to improve the interpretability of LSTM. Conventionally, the interpretability of RNNs only concentrates on the variable importance and time importance. We additionally distinguish between the instantaneous influence of new coming data and the long-term effects of historical data. Specifically, DeLELSTM consists of two components, i.e., standard LSTM and tensorized LSTM. The tensorized LSTM assigns each variable with a unique hidden state making up a matrix $\mathbf{h}_t$, and the standard LSTM models all the variables with a shared hidden state $\mathbf{H}_t$. By decomposing the $\mathbf{H}_t$ into the linear combination of past information $\mathbf{h}_{t-1}$ and the fresh information $\mathbf{h}_{t}-\mathbf{h}_{t-1}$, we can get the instantaneous influence and the long-term effect of each variable. In addition, the advantage of linear regression also makes the explanation transparent and clear. We demonstrate the effectiveness and interpretability of DeLELSTM on three empirical datasets. Extensive experiments show that the proposed method achieves competitive performance against the baseline methods and provides a reliable explanation relative to domain knowledge.
翻訳日:2023-08-29 18:57:33 公開日:2023-08-26
# VIDES: 自然言語と視覚誘導による仮想内装設計

VIDES: Virtual Interior Design via Natural Language and Visual Guidance ( http://arxiv.org/abs/2308.13795v1 )

ライセンス: Link先を確認
Minh-Hien Le and Chi-Bien Chu and Khanh-Duy Le and Tam V. Nguyen and Minh-Triet Tran and Trung-Nghia Le(参考訳) 室内デザインは審美的で機能的な屋内空間を作るのに不可欠である。 しかし、インテリアデザインの概念の開発と編集にはかなりの時間と専門知識が必要である。 本稿では,この課題に対応する仮想内装署名(VIDES)システムを提案する。 生成AIにおける最先端技術を活用することで,ユーザによるテキスト記述や視覚的ガイダンスから,屋内シーンの概念の生成と編集を迅速に行うことができる。 視覚誘導と言語の両方を条件入力として使用することにより、生成されたシーンの精度とコヒーレンスを大幅に向上させ、視覚的に魅力的なデザインをもたらす。 大規模実験により,新しい室内コンセプトの開発,室内スタイルの変更,室内オブジェクトの交換・除去におけるビデの有効性を実証した。 このシステムは、カスタマイズの柔軟性を提供しながら、ユーザの記述の本質をうまく捉えている。 これにより、室内設計の参入障壁を減らし、技術的技術に制限のあるユーザに対してアクセスしやすくし、高品質な画像を作成するのに要する時間を短縮することができる。 デザインのバックグラウンドを持つ個人は、自分のアイデアを視覚的に簡単に伝え、デザインコンセプトを効果的に提示することができる。 https://sites.google.com/view/ltnghia/research/VIDES

Interior design is crucial in creating aesthetically pleasing and functional indoor spaces. However, developing and editing interior design concepts requires significant time and expertise. We propose Virtual Interior DESign (VIDES) system in response to this challenge. Leveraging cutting-edge technology in generative AI, our system can assist users in generating and editing indoor scene concepts quickly, given user text description and visual guidance. Using both visual guidance and language as the conditional inputs significantly enhances the accuracy and coherence of the generated scenes, resulting in visually appealing designs. Through extensive experimentation, we demonstrate the effectiveness of VIDES in developing new indoor concepts, changing indoor styles, and replacing and removing interior objects. The system successfully captures the essence of users' descriptions while providing flexibility for customization. Consequently, this system can potentially reduce the entry barrier for indoor design, making it more accessible to users with limited technical skills and reducing the time required to create high-quality images. Individuals who have a background in design can now easily communicate their ideas visually and effectively present their design concepts. https://sites.google.com/view/ltnghia/research/VIDES
翻訳日:2023-08-29 18:57:03 公開日:2023-08-26
# SOGDet:Semantic-Occupancy Guided Multi-view 3D Object Detection

SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection ( http://arxiv.org/abs/2308.13794v1 )

ライセンス: Link先を確認
Qiu Zhou, Jinming Cao, Hanchao Leng, Yifang Yin, Yu Kun and Roger Zimmermann(参考訳) 自動運転の分野では、3D環境の正確で包括的な認識が不可欠である。 Bird's Eye View (BEV) ベースの手法は、多視点画像を入力として使用する3Dオブジェクト検出のための有望なソリューションとして登場した。 しかし、既存の3Dオブジェクト検出手法は、歩道や植生などの環境の物理的文脈を無視することが多く、結果として準最適性能が得られる。 本稿では,sogdet(semantic-occupancy guided multi-view 3d object detection)と呼ばれる3次元意味空間枝を利用して3次元物体検出の精度を向上させる手法を提案する。 特に、意味的占有によってモデル化された物理的文脈は、検出器がより総合的な視点でシーンを認識するのに役立つ。 私たちのSOGDetは柔軟で、既存のほとんどのBEVベースのメソッドとシームレスに統合できます。 本手法の有効性を評価するため,いくつかの最先端ベースラインに適用し,排他的nuScenesデータセット上で広範囲な実験を行う。 以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。 これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。 コードは、https://github.com/zhouqiu/SOGDet.comで入手できる。

In the field of autonomous driving, accurate and comprehensive perception of the 3D environment is crucial. Bird's Eye View (BEV) based methods have emerged as a promising solution for 3D object detection using multi-view images as input. However, existing 3D object detection methods often ignore the physical context in the environment, such as sidewalk and vegetation, resulting in sub-optimal performance. In this paper, we propose a novel approach called SOGDet (Semantic-Occupancy Guided Multi-view 3D Object Detection), that leverages a 3D semantic-occupancy branch to improve the accuracy of 3D object detection. In particular, the physical context modeled by semantic occupancy helps the detector to perceive the scenes in a more holistic view. Our SOGDet is flexible to use and can be seamlessly integrated with most existing BEV-based methods. To evaluate its effectiveness, we apply this approach to several state-of-the-art baselines and conduct extensive experiments on the exclusive nuScenes dataset. Our results show that SOGDet consistently enhance the performance of three baseline methods in terms of nuScenes Detection Score (NDS) and mean Average Precision (mAP). This indicates that the combination of 3D object detection and 3D semantic occupancy leads to a more comprehensive perception of the 3D environment, thereby aiding build more robust autonomous driving systems. The codes are available at: https://github.com/zhouqiu/SOGDet.
翻訳日:2023-08-29 18:56:46 公開日:2023-08-26
# データ多様体上の正規化フローを用いた分布外検出

Out-of-distribution detection using normalizing flows on the data manifold ( http://arxiv.org/abs/2308.13792v1 )

ライセンス: Link先を確認
Seyedeh Fatemeh Razavi, Mohammad Mahdi Mehmanchi, Reshad Hosseini, Mostafa Tavassolipour(参考訳) 分散外検出のための一般的なアプローチは、分散外データに対してより低い可能性値を割り当てる基礎となるデータ分布を推定することである。 正規化フローは、次元保存可能可逆変換によるトラクタブル密度推定を提供する可能性に基づく生成モデルである。 従来の正規化フローは、確率ベースモデルの次元問題に対するよく知られた呪いのため、分布外検出で失敗する傾向にある。 多様体仮説によれば、実世界のデータはしばしば低次元多様体上に存在する。 本研究では,正規化流を用いた多様体学習が分布外検出に与える影響について検討する。 本研究では, 分布検出の基準として, 低次元多様体の密度を推定し, 多様体からの距離を測定する。 しかし、個別に、それぞれのタスクには不十分である。 実験結果から,正規化フローとして知られる確率ベースモデルの分布外検出能力の向上が示された。 この改善は、トレーニング中にモデル構造を変更したり、補助的な分散データを使用することなく達成される。

A common approach for out-of-distribution detection involves estimating an underlying data distribution, which assigns a lower likelihood value to out-of-distribution data. Normalizing flows are likelihood-based generative models providing a tractable density estimation via dimension-preserving invertible transformations. Conventional normalizing flows are prone to fail in out-of-distribution detection, because of the well-known curse of dimensionality problem of the likelihood-based models. According to the manifold hypothesis, real-world data often lie on a low-dimensional manifold. This study investigates the effect of manifold learning using normalizing flows on out-of-distribution detection. We proceed by estimating the density on a low-dimensional manifold, coupled with measuring the distance from the manifold, as criteria for out-of-distribution detection. However, individually, each of them is insufficient for this task. The extensive experimental results show that manifold learning improves the out-of-distribution detection ability of a class of likelihood-based models known as normalizing flows. This improvement is achieved without modifying the model structure or using auxiliary out-of-distribution data during training.
翻訳日:2023-08-29 18:56:18 公開日:2023-08-26
# 手書き画像強調

Handwritten image augmentation ( http://arxiv.org/abs/2308.13791v1 )

ライセンス: Link先を確認
Mahendran N(参考訳) 本稿では,手書き文字画像の新しいデータ拡張である手書き文字強調について紹介する。 本手法は,入力文字の形状を変えて手書き画像データを増やすことに焦点を当てる。 手書きの補字は、画像の位置増補、色増補と似ているが、手書き文字に焦点を絞っている。 手書き拡張はデータ駆動で実装が容易であり、CNNベースの光学文字認識モデルと統合することができる。 手書き拡張は、トリッピング、回転などの一般的なデータ拡張技術と共に実装することができ、光学的文字認識法を用いて開発された手書き画像データセットのモデルの性能向上をもたらす。

In this paper, we introduce Handwritten augmentation, a new data augmentation for handwritten character images. This method focuses on augmenting handwritten image data by altering the shape of input characters in training. The proposed handwritten augmentation is similar to position augmentation, color augmentation for images but a deeper focus on handwritten characters. Handwritten augmentation is data-driven, easy to implement, and can be integrated with CNN-based optical character recognition models. Handwritten augmentation can be implemented along with commonly used data augmentation techniques such as cropping, rotating, and yields better performance of models for handwritten image datasets developed using optical character recognition methods.
翻訳日:2023-08-29 18:55:59 公開日:2023-08-26
# フェデレーション学習における分散資源管理のための価格差別ゲーム

Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v1 )

ライセンス: Link先を確認
Han Zhang, Halvin Yang and Guopeng Zhang(参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりもはるかに少ない。 本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。 価格の差は、flがもたらした性能改善と、コンピューティングと通信能力の多様性に基づいている。 この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処する価格判別ゲーム(PDG)を策定する。 PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。 シミュレーション結果は,提案手法の有効性を検証する。

In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach.
翻訳日:2023-08-29 18:49:20 公開日:2023-08-26
# クラス制約t-SNE: データ特徴とクラス確率を組み合わせる

Class-constrained t-SNE: Combining Data Features and Class Probabilities ( http://arxiv.org/abs/2308.13837v1 )

ライセンス: Link先を確認
Linhao Meng, Stef van den Elzen, Nicola Pezzotti, and Anna Vilanova(参考訳) データの特徴とクラス確率は、モデル結果の評価と問題項目の識別という2つの主要な観点である。 クラス確率は、各インスタンスが特定のクラスに属する可能性を表し、確率的分類器や不確実性のある人間のラベル付けによって生成される。 両視点は多次元データであるため,次元減少(DR)技術は情報的特徴を抽出するために一般的に用いられている。 しかし、既存のメソッドはデータ機能の観点からのみフォーカスするか、DRプロセスを導くためにクラス確率推定に依存しています。 分析を行うために別々のビューがリンクされる以前の研究とは対照的に、同じdr結果におけるデータ特徴とクラス確率を組み合わせた新しいアプローチであるクラス制約付きt-sneを提案する。 具体的には、コスト関数内の2つの対応するコンポーネントのバランスをとることで、データポイントの位置とクラスの象徴的な表現 -- クラスランドマークを最適化します。 さらに、インタラクティブなユーザ調整可能なパラメータは、これら2つのコンポーネントのバランスをとり、ユーザが関心の重み付けされた視点に集中できるようにします。 モデル評価と視覚対話型ラベリングにおけるその応用可能性について述べる。 DR結果を評価するために比較分析を行う。

Data features and class probabilities are two main perspectives when, e.g., evaluating model results and identifying problematic items. Class probabilities represent the likelihood that each instance belongs to a particular class, which can be produced by probabilistic classifiers or even human labeling with uncertainty. Since both perspectives are multi-dimensional data, dimensionality reduction (DR) techniques are commonly used to extract informative characteristics from them. However, existing methods either focus solely on the data feature perspective or rely on class probability estimates to guide the DR process. In contrast to previous work where separate views are linked to conduct the analysis, we propose a novel approach, class-constrained t-SNE, that combines data features and class probabilities in the same DR result. Specifically, we combine them by balancing two corresponding components in a cost function to optimize the positions of data points and iconic representation of classes -- class landmarks. Furthermore, an interactive user-adjustable parameter balances these two components so that users can focus on the weighted perspectives of interest and also empowers a smooth visual transition between varying perspectives to preserve the mental map. We illustrate its application potential in model evaluation and visual-interactive labeling. A comparative analysis is performed to evaluate the DR results.
翻訳日:2023-08-29 18:49:00 公開日:2023-08-26
# 非線形正準ハミルトン力学のための構造保存型普遍安定koopmanインスパイア埋め込みのための深層学習

Deep Learning for Structure-Preserving Universal Stable Koopman-Inspired Embeddings for Nonlinear Canonical Hamiltonian Dynamics ( http://arxiv.org/abs/2308.13835v1 )

ライセンス: Link先を確認
Pawan Goyal and S\"uleyman Y{\i}ld{\i}z and Peter Benner(参考訳) 非線形システムの適切な座標変換の発見により、より単純なモデルの構築が可能になり、複雑な非線形システムの予測、制御、最適化が容易になる。 この目的のために、クープマン作用素理論は非線形システムの大域的線形化の枠組みを提供し、設計研究に線形ツールの使用を可能にする。 本研究では,シンプレクティック変換による正準非線形ハミルトン系の大域的線形埋め込みの同定に着目する。 このタスクは難しいことが多いが、必要な埋め込みを見つけるためにディープラーニングの力を活用している。 さらに,連続スペクトル系に対するkoopman作用素の欠点を克服するために,昇降原理を適用し,大域的立方体埋め込みを学習する。 さらに、発見された埋め込みの力学に対する境界安定性を強制するために重要な重点が支払われる。 本研究では,コンパクトなシンプレクティック座標変換とそれに対応する単純力学モデルを得るための深層学習の能力を示し,非線形正準ハミルトン系のデータ駆動学習を育む。

Discovering a suitable coordinate transformation for nonlinear systems enables the construction of simpler models, facilitating prediction, control, and optimization for complex nonlinear systems. To that end, Koopman operator theory offers a framework for global linearization for nonlinear systems, thereby allowing the usage of linear tools for design studies. In this work, we focus on the identification of global linearized embeddings for canonical nonlinear Hamiltonian systems through a symplectic transformation. While this task is often challenging, we leverage the power of deep learning to discover the desired embeddings. Furthermore, to overcome the shortcomings of Koopman operators for systems with continuous spectra, we apply the lifting principle and learn global cubicized embeddings. Additionally, a key emphasis is paid to enforce the bounded stability for the dynamics of the discovered embeddings. We demonstrate the capabilities of deep learning in acquiring compact symplectic coordinate transformation and the corresponding simple dynamical models, fostering data-driven learning of nonlinear canonical Hamiltonian systems, even those with continuous spectra.
翻訳日:2023-08-29 18:48:38 公開日:2023-08-26
# 非エルミートハミルトニアンに対する擬PT対称性理論について:時間依存系

On the {\eta} pseudo PT symmetry theory for non-Hermitian Hamiltonians: time-dependent systems ( http://arxiv.org/abs/2308.13834v1 )

ライセンス: Link先を確認
Mustapha Maamache(参考訳) 非エルミート量子力学の文脈では、多くの系は擬pt対称性を持つこと、すなわち非ヘルミートハミルトニアン h は関係式 h^{{\dag}}=pthpt を介してその随伴 h^{{\dag}} と関連していることが知られている。 時間依存非ヘルミティアンハミルトニアンに対して,時間依存準ヘルミティティー関係を満たさずにハイゼンベルク発展方程式に従う新しい計量 {\eta}(t)=pt{\eta}(t) を導出することにより,擬pt対称性とpseudo-hermiticityの導出を提案する。 そこで本研究では,su(1,1)時間依存非エルミートハミルトニアンを解き,この新しい計量を用いて時間依存解を構築し,その具体的な物理応用について考察する。

In the context of non-Hermitian quantum mechanics, many systems are known to possess a pseudo PT symmetry , i.e. the non-Hermitian Hamiltonian H is related to its adjoint H^{{\dag}} via the relation, H^{{\dag}}=PTHPT . We propose a derivation of pseudo PT symmetry and {\eta} -pseudo-Hermiticity simultaneously for the time dependent non-Hermitian Hamiltonians by intoducing a new metric {\eta}(t)=PT{\eta}(t) that not satisfy the time-dependent quasi-Hermiticity relation but obeys the Heisenberg evolution equation. Here, we solve the SU(1,1) time-dependent non-Hermitian Hamiltonian and we construct a time-dependent solutions by employing this new metric and discuss a concrete physical applications of our results.
翻訳日:2023-08-29 18:48:06 公開日:2023-08-26
# ROVを用いた深層学習支援養殖ネットペン検査の評価

Evaluating Deep Learning Assisted Automated Aquaculture Net Pens Inspection Using ROV ( http://arxiv.org/abs/2308.13826v1 )

ライセンス: Link先を確認
Waseem Akram, Muhayyuddin Ahmed, Lakmal Seneviratne and Irfan Hussain(参考訳) 海洋養殖では, 養殖施設の環境影響と魚類開発プロセスの質の両方を管理する上で, 海ケージの検査が不可欠である。 魚は魚の養殖場から海に逃げ出し、網の損傷により大きな財政的損失をもたらし、近くの海洋生態系を侵食する可能性がある。 従来の検査システムは、熟練したダイバーやrovによる視覚検査に依存しており、これは、労力や時間的消費、不正確なだけでなく、オペレータの知識のレベルに大きく依存し、検証可能性の低さにも依存している。 本稿では,オン・ROV処理とリアルタイム検出を指向した養殖網ペンを対象としたロボットによる自動網欠陥検出システムを提案する。 提案システムは、ROVの搭載カメラから映像ストリームを取得し、深層学習検出器を使用し、背景から画像の欠陥部分を異なる水中条件下で分割する。 このシステムはまず、最先端のアプローチと比較するために収集された画像を用いてテストされ、続いてROV検査シーケンスを使用して実世界のシナリオにおけるその有効性を評価した。 提案手法は, 有害シナリオにおいても高い精度を示し, 組込みプラットフォーム上でのリアルタイム処理に適していることを示す。

In marine aquaculture, inspecting sea cages is an essential activity for managing both the facilities' environmental impact and the quality of the fish development process. Fish escape from fish farms into the open sea due to net damage, which can result in significant financial losses and compromise the nearby marine ecosystem. The traditional inspection system in use relies on visual inspection by expert divers or ROVs, which is not only laborious, time-consuming, and inaccurate but also largely dependent on the level of knowledge of the operator and has a poor degree of verifiability. This article presents a robotic-based automatic net defect detection system for aquaculture net pens oriented to on-ROV processing and real-time detection. The proposed system takes a video stream from an onboard camera of the ROV, employs a deep learning detector, and segments the defective part of the image from the background under different underwater conditions. The system was first tested using a set of collected images for comparison with the state-of-the-art approaches and then using the ROV inspection sequences to evaluate its effectiveness in real-world scenarios. Results show that our approach presents high levels of accuracy even for adverse scenarios and is adequate for real-time processing on embedded platforms.
翻訳日:2023-08-29 18:47:33 公開日:2023-08-26
# HoloPOCUS:ポータブルな混合現実3D超音波追跡、再構成、オーバーレイ

HoloPOCUS: Portable Mixed-Reality 3D Ultrasound Tracking, Reconstruction and Overlay ( http://arxiv.org/abs/2308.13823v1 )

ライセンス: Link先を確認
Kian Wei Ng, Yujia Gao, Shaheryar Mohammed Furqan, Zachery Yeo, Joel Lau, Kee Yuan Ngiam, Eng Tat Khoo(参考訳) 超音波(US)イメージングは、プロシージャ誘導と診断イメージングのための安全かつアクセス可能なソリューションを提供する。 従来の2次元usの介入指導には, 画像平面を患者に投影するための広範囲な経験が必要であり, 診断における画像の解釈は, ユーザ内およびユーザ間において高い変動性に苦しむ。 3DUS再構成により、より一貫した診断と解釈が可能になるが、既存のソリューションは、リアルタイムナビゲーションにおける機器と適用性に制限されている。 これらの問題に対処するために,我々は,医療現場におけるユーザのビジョンに,リッチな米国情報をオーバーレイする複合現実USシステム(MR-US)HoloPOCUSを提案する。 HoloPOCUSは既存のMR-US手法を拡張し、ユーザーの視界にアメリカの飛行機を配置し、従来のプローブを用いた手続き的ガイダンスに役立つ3D再構成と投影を含む。 既存のMR-USよりも高精度な追跡パイプラインを検証した。 さらに,phantomタスクによるユーザ調査では,提案手法を用いた場合のナビゲーション継続時間が有意に改善した。

Ultrasound (US) imaging provides a safe and accessible solution to procedural guidance and diagnostic imaging. The effective usage of conventional 2D US for interventional guidance requires extensive experience to project the image plane onto the patient, and the interpretation of images in diagnostics suffers from high intra- and inter-user variability. 3D US reconstruction allows for more consistent diagnosis and interpretation, but existing solutions are limited in terms of equipment and applicability in real-time navigation. To address these issues, we propose HoloPOCUS - a mixed reality US system (MR-US) that overlays rich US information onto the user's vision in a point-of-care setting. HoloPOCUS extends existing MR-US methods beyond placing a US plane in the user's vision to include a 3D reconstruction and projection that can aid in procedural guidance using conventional probes. We validated a tracking pipeline that demonstrates higher accuracy compared to existing MR-US works. Furthermore, user studies conducted via a phantom task showed significant improvements in navigation duration when using our proposed methods.
翻訳日:2023-08-29 18:46:49 公開日:2023-08-26
# グラフ上の不均衡学習に関する調査--問題,技術,今後の方向性

A Survey of Imbalanced Learning on Graphs: Problems, Techniques, and Future Directions ( http://arxiv.org/abs/2308.13821v1 )

ライセンス: Link先を確認
Zemin Liu, Yuan Li, Nan Chen, Qian Wang, Bryan Hooi, Bingsheng He(参考訳) グラフは、現実世界の無数に存在する相互接続構造を表す。 グラフ学習法のような効果的なグラフ解析により、ユーザはグラフデータから深い洞察を得られるようになり、ノード分類やリンク予測といった様々なタスクの基盤となる。 しかし、これらの手法はデータ不均衡に悩まされることが多く、あるセグメントが豊富なデータを持ち、他のセグメントが不足しているグラフデータに共通する問題である。 これはグラフ上の不均衡学習の新興分野を必要とし、より正確で典型的な学習結果のためにこれらのデータ分布の歪を補正することを目的としている。 本調査では,グラフ上の不均衡学習に関する文献を包括的にレビューする。 まず、概念と関連する用語の明確な理解を提供することから始め、読者に強い基礎的理解を確立する。 次に,(1)不均衡の形式を記述する問題分類法,(2)これらの不均衡に対処するための重要な戦略を詳述する手法分類法,およびその方法選択過程において読者を支援する問題分類法,という2つの包括的な分類法を提案する。 最後に、グラフ上の不均衡学習の領域における問題と技術の両方の今後の方向性を提案し、この重要な領域におけるさらなるイノベーションを育む。

Graphs represent interconnected structures prevalent in a myriad of real-world scenarios. Effective graph analytics, such as graph learning methods, enables users to gain profound insights from graph data, underpinning various tasks including node classification and link prediction. However, these methods often suffer from data imbalance, a common issue in graph data where certain segments possess abundant data while others are scarce, thereby leading to biased learning outcomes. This necessitates the emerging field of imbalanced learning on graphs, which aims to correct these data distribution skews for more accurate and representative learning outcomes. In this survey, we embark on a comprehensive review of the literature on imbalanced learning on graphs. We begin by providing a definitive understanding of the concept and related terminologies, establishing a strong foundational understanding for readers. Following this, we propose two comprehensive taxonomies: (1) the problem taxonomy, which describes the forms of imbalance we consider, the associated tasks, and potential solutions; (2) the technique taxonomy, which details key strategies for addressing these imbalances, and aids readers in their method selection process. Finally, we suggest prospective future directions for both problems and techniques within the sphere of imbalanced learning on graphs, fostering further innovation in this critical area.
翻訳日:2023-08-29 18:46:30 公開日:2023-08-26
# SINDyおよび演算子推論における定常2次モデルとその応用

Guaranteed Stable Quadratic Models and their applications in SINDy and Operator Inference ( http://arxiv.org/abs/2308.13819v1 )

ライセンス: Link先を確認
Pawan Goyal and Igor Pontes Duff and Peter Benner(参考訳) 動的システム学習のための科学機械学習は、データ駆動モデリングモデル、物理ベースのモデリング、経験的知識を組み合わせた強力なツールである。 エンジニアリングデザインサイクルとデジタルツインにおいて重要な役割を担っている。 本研究は, モデル構造に先行する仮説を持ち, 既知の物理によって決定されるか, 専門家によって与えられるような力学モデルを構築する演算子推論手法に主に焦点をあてる。 そこで我々は,適切な最適化問題を設定することによってモデルの演算子を学習することを目指す。 力学系の重要な性質の1つは{stability である。 しかし、そのような性質は推論されたモデルでは保証されない。 本研究では,設計上安定な二次モデルを学ぶための推論定式化を提案する。 正確には、局所的かつグローバルに安定な二次系のパラメータ化について論じる。 さらに、安定点が有界でない二次系(例えばカオスロレンツモデル)に対しては、魅力的なトラップ領域哲学とそのようなシステムのパラメータ化について論じる。 これらのパラメータ化を用いて推論問題を設定し,勾配に基づく最適化手法を用いて解く。 さらに,数値微分を回避し,連続系を学習するために微分方程式の積分形式を用いる。 本稿では,安定性の保存を図解した数値例をいくつか提示し,それとinfer演算子の既存手法との比較について考察する。 数値例を用いて,制御方程式やエネルギー保存モデルの発見に提案手法がいかに用いられているかを示す。

Scientific machine learning for learning dynamical systems is a powerful tool that combines data-driven modeling models, physics-based modeling, and empirical knowledge. It plays an essential role in an engineering design cycle and digital twinning. In this work, we primarily focus on an operator inference methodology that builds dynamical models, preferably in low-dimension, with a prior hypothesis on the model structure, often determined by known physics or given by experts. Then, for inference, we aim to learn the operators of a model by setting up an appropriate optimization problem. One of the critical properties of dynamical systems is{stability. However, such a property is not guaranteed by the inferred models. In this work, we propose inference formulations to learn quadratic models, which are stable by design. Precisely, we discuss the parameterization of quadratic systems that are locally and globally stable. Moreover, for quadratic systems with no stable point yet bounded (e.g., Chaotic Lorenz model), we discuss an attractive trapping region philosophy and a parameterization of such systems. Using those parameterizations, we set up inference problems, which are then solved using a gradient-based optimization method. Furthermore, to avoid numerical derivatives and still learn continuous systems, we make use of an integration form of differential equations. We present several numerical examples, illustrating the preservation of stability and discussing its comparison with the existing state-of-the-art approach to infer operators. By means of numerical examples, we also demonstrate how proposed methods are employed to discover governing equations and energy-preserving models.
翻訳日:2023-08-29 18:46:01 公開日:2023-08-26
# 強化学習最適化ダブルリング共振器を用いた全光リザーバを用いたパケットヘッダ認識

Packet Header Recognition Utilizing an All-Optical Reservoir Based on Reinforcement-Learning-Optimized Double-Ring Resonator ( http://arxiv.org/abs/2308.13818v1 )

ライセンス: Link先を確認
Zheng Li, Xiaoyan Zhou, Zongze Li, Guanju Peng, Yuhao Guo, and Lin Zhang(参考訳) 光パケットヘッダ認識は光通信ネットワークの重要な信号処理タスクである。 本研究では,高速かつ高精度な光パケットヘッダ認識のための統合二重リング共振器(DRR)をノードとする全光貯留層を提案する。 ノードの遅延帯域幅積 (dbp) は貯留層における重要な数値であるので, パラメータ空間最適化と高速収束速度の利点を生かした, 種々のdrのdbpsを最大化するために, 深層強化学習アルゴリズムを適用した。 興味深いことに、DRRの最適化されたDBPは、カスケード、並列、埋め込み構成で同じ最大値に達し、これは大域的な最大値であると考えられている。 最後に,3ビットおよび6ビットのパケットヘッダ認識タスクを,チップサイズと所望の「フラットトップ」遅延スペクトルを著しく低減した最適化カスケードリングからなる全光貯留装置を用いて行う。 この光学計算方式を用いて, 3ビットおよび6ビットのパケットヘッダ認識タスクに対して, 5*10-4 と 9*10-4 のワードエラー率をそれぞれ達成した。

Optical packet header recognition is an important signal processing task of optical communication networks. In this work, we propose an all-optical reservoir, consisting of integrated double-ring resonators (DRRs) as nodes, for fast and accurate optical packet header recognition. As the delay-bandwidth product (DBP) of the node is a key figure-of-merit in the reservoir, we adopt a deep reinforcement learning algorithm to maximize the DBPs for various types of DRRs, which has the advantage of full parameter space optimization and fast convergence speed. Intriguingly, the optimized DBPs of the DRRs in cascaded, parallel, and embedded configurations reach the same maximum value, which is believed to be the global maximum. Finally, 3-bit and 6-bit packet header recognition tasks are performed with the all-optical reservoir consisting of the optimized cascaded rings, which have greatly reduced chip size and the desired "flat-top" delay spectra. Using this optical computing scheme, word-error rates as low as 5*10-4 and 9*10-4 are achieved for 3-bit and 6-bit packet header recognition tasks, respectively, which are one order of magnitude better than the previously reported values.
翻訳日:2023-08-29 18:45:37 公開日:2023-08-26
# ホモロジー畳み込みニューラルネットワーク

Homological Convolutional Neural Networks ( http://arxiv.org/abs/2308.13816v1 )

ライセンス: Link先を確認
Antonio Briola, Yuanrong Wang, Silvia Bartolucci, Tomaso Aste(参考訳) ディープラーニング手法は、均質なデータ型(画像、音声、テキストデータなど)の分類と回帰タスクにおいて優れた性能を示している。 しかし、従来の機械学習アプローチは、複雑化するディープラーニングアーキテクチャよりも計算的に安価で、効果的であることが多い。 この課題は、表データにおいて、画像や自然言語における空間的あるいは意味的な関係性よりも特徴間の相関が弱く、依存関係構造は事前情報なしでモデル化する必要があるという事実から生じる。 本研究では,トポロジカルに制約されたネットワーク表現を通してデータ構造構造を活用し,分散した表データから空間情報を得る新しいディープラーニングアーキテクチャを提案する。 結果として得られるモデルは畳み込みのパワーを活用し、ネットワークトポロジーから保証までの限られた数の概念に集中する。 i) データ中心で決定論的な構築パイプライン。 (ii) 推論過程に対する高いレベルの解釈可能性 (iii)スケーラビリティのための十分なスペース。 従来の5つの機械学習と3つのディープラーニングモデルに対して,18のベンチマークデータセットでモデルをテストすることで,このアプローチが,これらの挑戦的なデータセットで最先端のパフォーマンスに到達できることを実証する。 すべての実験を再現するコードは、https://github.com/FinancialComputingUCL/HomologicalCNNで提供されている。

Deep learning methods have demonstrated outstanding performances on classification and regression tasks on homogeneous data types (e.g., image, audio, and text data). However, tabular data still poses a challenge with classic machine learning approaches being often computationally cheaper and equally effective than increasingly complex deep learning architectures. The challenge arises from the fact that, in tabular data, the correlation among features is weaker than the one from spatial or semantic relationships in images or natural languages, and the dependency structures need to be modeled without any prior information. In this work, we propose a novel deep learning architecture that exploits the data structural organization through topologically constrained network representations to gain spatial information from sparse tabular data. The resulting model leverages the power of convolutions and is centered on a limited number of concepts from network topology to guarantee (i) a data-centric, deterministic building pipeline; (ii) a high level of interpretability over the inference process; and (iii) an adequate room for scalability. We test our model on 18 benchmark datasets against 5 classic machine learning and 3 deep learning models demonstrating that our approach reaches state-of-the-art performances on these challenging datasets. The code to reproduce all our experiments is provided at https://github.com/FinancialComputingUCL/HomologicalCNN.
翻訳日:2023-08-29 18:45:15 公開日:2023-08-26
# 3次元スケルトン点雲上でのヒューマンインタラクション学習によるビデオ暴力認識の改善

Improving Video Violence Recognition with Human Interaction Learning on 3D Skeleton Point Clouds ( http://arxiv.org/abs/2308.13866v1 )

ライセンス: Link先を確認
Yukun Su, Guosheng Lin, Qingyao Wu(参考訳) 深層学習はビデオ行動認識において非常に効果的であることが証明されている。 ビデオ暴力認識は、より複雑なシナリオで人間のマルチダイナミックな振る舞いを学習しようと試みる。 本研究では,骨格点の新たな視点から映像暴力認識手法を開発する。 以前の研究とは異なり、まずビデオから抽出された人間の骨格配列から3Dスケルトン点雲を定式化し、これらの3Dスケルトン点雲上で相互作用学習を行う。 具体的には,2種類のSkeleton Points Interaction Learning(SPIL)戦略を提案する。 (i)局所SPIL:局所的な点間の比重分布戦略を構築することにより、その特徴と空間的位置情報に基づいて、最も関連性の高い部分に集中することを目的とする。 多様な関係情報を取り込むため、マルチヘッド機構は独立した頭部から異なる特徴を集約し、点間の関係の異なる種類を協調的に扱うように設計されている。 (ii)Global-SPIL:非順序および非構造的骨格点の特徴をよりよく学習し、洗練するために、Global-SPILはサンプル点を直接操作する自己アテンション層を用いており、それによって出力の置換不変性を向上し、我々のタスクに適している。 大規模実験により,本手法の有効性を検証し,既存のネットワークより優れ,ビデオ暴力データセット上での新たな最先端性能を実現することを示す。

Deep learning has proved to be very effective in video action recognition. Video violence recognition attempts to learn the human multi-dynamic behaviours in more complex scenarios. In this work, we develop a method for video violence recognition from a new perspective of skeleton points. Unlike the previous works, we first formulate 3D skeleton point clouds from human skeleton sequences extracted from videos and then perform interaction learning on these 3D skeleton point clouds. Specifically, we propose two types of Skeleton Points Interaction Learning (SPIL) strategies: (i) Local-SPIL: by constructing a specific weight distribution strategy between local regional points, Local-SPIL aims to selectively focus on the most relevant parts of them based on their features and spatial-temporal position information. In order to capture diverse types of relation information, a multi-head mechanism is designed to aggregate different features from independent heads to jointly handle different types of relationships between points. (ii) Global-SPIL: to better learn and refine the features of the unordered and unstructured skeleton points, Global-SPIL employs the self-attention layer that operates directly on the sampled points, which can help to make the output more permutation-invariant and well-suited for our task. Extensive experimental results validate the effectiveness of our approach and show that our model outperforms the existing networks and achieves new state-of-the-art performance on video violence datasets.
翻訳日:2023-08-29 18:39:58 公開日:2023-08-26
# 遅い停止: 間違った例から信頼できる学習を避ける

Late Stopping: Avoiding Confidently Learning from Mislabeled Examples ( http://arxiv.org/abs/2308.13862v1 )

ライセンス: Link先を確認
Suqin Yuan, Lei Feng, Tongliang Liu(参考訳) サンプル選択はノイズラベルを用いた学習において一般的な手法であり、小さな損失データは通常、正しくラベル付けされたデータと見なされる。 しかし、この手法は、モデルに近い最適一般化性能を達成する上で重要な、大きな損失を伴うクリーン・ハード・サンプルを効果的に識別することができない。 本稿では,DNNの長期学習プロセスを通じて本質的な頑健な学習能力を生かした新しいフレームワークである遅延停止を提案する。 具体的には、学習過程を通じて学習セットのクリーンなハードサンプルの大部分を保持しながら、高確率の誤ラベル例を取り除き、ノイズの多いデータセットを徐々に縮小する。 我々は,誤ラベルと清潔な例が,それらが一貫して正しく分類されるために必要なエポック数の差を示し,高い確率の誤ラベル例を取り除くことができることを実証的に観察する。 ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。

Sample selection is a prevalent method in learning with noisy labels, where small-loss data are typically considered as correctly labeled data. However, this method may not effectively identify clean hard examples with large losses, which are critical for achieving the model's close-to-optimal generalization performance. In this paper, we propose a new framework, Late Stopping, which leverages the intrinsic robust learning ability of DNNs through a prolonged training process. Specifically, Late Stopping gradually shrinks the noisy dataset by removing high-probability mislabeled examples while retaining the majority of clean hard examples in the training set throughout the learning process. We empirically observe that mislabeled and clean examples exhibit differences in the number of epochs required for them to be consistently and correctly classified, and thus high-probability mislabeled examples can be removed. Experimental results on benchmark-simulated and real-world noisy datasets demonstrate that the proposed method outperforms state-of-the-art counterparts.
翻訳日:2023-08-29 18:39:34 公開日:2023-08-26
# 脳MRIにおける教師なし異常検出のバイアス

Bias in Unsupervised Anomaly Detection in Brain MRI ( http://arxiv.org/abs/2308.13861v1 )

ライセンス: Link先を確認
Cosmin I. Bercea, Esther Puyol-Ant\'on, Benedikt Wiestler, Daniel Rueckert, Julia A. Schnabel, Andrew P. King(参考訳) 教師なし異常検出法は、有望で柔軟な代替手段を提供し、医療スキャン分析に革命をもたらし、診断性能を向上させる可能性を秘めている。 現在のランドスケープでは、テストケースとトレーニング分布の違いは、病的条件のみに起因していると考えられており、あらゆる相違が異常を示すことを示唆している。 しかし、スキャナー、年齢、性別、人種など、他の潜在的な分布シフト源の存在は、しばしば見過ごされる。 これらのシフトは異常検出タスクの精度に大きな影響を及ぼす可能性がある。 このような失敗の顕著な例が、異常検出のバイアス、信頼性、公平性に関する懸念を引き起こしている。 本稿では,教師なし異常検出におけるバイアスの新しい解析法を提案する。 トレーニング分布とテスト分布の間の潜在的な非病理学的分布変化を調べることで,これらのバイアスの程度と異常検出結果への影響を明らかにした。 さらに,偏りによって生じるアルゴリズム上の制約について検討し,正規分布に存在する変動範囲を精度良く学習し,捉えることで,異常検出アルゴリズムが直面する課題に対する貴重な洞察を与える。 この分析を通じて,これらのバイアスの理解を深め,今後のフィールド改善の道を開くことを目的としている。 本研究は,脳mriによるアルツハイマー病の検出を事例として検討し,性別,人種,スキャナに有意な偏りを示し,その結果に大きく影響する。 これらの結果は, 医用画像における異常検出の信頼性, 公平性, 有効性の向上という広範な目標と一致した。

Unsupervised anomaly detection methods offer a promising and flexible alternative to supervised approaches, holding the potential to revolutionize medical scan analysis and enhance diagnostic performance. In the current landscape, it is commonly assumed that differences between a test case and the training distribution are attributed solely to pathological conditions, implying that any disparity indicates an anomaly. However, the presence of other potential sources of distributional shift, including scanner, age, sex, or race, is frequently overlooked. These shifts can significantly impact the accuracy of the anomaly detection task. Prominent instances of such failures have sparked concerns regarding the bias, credibility, and fairness of anomaly detection. This work presents a novel analysis of biases in unsupervised anomaly detection. By examining potential non-pathological distributional shifts between the training and testing distributions, we shed light on the extent of these biases and their influence on anomaly detection results. Moreover, this study examines the algorithmic limitations that arise due to biases, providing valuable insights into the challenges encountered by anomaly detection algorithms in accurately learning and capturing the entire range of variability present in the normative distribution. Through this analysis, we aim to enhance the understanding of these biases and pave the way for future improvements in the field. Here, we specifically investigate Alzheimer's disease detection from brain MR imaging as a case study, revealing significant biases related to sex, race, and scanner variations that substantially impact the results. These findings align with the broader goal of improving the reliability, fairness, and effectiveness of anomaly detection in medical imaging.
翻訳日:2023-08-29 18:39:15 公開日:2023-08-26
# 非ガウス演算をもつ長距離高忠実連続可変量子鍵分布:正確な閉解

Long-distance high-fidelity continuous-variable quantum key distribution with non-Gaussian operations: An exact closed form solution ( http://arxiv.org/abs/2308.13859v1 )

ライセンス: Link先を確認
Khatereh Jafari, Mojtaba Golshani and Alireza Bahrampour(参考訳) 本稿では,ゼロ光子触媒 (ZPC) と量子シザー (QS) の存在下でのCV-QKDプロトコルの出力状態に対する閉形式式を導出する。 そして、この閉形式解に基づいて、直接探索アルゴリズムを用いて入力状態とQSパラメータの適切な値を求め、CV-QKDプロトコルの範囲と忠実度を大幅に向上させる。 純粋損失チャネルの特殊な場合、プロトコルの最大の範囲は、リピータレス量子通信の基本的な限界よりわずか6.5%少ない。 さらに, 余剰雑音の異なる値に対するプロトコルの検証により, 範囲と忠実度のトレードオフであり, プロトコル範囲をわずかに削減するコストで, 忠実度の高い値が得られることがわかった。

In this paper, we derive a closed form expression for the output state of a CV-QKD protocol in the presence of zero-photon catalysis (ZPC) and quantum scissor (QS). Then, based on this closed form solution, we use direct search algorithm to find the appropriate values of input state and QS parameters, which considerably enhance the range and the fidelity of a CV-QKD protocol. In the special case of pure loss channel, the largest range of the protocol is only 6.5% less than the fundamental limit of repeaterless quantum communication. In addition, examination of the protocol for different values of excess noise, reveals that their is a trade-off between range and fidelity, and high value of fidelity can be obtained at the cost of a slight reduction in protocol range.
翻訳日:2023-08-29 18:38:51 公開日:2023-08-26
# ジョイント・アイズ・ロケーションとアイズ・オブジェクト検出

Joint Gaze-Location and Gaze-Object Detection ( http://arxiv.org/abs/2308.13857v1 )

ライセンス: Link先を確認
Danyang Tu, Wei Shen, Wei Sun, Xiongkuo Min, Guangtao Zhai(参考訳) 本稿では,目視位置検出 (gl-d) と目視物体検出 (go-d), \emph{i.e.}, 目視追従検出の効率的かつ効果的な手法を提案する。 現在のアプローチでは、GL-DとGO-Dを2つの別々のタスクとして用いており、まず人間の頭作物を検知し、次にGL-Dサブネットワークに供給し、さらにGO-Dのための追加のオブジェクト検出器が続く。 対照的に,視線追従検出タスクを,人間の頭部位置と視線追従を同時に検出し,統一的で単段のパイプラインで人間の視線位置と視線オブジェクトを協調的に検出することを目的とした。 そこで本研究では,検出後のGTRを短縮したGTRを提案し,すべての追加コンポーネントを排除し,検出パイプラインの視線を合理化することで,GL-DとGO-Dを完全にエンドツーエンドに統一する最初の統一パラダイムを実現する。 gtrは、階層構造を通じて、全体意味論と人間の頭部特徴の反復的な相互作用を可能にし、グローバル画像コンテキストから突出した物体と人間の視線の関係を推論し、印象的な精度をもたらす。 具体的には、GTR は GazeFollowing の 12.1 mAP ゲイン (\mathbf{25.1}\%$) と VideoAttentionTarget の GL-D の 18.2 mAP ゲイン (\mathbf{43.3\%}$)、GO-D の GOO-Real の 19 mAP ゲイン (\mathbf{45.2\%}$) を達成している。 一方、人間の頭を入力として必要とするため、連続的に視線を検出する既存のシステムとは異なり、GTRは任意の人の視線追跡を同時に理解する柔軟性があり、高い効率をもたらす。 具体的には、GTRはFPSの9ドル以上の改善を導入し、人間数が増加するにつれて相対的なギャップがより顕著になる。

This paper proposes an efficient and effective method for joint gaze location detection (GL-D) and gaze object detection (GO-D), \emph{i.e.}, gaze following detection. Current approaches frame GL-D and GO-D as two separate tasks, employing a multi-stage framework where human head crops must first be detected and then be fed into a subsequent GL-D sub-network, which is further followed by an additional object detector for GO-D. In contrast, we reframe the gaze following detection task as detecting human head locations and their gaze followings simultaneously, aiming at jointly detect human gaze location and gaze object in a unified and single-stage pipeline. To this end, we propose GTR, short for \underline{G}aze following detection \underline{TR}ansformer, streamlining the gaze following detection pipeline by eliminating all additional components, leading to the first unified paradigm that unites GL-D and GO-D in a fully end-to-end manner. GTR enables an iterative interaction between holistic semantics and human head features through a hierarchical structure, inferring the relations of salient objects and human gaze from the global image context and resulting in an impressive accuracy. Concretely, GTR achieves a 12.1 mAP gain ($\mathbf{25.1}\%$) on GazeFollowing and a 18.2 mAP gain ($\mathbf{43.3\%}$) on VideoAttentionTarget for GL-D, as well as a 19 mAP improvement ($\mathbf{45.2\%}$) on GOO-Real for GO-D. Meanwhile, unlike existing systems detecting gaze following sequentially due to the need for a human head as input, GTR has the flexibility to comprehend any number of people's gaze followings simultaneously, resulting in high efficiency. Specifically, GTR introduces over a $\times 9$ improvement in FPS and the relative gap becomes more pronounced as the human number grows.
翻訳日:2023-08-29 18:38:37 公開日:2023-08-26
# ワンツーワンを超えて:参照するイメージセグメンテーションを再考する

Beyond One-to-One: Rethinking the Referring Image Segmentation ( http://arxiv.org/abs/2308.13853v1 )

ライセンス: Link先を確認
Yutao Hu, Qixiong Wang, Wenqi Shao, Enze Xie, Zhenguo Li, Jungong Han, Ping Luo(参考訳) 参照画像分割は、自然言語表現で参照される対象オブジェクトを分割することを目的としている。 しかし、従来の手法は、1つの文が画像の1つのターゲットを記述する必要があるという強い仮定に頼っている。 その結果、そのようなメソッドは、式がオブジェクトや複数のオブジェクトを参照していない場合に失敗する。 本稿では,この問題を2つの観点から論じる。 まず,2つのデコーダ分岐を含む2方向の情報フローを実現するDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。 テキストから画像へのデコーダでは、テキスト埋め込みを使用して視覚特徴をクエリし、対応するターゲットをローカライズする。 一方、画像からテキストへのデコーダを実装して、その視覚特徴に基づく消去されたエンティティ・フレーズを再構築する。 このように、視覚機能は、テキストから画像へのデコーダの正確なセグメンテーションをサポートするターゲットエンティティに関する重要な意味情報を含むことが推奨される。 次に、異なる設定下で画像テキストペアを含むRef-ZOMという、難しいが現実的なデータセットを収集します。 大規模な実験により,提案手法は異なるデータセット上での最先端性能を実証し,Ref-ZOM学習モデルは各種テキスト入力に対して良好に動作することを示した。 コードとデータセットはhttps://github.com/toggle1995/RIS-DMMIで公開されている。

Referring image segmentation aims to segment the target object referred by a natural language expression. However, previous methods rely on the strong assumption that one sentence must describe one target in the image, which is often not the case in real-world applications. As a result, such methods fail when the expressions refer to either no objects or multiple objects. In this paper, we address this issue from two perspectives. First, we propose a Dual Multi-Modal Interaction (DMMI) Network, which contains two decoder branches and enables information flow in two directions. In the text-to-image decoder, text embedding is utilized to query the visual feature and localize the corresponding target. Meanwhile, the image-to-text decoder is implemented to reconstruct the erased entity-phrase conditioned on the visual feature. In this way, visual features are encouraged to contain the critical semantic information about target entity, which supports the accurate segmentation in the text-to-image decoder in turn. Secondly, we collect a new challenging but realistic dataset called Ref-ZOM, which includes image-text pairs under different settings. Extensive experiments demonstrate our method achieves state-of-the-art performance on different datasets, and the Ref-ZOM-trained model performs well on various types of text inputs. Codes and datasets are available at https://github.com/toggle1995/RIS-DMMI.
翻訳日:2023-08-29 18:37:52 公開日:2023-08-26
# 有限時間量子オットーエンジンの監視による作業出力とコヒーレンス制御

Controlling Work Output and Coherence in Finite Time Quantum Otto Engines Through Monitoring ( http://arxiv.org/abs/2308.13852v1 )

ライセンス: Link先を確認
Rahul Shastri and B. Prasanna Venkatesh(参考訳) 定常状態で動作する有限時間量子オットー熱エンジンの作業統計における量子計測の診断的役割について検討する。 システム・ポインターの相互作用数とポインターの測定数が異なる3つのポインターベースの測定手法を検討する。 本研究では, 測定値の調整により, 作業物のコヒーレンスとエンジンの作業出力を制御可能であることを示す。 さらに, 2段階のシステムからなる作業物質について, 3つのスキームは, 無限に弱い測定の限界において, 平均的な作業を監視することなくサイクルの予測を再現するが, 強い測定の限界において2点の射影測定結果を再現できるのは2つのスキームのみであることを示す。

We examine the role of diagnostic quantum measurements on the work statistics of a finite-time quantum Otto heat engine operated in the steady-state. We consider three pointer-based measurement schemes that differ in the number of system-pointer interactions and pointer measurements. We show that the coherence of the working substance and the work output of the engine can be controlled by tuning the monitoring measurements. Moreover, for a working substance consisting of a two-level system we show that while all three schemes reproduce the predictions of the cycle without any monitoring for the average work in the limit of infinitely weak measurement, only two of the schemes can reproduce the two-point projective measurement results in the limit of strong measurement.
翻訳日:2023-08-29 18:37:27 公開日:2023-08-26
# 効果的に不均一なフェデレーション学習:ペアリングと分割学習に基づくアプローチ

Effectively Heterogeneous Federated Learning: A Pairing and Split Learning Based Approach ( http://arxiv.org/abs/2308.13849v1 )

ライセンス: Link先を確認
Jinglong Shen, Xiucheng Wang, Nan Cheng, Longfei Ma, Conghao Zhou, Yuan Zhang(参考訳) 将来性のあるパラダイムフェデレートラーニング(FL)は、プライバシ保護機械学習で広く使用されている。これにより、分散デバイスは、クライアント間のデータ転送を回避しながら、モデルを協調的にトレーニングすることができる。 膨大な潜在能力にもかかわらず、flはクライアントの不均一性のためにトレーニング速度のボトルネックに悩まされ、トレーニング遅延の増大とサーバ集約の混乱に繋がる。 この課題に対処するために、異なる計算リソースとクライアントをペアリングする新しい分割フェデレーション学習(SFL)フレームワークが提案され、コンピュータリソースとクライアント間の通信レートに基づいてクライアントをペアリングする一方、ニューラルネットワークモデルは論理レベルで2つの部分に分割され、各クライアントはSLを使用して割り当てられた部分のみを計算し、前方推論と後方トレーニングを実現する。 さらに, 学習遅延の最適化をグラフエッジ選択問題として再構成し, クライアントペアリング問題を効果的に扱うため, ヒューリスティック・グリーディアルゴリズムを提案する。 シミュレーションの結果,提案手法は独立同一分布 (iid) と非iidデータ分布の両方において,flトレーニング速度を著しく向上し,高い性能が得られることがわかった。

As a promising paradigm federated Learning (FL) is widely used in privacy-preserving machine learning, which allows distributed devices to collaboratively train a model while avoiding data transmission among clients. Despite its immense potential, the FL suffers from bottlenecks in training speed due to client heterogeneity, leading to escalated training latency and straggling server aggregation. To deal with this challenge, a novel split federated learning (SFL) framework that pairs clients with different computational resources is proposed, where clients are paired based on computing resources and communication rates among clients, meanwhile the neural network model is split into two parts at the logical level, and each client only computes the part assigned to it by using the SL to achieve forward inference and backward training. Moreover, to effectively deal with the client pairing problem, a heuristic greedy algorithm is proposed by reconstructing the optimization of training latency as a graph edge selection problem. Simulation results show the proposed method can significantly improve the FL training speed and achieve high performance both in independent identical distribution (IID) and Non-IID data distribution.
翻訳日:2023-08-29 18:37:10 公開日:2023-08-26
# 問題型分類による単語問題の解法

Solving Math Word Problem with Problem Type Classification ( http://arxiv.org/abs/2308.13844v1 )

ライセンス: Link先を確認
Jie Yao, Zihao Zhou, Qiufeng Wang(参考訳) 数学語問題(MWP)は、解を導出するためにテキスト記述を分析し、数学的方程式を生成する必要がある。 既存の研究は、木に基づく解法と大規模言語モデル(LLM)の2種類の解法でMWPを解くことに重点を置いている。 しかし、これらの手法は常に単一の解法によりMWPを解くため、次の問題が生じる: 1) 単型解法は全てのMWPをうまく解くのが難しい。 2) 単一解法では,オーバーフィッティングにより性能が低下する。 これらの課題に対処するために,MWP解決能力を向上させるために複数のアンサンブルアプローチを用いる。 まず,木型ソルバとLLMソルバの強度を組み合わせた問題型分類器を提案する。 このアンサンブルアプローチは、それぞれの利点を活用し、解決できるmwpの範囲を広げる。 さらに,木型ソルバとLLMソルバの両方にアンサンブル技術を適用し,性能を向上する。 そこで本研究では,10倍のクロスバリデーションと投票機構に基づくアンサンブル学習フレームワークを提案する。 LLMソルバでは,回答選択を改善するために自己整合性(SC)法を採用する。 実験により,これらのアンサンブルアプローチがMWP解決能力の向上に有効であることを実証した。 包括的評価は,提案手法の利点を検証し,性能の向上を示す。 私たちのコードは、このurlで利用可能です。 https://github.com/zhouzihao501/nlpcc2023-shared-task3- chinesemwp。

Math word problems (MWPs) require analyzing text descriptions and generating mathematical equations to derive solutions. Existing works focus on solving MWPs with two types of solvers: tree-based solver and large language model (LLM) solver. However, these approaches always solve MWPs by a single solver, which will bring the following problems: (1) Single type of solver is hard to solve all types of MWPs well. (2) A single solver will result in poor performance due to over-fitting. To address these challenges, this paper utilizes multiple ensemble approaches to improve MWP-solving ability. Firstly, We propose a problem type classifier that combines the strengths of the tree-based solver and the LLM solver. This ensemble approach leverages their respective advantages and broadens the range of MWPs that can be solved. Furthermore, we also apply ensemble techniques to both tree-based solver and LLM solver to improve their performance. For the tree-based solver, we propose an ensemble learning framework based on ten-fold cross-validation and voting mechanism. In the LLM solver, we adopt self-consistency (SC) method to improve answer selection. Experimental results demonstrate the effectiveness of these ensemble approaches in enhancing MWP-solving ability. The comprehensive evaluation showcases improved performance, validating the advantages of our proposed approach. Our code is available at this url: https://github.com/zhouzihao501/NLPCC2023-Shared-Task3-ChineseMWP.
翻訳日:2023-08-29 18:36:46 公開日:2023-08-26
# Slow-Decaying問題に対する最適輸送インスパイアされたディープラーニングフレームワーク:Sinkhorn LossとWasserstein Kernelの爆発

Optimal Transport-inspired Deep Learning Framework for Slow-Decaying Problems: Exploiting Sinkhorn Loss and Wasserstein Kernel ( http://arxiv.org/abs/2308.13840v1 )

ライセンス: Link先を確認
Moaad Khamlich and Federico Pichi and Gianluigi Rozza(参考訳) 減位モデル(ROM)は、高次元システムに取り組むために科学計算で広く使われている。 しかし、従来のROM法はデータ固有の幾何学的特徴を部分的に捉えているだけである。 これらの特徴は、正確なモデリングに不可欠な構造、関係性、本質的な特徴を包含する。 この制限を克服するために、最適輸送(OT)理論とニューラルネットワークに基づく手法を統合する新しいROMフレームワークを提案する。 具体的には,カスタムカーネルとしてwasserstein距離を利用するkernel proper orthogonal decomposition (kpod)法を調査し,spinhornアルゴリズムを用いてニューラルネットワーク(nn)を効率的に学習する。 OTをベースとした非線形還元を利用して、提案フレームワークは、還元された解多様体の正確な学習に不可欠であるデータの幾何学的構造を捉えることができる。 平均二乗誤差やクロスエントロピーのような従来の指標と比較すると、損失関数がトレーニング中の安定性を高め、過フィッティングやノイズに対する堅牢性が向上し、収束が加速される。 提案手法の有効性を示すため,Kolmogorov n-widthの緩やかな崩壊を示す一連の挑戦的なテストケースの実験を行った。 その結果,従来のROM手法よりも精度と計算効率が優れていた。

Reduced order models (ROMs) are widely used in scientific computing to tackle high-dimensional systems. However, traditional ROM methods may only partially capture the intrinsic geometric characteristics of the data. These characteristics encompass the underlying structure, relationships, and essential features crucial for accurate modeling. To overcome this limitation, we propose a novel ROM framework that integrates optimal transport (OT) theory and neural network-based methods. Specifically, we investigate the Kernel Proper Orthogonal Decomposition (kPOD) method exploiting the Wasserstein distance as the custom kernel, and we efficiently train the resulting neural network (NN) employing the Sinkhorn algorithm. By leveraging an OT-based nonlinear reduction, the presented framework can capture the geometric structure of the data, which is crucial for accurate learning of the reduced solution manifold. When compared with traditional metrics such as mean squared error or cross-entropy, exploiting the Sinkhorn divergence as the loss function enhances stability during training, robustness against overfitting and noise, and accelerates convergence. To showcase the approach's effectiveness, we conduct experiments on a set of challenging test cases exhibiting a slow decay of the Kolmogorov n-width. The results show that our framework outperforms traditional ROM methods in terms of accuracy and computational efficiency.
翻訳日:2023-08-29 18:36:24 公開日:2023-08-26
# 顔画像の神経的暗黙的モーフィング

Neural Implicit Morphing of Face Images ( http://arxiv.org/abs/2308.13888v1 )

ライセンス: Link先を確認
Guilherme Schardong, Tiago Novello, Daniel Perazzo, Hallison Paz, Iurii Medvedev, Luiz Velho, Nuno Gon\c{c}alves(参考訳) フェイスフォーミングはコンピュータグラフィックスにおける基本的な問題の一つであり、多くの芸術的および法医学的応用がある。 ポーズ、ライティング、性別、民族性の違いが原因で、非常に難しい。 一般に、このタスクは特徴アライメントのためのワープと、歪んだ画像間のシームレスな遷移のためのブレンディングで構成される。 本稿では,座標に基づくニューラルネットワークを用いて顔画像の歪みやブレンドを表現することを提案する。 学習中,古典的アプローチで用いられるエネルギー汎関数を離散化せずに組み合わせることで,ネットワークの滑らかさと柔軟性を生かした。 さらに,本手法は時間依存であり,連続的なワープと,対象画像のブレンディングを可能にする。 ウォーピング推論の間、時間依存のウォーピングの直接変換と逆変換の両方が必要である。 第一は対象画像をソースイメージにモーフィングする責任を負い、逆は反対方向のモーフィングに使用される。 私たちのニューラルウォーピングは、その不可逆性のため、それらのマップを単一のネットワークに保存します。 実験の結果,本手法は,顔形態検出アプローチのレンズ下において,古典的およびデータに基づくニューラル技術と競合することが示唆された。 美学的には、結果のイメージは、文学においてまだ普通ではない多様な顔のシームレスなブレンドを示す。

Face morphing is one of the seminal problems in computer graphics, with numerous artistic and forensic applications. It is notoriously challenging due to pose, lighting, gender, and ethnicity variations. Generally, this task consists of a warping for feature alignment and a blending for a seamless transition between the warped images. We propose to leverage coordinate-based neural networks to represent such warpings and blendings of face images. During training, we exploit the smoothness and flexibility of such networks, by combining energy functionals employed in classical approaches without discretizations. Additionally, our method is time-dependent, allowing a continuous warping, and blending of the target images. During warping inference, we need both direct and inverse transformations of the time-dependent warping. The first is responsible for morphing the target image into the source image, while the inverse is used for morphing in the opposite direction. Our neural warping stores those maps in a single network due to its inversible property, dismissing the hard task of inverting them. The results of our experiments indicate that our method is competitive with both classical and data-based neural techniques under the lens of face-morphing detection approaches. Aesthetically, the resulting images present a seamless blending of diverse faces not yet usual in the literature.
翻訳日:2023-08-29 18:28:23 公開日:2023-08-26
# 量子は爆破グラフ上を歩く

Quantum walks on blow-up graphs ( http://arxiv.org/abs/2308.13887v1 )

ライセンス: Link先を確認
Bikash Bhattacharjya, Hermie Monterde, Hiranmoy Pal(参考訳) グラフ $G$ の$n$コピーのブローアップは、$G$ のすべての頂点を独立したサイズの集合 $n$ に置き換えることで得られるグラフ $\overset{n}\uplus~G$ である。 我々の目標は、$\overset{n}\uplus~g$ で表される量子系の時間に依存しないハミルトニアンとして随伴行列を取る、ブローアップグラフ $\overset{n}\uplus~g$ 上の量子状態遷移の存在を調べることである。 特に,爆発グラフにおける頂点の必要十分条件を定め,強いコスペクトル性を示すとともに,周期性,完全状態移動(PST),かなりよい状態移動(PGST)など,様々な種類の高確率量子輸送を示す。 すると、$\overset{n}\uplus~G$ が PST や PGST を許すなら、$n=2.$ でなければならない。さらに、$G$ が可逆な隣接行列を持つなら、$\overset{2}\uplus~G$ のすべての頂点が、強いコスペクタリティを示すために一意の頂点と組むことを示す。 この結果を用いて, pst と pgst をブローアップするグラフの無限族を決定する。

A blow-up of $n$ copies of a graph $G$ is the graph $\overset{n}\uplus~G$ obtained by replacing every vertex of $G$ by an independent set of size $n$, where the copies of vertices in $G$ are adjacent in the blow-up if and only if the vertices adjacent in $G$. Our goal is to investigate the existence of quantum state transfer on a blow-up graph $\overset{n}\uplus~G$, where the adjacency matrix is taken to be the time-independent Hamiltonian of the quantum system represented by $\overset{n}\uplus~G$. In particular, we establish necessary and sufficient conditions for vertices in a blow-up graph to exhibit strong cospectrality and various types of high probability quantum transport, such as periodicity, perfect state transfer (PST) and pretty good state transfer (PGST). It turns out, if $\overset{n}\uplus~G$ admits PST or PGST, then one must have $n=2.$ Moreover, if $G$ has an invertible adjacency matrix, then we show that every vertex in $\overset{2}\uplus~G$ pairs up with a unique vertex to exhibit strong cospectrality. We then apply our results to determine infinite families of graphs whose blow-ups admit PST and PGST.
翻訳日:2023-08-29 18:28:01 公開日:2023-08-26
# refuseg : 精密脳腫瘍セグメンテーションのための正則化マルチモーダル核融合

ReFuSeg: Regularized Multi-Modal Fusion for Precise Brain Tumour Segmentation ( http://arxiv.org/abs/2308.13883v1 )

ライセンス: Link先を確認
Aditya Kasliwal, Sankarshanaa Sagaram, Laven Srivastava, Pratinav Seth, Adil Khan(参考訳) 脳腫瘍のセマンティクスセグメンテーションは、臨床医が患者を診断し、悪性疾患の進行を追跡するのに役立つ医療画像解析の基本的なタスクである。 脳病変の正確なセグメンテーションは、診断と治療計画に不可欠である。 しかし、特定のMRI画像モダリティの取得に失敗すると、アプリケーションが重要な状況で動作することを防ぐことができ、信頼性と全体的な信頼性に対する懸念が高まる。 そこで本研究では,脳のT1,T1c,T2,FLAIR MRIなどの欠損モードの現実シナリオに対して頑健でありながら,4つの異なる画像モダリティからの情報を活用する,脳病変セグメンテーションのための新しいマルチモーダルアプローチを提案する。 提案手法は,データ取得誤り(患者の動作など)や再構成アルゴリズムが解剖学を表現できないことによる,医用画像のアーティファクトによる課題への対処に有効であり,精度のトレードオフを確保できる。 提案する正規化モジュールはこれらのシナリオに対して堅牢であり,病変のセグメンテーションの信頼性を保証する。

Semantic segmentation of brain tumours is a fundamental task in medical image analysis that can help clinicians in diagnosing the patient and tracking the progression of any malignant entities. Accurate segmentation of brain lesions is essential for medical diagnosis and treatment planning. However, failure to acquire specific MRI imaging modalities can prevent applications from operating in critical situations, raising concerns about their reliability and overall trustworthiness. This paper presents a novel multi-modal approach for brain lesion segmentation that leverages information from four distinct imaging modalities while being robust to real-world scenarios of missing modalities, such as T1, T1c, T2, and FLAIR MRI of brains. Our proposed method can help address the challenges posed by artifacts in medical imagery due to data acquisition errors (such as patient motion) or a reconstruction algorithm's inability to represent the anatomy while ensuring a trade-off in accuracy. Our proposed regularization module makes it robust to these scenarios and ensures the reliability of lesion segmentation.
翻訳日:2023-08-29 18:27:26 公開日:2023-08-26
# DiffuseStyleGesture + entry to the GENEA Challenge 2023

The DiffuseStyleGesture+ entry to the GENEA Challenge 2023 ( http://arxiv.org/abs/2308.13879v1 )

ライセンス: Link先を確認
Sicheng Yang, Haiwei Xue, Zhensong Zhang, Minglei Li, Zhiyong Wu, Xiaofei Wu, Songcen Xu, Zonghong Dai(参考訳) 本稿では,対話型ジェスチャ生成のための現実的な自動システムの開発を促進することを目的とした,具体化エージェント(genea)チャレンジ2023における非言語行動の生成と評価のためのソリューションであるdusedomstylegesture+について紹介する。 参加者には事前処理されたデータセットが提供され、システムはクラウドソーシングによるスコア付けによって評価される。 提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。 オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。 これらの多様なモダリティは隠れた空間にマッピングされ、修正拡散モデルによって処理され、与えられた音声入力に対応するジェスチャーを生成する。 diffusionstylegesture+は,課題における上位層モデルと同等の性能を示し,人間の好み,対話者に対する適性,エージェント音声の適性に関する最良モデルとの競合性能などにおいて有意な差は認められなかった。 これは,本モデルが競争的であり,与えられた音声に対して現実的で適切なジェスチャーを生成するのに有効であることを示す。 コード、事前トレーニングされたモデル、デモはhttps://github.com/YoungSeng/DiffuseStyleGesture/tree/DiffuseStyleGesturePlus/BEAT-TWH-mainで公開されている。

In this paper, we introduce the DiffuseStyleGesture+, our solution for the Generation and Evaluation of Non-verbal Behavior for Embodied Agents (GENEA) Challenge 2023, which aims to foster the development of realistic, automated systems for generating conversational gestures. Participants are provided with a pre-processed dataset and their systems are evaluated through crowdsourced scoring. Our proposed model, DiffuseStyleGesture+, leverages a diffusion model to generate gestures automatically. It incorporates a variety of modalities, including audio, text, speaker ID, and seed gestures. These diverse modalities are mapped to a hidden space and processed by a modified diffusion model to produce the corresponding gesture for a given speech input. Upon evaluation, the DiffuseStyleGesture+ demonstrated performance on par with the top-tier models in the challenge, showing no significant differences with those models in human-likeness, appropriateness for the interlocutor, and achieving competitive performance with the best model on appropriateness for agent speech. This indicates that our model is competitive and effective in generating realistic and appropriate gestures for given speech. The code, pre-trained models, and demos are available at https://github.com/YoungSeng/DiffuseStyleGesture/tree/DiffuseStyleGesturePlus/BEAT-TWH-main.
翻訳日:2023-08-29 18:27:05 公開日:2023-08-26
# 微生物生合成の効率と範囲を改善するための機械学習の応用--最先端技術の再検討

Applications of machine Learning to improve the efficiency and range of microbial biosynthesis: a review of state-of-art techniques ( http://arxiv.org/abs/2308.13877v1 )

ライセンス: Link先を確認
Akshay Bhalla, Suraj Rajendran(参考訳) 現代の世界では、テクノロジーが最盛期にある。 データ分析、自動化、ロボティクスなど、プログラミングと技術における様々な道が検討されている。 機械学習は、データ分析を最適化し、正確な予測を行い、既存の機能を急いで改善する鍵となる。 現在、人工知能における機械学習の分野が開発され、様々な分野における機械学習の利用が検討されている。 その利用が際立っている分野は微生物生合成である。 本稿では, 生物合成における異なる機械学習プログラムの概要を概説するとともに, 機械学習と微生物生合成の分野を別々に解説する。 この情報には、過去のトレンド、モダンな開発、将来の改善、プロセスの説明、そして彼らが直面する現在の問題が含まれる。 そこで本稿では,開発を蒸留し,2つの重要な分野とその産業・研究への適用性について総合的な説明を行う。 課題や研究の方向性も強調し、成長する分野におけるさらなる研究と開発を推し進めている。 最後に, 研究を行う研究者, 産業専門家のプロセス改善, 生合成における機械学習概念の理解を目指す学生の参考となることを目的とした。

In the modern world, technology is at its peak. Different avenues in programming and technology have been explored for data analysis, automation, and robotics. Machine learning is key to optimize data analysis, make accurate predictions, and hasten/improve existing functions. Thus, presently, the field of machine learning in artificial intelligence is being developed and its uses in varying fields are being explored. One field in which its uses stand out is that of microbial biosynthesis. In this paper, a comprehensive overview of the differing machine learning programs used in biosynthesis is provided, alongside brief descriptions of the fields of machine learning and microbial biosynthesis separately. This information includes past trends, modern developments, future improvements, explanations of processes, and current problems they face. Thus, this paper's main contribution is to distill developments in, and provide a holistic explanation of, 2 key fields and their applicability to improve industry/research. It also highlights challenges and research directions, acting to instigate more research and development in the growing fields. Finally, the paper aims to act as a reference for academics performing research, industry professionals improving their processes, and students looking to understand the concept of machine learning in biosynthesis.
翻訳日:2023-08-29 18:26:41 公開日:2023-08-26
# 多クラス分類のための神経進化へのクラスバイナリ化

Class Binarization to NeuroEvolution for Multiclass Classification ( http://arxiv.org/abs/2308.13876v1 )

ライセンス: Link先を確認
Gongjin Lan, Zhenyu Gao, Lingyao Tong, Ting Liu(参考訳) マルチクラス分類は、機械学習の基本的で困難なタスクである。 既存の多クラス分類のテクニックは、分類できる。 (i)二分体への分解 (ii)バイナリーからの拡張と (iii)階層分類。 多クラス分類を二分分類器(class binarization)と呼ばれる二分分類器を用いて効率的に解くことのできる一組の二分分類に分解する。 ニューラルネットワークの構造と重みを進化させる汎用的で強力な技術である神経進化は、バイナリ分類に成功している。 本稿では,神経進化アルゴリズムであるneat(neuralevolution of augmenteding topologies)に対して,多クラス分類のためのニューラルネットワークを生成するためのクラスバイナリ化手法を適用する。 マルチクラス分類のための神経進化のクラスバイナライズ戦略を設計するために,誤り訂正出力符号(ECOC)を適用した新しい手法を提案する。 ECOC戦略は、Digit, Satellite, Ecoliの3つのよく知られたデータセット上で、One-vs-OneとOne-vs-Allのクラスバイナライズ戦略と比較される。 本研究では,マルチクラス分類の分解,精度,進化効率,ロバスト性という4つの側面からその性能を分析する。 その結果,ECOCを用いたNEATの精度は低ばらつきで高いことがわかった。 具体的には、柔軟なバイナリ分類器の数と強い堅牢性において大きなメリットがある。

Multiclass classification is a fundamental and challenging task in machine learning. The existing techniques of multiclass classification can be categorized as (i) decomposition into binary (ii) extension from binary and (iii) hierarchical classification. Decomposing multiclass classification into a set of binary classifications that can be efficiently solved by using binary classifiers, called class binarization, which is a popular technique for multiclass classification. Neuroevolution, a general and powerful technique for evolving the structure and weights of neural networks, has been successfully applied to binary classification. In this paper, we apply class binarization techniques to a neuroevolution algorithm, NeuroEvolution of Augmenting Topologies (NEAT), that is used to generate neural networks for multiclass classification. We propose a new method that applies Error-Correcting Output Codes (ECOC) to design the class binarization strategies on the neuroevolution for multiclass classification. The ECOC strategies are compared with the class binarization strategies of One-vs-One and One-vs-All on three well-known datasets Digit, Satellite, and Ecoli. We analyse their performance from four aspects of multiclass classification degradation, accuracy, evolutionary efficiency, and robustness. The results show that the NEAT with ECOC performs high accuracy with low variance. Specifically, it shows significant benefits in a flexible number of binary classifiers and strong robustness.
翻訳日:2023-08-29 18:26:21 公開日:2023-08-26
# 深層学習による視覚に基づく人間のポーズ推定:調査

Vision-Based Human Pose Estimation via Deep Learning: A Survey ( http://arxiv.org/abs/2308.13872v1 )

ライセンス: Link先を確認
Gongjin Lan, Yu Wu, Fei Hu, and Qi Hao(参考訳) 人間のポーズ推定(HPE)は、過去数十年間、コンピュータビジョンコミュニティからかなりの注目を集めてきた。 さらに、HPEは人間とコンピュータの相互作用、スポーツ分析、画像やビデオによる人間の追跡など、さまざまな領域に適用されている。 近年、ディープラーニングベースのアプローチは、HPEベースのアプリケーションで最先端のパフォーマンスを示している。 深層学習に基づくアプローチはhpeで目覚ましい成果を上げてきたが、深層学習に基づくhpe手法の包括的なレビューは文献に乏しいままである。 本稿では、視覚に基づくHPEにおけるディープラーニングのアプローチについて、最新かつ詳細に概説する。 これら2次元および3次元hpeの手法と応用を要約し,書誌学を通しての課題と研究動向を考察し,今後の研究への示唆を与える。 本稿では,初心者の深層学習に基づくHPEへの入門教材としての意味的な概要と,上級研究者のための補足教材について述べる。

Human pose estimation (HPE) has attracted a significant amount of attention from the computer vision community in the past decades. Moreover, HPE has been applied to various domains, such as human-computer interaction, sports analysis, and human tracking via images and videos. Recently, deep learning-based approaches have shown state-of-the-art performance in HPE-based applications. Although deep learning-based approaches have achieved remarkable performance in HPE, a comprehensive review of deep learning-based HPE methods remains lacking in the literature. In this article, we provide an up-to-date and in-depth overview of the deep learning approaches in vision-based HPE. We summarize these methods of 2-D and 3-D HPE, and their applications, discuss the challenges and the research trends through bibliometrics, and provide insightful recommendations for future research. This article provides a meaningful overview as introductory material for beginners to deep learning-based HPE, as well as supplementary material for advanced researchers.
翻訳日:2023-08-29 18:25:59 公開日:2023-08-26
# 異なる注意によるグラフ編集距離学習

Graph Edit Distance Learning via Different Attention ( http://arxiv.org/abs/2308.13871v1 )

ライセンス: Link先を確認
Jiaxi Lv, Liang Zhang, Yi Huang, Jiancheng Huang, Shifeng Chen(参考訳) 近年、グラフ類似性計算問題(GSC)、すなわちグラフ編集距離(GED)を2つのグラフ間で計算するためにグラフニューラルネットワーク(GNN)の使用に注目が集まっている。 これらの手法はGSCをエンドツーエンドで学習可能なタスクとして扱い、アーキテクチャの中核は2つのグラフの特徴と相互作用する機能融合モジュールである。 既存手法では、グラフレベルの埋め込みは2つのグラフ間の局所的な小さな構造の違いを捉えることは困難であり、ノードレベルの埋め込みにおける微細な特徴融合は精度を向上させることができるが、トレーニングと推論フェーズにおける時間とメモリ消費の増大につながる。 しかし,本論文ではグラフレベル融合モジュールの注目度が異なること(diffatt)を提案し,グラフレベルの融合埋め込みがこれらの複雑なノードレベルの融合埋め込みを大幅に上回ることを示した。 2つのグラフの相対差構造がGED値を計算する上で重要な役割を果たしていると仮定する。 この目的のために、DiffAttは2つのグラフレベルの埋め込みの違いを注意機構として使用し、2つのグラフのグラフ構造の違いを捉える。 DiffAtt に基づく新しい GSC 手法である Graph Edit Distance Learning via Different Attention (REDRAFT) が提案され, REDRAFT が5つのベンチマークデータセットの25項目中23項目で最先端のパフォーマンスを達成したことを示す実験結果が得られた。 特にMSEでは、それぞれ19.9%、48.8%、29.1%、31.6%、および2.2%で2位である。 さらに,すべてのグラフレベル融合モジュールのうち,diffatt が生成する融合埋め込みが2つのグラフ間の構造的差異を最善に把握できることを検証するために,定量的テスト残差部分グラフアライメントテスト(resat)を提案する。

Recently, more and more research has focused on using Graph Neural Networks (GNN) to solve the Graph Similarity Computation problem (GSC), i.e., computing the Graph Edit Distance (GED) between two graphs. These methods treat GSC as an end-to-end learnable task, and the core of their architecture is the feature fusion modules to interact with the features of two graphs. Existing methods consider that graph-level embedding is difficult to capture the differences in local small structures between two graphs, and thus perform fine-grained feature fusion on node-level embedding can improve the accuracy, but leads to greater time and memory consumption in the training and inference phases. However, this paper proposes a novel graph-level fusion module Different Attention (DiffAtt), and demonstrates that graph-level fusion embeddings can substantially outperform these complex node-level fusion embeddings. We posit that the relative difference structure of the two graphs plays an important role in calculating their GED values. To this end, DiffAtt uses the difference between two graph-level embeddings as an attentional mechanism to capture the graph structural difference of the two graphs. Based on DiffAtt, a new GSC method, named Graph Edit Distance Learning via Different Attention (REDRAFT), is proposed, and experimental results demonstrate that REDRAFT achieves state-of-the-art performance in 23 out of 25 metrics in five benchmark datasets. Especially on MSE, it respectively outperforms the second best by 19.9%, 48.8%, 29.1%, 31.6%, and 2.2%. Moreover, we propose a quantitative test Remaining Subgraph Alignment Test (RESAT) to verify that among all graph-level fusion modules, the fusion embedding generated by DiffAtt can best capture the structural differences between two graphs.
翻訳日:2023-08-29 18:25:43 公開日:2023-08-26
# 頑健なフィードフォワードニューラルネットワークにおける自然映画の脳様表現的直線化

Brain-like representational straightening of natural movies in robust feedforward neural networks ( http://arxiv.org/abs/2308.13870v1 )

ライセンス: Link先を確認
Tahereh Toosi and Elias B. Issa(参考訳) 表現的直線化(representational straightening)とは、自然映画から取られた一連のフレームの視覚的特徴表現の曲率の低下を指す。 以前の研究は、霊長類一次視覚野(V1)の神経表現においてストレートニングを確立し、人間の行動における知覚的ストレートニングは、この現象が時間的に予測可能な映画表現に明示的に最適化されていないことを示さなかった人工フィードフォワードニューラルネットワークとは対照的に生物学的ビジョンの指標として確立した。 ここでは,入力画像中の雑音に対する頑健さが,フィードフォワードニューラルネットワークにおける表現的ストレート化をもたらすことを示す。 対人訓練(AT)とランダム平滑化(RS)のための基本分類器の両方が、著しく直線化された特徴符号を誘導した。 自然映画の領域内での実用性を実証し、これらの符号は、これらの軌道で訓練されていなくても、特徴空間における線形補間によって干渉する映画フレームを生成するために逆転することができる。 その生物学的有用性を実証し、ATとRSのトレーニングによって、初期視覚野の表現を生成するために、準同型で生体工学的なメカニズム(感覚入力段階のノイズ)を提供するベースラインモデルよりも、霊長類V1の神経データの予測が改善されたことを発見した。 最後に、これらのネットワークにおけるフレーム表現の幾何学的性質を比較して、生物学の直交現象を模倣した表現をいかに生み出したかをよりよく理解した。 全体として、ロバストなニューラルネットワークの創発的特性を明らかにするこの研究は、v1の神経反応を予測する人間の知覚に似た直線化された映画表現をサポートするモデルを実現するために、予測目標や自然映画統計を直接訓練する必要はないことを証明している。

Representational straightening refers to a decrease in curvature of visual feature representations of a sequence of frames taken from natural movies. Prior work established straightening in neural representations of the primate primary visual cortex (V1) and perceptual straightening in human behavior as a hallmark of biological vision in contrast to artificial feedforward neural networks which did not demonstrate this phenomenon as they were not explicitly optimized to produce temporally predictable movie representations. Here, we show robustness to noise in the input image can produce representational straightening in feedforward neural networks. Both adversarial training (AT) and base classifiers for Random Smoothing (RS) induced remarkably straightened feature codes. Demonstrating their utility within the domain of natural movies, these codes could be inverted to generate intervening movie frames by linear interpolation in the feature space even though they were not trained on these trajectories. Demonstrating their biological utility, we found that AT and RS training improved predictions of neural data in primate V1 over baseline models providing a parsimonious, bio-plausible mechanism -- noise in the sensory input stages -- for generating representations in early visual cortex. Finally, we compared the geometric properties of frame representations in these networks to better understand how they produced representations that mimicked the straightening phenomenon from biology. Overall, this work elucidating emergent properties of robust neural networks demonstrates that it is not necessary to utilize predictive objectives or train directly on natural movie statistics to achieve models supporting straightened movie representations similar to human perception that also predict V1 neural responses.
翻訳日:2023-08-29 18:25:08 公開日:2023-08-26
# 非ガウス的アインシュタイン-ポドルスキー-ローゼンステアリングの認証

Certification of non-Gaussian Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2308.13867v1 )

ライセンス: Link先を確認
Mingsheng Tian, Zihang Zou, Da Zhang, David Barral, Kamel Bencheikh, Qiongyi He, Feng-Xiao Sun, and Yu Xiang(参考訳) 非ガウス量子状態は、量子優位性と連続変数系におけるベルの不等式に違反するための既知の資源である。 量子相関の1つの形態として、アインシュタイン=ポドルスキー=ローゼン(EPR)ステアリングは、サブシステムの1つが特徴づけられなくても共有絡みの検証を可能にする。 しかし、そのような効果を非ガウス状態に対して検出し分類する方法はよく理解されていない。 本稿では,高次観測量に基づく効率的な非ガウシアンステアリング基準を示し,非ガウシアンステアリング基準の階層を体系的に検討する。 さらに,実環境下での3つの非ガウシアン状態に対する評価を応用し,特にステアリングパーティにおいて適切な高次二次計測を行うことで,可変サイズの多成分キャット状態を生成するための実現可能なスキームを提案する。 本研究は,非ガウス性と量子相関の基本的な特性を明らかにし,量子情報処理における応用を探究するための新たな知見を提供する。

Non-Gaussian quantum states are a known necessary resource for reaching a quantum advantage and for violating Bell inequalities in continuous variable systems. As one kind of manifestation of quantum correlations, Einstein-Podolsky-Rosen (EPR) steering enables verification of shared entanglement even when one of the subsystems is not characterized. However, how to detect and classify such an effect for non-Gaussian states is far from being well understood. Here, we present an efficient non-Gaussian steering criterion based on the high-order observables and conduct a systematic investigation into the hierarchy of non-Gaussian steering criteria. Moreover, we apply our criterion to three experimentally-relevant non-Gaussian states under realistic conditions and, in particular, propose a feasible scheme to create multi-component cat states with tunable size by performing a suitable high-order quadrature measurement on the steering party. Our work reveals the fundamental characteristics of non-Gaussianity and quantum correlations, and offers new insights to explore their applications in quantum information processing.
翻訳日:2023-08-29 18:24:35 公開日:2023-08-26
# RF型ドローン検出のための2次元ディープネットワークと安全被覆拡大に向けた同定

A Two-Dimensional Deep Network for RF-based Drone Detection and Identification Towards Secure Coverage Extension ( http://arxiv.org/abs/2308.13906v1 )

ライセンス: Link先を確認
Zixiao Zhao, Qinghe Du, Xiang Yao, Lei Lu, and Shijiao Zhang(参考訳) ドローンが人間の生活でますます普及するにつれて、不正アクセスや制御、有人航空機との衝突や干渉といったセキュリティ上の懸念も高まる。 したがって、異なるドローン間で正確に検知および識別できることは、カバレッジ拡張に重要な意味を持つ。 機械学習によって、無線周波数(RF)検出は、サンプルされたドローン信号に基づいて、ドローンのタイプと飛行モードを認識することができる。 本稿では,まず短時間フーリエを利用する。 時間領域情報と周波数領域情報の両方を含む原信号から2次元特徴を抽出する変換(STFT)。 次に,resnet構造を組み込んだ畳み込みニューラルネットワーク(cnn)を用いてマルチクラス分類を行う。 実験の結果,提案したResNet-STFTは,拡張データセット上でより精度が高く,より高速に収束できることがわかった。 さらに、生データセット上の他のベースラインと比較して、バランスの取れたパフォーマンスを示す。

As drones become increasingly prevalent in human life, they also raises security concerns such as unauthorized access and control, as well as collisions and interference with manned aircraft. Therefore, ensuring the ability to accurately detect and identify between different drones holds significant implications for coverage extension. Assisted by machine learning, radio frequency (RF) detection can recognize the type and flight mode of drones based on the sampled drone signals. In this paper, we first utilize Short-Time Fourier. Transform (STFT) to extract two-dimensional features from the raw signals, which contain both time-domain and frequency-domain information. Then, we employ a Convolutional Neural Network (CNN) built with ResNet structure to achieve multi-class classifications. Our experimental results show that the proposed ResNet-STFT can achieve higher accuracy and faster convergence on the extended dataset. Additionally, it exhibits balanced performance compared to other baselines on the raw dataset.
翻訳日:2023-08-29 18:18:55 公開日:2023-08-26
# lmsanitator:タスクに依存しないバックドアに対するプロンプトチューニングの防御

LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors ( http://arxiv.org/abs/2308.13904v1 )

ライセンス: Link先を確認
Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao, Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen(参考訳) ダウンストリームのタスクパフォーマンスと効率的なマルチタスクサービス能力のため、プロンプトチューニングは大規模な言語モデルをデプロイするための魅力的なパラダイムとして登場した。 広く採用されているにも関わらず、プロンプトチューニングは、事前トレーニングされたモデルに存在し、任意のダウンストリームタスクに影響を及ぼすダウンストリームタスク非依存のバックドアに対して脆弱であることを実証的に示す。 最先端のバックドア検出アプローチは、バックドアのトリガーの反転にほとんど収束しないため、タスク非依存のバックドアに対して防御できない。 そこで本研究では,Transformer モデル上でタスクに依存しないバックドアの検出と除去を行う LMSanitator を提案する。 LMSanitatorは、トリガーを直接逆転するのではなく、タスク非依存のバックドアの事前定義された攻撃ベクトル(入力にトリガーが埋め込まれた場合の予測モデルの出力)を逆転させることを目的としており、より優れた収束性能とバックドア検出精度を実現する。 LMSanitatorはさらに、事前訓練されたモデルを凍結する迅速なチューニング特性を活用して、推論フェーズ中に正確で高速な出力監視と入力浄化を行う。 複数の言語モデルとNLPタスクに関する大規模な実験は、LMSanitatorの有効性を示している。 例えば、LMSanitatorは960モデルで92.8%のバックドア検出精度を実現し、ほとんどのシナリオで攻撃成功率を1%未満に下げる。

Prompt-tuning has emerged as an attractive paradigm for deploying large-scale language models due to its strong downstream task performance and efficient multitask serving ability. Despite its wide adoption, we empirically show that prompt-tuning is vulnerable to downstream task-agnostic backdoors, which reside in the pretrained models and can affect arbitrary downstream tasks. The state-of-the-art backdoor detection approaches cannot defend against task-agnostic backdoors since they hardly converge in reversing the backdoor triggers. To address this issue, we propose LMSanitator, a novel approach for detecting and removing task-agnostic backdoors on Transformer models. Instead of directly inversing the triggers, LMSanitator aims to inverse the predefined attack vectors (pretrained models' output when the input is embedded with triggers) of the task-agnostic backdoors, which achieves much better convergence performance and backdoor detection accuracy. LMSanitator further leverages prompt-tuning's property of freezing the pretrained model to perform accurate and fast output monitoring and input purging during the inference phase. Extensive experiments on multiple language models and NLP tasks illustrate the effectiveness of LMSanitator. For instance, LMSanitator achieves 92.8% backdoor detection accuracy on 960 models and decreases the attack success rate to less than 1% in most scenarios.
翻訳日:2023-08-29 18:18:39 公開日:2023-08-26
# 3次元顔再建のための不連続なポーズと形状

Disjoint Pose and Shape for 3D Face Reconstruction ( http://arxiv.org/abs/2308.13903v1 )

ライセンス: Link先を確認
Raja Kumar, Jiahao Luo, Alex Pang, James Davis(参考訳) カジュアルにキャプチャされた数枚の画像から既存の3次元顔再構成法では、深層学習モデルと3次元形態モデル(3DMM)を顔幾何学として採用している。 structure from motion(sfm)、続いてmulti-view stereo(mvs)は、数十枚の高解像度画像を使用して正確な3d顔の再現を行うが、2つのビューしか利用できないノイズと伸縮結果を生成する。 本稿では,これら2つの手法から着想を得て,姿勢と形状を不一致に解き,最適化を安定かつ精度良く行うエンドツーエンドパイプラインを提案する。 顔のポーズを推定するために顔の形状を使用し、ステレオマッチングを行い、3DMMを用いて形状を解決する。 提案手法は, エンドツーエンドのトポロジ的整合性を実現し, 反復的な顔ポーズ改善処理を可能にし, 既存の最先端手法よりも定量的および定性的な結果に顕著な改善をもたらす。

Existing methods for 3D face reconstruction from a few casually captured images employ deep learning based models along with a 3D Morphable Model(3DMM) as face geometry prior. Structure From Motion(SFM), followed by Multi-View Stereo (MVS), on the other hand, uses dozens of high-resolution images to reconstruct accurate 3D faces.However, it produces noisy and stretched-out results with only two views available. In this paper, taking inspiration from both these methods, we propose an end-to-end pipeline that disjointly solves for pose and shape to make the optimization stable and accurate. We use a face shape prior to estimate face pose and use stereo matching followed by a 3DMM to solve for the shape. The proposed method achieves end-to-end topological consistency, enables iterative face pose refinement procedure, and show remarkable improvement on both quantitative and qualitative results over existing state-of-the-art methods.
翻訳日:2023-08-29 18:18:11 公開日:2023-08-26
# Marginal Contextual Information を用いた半教師付きセマンティックセマンティックセグメンテーション

Semi-Supervised Semantic Segmentation via Marginal Contextual Information ( http://arxiv.org/abs/2308.13900v1 )

ライセンス: Link先を確認
Moshe Kimhi, Shai Kimhi, Evgenii Zheltonozhskii, Or Litany, Chaim Baskin(参考訳) 半教師付きセマンティックセグメンテーションにおける擬似ラベルを強化する新しい信頼度向上手法を提案する。 本手法では, 近傍の画素をグループ化し, 擬似ラベルをまとめて考えることにより, セグメンテーションマップ内のラベルの空間的相関を利用する。 この文脈情報により,本手法はs4mcと名付けられ,疑似ラベルの品質を維持しながらトレーニング中に使用するラベルなしデータ量を増加させる。 標準ベンチマークに関する広範な実験を通じて、S4MCは既存の最先端の半教師付き学習手法よりも優れており、高密度アノテーションの取得コストを削減できる有望なソリューションを提供する。 例えば、S4MCは366の注釈付き画像を持つPASCAL VOC 12の先行技術よりも1.29mIoUの改善を実現している。 実験を再現するコードはhttps://s4mcontext.github.io/で利用可能です。

We present a novel confidence refinement scheme that enhances pseudo-labels in semi-supervised semantic segmentation. Unlike current leading methods, which filter pixels with low-confidence predictions in isolation, our approach leverages the spatial correlation of labels in segmentation maps by grouping neighboring pixels and considering their pseudo-labels collectively. With this contextual information, our method, named S4MC, increases the amount of unlabeled data used during training while maintaining the quality of the pseudo-labels, all with negligible computational overhead. Through extensive experiments on standard benchmarks, we demonstrate that S4MC outperforms existing state-of-the-art semi-supervised learning approaches, offering a promising solution for reducing the cost of acquiring dense annotations. For example, S4MC achieves a 1.29 mIoU improvement over the prior state-of-the-art method on PASCAL VOC 12 with 366 annotated images. The code to reproduce our experiments is available at https://s4mcontext.github.io/
翻訳日:2023-08-29 18:17:52 公開日:2023-08-26
# 反復グラフ最適化を用いた複雑なWiredネットワークのメモリアウェアスケジューリング

Memory-aware Scheduling for Complex Wired Networks with Iterative Graph Optimization ( http://arxiv.org/abs/2308.13898v1 )

ライセンス: Link先を確認
Shuzhang Zhong, Meng Li, Yun Liang, Runsheng Wang, Ru Huang(参考訳) リソース制約のあるデバイス上でのディープニューラルネットワーク(DNN)推論では、メモリ対応ネットワークスケジューリングがますます重要になっている。 しかし、複雑なセルレベルとネットワークレベルのトポロジのため、メモリアウェアスケジューリングは非常に困難である。 従来のアルゴリズムはすべてスケーラビリティの低下に悩まされていたが,本論文では反復計算グラフ最適化に基づく効率的なメモリ認識スケジューリングフレームワークを提案する。 本フレームワークは,スケジューリングの最適性を維持しつつ計算グラフを単純化する反復グラフ融合アルゴリズムを特徴とする。 さらに,合成グラフを効率的にスケジュールするために,トポロジ対応変数プルーニングとともに整数線形計画法を提案する。 提案手法は,様々なネットワーク上の先行技術アルゴリズムに対して評価を行い,既存の手法を全ベンチマークで上回り,最大メモリフットプリントを13.4%削減し,複雑なネットワークレベルトポロジを持つネットワークのスケーラビリティ向上を実証する。

Memory-aware network scheduling is becoming increasingly important for deep neural network (DNN) inference on resource-constrained devices. However, due to the complex cell-level and network-level topologies, memory-aware scheduling becomes very challenging. While previous algorithms all suffer from poor scalability, in this paper, we propose an efficient memory-aware scheduling framework based on iterative computation graph optimization. Our framework features an iterative graph fusion algorithm that simplifies the computation graph while preserving the scheduling optimality. We further propose an integer linear programming formulation together with topology-aware variable pruning to schedule the simplified graph efficiently. We evaluate our method against prior-art algorithms on different networks and demonstrate that our method outperforms existing techniques in all the benchmarks, reducing the peak memory footprint by 13.4%, and achieving better scalability for networks with complex network-level topologies.
翻訳日:2023-08-29 18:17:34 公開日:2023-08-26
# InsertNeRF: HyperNetモジュールによるNeRFへの一般化可能性の注入

InsertNeRF: Instilling Generalizability into NeRF with HyperNet Modules ( http://arxiv.org/abs/2308.13897v1 )

ライセンス: Link先を確認
Yanqi Bao, Tianyu Ding, Jing Huo, Wenbin Li, Yuxin Li and Yang Gao(参考訳) NeRF(Neural Radiance Fields)を新しいシーンに一般化することは、既存のアプローチがバニラのNeRFフレームワークに広範な変更を加えることなく対処する上で、大きな課題である。 汎用性をnrfに注入する方法であるinsertnerfを紹介する。 複数のプラグアンドプレイHyperNetモジュールを利用することで、InsertNeRFはNeRFの重みを特定の参照シーンに動的に調整し、マルチスケールのサンプリングアウェア機能をシーン固有の表現に変換する。 この新しい設計により、複雑な外観や幾何学をより正確かつ効率的に表現することができる。 実験により, この手法はより優れた一般化性能を実現するだけでなく, スパース入力設定においても他のNeRF系システムと統合するための柔軟な経路を提供することが示された。 コードはhttps://github.com/bbbbby-99/InsertNeRFで入手できる。

Generalizing Neural Radiance Fields (NeRF) to new scenes is a significant challenge that existing approaches struggle to address without extensive modifications to vanilla NeRF framework. We introduce InsertNeRF, a method for INStilling gEneRalizabiliTy into NeRF. By utilizing multiple plug-and-play HyperNet modules, InsertNeRF dynamically tailors NeRF's weights to specific reference scenes, transforming multi-scale sampling-aware features into scene-specific representations. This novel design allows for more accurate and efficient representations of complex appearances and geometries. Experiments show that this method not only achieves superior generalization performance but also provides a flexible pathway for integration with other NeRF-like systems, even in sparse input settings. Code will be available https://github.com/bbbbby-99/InsertNeRF.
翻訳日:2023-08-29 18:17:18 公開日:2023-08-26
# モバイルデバイスにおける数十億もの言語モデルのファインタニング

Federated Fine-tuning of Billion-Sized Language Models across Mobile Devices ( http://arxiv.org/abs/2308.13894v1 )

ライセンス: Link先を確認
Mengwei Xu, Yaozong Wu, Dongqi Cai, Xiang Li, Shangguang Wang(参考訳) 大規模言語モデル(llm)は、モバイルインテリジェンスの展望を変えつつある。 ユーザデータのプライバシを保存するためのFederated Learning(FL)は、モバイルタスクをダウンストリームする微調整のLLM(FedLLM)によく使用される。 近年,大規模なモデルサイズによって引き起こされるネットワーク問題に対処してきたが,メモリ消費の大幅な増加やモデル収束の鈍化など,モバイルデバイスとの統合に関する重要な課題は実質的に緩和されていない。 これらの課題に対応するために、FwdLLMはFedLLM効率を高めるために設計された革新的なFLプロトコルである。 FwdLLMのキーとなるアイデアは、バックプロパゲーション(BP)なしのトレーニングメソッドを採用することであり、デバイスは ``perturbed inferences''' を実行するだけでよい。 その結果、FwdLLMはより優れたメモリ効率と時間効率を提供する(モバイルNPUと拡張された多数の参加者デバイスによる)。 fwdllmは,(1)bpフリーなトレーニングとパラメータ効率のよいトレーニング手法を組み合わせることで,llm時代のアプローチをスケールアップする上で不可欠な方法である。(2)デバイス間で計算負荷を体系的かつ適応的に割り当て,収束速度と精度の微妙なバランスをとる。(3)モデル収束においてより価値のある摂動予測を識別的にサンプリングする。 5つのLCMと3つのNLPタスクによる総合的な実験は、FwdLLMの最大3桁の高速収束と14.6倍のメモリフットプリントの削減を含む従来の方法に対する大きな利点を示している。 同様に、FwdLLMは、COTSモバイルデバイス上のLLaMAのような10億パラメータのLLMの連合学習の道を開いた。

Large Language Models (LLMs) are transforming the landscape of mobile intelligence. Federated Learning (FL), a method to preserve user data privacy, is often employed in fine-tuning LLMs to downstream mobile tasks, an approach known as FedLLM. Though recent efforts have addressed the network issue induced by the vast model size, they have not practically mitigated vital challenges concerning integration with mobile devices, such as significant memory consumption and sluggish model convergence. In response to these challenges, this work introduces FwdLLM, an innovative FL protocol designed to enhance the FedLLM efficiency. The key idea of FwdLLM to employ backpropagation (BP)-free training methods, requiring devices only to execute ``perturbed inferences''. Consequently, FwdLLM delivers way better memory efficiency and time efficiency (expedited by mobile NPUs and an expanded array of participant devices). FwdLLM centers around three key designs: (1) it combines BP-free training with parameter-efficient training methods, an essential way to scale the approach to the LLM era; (2) it systematically and adaptively allocates computational loads across devices, striking a careful balance between convergence speed and accuracy; (3) it discriminatively samples perturbed predictions that are more valuable to model convergence. Comprehensive experiments with five LLMs and three NLP tasks illustrate FwdLLM's significant advantages over conventional methods, including up to three orders of magnitude faster convergence and a 14.6x reduction in memory footprint. Uniquely, FwdLLM paves the way for federated learning of billion-parameter LLMs such as LLaMA on COTS mobile devices -- a feat previously unattained.
翻訳日:2023-08-29 18:17:02 公開日:2023-08-26
# ドメイン適応拡散による教師なしドメイン適応

Unsupervised Domain Adaptation via Domain-Adaptive Diffusion ( http://arxiv.org/abs/2308.13893v1 )

ライセンス: Link先を確認
Duo Peng, Qiuhong Ke, Yinjie Lei, Jun Liu(参考訳) 非教師付きドメイン適応(UDA)は、ソースドメインとターゲットドメインの間に大きな分散不一致があるため、非常に難しい。 大規模なギャップをまたいでデータ分散を段階的に変換する能力を持つ拡散モデルに着想を得て,その課題に対処するための拡散手法を検討する。 しかし、拡散モデルを用いて異なる領域にまたがるデータ分布を変換することは自明な問題であり、標準拡散モデルは特定の領域分布からではなくガウス分布から変換する。 さらに、変換の間は、ソースドメインデータのセマンティクスをターゲットドメインの分類のために保存する必要があります。 そこで本稿では,これらの問題に対処するために,相互学習戦略(mls)を伴う新しいドメイン適応拡散(dad)モジュールを提案する。 その結果,大規模領域ギャップを小さな領域に分解することでUDAの課題を解消し,段階的に分類モデルの能力を高め,最終的に対象領域に適応する。 提案手法は, 広く使用されている3つのUDAデータセットに対して, 現在の最先端技術よりも大きなマージンを達成している。

Unsupervised Domain Adaptation (UDA) is quite challenging due to the large distribution discrepancy between the source domain and the target domain. Inspired by diffusion models which have strong capability to gradually convert data distributions across a large gap, we consider to explore the diffusion technique to handle the challenging UDA task. However, using diffusion models to convert data distribution across different domains is a non-trivial problem as the standard diffusion models generally perform conversion from the Gaussian distribution instead of from a specific domain distribution. Besides, during the conversion, the semantics of the source-domain data needs to be preserved for classification in the target domain. To tackle these problems, we propose a novel Domain-Adaptive Diffusion (DAD) module accompanied by a Mutual Learning Strategy (MLS), which can gradually convert data distribution from the source domain to the target domain while enabling the classification model to learn along the domain transition process. Consequently, our method successfully eases the challenge of UDA by decomposing the large domain gap into small ones and gradually enhancing the capacity of classification model to finally adapt to the target domain. Our method outperforms the current state-of-the-arts by a large margin on three widely used UDA datasets.
翻訳日:2023-08-29 18:16:30 公開日:2023-08-26
# RGB-Dシアター画像におけるブラインドと視覚障害に対するリアルタイムエゴセントリックセグメンテーション

Towards Real Time Egocentric Segment Captioning for The Blind and Visually Impaired in RGB-D Theatre Images ( http://arxiv.org/abs/2308.13892v1 )

ライセンス: Link先を確認
Khadidja Delloul, Slimane Larabi(参考訳) 近年、画像キャプションやセグメンテーションがコンピュータビジョンの重要なタスクとして登場し、自動運転からコンテンツ分析まで応用されている。 視覚障害者が自分の環境を動き回るのを助けるために、複数のソリューションが登場したが、テキストを通じて心の中のシーンを理解して再構築するアプリケーションはほとんどない。 構築されたほとんどのモデルは、ユーザが障害を移動したり回避したりすることに集中しており、視覚障害者のいる環境の数を制限する。 本稿では,画像キャプションを用いた環境理解を支援する手法を提案する。 本研究の特長は, ts-rgbdデータセットに解法を適用し, 演劇作品へのアクセスを目的としながら, それらに関する領域や対象の位置(左, 右, 前方), および地域間の位置関係について記述することである。

In recent years, image captioning and segmentation have emerged as crucial tasks in computer vision, with applications ranging from autonomous driving to content analysis. Although multiple solutions have emerged to help blind and visually impaired people move around their environment, few are applications that help them understand and rebuild a scene in their minds through text. Most built models focus on helping users move and avoid obstacles, restricting the number of environments blind and visually impaired people can be in. In this paper, we will propose an approach that helps them understand their surroundings using image captioning. The particularity of our research is that we offer them descriptions with positions of regions and objects regarding them (left, right, front), as well as positional relationships between regions, while we aim to give them access to theatre plays by applying the solution to our TS-RGBD dataset.
翻訳日:2023-08-29 18:16:09 公開日:2023-08-26
# 薬物相互作用ベクトルニューラルネットワーク:DrIVeNN

Drug Interaction Vectors Neural Network: DrIVeNN ( http://arxiv.org/abs/2308.13891v1 )

ライセンス: Link先を確認
Natalie Wang, Casey Overby Taylor(参考訳) 多発性薬局 (poly Pharmacy) は、複数の疾患または複雑な疾患を管理する患者に一般的である。 しかし、治療計画により多くの薬が加えられるにつれて、副作用(ades)のリスクが急速に高まる。 ポリファーマシーに関連する多くの重篤なADEは、薬物の使用後にのみ知られるようになる。 臨床試験中に可能なすべての薬物の組み合わせをテストするのは非現実的です。 特に高齢者の心血管疾患(CVD)では多剤療法やADEが一般的である。 本研究の主な目的は,多剤乱用モデルの構築と評価を行うための重要な薬剤の特徴を明らかにすることである。 我々の二次目的は、ドメイン固有のケーススタディに基づいてモデルを評価することである。 分子構造,薬物-タンパク質相互作用,モノドラッグ副作用などの薬物特性を組み込んだ2層ニューラルネットワーク(DrIVeNN)を開発した。 提案手法は,DrIVeNNを一般用サイドエフェクトデータベースを用いて評価し,最も有効な特徴選択法として,分散閾値0.95で主成分分析(PCA)を決定した。 DrIVeNNは、薬物と薬物の相互作用予測タスクのAUROCの観点から、RESCAL、DEDICOM、DeepWalk、Decagon、DeepDDI、KGDDI、KGNNといった最先端モデルよりも適度にパフォーマンスが向上した。 また,心血管疾患(CVD)の治療を中心に,ドメイン特異的な症例スタディも行った。 CVD処理コホートに最高の性能モデルアーキテクチャを適用した場合,一般モデルによる性能向上は顕著であった。 CVD 薬物対予測における平均 AUROC は 0.826 (一般モデル) から 0.975 (CVD 特異的モデル) に増加した。 薬物と薬物の相互作用予測の精度を向上させるためのドメイン固有モデルの有用性が示唆された。

Polypharmacy, the concurrent use of multiple drugs to treat a single condition, is common in patients managing multiple or complex conditions. However, as more drugs are added to the treatment plan, the risk of adverse drug events (ADEs) rises rapidly. Many serious ADEs associated with polypharmacy only become known after the drugs are in use. It is impractical to test every possible drug combination during clinical trials. This issue is particularly prevalent among older adults with cardiovascular disease (CVD) where polypharmacy and ADEs are commonly observed. In this research, our primary objective was to identify key drug features to build and evaluate a model for modeling polypharmacy ADEs. Our secondary objective was to assess our model on a domain-specific case study. We developed a two-layer neural network that incorporated drug features such as molecular structure, drug-protein interactions, and mono drug side effects (DrIVeNN). We assessed DrIVeNN using publicly available side effect databases and determined Principal Component Analysis (PCA) with a variance threshold of 0.95 as the most effective feature selection method. DrIVeNN performed moderately better than state-of-the-art models like RESCAL, DEDICOM, DeepWalk, Decagon, DeepDDI, KGDDI, and KGNN in terms of AUROC for the drug-drug interaction prediction task. We also conducted a domain-specific case study centered on the treatment of cardiovascular disease (CVD). When the best performing model architecture was applied to the CVD treatment cohort, there was a significant increase in performance from the general model. We observed an average AUROC for CVD drug pair prediction increasing from 0.826 (general model) to 0.975 (CVD specific model). Our findings indicate the strong potential of domain-specific models for improving the accuracy of drug-drug interaction predictions.
翻訳日:2023-08-29 18:15:51 公開日:2023-08-26
# 声道動態の超音波画像解析のための小語彙データベース

A small vocabulary database of ultrasound image sequences of vocal tract dynamics ( http://arxiv.org/abs/2308.13941v1 )

ライセンス: Link先を確認
Margareth Castillo, Felipe Rubio, Dagoberto Porras, Sonia H. Contreras-Ortiz, Alexander Sep\'ulveda(参考訳) 本稿では,音声データと調音データを組み合わせた新しいデータベースを提案する。 調音データは声道動態の超音波映像に対応しており,音声生成過程における舌上輪郭の可視化が可能である。 音響データは30の短い文からなり、指向性cardioidマイクロホンによって取得される。 このデータベースには、コロンビアのサンタンデール地域の17人の若年者(男性8人、女性9人)のデータが含まれている。

This paper presents a new database consisting of concurrent articulatory and acoustic speech data. The articulatory data correspond to ultrasound videos of the vocal tract dynamics, which allow the visualization of the tongue upper contour during the speech production process. Acoustic data is composed of 30 short sentences that were acquired by a directional cardioid microphone. This database includes data from 17 young subjects (8 male and 9 female) from the Santander region in Colombia, who reported not having any speech pathology.
翻訳日:2023-08-29 18:06:34 公開日:2023-08-26
# 逐次シミュレーションに基づく推論へのトランスポートアプローチ

A transport approach to sequential simulation-based inference ( http://arxiv.org/abs/2308.13940v1 )

ライセンス: Link先を確認
Paul-Baptiste Rubio and Youssef Marzouk and Matthew Parno(参考訳) 静的モデルパラメータの逐次ベイズ推定を効率的に行うためのトランスポートベース手法を提案する。 この戦略は、構造化された(ブロック三角形の)輸送写像の推定を通じて、パラメータとデータの合同分布から条件分布を抽出することに基づいている。 これにより、確率関数とその勾配に対する明示的な代理モデルが得られる。 これにより、モデルのないオンラインフェーズにおける輸送マップによる後部密度の勾配に基づく特徴付けが可能になる。 このフレームワークは、ニュアンスパラメータを含む複雑なノイズモデルや、フォワードモデルがブラックボックスとしてのみ知られている場合のパラメータ推定に適している。 本手法の数値的応用は, 導電率測定による氷厚のキャラクタリゼーションの文脈で行った。

We present a new transport-based approach to efficiently perform sequential Bayesian inference of static model parameters. The strategy is based on the extraction of conditional distribution from the joint distribution of parameters and data, via the estimation of structured (e.g., block triangular) transport maps. This gives explicit surrogate models for the likelihood functions and their gradients. This allow gradient-based characterizations of posterior density via transport maps in a model-free, online phase. This framework is well suited for parameter estimation in case of complex noise models including nuisance parameters and when the forward model is only known as a black box. The numerical application of this method is performed in the context of characterization of ice thickness with conductivity measurements.
翻訳日:2023-08-29 18:06:26 公開日:2023-08-26
# ラーズリンクとSIC_POVM

Lars Brink and SIC_POVMs ( http://arxiv.org/abs/2308.13935v1 )

ライセンス: Link先を確認
Ingemar Bengtsson(参考訳) sic-povmsの概念は量子情報理論から来ており、私が80年代初頭にlars brinkの学生であった時、それらは地平線に立たなかった。 2022年の夏、私はラーズに、次元$n^2+3$のヒルベルト空間において SIC-POVM を構築するために数理論的な洞察を使う方法を知っている、そして、この構成は、深い数理論の予想に対して幾何的な設定を提供する、と言った。 私はこの開発について、ラーズの学生がどんな感じだったか、そして我々の建設に対する彼の反応についてスケッチします。

The notion of SIC-POVMs comes from quantum information theory, and they were not on the horizon when I was Lars Brink's student in the early 80s. In the summer of 2022 I told Lars that I know how to use number theoretical insights to construct SIC-POVMs in any Hilbert space of dimension $n^2+3$, and that the construction provides a geometric setting for some deep number theoretical conjectures. I will give a sketch of this development, of what it was like to be Lars' student, and of what his reaction to our construction was.
翻訳日:2023-08-29 18:06:15 公開日:2023-08-26
# ランダム量子回路を用いたランダム投影

Random Projection using Random Quantum Circuits ( http://arxiv.org/abs/2308.13919v1 )

ライセンス: Link先を確認
Keerthi Kumaran, Manas Sajjan, Sangchul Oh, Sabre Kais(参考訳) googleのsycamoreプロセッサによるランダムサンプリングタスクは、"quantum supremacy era"を垣間見せてくれた。 このことは、(擬似)ランダム回路からの出力をサンプリングするこの抽象的なタスクにおいて、ランダム量子回路のパワーにいくつかの注目を向けている。 本稿では,大規模低ランクデータセットの次元縮小における局所ランダム量子回路の短期的利用について検討する。 ランダム射影法という,十分に研究された次元性低減手法を応用した。 この方法は、画像処理、ロジスティック回帰、低ランク行列のエントロピー計算など、様々な用途で広く利用されている。 我々は、十分に短い深さ (\sim o(n)$) の局所ランダム量子回路の行列表現が、ランダム射影のよい候補となることを証明している。 我々は,MNISTおよびCIFAR-100画像データセットにおける計算コストの高い古典的主成分分析から,その射影能力がそれほど遠くないことを示す。 また、画像データセットの次元性低減や、大きな低ランク密度行列のノイマンエントロピーの計算において、一般的な古典的ランダム射影に対する量子ランダム射影の性能をベンチマークする。 そして最後に、変分量子特異値分解を用いて、大きな低ランク行列を低次元に投影した量子ランダムの後、支配的な特異値を持つ特異ベクトルを抽出する短期的な実装を示す。 このような数値実験はすべて、局所ランダム回路が、縮小次元における大きなデータセットの性質の頑健な保持を伴う十分短い深さで大きなヒルベルト空間をランダム化する能力を示す。

The random sampling task performed by Google's Sycamore processor gave us a glimpse of the "Quantum Supremacy era". This has definitely shed some spotlight on the power of random quantum circuits in this abstract task of sampling outputs from the (pseudo-) random circuits. In this manuscript, we explore a practical near-term use of local random quantum circuits in dimensional reduction of large low-rank data sets. We make use of the well-studied dimensionality reduction technique called the random projection method. This method has been extensively used in various applications such as image processing, logistic regression, entropy computation of low-rank matrices, etc. We prove that the matrix representations of local random quantum circuits with sufficiently shorter depths ($\sim O(n)$) serve as good candidates for random projection. We demonstrate numerically that their projection abilities are not far off from the computationally expensive classical principal components analysis on MNIST and CIFAR-100 image data sets. We also benchmark the performance of quantum random projection against the commonly used classical random projection in the tasks of dimensionality reduction of image datasets and computing Von Neumann entropies of large low-rank density matrices. And finally using variational quantum singular value decomposition, we demonstrate a near-term implementation of extracting the singular vectors with dominant singular values after quantum random projecting a large low-rank matrix to lower dimensions. All such numerical experiments unequivocally demonstrate the ability of local random circuits to randomize a large Hilbert space at sufficiently shorter depths with robust retention of properties of large datasets in reduced dimensions.
翻訳日:2023-08-29 18:06:02 公開日:2023-08-26
# CS-UNetを用いた組織分割のためのトランスファー学習:トランスフォーマとCNNエンコーダを用いたハイブリッドアルゴリズム

Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid Algorithm with Transformer and CNN Encoders ( http://arxiv.org/abs/2308.13917v1 )

ライセンス: Link先を確認
Khaled Alrfou, Tian Zhao, Amir Kordijazi(参考訳) 転送学習は、大きなデータセットで事前トレーニングされたパラメータを初期化することで、ディープラーニングモデルのパフォーマンスを向上させる。 直感的には、ドメイン内データセットで事前トレーニングを行う場合、転送学習の方が効果的である。 NASAによる最近の研究では、エンコーダ-デコーダアルゴリズムによるマイクロ構造セグメンテーションは、顕微鏡画像で事前訓練されたマイクロコンダよりも、CNNエンコーダから恩恵を受けていることが示されている。 しかし、cnnモデルは画像内の局所的な空間関係のみを捉えている。 近年,トランスフォーマーなどの注目ネットワークが画像解析に利用され,画素間の長距離関係を捉えている。 本研究では,顕微鏡画像で事前学習したトランスフォーマおよびcnnモデルのセグメンテーション性能と,自然画像で事前学習したモデルとの比較を行った。 その結果, 顕微鏡画像の事前トレーニングにおいて, 分布外画像(異なる撮像条件および試料条件下での撮影)の分画性能が著しく向上することを確認した。 しかし、Transformersでは、ワンショットと少数ショットの学習のパフォーマンス向上は控えめである。 また,画像セグメンテーションでは,プリトレーニングトランスフォーマとcnnエンコーダの組み合わせが,プリトレーニングcnnエンコーダ単独よりも一貫して優れていることがわかった。 私たちのデータセット(約5万枚の画像)は、NASAデータセットの公開部分と、収集した追加画像を組み合わせています。 トレーニングデータが少なくても、トレーニング済みのモデルでは、画像セグメンテーションのパフォーマンスが大幅に向上します。 この結果は、TransformerとCNNが相互に補完し、顕微鏡画像で事前学習すると、下流のタスクに対してより有益であることを示している。

Transfer learning improves the performance of deep learning models by initializing them with parameters pre-trained on larger datasets. Intuitively, transfer learning is more effective when pre-training is on the in-domain datasets. A recent study by NASA has demonstrated that the microstructure segmentation with encoder-decoder algorithms benefits more from CNN encoders pre-trained on microscopy images than from those pre-trained on natural images. However, CNN models only capture the local spatial relations in images. In recent years, attention networks such as Transformers are increasingly used in image analysis to capture the long-range relations between pixels. In this study, we compare the segmentation performance of Transformer and CNN models pre-trained on microscopy images with those pre-trained on natural images. Our result partially confirms the NASA study that the segmentation performance of out-of-distribution images (taken under different imaging and sample conditions) is significantly improved when pre-training on microscopy images. However, the performance gain for one-shot and few-shot learning is more modest with Transformers. We also find that for image segmentation, the combination of pre-trained Transformers and CNN encoders are consistently better than pre-trained CNN encoders alone. Our dataset (of about 50,000 images) combines the public portion of the NASA dataset with additional images we collected. Even with much less training data, our pre-trained models have significantly better performance for image segmentation. This result suggests that Transformers and CNN complement each other and when pre-trained on microscopy images, they are more beneficial to the downstream tasks.
翻訳日:2023-08-29 18:05:41 公開日:2023-08-26
# 知識グラフ補完のための大規模言語モデル探索

Exploring Large Language Models for Knowledge Graph Completion ( http://arxiv.org/abs/2308.13916v1 )

ライセンス: Link先を確認
Liang Yao, Jiazhen Peng, Chengsheng Mao, Yuan Luo(参考訳) 知識グラフは多くの人工知能タスクにおいて重要な役割を果たすが、不完全性の問題にしばしば直面する。 本研究では,Large Language Models (LLM) を用いて知識グラフの補完を行う。 我々は知識グラフのトリプルをテキストシーケンスとみなし、これらのトリプルをモデル化するための知識グラフ LLM (KG-LLM) と呼ばれる革新的なフレームワークを導入する。 提案手法では,三重項の実体記述と関係記述を用いて,その応答を予測に利用する。 ベンチマークナレッジグラフを用いた実験により,トリプル分類や関係予測などのタスクにおいて,最先端の性能が得られることが示された。 また、微調整モデル(LLaMA-7B、ChatGLM-6B)が最近のChatGPTおよびGPT-4より優れていることも見出した。

Knowledge graphs play a vital role in numerous artificial intelligence tasks, yet they frequently face the issue of incompleteness. In this study, we explore utilizing Large Language Models (LLM) for knowledge graph completion. We consider triples in knowledge graphs as text sequences and introduce an innovative framework called Knowledge Graph LLM (KG-LLM) to model these triples. Our technique employs entity and relation descriptions of a triple as prompts and utilizes the response for predictions. Experiments on various benchmark knowledge graphs demonstrate that our method attains state-of-the-art performance in tasks such as triple classification and relation prediction. We also find that fine-tuning relatively smaller models (e.g., LLaMA-7B, ChatGLM-6B) outperforms recent ChatGPT and GPT-4.
翻訳日:2023-08-29 18:05:18 公開日:2023-08-26
# 非エルミート系におけるヘルマン・ファインマン理論

Hellmann Feynman Theorem in Non-Hermitian system ( http://arxiv.org/abs/2308.13914v1 )

ライセンス: Link先を確認
Gaurav Hajong, Ranjan Modak, Bhabani Prasad Mandal(参考訳) PT不変非エルミート量子物理学フレームワークにおけるヘルマン・ファインマンの定理(HFT)を再検討する。 内部積の定義を変更して HFT の修正版を導出し、PT の破れも壊れていない相も、理論の例外的な点でさえも良いことを明確に示す。 導出は非常に一般であり、PT非不変ハミルトニアンに対しても作用する。 結果をテストするために離散および連続系のいくつかの例を考察する。 固有値がHermiticity Breakingパラメータの関数として実から複素遷移を通過すると、修正されたHFT表現の両側がその点で分岐する。 その点がPT不変量子論のEPであると判明した場合、EPで発散も見られる。 最後に、修正された HFT を用いて非エルミート系に対する一般化された Virial 定理を導出する。

We revisit the celebrated Hellmann-Feynman theorem (HFT) in the PT invariant non-Hermitian quantum physics framework. We derive a modified version of HFT by changing the definition of inner product and explicitly show that it holds good for both PT broken, unbroken phases and even at the exceptional point of the theory. The derivation is extremely general and works for even PT non-invariant Hamiltonian. We consider several examples of discrete and continuum systems to test our results. We find that if the eigenvalue goes through a real to complex transition as a function of the Hermiticity breaking parameter, both sides of the modified HFT expression diverge at that point. If that point turns out to be an EP of the PT invariant quantum theory, then one also sees the divergence at EP. Finally, we also derive a generalized Virial theorem for non-Hermitian systems using the modified HFT, which potentially can be tested in experiments.
翻訳日:2023-08-29 18:05:03 公開日:2023-08-26
# 影響計算課題におけるChatGPTの広範な評価

A Wide Evaluation of ChatGPT on Affective Computing Tasks ( http://arxiv.org/abs/2308.13911v1 )

ライセンス: Link先を確認
Mostafa M. Amin, Rui Mao, Erik Cambria, Bj\"orn W. Schuller(参考訳) ファンデーションモデルの台頭とともに、汎用的なファンデーションモデルを使い、各問題に対して別の機械学習モデルをトレーニングするのではなく、問題解決を促すことによって、新たな人工知能パラダイムが出現した。 このようなモデルは、当初訓練されなかった問題の解法に創発的な性質があることが示されている。 このようなモデルの有効性に関する研究はまだかなり限られている。 本研究は, アスペクト抽出, アスペクト極性分類, 意見抽出, 感情分析, 感情強度ランキング, 感情強度ランキング, 自殺傾向検出, 毒性検出, 幸福度評価, エンゲージメント測定, 性格評価, サーカズム検出, 主観性検出など13の感情的コンピュータ問題に対して, chatgptモデルの能力, gpt-4 と gpt-3.5 を広く検討した。 本稿では,重み付け問題などの回帰に基づく問題に対するchatgptモデルをペアワイズランキング分類としてモデル化し,評価する枠組みを提案する。 我々はChatGPTを、エンドツーエンドのリカレントニューラルネットワークやトランスフォーマーといった従来のNLP手法と比較する。 その結果、gpt-3.5、特にgpt-4は、多くの問題、特に感情、感情、毒性に関連する問題において強いパフォーマンスを示した。 ChatGPTモデルは、エンゲージメント測定や主観的検出といった暗黙的な信号の問題で不足していた。

With the rise of foundation models, a new artificial intelligence paradigm has emerged, by simply using general purpose foundation models with prompting to solve problems instead of training a separate machine learning model for each problem. Such models have been shown to have emergent properties of solving problems that they were not initially trained on. The studies for the effectiveness of such models are still quite limited. In this work, we widely study the capabilities of the ChatGPT models, namely GPT-4 and GPT-3.5, on 13 affective computing problems, namely aspect extraction, aspect polarity classification, opinion extraction, sentiment analysis, sentiment intensity ranking, emotions intensity ranking, suicide tendency detection, toxicity detection, well-being assessment, engagement measurement, personality assessment, sarcasm detection, and subjectivity detection. We introduce a framework to evaluate the ChatGPT models on regression-based problems, such as intensity ranking problems, by modelling them as pairwise ranking classification. We compare ChatGPT against more traditional NLP methods, such as end-to-end recurrent neural networks and transformers. The results demonstrate the emergent abilities of the ChatGPT models on a wide range of affective computing problems, where GPT-3.5 and especially GPT-4 have shown strong performance on many problems, particularly the ones related to sentiment, emotions, or toxicity. The ChatGPT models fell short for problems with implicit signals, such as engagement measurement and subjectivity detection.
翻訳日:2023-08-29 18:04:46 公開日:2023-08-26
# コンピュータビジョンと機械学習を用いたセキュリティと監視強化のための映像における人間の群集パターンと分類の検討

Exploring Human Crowd Patterns and Categorization in Video Footage for Enhanced Security and Surveillance using Computer Vision and Machine Learning ( http://arxiv.org/abs/2308.13910v1 )

ライセンス: Link先を確認
Afnan Alazbah, Khalid Fakeeh, Osama Rabie(参考訳) コンピュータビジョンと機械学習は、研究者、科学者、一般大衆の知覚に革命的な変化をもたらした。 かつては達成不可能と思われていたこれらの技術は、一見不可能に思える。 安全保障、農業、教育といった様々な分野における彼らの例外的な応用は、その影響の証である。 しかし、コンピュータビジョンの潜在能力は未解決である。 本稿では,映像中の動きを追跡する新しいアプローチとして,コンピュータビジョンのセキュリティと監視の可能性について考察する。 動きをArcs, Lanes, Converging/Diverging, Random/Block運動に分類し, 動き情報画像とBlockwise支配的な動きデータを用いて, 異なる光フロー技術, CNNモデル, 機械学習モデルについて検討した。 目的を有望な精度で達成することで、結果は異常検出モデルを訓練し、動きに基づく行動洞察を提供し、シーンの理解を高めることができる。

Computer vision and machine learning have brought revolutionary shifts in perception for researchers, scientists, and the general populace. Once thought to be unattainable, these technologies have achieved the seemingly impossible. Their exceptional applications in diverse fields like security, agriculture, and education are a testament to their impact. However, the full potential of computer vision remains untapped. This paper explores computer vision's potential in security and surveillance, presenting a novel approach to track motion in videos. By categorizing motion into Arcs, Lanes, Converging/Diverging, and Random/Block motions using Motion Information Images and Blockwise dominant motion data, the paper examines different optical flow techniques, CNN models, and machine learning models. Successfully achieving its objectives with promising accuracy, the results can train anomaly-detection models, provide behavioral insights based on motion, and enhance scene comprehension.
翻訳日:2023-08-29 18:04:18 公開日:2023-08-26
# プロセスのテーブルトップ可逆性と製品保存マップ

Tabletop Reversibility of Processes, and Product-Preserving Maps ( http://arxiv.org/abs/2308.13909v1 )

ライセンス: Link先を確認
Clive Cenxin Aw, Lin Htoo Zaw, Maria Balanz\'o-Juand\'o and Valerio Scarani(参考訳) 熱力学と情報理論の両方において重要な可逆性は、(前)チャネルと関連する逆チャネルの進化を比較することによって自然に研究されている。 この逆チャネルを定義するには2つの自然な方法がある。 論理的推論を用いて、逆チャネルは元のベイズ回帰(量子形式論におけるペッツ回復写像)である。 また物理学では、すべての可逆過程が開システムとしてモデル化できることが分かっている: 対応する閉システムを定義するには、浴槽(拡張)を追加し、大域可逆過程を自明に反転させ、最終的に浴槽を再び取り除く。 2つのレシピは、古典と量子形式の両方において、システムと浴の間に形成された相関を考慮に入れれば、厳密に同一であることが証明される。 これを確立した後、マップの特別なクラスを定義し、研究する: 製品保存マップ(一般化された熱写像を含む)は、ある状態に対してそのようなシステム・バス相関を形成せず、テーブルトップの時間反転可能なマップは、逆チャネルを元のものと同一のデバイスで実装できる。 これらのクラスを繋ぐいくつかの一般的な結果を確立し、システムと浴槽の両方が1キュービットである場合の詳細な特徴付けを行う。 特に, 逆チャネルが適切に定義されている場合, 製品保存はテーブルトップ可逆性に十分な条件であるが, 局所エネルギースペクトルの保存は一般的な熱操作に必要な条件であることを示す。

Irreversibility, crucial in both thermodynamics and information theory, is naturally studied by comparing the evolution -- the (forward) channel -- with an associated reverse -- the reverse channel. There are two natural ways to define this reverse channel. Using logical inference, the reverse channel is the Bayesian retrodiction (the Petz recovery map in the quantum formalism) of the original one. Alternatively, we know from physics that every irreversible process can be modeled as an open system: one can then define the corresponding closed system by adding a bath ("dilation"), trivially reverse the global reversible process, and finally remove the bath again. We prove that the two recipes are strictly identical, both in the classical and in the quantum formalism, once one accounts for correlations formed between system and the bath. Having established this, we define and study special classes of maps: product-preserving maps (including generalized thermal maps), for which no such system-bath correlations are formed for some states; and tabletop time-reversible maps, when the reverse channel can be implemented with the same devices as the original one. We establish several general results connecting these classes, and a very detailed characterization when both the system and the bath are one qubit. In particular, we show that when reverse channels are well-defined, product-preservation is a sufficient but not necessary condition for tabletop reversibility; and that the preservation of local energy spectra is a necessary and sufficient condition to generalized thermal operations.
翻訳日:2023-08-29 18:04:00 公開日:2023-08-26
# FAM:高速適応型メタラーニング

FAM: fast adaptive meta-learning ( http://arxiv.org/abs/2308.13970v1 )

ライセンス: Link先を確認
Indrajeet Kumar Sinha, Shekhar Verma and Krishna Pratap Singh(参考訳) 本研究では,単一のグローバルモデルを協調的に学習し,個別のクライアントでローカルにパーソナライズできるファストアダプティブ・フェデレーション・メタラーニング(fam)フレームワークを提案する。 フェデレーション学習により、複数のクライアントが協力してデータを共有せずにモデルをトレーニングできる。 データやデータの多様性が不十分なクライアントは、フェデレーション学習に参加し、優れたパフォーマンスを持つモデルを学ぶ。 それでも、データ分布がばらばらになると学習は苦しむ。 クライアントにパーソナライズされたモデルを作成するために、クライアントの特定の情報を使用して適応できるグローバルモデルを学ぶ必要がある。 mriデータはこの問題に苦しんでおり、1つはデータ取得の課題のため、サイト内のローカルデータは正確なモデルをトレーニングするのに十分であり、2つはプライバシーの懸念によるデータ共有の制限があり、3つは、クライアントサイト間のドメインシフトを考慮して学習した共有グローバルモデルのパーソナライズの必要性である。 グローバルモデルはスパースであり、MRIの一般的な特徴を捉えている。 このスケルトンネットワークは各クライアントで成長し、ローカルデータから追加のクライアント固有のパラメータを学習することでパーソナライズされたモデルをトレーニングする。 実験の結果,各クライアントにおけるパーソナライズプロセスは,限られたエポック数を用いて迅速に収束することがわかった。 パーソナライズされたクライアントモデルは、ローカルにトレーニングされたモデルよりも優れ、FAMメカニズムの有効性を実証した。 さらに、フェデレーション学習中に通信されるスパースパラメータセットは、通信オーバーヘッドを劇的に削減し、限られたリソースのネットワークで実現可能とした。

In this work, we propose a fast adaptive federated meta-learning (FAM) framework for collaboratively learning a single global model, which can then be personalized locally on individual clients. Federated learning enables multiple clients to collaborate to train a model without sharing data. Clients with insufficient data or data diversity participate in federated learning to learn a model with superior performance. Nonetheless, learning suffers when data distributions diverge. There is a need to learn a global model that can be adapted using client's specific information to create personalised models on clients is required. MRI data suffers from this problem, wherein, one, due to data acquisition challenges, local data at a site is sufficient for training an accurate model and two, there is a restriction of data sharing due to privacy concerns and three, there is a need for personalization of a learnt shared global model on account of domain shift across client sites. The global model is sparse and captures the common features in the MRI. This skeleton network is grown on each client to train a personalised model by learning additional client-specific parameters from local data. Experimental results show that the personalization process at each client quickly converges using a limited number of epochs. The personalized client models outperformed the locally trained models, demonstrating the efficacy of the FAM mechanism. Additionally, the sparse parameter set to be communicated during federated learning drastically reduced communication overhead, which makes the scheme viable for networks with limited resources.
翻訳日:2023-08-29 17:59:26 公開日:2023-08-26
# 人間の目の動きを視覚トランスフォーマーに統合する注意点

Fixating on Attention: Integrating Human Eye Tracking into Vision Transformers ( http://arxiv.org/abs/2308.13969v1 )

ライセンス: Link先を確認
Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar, Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda(参考訳) コンピュータビジョン用に設計された現代のトランスフォーマーベースのモデルは、視覚タスクのスペクトルで人間を上回っている。 しかし、医療画像解釈や自律運転といった重要なタスクは、人間の判断に依存する必要がある。 この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。 まず、人体と視覚変換器(ViT)の両方で観察されるように、左運転決定における固定領域の重要性を確立する。 人間の固定地図とvit注意重みの類似性を比較することで,個々の頭部と層間の重なりのダイナミクスを明らかにする。 この重複は、精度を損なうことなくモデルプルーニングに悪用される。 その後、運転シーンからの情報を固定データと一体化し、"joint space-fixation" (jsf) の注意設定を用いる。 最後に、人が固定したのと同じ領域に出席するようにViTモデルを訓練するための「固定注意交差点」(FAX)の損失を提案する。 その結果,JSFおよびFAXを用いた場合のトレーニングエポックの精度と回数が向上していることが判明した。 これらの結果は、人間誘導型人工知能にとって重要な意味を持つ。

Modern transformer-based models designed for computer vision have outperformed humans across a spectrum of visual tasks. However, critical tasks, such as medical image interpretation or autonomous driving, still require reliance on human judgments. This work demonstrates how human visual input, specifically fixations collected from an eye-tracking device, can be integrated into transformer models to improve accuracy across multiple driving situations and datasets. First, we establish the significance of fixation regions in left-right driving decisions, as observed in both human subjects and a Vision Transformer (ViT). By comparing the similarity between human fixation maps and ViT attention weights, we reveal the dynamics of overlap across individual heads and layers. This overlap is exploited for model pruning without compromising accuracy. Thereafter, we incorporate information from the driving scene with fixation data, employing a "joint space-fixation" (JSF) attention setup. Lastly, we propose a "fixation-attention intersection" (FAX) loss to train the ViT model to attend to the same regions that humans fixated on. We find that the ViT performance is improved in accuracy and number of training epochs when using JSF and FAX. These results hold significant implications for human-guided artificial intelligence.
翻訳日:2023-08-29 17:59:00 公開日:2023-08-26
# デュアルアテンションネットワークを用いた多変量時系列分類

Multivariate time series classification with dual attention network ( http://arxiv.org/abs/2308.13968v1 )

ライセンス: Link先を確認
Mojtaba A. Farahani, Tara Eslaminokandeh(参考訳) マシンラーニングのトピックの1つは、多変量時系列分類(multivariate time series classification)である。 現在の技術では、局所的な重要なシーケンスセグメントの特定や、グローバルな長距離依存関係の確立に集中している。 ただし、マージされたデータをグローバル機能とローカル機能の両方から無視することが多い。 本研究では,多変量時系列分類のための局所的特徴と大域的特徴を抽出し,新しいネットワーク(da-net)を探索する。 DA-Netを構成する2つの異なるレイヤは、Squeeze-Excitation Window Attention(SEWA)層とWindows(SSAW)層内のSparse Self-Attention(SSAW)層である。 da-netは、2つの拡張層に基づいてグローバルな長距離依存関係を確立するために必要な必須のローカルシーケンスフラグメントをマイニングすることができる。

One of the topics in machine learning that is becoming more and more relevant is multivariate time series classification. Current techniques concentrate on identifying the local important sequence segments or establishing the global long-range dependencies. They frequently disregard the merged data from both global and local features, though. Using dual attention, we explore a novel network (DA-Net) in this research to extract local and global features for multivariate time series classification. The two distinct layers that make up DA-Net are the Squeeze-Excitation Window Attention (SEWA) layer and the Sparse Self-Attention within Windows (SSAW) layer. DA- Net can mine essential local sequence fragments that are necessary for establishing global long-range dependencies based on the two expanded layers.
翻訳日:2023-08-29 17:58:40 公開日:2023-08-26
# 単語だけでなく意味を翻訳する:言語モデルによる慣用翻訳の最適化におけるイディオムkbの役割

Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing Idiomatic Translation with Language Models ( http://arxiv.org/abs/2308.13961v1 )

ライセンス: Link先を確認
Shuang Li, Jiangjie Chen, Siyu Yuan, Xinyi Wu, Hao Yang, Shimin Tao, Yanghua Xiao(参考訳) 機械翻訳(MT)システムと汎用言語モデル(LM)をうまく翻訳するには、ソースおよびターゲット言語と文化の両方を深く理解する必要がある。 それゆえ、イディオムは非コンポジション的性質を持ち、リテラル翻訳はしばしば意図された意味を欠くため、トランスフォーマーベースのシステムにおいて特別な課題を提起する。 既存の知識ベース(KB)を使ってイディオムを置き換える伝統的な手法は、しばしばスケールとコンテキストの認識を欠いている。 これらの課題に対処するため、我々はコンテキスト認識とスケーラビリティを優先し、管理可能なkbサイズでのイディオムのオフラインストレージを可能にする。 これにより、より小さなモデルで効率的なサービスを提供し、慣用的な表現をより包括的に理解することができる。 大規模なLMを用いて開発した多言語イディオムKB (IdiomKB) を提案する。 このKBは、BLOOMZ (7.1B)、Alpaca (7B)、InstructGPT (6.7B)のようなより小さなモデルによるより良い翻訳を促進する。 本稿では,新しいgpt-4を用いた評価指標を提案し,イディオムkbがモデル性能を大幅に向上させることを示す。 人間の評価はKBの品質をさらに検証します。

To translate well, machine translation (MT) systems and general-purposed language models (LMs) need a deep understanding of both source and target languages and cultures. Therefore, idioms, with their non-compositional nature, pose particular challenges for Transformer-based systems, as literal translations often miss the intended meaning. Traditional methods, which replace idioms using existing knowledge bases (KBs), often lack scale and context awareness. Addressing these challenges, our approach prioritizes context awareness and scalability, allowing for offline storage of idioms in a manageable KB size. This ensures efficient serving with smaller models and provides a more comprehensive understanding of idiomatic expressions. We introduce a multilingual idiom KB (IdiomKB) developed using large LMs to address this. This KB facilitates better translation by smaller models, such as BLOOMZ (7.1B), Alpaca (7B), and InstructGPT (6.7B), by retrieving idioms' figurative meanings. We present a novel, GPT-4-powered metric for human-aligned evaluation, demonstrating that IdiomKB considerably boosts model performance. Human evaluations further validate our KB's quality.
翻訳日:2023-08-29 17:58:25 公開日:2023-08-26
# 機械学習のためのスパースモデル

Sparse Models for Machine Learning ( http://arxiv.org/abs/2308.13960v1 )

ライセンス: Link先を確認
Jianyi Lin(参考訳) スパース・モデリング(sparse modeling)は、単に記述したパーシモニーの原理を捉えた明らかな表現であり、スパース・モデルは統計学、物理学、情報科学、神経科学、計算数学などに広く使われている。 統計学におけるスパースモデリングの多くの応用は、回帰、分類タスク、グラフィカルモデル選択、スパースM推定器、スパース次元減少にまたがる。 また、統計学や機械学習の分野では特に有効であり、その主な目的は、ブラックボックス予測器を構築するだけでなく、基礎となる物理的、生物学的、その他の自然なプロセスの理解と制御を強化するデータから予測パターンを見つけることである。 一般的な例としては、生物学的手順におけるバイオマーカーの選択、fMRIデータに基づいて脳の状態やプロセスを予測する関連脳活動位置の発見、エンドツーエンドのパフォーマンスを説明するネットワークボトルネックの特定などがある。 さらに,圧縮センシングや圧縮センシングの中心となる比較的少数の観測結果から,高次元スパース信号の効率的な回収に関する研究と応用が急速に進展し,古典的信号処理以上の研究領域となった。 同様に、スパースモデリングは画像の分断、セグメンテーション、復元と超解像、視覚シーンにおける物体または顔の検出と認識、行動認識といった様々な人工視覚タスクに直接関係している。 本稿では,スパース表現と圧縮センシングの基礎となる基礎理論を簡潔に紹介するとともに,スパース辞書学習と呼ばれる機械学習問題におけるスパースリカバリの適用とともに,スパース解を効果的に解く方法について議論する。

The sparse modeling is an evident manifestation capturing the parsimony principle just described, and sparse models are widespread in statistics, physics, information sciences, neuroscience, computational mathematics, and so on. In statistics the many applications of sparse modeling span regression, classification tasks, graphical model selection, sparse M-estimators and sparse dimensionality reduction. It is also particularly effective in many statistical and machine learning areas where the primary goal is to discover predictive patterns from data which would enhance our understanding and control of underlying physical, biological, and other natural processes, beyond just building accurate outcome black-box predictors. Common examples include selecting biomarkers in biological procedures, finding relevant brain activity locations which are predictive about brain states and processes based on fMRI data, and identifying network bottlenecks best explaining end-to-end performance. Moreover, the research and applications of efficient recovery of high-dimensional sparse signals from a relatively small number of observations, which is the main focus of compressed sensing or compressive sensing, have rapidly grown and became an extremely intense area of study beyond classical signal processing. Likewise interestingly, sparse modeling is directly related to various artificial vision tasks, such as image denoising, segmentation, restoration and superresolution, object or face detection and recognition in visual scenes, and action recognition. In this manuscript, we provide a brief introduction of the basic theory underlying sparse representation and compressive sensing, and then discuss some methods for recovering sparse solutions to optimization problems in effective way, together with some applications of sparse recovery in a machine learning problem known as sparse dictionary learning.
翻訳日:2023-08-29 17:58:01 公開日:2023-08-26
# BERTモデルの知識蒸留の改善:損失関数、マッピング方法、軽量チューニング

Improving Knowledge Distillation for BERT Models: Loss Functions, Mapping Methods, and Weight Tuning ( http://arxiv.org/abs/2308.13958v1 )

ライセンス: Link先を確認
Apoorv Dankar, Adeem Jassani, Kartikaeya Kumar(参考訳) BERT、GPT、T5のような大きなトランスフォーマーベースのモデルの使用は、自然言語処理に大きな進歩をもたらした。 しかし、これらのモデルは計算コストが高く、精度を維持しながらサイズと複雑さを減少させるモデル圧縮技術が必要となる。 本研究は,TinyBERT学生モデルに着目したBERTモデル圧縮のための知識蒸留について検討・適用する。 我々は,損失関数の実験,トランスフォーマー層マッピング法,注目度と表現損失の重み付けの調整など,知識蒸留を改善するための様々な手法を探索し,GLUEベンチマークから下流タスクの選択について評価した。 この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。

The use of large transformer-based models such as BERT, GPT, and T5 has led to significant advancements in natural language processing. However, these models are computationally expensive, necessitating model compression techniques that reduce their size and complexity while maintaining accuracy. This project investigates and applies knowledge distillation for BERT model compression, specifically focusing on the TinyBERT student model. We explore various techniques to improve knowledge distillation, including experimentation with loss functions, transformer layer mapping methods, and tuning the weights of attention and representation loss and evaluate our proposed techniques on a selection of downstream tasks from the GLUE benchmark. The goal of this work is to improve the efficiency and effectiveness of knowledge distillation, enabling the development of more efficient and accurate models for a range of natural language processing tasks.
翻訳日:2023-08-29 17:57:14 公開日:2023-08-26
# ドメイン転送のための微分可能重量マスク

Differentiable Weight Masks for Domain Transfer ( http://arxiv.org/abs/2308.13957v1 )

ライセンス: Link先を確認
Samar Khanna, Skanda Vaidyanath, Akash Velu(参考訳) コンピュータビジョンにおけるディープラーニングモデルの大きな欠点の1つは、複数の情報ソースをモジュラー形式で保持できないことだ。 例えば、ソースタスクでトレーニングされたネットワークを考えると、同じ、しかし異なるターゲットタスクで、ソースタスクのパフォーマンスを維持しながら、このネットワークを再トレーニングしたいと考えています。 同時に、研究者はネットワーク重みのモジュラー化を広く研究し、与えられたタスクで観測された性能を引き出すのに必要な重みの集合をローカライズし特定した。 ある一連の研究は、重みマスクを学習し分析することで、ニューラルネットワークの重みによって引き起こされるモジュラー化を研究する。 本研究では,これらのフィールドを組み合わせて,これら3つの重みマスキング手法について検討し,対象タスクの「鍛造」を軽減し,目標タスクの効率的な微調整を可能にする。 異なるマスキング手法は、目標タスクのパフォーマンスに悪影響を及ぼすことなく、ソースタスクの知識を維持するためにトレードオフがある。

One of the major drawbacks of deep learning models for computer vision has been their inability to retain multiple sources of information in a modular fashion. For instance, given a network that has been trained on a source task, we would like to re-train this network on a similar, yet different, target task while maintaining its performance on the source task. Simultaneously, researchers have extensively studied modularization of network weights to localize and identify the set of weights culpable for eliciting the observed performance on a given task. One set of works studies the modularization induced in the weights of a neural network by learning and analysing weight masks. In this work, we combine these fields to study three such weight masking methods and analyse their ability to mitigate "forgetting'' on the source task while also allowing for efficient finetuning on the target task. We find that different masking techniques have trade-offs in retaining knowledge in the source task without adversely affecting target task performance.
翻訳日:2023-08-29 17:56:50 公開日:2023-08-26
# 事前誘導型ソースフリードメイン適応による人文推定

Prior-guided Source-free Domain Adaptation for Human Pose Estimation ( http://arxiv.org/abs/2308.13954v1 )

ライセンス: Link先を確認
Dripta S. Raychaudhuri, Calvin-Khang Ta, Arindam Dutta, Rohit Lal, Amit K. Roy-Chowdhury(参考訳) 2次元の人間のポーズ推定のためのドメイン適応手法は、通常、適応中にソースデータへの連続的なアクセスを必要とする。 この制限に対処するために,ポーズ推定のためのソースフリードメイン適応のタスクに着目し,ラベルなしのターゲットデータのみを使用して,ソースモデルを新たなターゲットドメインに適応させなければならない。 近年,分類タスクのソースフリー化が進んでいるが,ポーズ推定の回帰タスクに拡張することは容易ではない。 本稿では,普及している平均教師フレームワークをベースとした擬似ラベル方式である事前指導型自己学習(POST)を提案する。 postは、特定の画像変換に対して、生徒と教師モデルの予測レベルと機能レベルの一貫性を活用する。 ソースデータがない場合は、POSTは、より正確で解剖学的に妥当な擬似ラベルを生成するようモデルに指示することで、適応プロセスを規則化する人間のポーズを利用する。 我々のフレームワークは、シンプルで直感的だが、我々の広範な実験やアブレーション研究で示されているように、ソースモデルを対象データに直接適用するよりも、大きなパフォーマンス向上をもたらすことができる。 実際,本手法は,適応にソースデータを使用する最近の最先端手法に匹敵する性能を達成している。

Domain adaptation methods for 2D human pose estimation typically require continuous access to the source data during adaptation, which can be challenging due to privacy, memory, or computational constraints. To address this limitation, we focus on the task of source-free domain adaptation for pose estimation, where a source model must adapt to a new target domain using only unlabeled target data. Although recent advances have introduced source-free methods for classification tasks, extending them to the regression task of pose estimation is non-trivial. In this paper, we present Prior-guided Self-training (POST), a pseudo-labeling approach that builds on the popular Mean Teacher framework to compensate for the distribution shift. POST leverages prediction-level and feature-level consistency between a student and teacher model against certain image transformations. In the absence of source data, POST utilizes a human pose prior that regularizes the adaptation process by directing the model to generate more accurate and anatomically plausible pose pseudo-labels. Despite being simple and intuitive, our framework can deliver significant performance gains compared to applying the source model directly to the target data, as demonstrated in our extensive experiments and ablation studies. In fact, our approach achieves comparable performance to recent state-of-the-art methods that use source data for adaptation.
翻訳日:2023-08-29 17:55:57 公開日:2023-08-26
# 深層学習によるチップレスRFIDセンサタグのロバスト検出技術

Deep learning assisted robust detection techniques for a chipless RFID sensor tag ( http://arxiv.org/abs/2308.13944v1 )

ライセンス: Link先を確認
Nadeem Rather, Roy B. V. B. Simorangkir, John L. Buckley, Brendan O'Flynn, Salvatore Tedesco(参考訳) 本稿では,チップレスrfidセンサタグからの識別とセンサデータのロバストな読み出しのための新しい手法を提案する。 機械学習(ML)とディープラーニング(DL)の回帰モデリング技術は、カスタム設計の3ビットチップレスRFIDセンサタグの大規模ロボット計測から得られたレーダークロスセクション(RCS)データのデータセットに適用された。 このロボットシステムは、業界標準ロボットであるur16eを用いて、第一種自動データ取得手法を用いて実装されている。 自動システムを用いて収集した9,600個の電磁(EM)RCSシグネチャからなる大規模なデータセットを用いて、4つのMLモデルと4つの1次元畳み込みニューラルネットワーク(1D CNN)アーキテクチャを訓練し、検証する。 本稿では,ML/DLモデルを用いた識別およびセンシングデータの堅牢な検出のためのエンドツーエンドの設計と実装手法を初めて報告する。 また,idとセンシング値のロバストな検出のためのモデルのトレーニングに組み込まれたタグ面形状,傾き角,読み取り範囲の変化の影響を初めて報告した。 その結果、全てのモデルが与えられたデータに基づいてうまく一般化できることがわかった。 しかし,1d cnnモデルは,従来のmlモデルよりもidとセンシング値の検出において優れていた。 最高の1D CNNモデルアーキテクチャは、タグIDが0.061(0.87%)、容量感知が0.0241(3.44%)の低いルート平均角誤差(RSME)でよく機能した。

In this paper, we present a new approach for robust reading of identification and sensor data from chipless RFID sensor tags. For the first time, Machine Learning (ML) and Deep Learning (DL) regression modelling techniques are applied to a dataset of measured Radar Cross Section (RCS) data that has been derived from large-scale robotic measurements of custom-designed, 3-bit chipless RFID sensor tags. The robotic system is implemented using the first-of-its-kind automated data acquisition method using an ur16e industry-standard robot. A large data set of 9,600 Electromagnetic (EM) RCS signatures collected using the automated system is used to train and validate four ML models and four 1-dimensional Convolutional Neural Network (1D CNN) architectures. For the first time, we report an end-to-end design and implementation methodology for robust detection of identification (ID) and sensing data using ML/DL models. Also, we report, for the first time, the effect of varying tag surface shapes, tilt angles, and read ranges that were incorporated into the training of models for robust detection of ID and sensing values. The results show that all the models were able to generalise well on the given data. However, the 1D CNN models outperformed the conventional ML models in the detection of ID and sensing values. The best 1D CNN model architectures performed well with a low Root Mean Square Error (RSME) of 0.061 (0.87%) for tag ID and 0.0241 (3.44%) error for the capacitive sensing.
翻訳日:2023-08-29 17:55:15 公開日:2023-08-26
# CDAN:低照度画像強調のための畳み込みDense Attention-Guided Network

CDAN: Convolutional Dense Attention-guided Network for Low-light Image Enhancement ( http://arxiv.org/abs/2308.12902v2 )

ライセンス: Link先を確認
Hossein Shakibania, Sina Raoufi, Hassan Khotanlou(参考訳) 低照度画像は、照明が不十分で、明度が低下し、色が変色し、細部が小さくなる。 コンピュータビジョンの重要なタスクである低光度画像強調は、明るさ、コントラスト、全体的な知覚品質を改善し、正確な分析と解釈を容易にすることで、これらの問題を是正することを目的としている。 本稿では,低照度画像を改善するための新しいソリューションであるCDAN(Convolutional Dense Attention-guided Network)を紹介する。 cdanは自動エンコーダベースのアーキテクチャと畳み込みブロックと密集ブロックを統合し、アテンション機構とスキップ接続を補完する。 このアーキテクチャは、効率的な情報伝達と特徴学習を保証する。 さらに、専用の後処理フェーズは、色バランスとコントラストを精製する。 我々のアプローチは、低光度画像強調における最先端の成果と比較して顕著な進歩を示しており、幅広い挑戦的シナリオにおいてその堅牢性を示している。 本モデルでは,低照度環境でのテクスチャや色彩の復元を効果的に行うため,ベンチマークデータセットを著しく改善する。 この成果は、CDANの様々なコンピュータビジョンタスクの可能性を強調し、特に低照度環境に挑戦するオブジェクトの検出と認識を可能にする。

Low-light images, characterized by inadequate illumination, pose challenges of diminished clarity, muted colors, and reduced details. Low-light image enhancement, an essential task in computer vision, aims to rectify these issues by improving brightness, contrast, and overall perceptual quality, thereby facilitating accurate analysis and interpretation. This paper introduces the Convolutional Dense Attention-guided Network (CDAN), a novel solution for enhancing low-light images. CDAN integrates an autoencoder-based architecture with convolutional and dense blocks, complemented by an attention mechanism and skip connections. This architecture ensures efficient information propagation and feature learning. Furthermore, a dedicated post-processing phase refines color balance and contrast. Our approach demonstrates notable progress compared to state-of-the-art results in low-light image enhancement, showcasing its robustness across a wide range of challenging scenarios. Our model performs remarkably on benchmark datasets, effectively mitigating under-exposure and proficiently restoring textures and colors in diverse low-light scenarios. This achievement underscores CDAN's potential for diverse computer vision tasks, notably enabling robust object detection and recognition in challenging low-light conditions.
翻訳日:2023-08-29 10:53:24 公開日:2023-08-26