このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240320となっている論文です。

PDF登録状況(公開日: 20240320)

TitleAuthorsAbstract論文公表日・翻訳日
# Consistent Diffusion Meet with Tweedie: Training Exact Ambient Diffusion Models with Noisy Data

Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data ( http://arxiv.org/abs/2404.10177v1 )

ライセンス: Link先を確認
Giannis Daras, Alexandros G. Dimakis, Constantinos Daskalakis, (参考訳) アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散)は、 Ambient Diffusionと別のSUREベースのアプローチは、劣化したデータリゾートから性能を低下させる近似まで、拡散モデルを学習する。 本稿では, ノイズの多い学習データのみを用いて, 故障のない分布から, 確実にサンプリング可能な拡散モデルのトレーニングフレームワークを提案する。 我々の重要な技術的貢献は、ツイーディの公式の二重応用と、観測されたデータノイズの下のノイズレベルにおけるサンプリングを拡張できる一貫性損失関数を利用する方法である。 さらに、拡散モデルは、ほぼ完全に再構成された極端に破損した画像を特定し、著作権やプライバシーの懸念を提起することで、トレーニングセットから記憶する証拠も提供します。 本手法では, この問題を緩和するために, 劣化したサンプルを用いたトレーニング法を用いることができる。 本研究では, 安定拡散XLを微調整し, ノイズサンプルのみを用いて分布から試料を生成する。 我々のフレームワークは、競争性能を維持しながら、微調整データセットの記憶量を削減します。

Ambient diffusion is a recently proposed framework for training diffusion models using corrupted data. Both Ambient Diffusion and alternative SURE-based approaches for learning diffusion models from corrupted data resort to approximations which deteriorate performance. We present the first framework for training diffusion models that provably sample from the uncorrupted distribution given only noisy training data, solving an open problem in this space. Our key technical contribution is a method that uses a double application of Tweedie's formula and a consistency loss function that allows us to extend sampling at noise levels below the observed data noise. We also provide further evidence that diffusion models memorize from their training sets by identifying extremely corrupted images that are almost perfectly reconstructed, raising copyright and privacy concerns. Our method for training using corrupted samples can be used to mitigate this problem. We demonstrate this by fine-tuning Stable Diffusion XL to generate samples from a distribution using only noisy samples. Our framework reduces the amount of memorization of the fine-tuning dataset, while maintaining competitive performance.
翻訳日:2024-04-21 19:45:03 公開日:2024-03-20
# AIフェアネス関連決定のためのヒューマンコミュニケーションの分析と組織化--公共セクターの事例から

Analysing and Organising Human Communications for AI Fairness-Related Decisions: Use Cases from the Public Sector ( http://arxiv.org/abs/2404.00022v1 )

ライセンス: Link先を確認
Mirthe Dankloff, Vanja Skoric, Giovanni Sileno, Sennay Ghebreab, Jacco Van Ossenbruggen, Emma Beauxis-Aussalet, (参考訳) 公共セクターで使用されるAIアルゴリズム、例えば、社会的利益の割当や詐欺の予測には、アルゴリズムのライフサイクルのさまざまなフェーズにおいて、複数の公私利害関係者が関与することが多い。 これらの多様な利害関係者間のコミュニケーション問題は、アルゴリズムの誤解と誤用につながる可能性がある。 本稿では,AIフェアネス関連意思決定のためのコミュニケーションプロセスについて,公共部門におけるアルゴリズムシステムに取り組む実践者とのインタビューを通じて検討する。 定性的な符号化分析を適用することにより、公平性に関連する人間の決定を下すコミュニケーションプロセスの鍵となる要素を同定する。 ステークホルダーが認識する役割、タスク、スキル、課題の区分を分析します。 我々は,その基礎となるコミュニケーション問題を,概念的枠組みの中で形式化する。 コミュニケーションのパターン iiを表しています タスクのスキルを欠く俳優など、欠落した要素を概説する。 このフレームワークは、公平性に関する決定のための重要な組織上の問題の説明と分析に使用される。 分析から3つの一般的なパターンが浮かび上がる。 1. 政策立案者、公務員、及びドメインの専門家は、システムライフサイクル全体を通して開発者よりも関与していない。 これにより、アドバイザのような余分な役割を負う開発者は、必要なスキルやドメインの専門家からのガイダンスを見逃してしまう可能性がある。 2. エンドユーザー及び政策立案者は、システムの限界を解釈する技術力に欠けることが多く、公正問題に関する意思決定に開発者の役割に依存している。 3 市民は、システムのライフサイクルを通して構造的に欠席しており、影響した利害関係者から関連する配慮を含まない決定を下す可能性がある。

AI algorithms used in the public sector, e.g., for allocating social benefits or predicting fraud, often involve multiple public and private stakeholders at various phases of the algorithm's life-cycle. Communication issues between these diverse stakeholders can lead to misinterpretation and misuse of algorithms. We investigate the communication processes for AI fairness-related decisions by conducting interviews with practitioners working on algorithmic systems in the public sector. By applying qualitative coding analysis, we identify key elements of communication processes that underlie fairness-related human decisions. We analyze the division of roles, tasks, skills, and challenges perceived by stakeholders. We formalize the underlying communication issues within a conceptual framework that i. represents the communication patterns ii. outlines missing elements, such as actors who miss skills for their tasks. The framework is used for describing and analyzing key organizational issues for fairness-related decisions. Three general patterns emerge from the analysis: 1. Policy-makers, civil servants, and domain experts are less involved compared to developers throughout a system's life-cycle. This leads to developers taking on extra roles such as advisor, while they potentially miss the required skills and guidance from domain experts. 2. End-users and policy-makers often lack the technical skills to interpret a system's limitations, and rely on developer roles for making decisions concerning fairness issues. 3. Citizens are structurally absent throughout a system's life-cycle, which may lead to decisions that do not include relevant considerations from impacted stakeholders.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-20
# 先生、子供たちを一人残さずに。HRI教育の標準化

Hey, Teacher, (Don't) Leave Those Kids Alone: Standardizing HRI Education ( http://arxiv.org/abs/2404.00024v1 )

ライセンス: Link先を確認
Alexis E. Block, (参考訳) ヒューマンロボットインタラクション(HRI)の分野が確立するにつれて、標準化された導入コースの作成がより重要になる。 本稿では,学部生に学際的な性質を十分に理解させるために必要な重要な要素について概説し,提案するコース内容について述べる。 それは、あらゆる異なる学習の好みを満たすために、理論的および実験的な構成要素でコースを作成することの重要性を強調している。 この写本はまた、大学予算や規模に関わらず、導入済みのHRIコースのハンズオンコンポーネントを標準化するための普遍的なプラットフォームの作成や採用も提唱している。 次に、科学論文の読み方と最新の関連論文の更新に関する正式なトレーニングを推奨する。 最後に、15週間の学期で詳細な講義内容とプロジェクトマイルストーンを提供する。 標準化されたコースを作成することで、研究者は機関間で一貫性と品質を維持することができ、学生や工業や学術の雇用主が基本的な知識が期待されていることを理解するのに役立つ。

Creating a standardized introduction course becomes more critical as the field of human-robot interaction (HRI) becomes more established. This paper outlines the key components necessary to provide an undergraduate with a sufficient foundational understanding of the interdisciplinary nature of this field and provides proposed course content. It emphasizes the importance of creating a course with theoretical and experimental components to accommodate all different learning preferences. This manuscript also advocates creating or adopting a universal platform to standardize the hands-on component of introductory HRI courses, regardless of university funding or size. Next, it recommends formal training in how to read scientific articles and staying up-to-date with the latest relevant papers. Finally, it provides detailed lecture content and project milestones for a 15-week semester. By creating a standardized course, researchers can ensure consistency and quality are maintained across institutions, which will help students as well as industrial and academic employers understand what foundational knowledge is expected.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-20
# GeRM:四足歩行ロボットのための実験用混合ロボットを用いた汎用ロボットモデル

GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot ( http://arxiv.org/abs/2403.13358v1 )

ライセンス: Link先を確認
Wenxuan Song, Han Zhao, Pengxiang Ding, Can Cui, Shangke Lyu, Yaning Fan, Donglin Wang, (参考訳) マルチタスクロボット学習は、多種多様な複雑なシナリオに取り組む上で重要な役割を担っている。 しかし、現在のアプローチは、パフォーマンスの問題とトレーニングデータセットの収集の難しさによって妨げられている。 本稿では,GERM(Generalist Robotic Model)を提案する。 我々は、オフライン強化学習を利用して、データ利用戦略を最適化し、実証と準最適データの両方から学習し、人間の実証の限界を超越する。 その後、変換器ベースのVLAネットワークを用いて、マルチモーダル入力と出力動作を処理する。 そこでGERMは,Mixture-of-Experts構造を導入することにより,モデル全体のキャパシティを高くして高速な推論速度を実現し,RLパラメータの制限を解消し,計算コストを制御しながらマルチタスク学習におけるモデル性能を向上させる。 一連の実験を通して、GeRMは全てのタスクで他のメソッドよりも優れており、トレーニングと推論の両方のプロセスにおいてその効率性が検証されていることを実証した。 さらに,創発的スキル獲得の可能性を明らかにする。 さらに, quRD-Autoデータセットを自動収集し, トレーニングアプローチをサポートし, マルチタスク四足歩行ロボット学習の進歩を促進する。 本研究は,マルチタスク学習コミュニティにおいて,ロボットデータ収集のコスト削減と進捗促進のための新たなパラダイムを提案する。

Multi-task robot learning holds significant importance in tackling diverse and complex scenarios. However, current approaches are hindered by performance issues and difficulties in collecting training datasets. In this paper, we propose GeRM (Generalist Robotic Model). We utilize offline reinforcement learning to optimize data utilization strategies to learn from both demonstrations and sub-optimal data, thus surpassing the limitations of human demonstrations. Thereafter, we employ a transformer-based VLA network to process multi-modal inputs and output actions. By introducing the Mixture-of-Experts structure, GeRM allows faster inference speed with higher whole model capacity, and thus resolves the issue of limited RL parameters, enhancing model performance in multi-task learning while controlling computational costs. Through a series of experiments, we demonstrate that GeRM outperforms other methods across all tasks, while also validating its efficiency in both training and inference processes. Additionally, we uncover its potential to acquire emergent skills. Additionally, we contribute the QUARD-Auto dataset, collected automatically to support our training approach and foster advancements in multi-task quadruped robot learning. This work presents a new paradigm for reducing the cost of collecting robot data and driving progress in the multi-task learning community.
翻訳日:2024-03-27 21:14:52 公開日:2024-03-20
# 高分解能イメージングによる低分解能ブラインドプレートの認識:Real-ESRGAN, A-ESRGAN, StarSRGANの比較検討

Using Super-Resolution Imaging for Recognition of Low-Resolution Blurred License Plates: A Comparative Study of Real-ESRGAN, A-ESRGAN, and StarSRGAN ( http://arxiv.org/abs/2403.15466v1 )

ライセンス: Link先を確認
Ching-Hsiang Wang, (参考訳) 堅牢な技術開発により、道路監視、盗難車両の追跡、駐車場入口や出口での検知など、さまざまなシナリオにおいて、ナンバープレート認識技術が適切に適用できるようになった。 しかしながら、これらのアプリケーションが正常に機能する前提条件は、ライセンスプレートが正しいライセンスプレート番号を持つシステムによって認識されるのに十分な「クリア」でなければならないことである。 外部要因によってライセンスプレートがぼやけてしまうと、認識の精度が大幅に低下する。 台湾には多くの道路監視カメラがあるが、ほとんどのカメラの品質は良くない。 そこで本研究では, ぼやけたナンバープレートの処理に超解像技術を用いることに焦点を当てた。 本研究は主に、Real-ESRGAN、A-ESRGAN、StarSRGANの3つの超解像モデルを微調整し、ライセンスプレート写真の高精細化と正確なナンバープレート認識の実現におけるそれらの効果を比較する。 異なる超解像モデルを比較することで、このタスクに最も適したモデルを見つけ、将来の研究者に貴重な参照を提供することが期待されている。

With the robust development of technology, license plate recognition technology can now be properly applied in various scenarios, such as road monitoring, tracking of stolen vehicles, detection at parking lot entrances and exits, and so on. However, the precondition for these applications to function normally is that the license plate must be 'clear' enough to be recognized by the system with the correct license plate number. If the license plate becomes blurred due to some external factors, then the accuracy of recognition will be greatly reduced. Although there are many road surveillance cameras in Taiwan, the quality of most cameras is not good, often leading to the inability to recognize license plate numbers due to low photo resolution. Therefore, this study focuses on using super-resolution technology to process blurred license plates. This study will mainly fine-tune three super-resolution models: Real-ESRGAN, A-ESRGAN, and StarSRGAN, and compare their effectiveness in enhancing the resolution of license plate photos and enabling accurate license plate recognition. By comparing different super-resolution models, it is hoped to find the most suitable model for this task, providing valuable references for future researchers.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# Don't be a Fool: Pooling Strategies in Offensive Language Detection from User-Intended Adversarial Attacks (特集:ユビキタス・アタック)

Don't be a Fool: Pooling Strategies in Offensive Language Detection from User-Intended Adversarial Attacks ( http://arxiv.org/abs/2403.15467v1 )

ライセンス: Link先を確認
Seunguk Yu, Juhwan Choi, Youngbin Kim, (参考訳) 攻撃的な言語検出は、虐待的な表現をフィルタリングし、オンラインユーザエクスペリエンスを改善するための重要なタスクである。 しかし、悪意のあるユーザは、しばしばテキストノイズを伴ってフィルタリングシステムを避けようとする。 本稿では,特別なシンボルを挿入したり,韓国語の特徴を活かしたユーザ意図の敵対攻撃として,これらの回避法を提案する。 さらに,提案する攻撃に対する防御策として,攻撃性とトークン埋め込みの両面を捉えるため,最終層だけでなく,前層にも焦点をあてた簡易かつ効果的なプーリング戦略を導入する。 このようなパターンを直接訓練することなく、攻撃速度が向上しても、これらのプーリング戦略は性能劣化に対してより堅牢であることを示す。 特に、クリーンテキストで事前学習したモデルは、これらのプーリング戦略を用いて、ノイズテキストで事前学習したモデルに対して、攻撃攻撃言語を検出する上で同等のパフォーマンスを得ることができた。

Offensive language detection is an important task for filtering out abusive expressions and improving online user experiences. However, malicious users often attempt to avoid filtering systems through the involvement of textual noises. In this paper, we propose these evasions as user-intended adversarial attacks that insert special symbols or leverage the distinctive features of the Korean language. Furthermore, we introduce simple yet effective pooling strategies in a layer-wise manner to defend against the proposed attacks, focusing on the preceding layers not just the last layer to capture both offensiveness and token embeddings. We demonstrate that these pooling strategies are more robust to performance degradation even when the attack rate is increased, without directly training of such patterns. Notably, we found that models pre-trained on clean texts could achieve a comparable performance in detecting attacked offensive language, to models pre-trained on noisy texts by employing these pooling strategies.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# 音素数比Reward-based Reinforcement Learningを用いた等角的ニューラルネットワーク翻訳

Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning ( http://arxiv.org/abs/2403.15469v1 )

ライセンス: Link先を確認
Shivam Ratnakant Mhaskar, Nirmesh J. Shah, Mohammadi Zaki, Ashishkumar P. Gudmalwar, Pankaj Wasnik, Rajiv Ratn Shah, (参考訳) 従来のAVDパイプラインは、ASR(Automatic Speech Recognition)、NMT(Neural Machine Translation)、TTS(Text-to-Speech)という3つの重要なモジュールで構成されている。 AVDパイプライン内では、Isometric-NMTアルゴリズムを用いて合成された出力テキストの長さを調節する。 これは、ダビング処理後のビデオとオーディオのアライメントに関して同期を保証するために行われる。 従来のアプローチでは、機械翻訳モデルのソースおよびターゲット言語テキスト中の文字数と単語数の調整に重点を置いてきた。 しかし,提案手法は,音声の持続時間に密接に関連しているため,音素数を調整することを目的としている。 本稿では,RL(Reinforcement Learning)を用いた等角的NMTシステムの開発について述べる。 提案モデルを評価するため,長さコンプライアンス尺度であるPhonme Count Compliance(PCC)スコアを提案する。 提案手法は,英語-ヒンディー語対に適用した場合の最先端モデルと比較して,PCCスコアが約36%向上したことを示す。 さらに、音素数と翻訳品質のトレードオフを維持するために、RLアプローチの枠組みの中で学生-教師アーキテクチャを提案する。

Traditional Automatic Video Dubbing (AVD) pipeline consists of three key modules, namely, Automatic Speech Recognition (ASR), Neural Machine Translation (NMT), and Text-to-Speech (TTS). Within AVD pipelines, isometric-NMT algorithms are employed to regulate the length of the synthesized output text. This is done to guarantee synchronization with respect to the alignment of video and audio subsequent to the dubbing process. Previous approaches have focused on aligning the number of characters and words in the source and target language texts of Machine Translation models. However, our approach aims to align the number of phonemes instead, as they are closely associated with speech duration. In this paper, we present the development of an isometric NMT system using Reinforcement Learning (RL), with a focus on optimizing the alignment of phoneme counts in the source and target language sentence pairs. To evaluate our models, we propose the Phoneme Count Compliance (PCC) score, which is a measure of length compliance. Our approach demonstrates a substantial improvement of approximately 36% in the PCC score compared to the state-of-the-art models when applied to English-Hindi language pairs. Moreover, we propose a student-teacher architecture within the framework of our RL approach to maintain a trade-off between the phoneme count and translation quality.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# Vi-Mistral-X: 先進的な事前学習を伴うベトナム語モデルの構築

Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training ( http://arxiv.org/abs/2403.15470v1 )

ライセンス: Link先を確認
James Vo, (参考訳) 大規模言語モデル(LLMs)の進歩は自然言語処理の分野を大きく変えてきたが、英語中心のモデルに焦点を当てたことにより、ベトナム語を含む特定の言語に対する顕著な研究ギャップが生まれている。 この問題に対処するため,ベトナム語向けに設計された革新的大規模言語モデルであるvi-mistral-xを提案する。 Mistralアーキテクチャをベースとして、グループ化されたクエリの注意とスライディングウインドウの注意を取り入れた、ユニークな継続事前トレーニング手法を採用している。 このモデルVi-Mistral-Xはベトナム語の理解と生成を改善するための重要な一歩となる。 ベトナム語に特化して適応し、複雑な言語のニュアンスを理解し、正確な文脈対応のベトナム語のテキストを生成するモデルの能力を高める。 様々なベンチマークの総合的なテストを通じて、vi-mistral-xは、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域において、既存のベトナムのLLMよりも優れていることを示した。 特に、ベトナムのマルチタスク言語理解(VMLU)ベンチマークでは、vi-mistral-xが新しい標準を設定し、他の利用可能なモデルよりも大幅に優れている。 本稿では,言語固有のLLMにおける継続事前学習の重要性を強調し,多言語モデル開発のための新たな道を開く。 我々はベトナム語処理の重要な資産であるだけでなく、表現の少ない言語のための大規模言語モデルの構築において、さらなる進歩を促進することを目的としている。

The advancement of Large Language Models (LLMs) has significantly transformed the field of natural language processing, although the focus on English-centric models has created a noticeable research gap for specific languages, including Vietnamese. To address this issue, this paper presents vi-mistral-x, an innovative Large Language Model designed expressly for the Vietnamese language. It utilizes a unique method of continual pre-training, based on the Mistral architecture, which incorporates grouped-query attention and sliding window attention techniques. This model, vi-Mistral-X, marks a significant step forward in improving the understanding and generation of the Vietnamese language. It introduces an additional phase of continual pre-training, specifically adapted for Vietnamese, enhancing the model's capability in understanding complex language nuances and generating accurate, context-aware Vietnamese text. Through comprehensive testing on various benchmarks, vi-mistral-x has shown to outperform existing Vietnamese LLMs in several key areas, including text classification, question answering, and text generation. Particularly, in the Vietnamese Multitask Language Understanding (VMLU) benchmark, vi-mistral-x sets a new standard, outperforming other available models significantly. This paper highlights the critical role of continual pre-training in advancing language-specific LLMs and opens new avenues for the development of multilingual models. We aim for vi-mistral-x to not just be an important asset for processing the Vietnamese language but also to encourage more advancements in creating large language models for languages that are less represented.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# ChatGPTによるプログラミング教育の強化--Pythonコースにおける学生の知覚とインタラクションを事例として

Enhancing Programming Education with ChatGPT: A Case Study on Student Perceptions and Interactions in a Python Course ( http://arxiv.org/abs/2403.15472v1 )

ライセンス: Link先を確認
Boxaun Ma, Li Chen, Shin'ichi Konomi, (参考訳) ChatGPTは、特にプログラミングコースにおける支援ツールとして統合されており、デバッグ、コード生成、説明などの支援を提供することで、プログラミング教育の独特な課題に対処している。 ChatGPTの有効性を検証している既存の研究にもかかわらず、大学レベルのプログラミング教育におけるChatGPTの適用と、学生の相互作用と視点の詳細な理解は限定的のままである。 本稿では,8週間にわたる1年生向けのPythonプログラミングコースにおいて,ChatGPTが学習に与える影響について検討する。 調査,オープンエンド質問,学生-ChatGPTダイアログデータからの回答を分析して,ChatGPTの有用性を包括的に把握し,その利点と限界を学生が認識する。 本研究は,ChatGPTに対する肯定的な反応を明らかにし,プログラミング教育経験の向上におけるChatGPTの役割について考察する。 これらの発見は、教育におけるAIの可能性についての幅広い議論に寄与し、将来の研究と応用への道筋を示唆している。

The integration of ChatGPT as a supportive tool in education, notably in programming courses, addresses the unique challenges of programming education by providing assistance with debugging, code generation, and explanations. Despite existing research validating ChatGPT's effectiveness, its application in university-level programming education and a detailed understanding of student interactions and perspectives remain limited. This paper explores ChatGPT's impact on learning in a Python programming course tailored for first-year students over eight weeks. By analyzing responses from surveys, open-ended questions, and student-ChatGPT dialog data, we aim to provide a comprehensive view of ChatGPT's utility and identify both its advantages and limitations as perceived by students. Our study uncovers a generally positive reception toward ChatGPT and offers insights into its role in enhancing the programming education experience. These findings contribute to the broader discourse on AI's potential in education, suggesting paths for future research and application.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# コンパクト言語モデルとChatGPT-4の改良による効率的な引数分類

Efficient argument classification with compact language models and ChatGPT-4 refinements ( http://arxiv.org/abs/2403.15473v1 )

ライセンス: Link先を確認
Marcin Pietron, Rafał Olszowski, Jakub Gomułka, (参考訳) 引数マイニング(AM)は、議論的コンポーネント(例えば、前提、クレームなど)を自動的に識別し、抽出し、それらの間の既存の関係(例えば、サポート、攻撃、無関係)を検出するタスクとして定義される。 ディープラーニングモデルにより、従来の手法よりも効率的に引数を分析し、セマンティクスを抽出できる。 本稿では,議論マイニングにおける深層学習モデルの比較研究について述べる。 研究は議論の分類に集中している。 この研究は幅広いデータセット(Args.me, UKP, US2016)で実施された。 本稿では,BERTアーキテクチャに基づくアンサンブルモデルと,微調整モデルとしてのChatGPT-4について述べる。 以上の結果から,BERT+ChatGPT-4は他のTransformerベースモデルやLSTMベースモデルよりも優れた性能を示した。 得られた分析は、議論分類のモデルがどのようにさらに改善されるべきかについて重要な洞察を与えることができる。 さらに、引数分類エラーを除去するプロンプトベースのアルゴリズムの開発にも役立てることができる。

Argument mining (AM) is defined as the task of automatically identifying and extracting argumentative components (e.g. premises, claims, etc.) and detecting the existing relations among them (i.e., support, attack, no relations). Deep learning models enable us to analyze arguments more efficiently than traditional methods and extract their semantics. This paper presents comparative studies between a few deep learning-based models in argument mining. The work concentrates on argument classification. The research was done on a wide spectrum of datasets (Args.me, UKP, US2016). The main novelty of this paper is the ensemble model which is based on BERT architecture and ChatGPT-4 as fine tuning model. The presented results show that BERT+ChatGPT-4 outperforms the rest of the models including other Transformer-based and LSTM-based models. The observed improvement is, in most cases, greater than 10The presented analysis can provide crucial insights into how the models for argument classification should be further improved. Additionally, it can help develop a prompt-based algorithm to eliminate argument classification errors.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# EC-IoU:Ego-Centric Intersection-over-Unionによる物体検出装置の配向安全性

EC-IoU: Orienting Safety for Object Detectors via Ego-Centric Intersection-over-Union ( http://arxiv.org/abs/2403.15474v1 )

ライセンス: Link先を確認
Brian Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll, (参考訳) 本稿では,自律運転などの安全クリティカル領域において,最先端の学習に基づく認識モデルを適用する際の現実的な懸念に対処するため,新しいEgo-Centric Intersection-over-Union(EC-IoU)尺度による安全指向物体検出を提案する。 具体的には,広範に使用されているIoU測度を改良する重み付け機構を提案する。 提案したEC-IoU測度は、典型的な評価プロセスにおいて、下流タスクの安全性関連性能の高い対象検出器を選択するために使用できる。 また、モデルファインチューニングのための共通損失関数に統合することもできる。 安全性を重視しながら、KITTIデータセットを用いた実験により、EC-IoUでトレーニングされたモデルの性能は、平均精度でもIoUでトレーニングされたモデルよりも優れていることが示された。

This paper presents safety-oriented object detection via a novel Ego-Centric Intersection-over-Union (EC-IoU) measure, addressing practical concerns when applying state-of-the-art learning-based perception models in safety-critical domains such as autonomous driving. Concretely, we propose a weighting mechanism to refine the widely used IoU measure, allowing it to assign a higher score to a prediction that covers closer points of a ground-truth object from the ego agent's perspective. The proposed EC-IoU measure can be used in typical evaluation processes to select object detectors with higher safety-related performance for downstream tasks. It can also be integrated into common loss functions for model fine-tuning. While geared towards safety, our experiment with the KITTI dataset demonstrates the performance of a model trained on EC-IoU can be better than that of a variant trained on IoU in terms of mean Average Precision as well.
翻訳日:2024-03-26 22:41:56 公開日:2024-03-20
# 大規模言語モデルは食品生産の促進に役立つが、リスクに留意すべき

Large language models can help boost food production, but be mindful of their risks ( http://arxiv.org/abs/2403.15475v1 )

ライセンス: Link先を確認
Djavan De Clercq, Elias Nehring, Harry Mayne, Adam Mahdi, (参考訳) メディアにおけるChatGPTスタイルの大規模言語モデル (LLM) のカバーは、高度な数学的問題を解くことや、医学的検査における専門家の熟練度など、彼らの目を引く業績に焦点を当てている。 しかし、すべての人間の生活に触れる産業である農業におけるLSMの段階的な採用は、公共の監視をはるかに減らしている。 本稿では,食品生産システムにおける言語モデルの普及に伴うリスクと可能性について考察する。 LLMは農業の効率を高め、イノベーションを推進し、より良い政策を伝える可能性があるが、農業の誤情報、大量の農夫データの収集、農業雇用への脅威といった課題は重要な懸念事項である。 LLMランドスケープの急速な進化は、農業政策立案者が食品生産におけるLCMの責任ある利用を保証するための枠組みやガイドラインを慎重に考える必要性を浮き彫りにして、政策介入が困難になるようにしている。

Coverage of ChatGPT-style large language models (LLMs) in the media has focused on their eye-catching achievements, including solving advanced mathematical problems and reaching expert proficiency in medical examinations. But the gradual adoption of LLMs in agriculture, an industry which touches every human life, has received much less public scrutiny. In this short perspective, we examine risks and opportunities related to more widespread adoption of language models in food production systems. While LLMs can potentially enhance agricultural efficiency, drive innovation, and inform better policies, challenges like agricultural misinformation, collection of vast amounts of farmer data, and threats to agricultural jobs are important concerns. The rapid evolution of the LLM landscape underscores the need for agricultural policymakers to think carefully about frameworks and guidelines that ensure the responsible use of LLMs in food production before these technologies become so ingrained that policy intervention becomes challenging.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-20
# 視覚概念のための生成テンプレートプログラムの推論学習

Learning to Infer Generative Template Programs for Visual Concepts ( http://arxiv.org/abs/2403.15476v1 )

ライセンス: Link先を確認
R. Kenny Jones, Siddhartha Chaudhuri, Daniel Ritchie, (参考訳) 人々はいくつかの例から柔軟な視覚概念を把握します。 本稿では,視覚的概念を一般の方法で捉えたプログラムを推論する方法を学ぶニューロシンボリックシステムについて検討する。 本稿では,入力概念に共通する構造パターンとパラメトリックパターンを指定するドメイン固有言語からのプログラム表現について紹介する。 本フレームワークは,構文解析による少数ショット生成と協調分割を含む,複数の概念関連タスクをサポートする。 概念グループを含むビジュアルデータセットから直接テンプレートプログラムを推論するネットワークをトレーニングする学習パラダイムを開発する。 2Dレイアウト、Omniglot文字、そして3D形状です。 提案手法は,タスク固有の代替手法よりも優れており,ドメイン固有のアプローチに対して競争力があることがわかった。

People grasp flexible visual concepts from a few examples. We explore a neurosymbolic system that learns how to infer programs that capture visual concepts in a domain-general fashion. We introduce Template Programs: programmatic expressions from a domain-specific language that specify structural and parametric patterns common to an input concept. Our framework supports multiple concept-related tasks, including few-shot generation and co-segmentation through parsing. We develop a learning paradigm that allows us to train networks that infer Template Programs directly from visual datasets that contain concept groupings. We run experiments across multiple visual domains: 2D layouts, Omniglot characters, and 3D shapes. We find that our method outperforms task-specific alternatives, and performs competitively against domain-specific approaches for the limited domains where they exist.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-20
# 自殺リスク証拠要約のための教師付き抽出言語モデルと生成言語モデルの統合

Integrating Supervised Extractive and Generative Language Models for Suicide Risk Evidence Summarization ( http://arxiv.org/abs/2403.15478v1 )

ライセンス: Link先を確認
Rika Tanaka, Yusuke Fukazawa, (参考訳) CLPsych 2024共有タスクにおける自殺リスクの証拠を提供するために,教師付き抽出言語モデルと生成言語モデルを統合する手法を提案する。 私たちのアプローチは3つのステップから構成されます。 まず,文章レベルの自殺リスクと負の感情を推定するためのBERTモデルを構築した。 次に,自殺リスクと負の感情の両方の高い確率を強調することで,高い自殺リスクの文を正確に同定する。 最後に,MentaLLaMaフレームワークを用いた生成要約と,特定された自殺リスク文からの抽出要約と,自殺リスク単語の専門辞書を統合した。 我々のチームであるSophiaADSは、それぞれリコールと一貫性の指標に基づいて、ハイライト抽出で第1位、要約生成で第10位を獲得しました。

We propose a method that integrates supervised extractive and generative language models for providing supporting evidence of suicide risk in the CLPsych 2024 shared task. Our approach comprises three steps. Initially, we construct a BERT-based model for estimating sentence-level suicide risk and negative sentiment. Next, we precisely identify high suicide risk sentences by emphasizing elevated probabilities of both suicide risk and negative sentiment. Finally, we integrate generative summaries using the MentaLLaMa framework and extractive summaries from identified high suicide risk sentences and a specialized dictionary of suicidal risk words. SophiaADS, our team, achieved 1st place for highlight extraction and ranked 10th for summary generation, both based on recall and consistency metrics, respectively.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-20
# スポットライティングによる間接プロンプトインジェクション攻撃に対する防御

Defending Against Indirect Prompt Injection Attacks With Spotlighting ( http://arxiv.org/abs/2403.14720v1 )

ライセンス: Link先を確認
Keegan Hines, Gary Lopez, Matthew Hall, Federico Zarfati, Yonatan Zunger, Emre Kiciman, (参考訳) 大きな言語モデル(LLM)は強力だが、単一のテキスト入力を処理するために構築され、訓練される。 一般的なアプリケーションでは、複数の入力を1つのテキストストリームにまとめることで処理することができる。 しかし、LSMは、どのプロンプトが様々な入力源に属するかを区別できない。 間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。 LLMは多くの場合、ユーザコマンドに従っている敵の命令を間違えて、より大きなシステムにセキュリティ脆弱性を発生させる。 我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。 重要な洞察は、入力の変換を利用して、その証明の信頼性と連続的な信号を提供することである。 我々は、スポットライトを間接的インジェクション攻撃に対する防御として評価し、根底にあるNLPタスクに最小限の有害影響を及ぼす堅牢な防御であることを確認した。 GPT- family モデルを用いることで,攻撃成功率が {50}\% 以上から {2}\% 以下に低下し,作業効率に最小限の影響が認められる。

Large Language Models (LLMs), while powerful, are built and trained to process a single text input. In common applications, multiple inputs can be processed by concatenating them together into a single stream of text. However, the LLM is unable to distinguish which sections of prompt belong to various input sources. Indirect prompt injection attacks take advantage of this vulnerability by embedding adversarial instructions into untrusted data being processed alongside user commands. Often, the LLM will mistake the adversarial instructions as user commands to be followed, creating a security vulnerability in the larger system. We introduce spotlighting, a family of prompt engineering techniques that can be used to improve LLMs' ability to distinguish among multiple sources of input. The key insight is to utilize transformations of an input to provide a reliable and continuous signal of its provenance. We evaluate spotlighting as a defense against indirect prompt injection attacks, and find that it is a robust defense that has minimal detrimental impact to underlying NLP tasks. Using GPT-family models, we find that spotlighting reduces the attack success rate from greater than {50}\% to below {2}\% in our experiments with minimal impact on task efficacy.
翻訳日:2024-03-25 21:31:40 公開日:2024-03-20
# 学術文献からのオープンソース臨床情報リポジトリの自動抽出と成熟度解析

Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature ( http://arxiv.org/abs/2403.14721v1 )

ライセンス: Link先を確認
Jeremy R. Harper, (参考訳) 臨床情報学の進化する展望の中で、政府資金を通じて開発されたソフトウェアツールの統合と利用は、研究と応用において重要な進歩を示している。 しかし、これらのツールの分散は、中央集権的な知識ベースを持たない様々なリポジトリに分散しており、その潜在能力を最大限活用するための大きな課題となっている。 本研究では, arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出し, 臨床情報学の分野に着目し, このギャップを埋める自動化手法を提案する。 当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。 プロセスは堅牢で、エラー処理とレート制限を組み込んで、API制約の遵守を保証するように設計されている。 NIHが支援するソフトウェアツールの集中的知識基盤を編纂する上で,本手法が有効であることを示す予備的な知見が得られた。 ツールの簡潔な要約と評価を生成するために,Large Language Models (LLMs) の今後の統合を提案する。 このアプローチは、臨床情報ツールの発見と評価を容易にし、また、研究者が連邦政府が資金提供したソフトウェアにアクセスし、活用する方法に革命をもたらす、新しく活発に更新されたリポジトリの継続的な監視を可能にする。 この研究の意義は、価値あるリソースへのアクセスを単純化することを超えて、科学的ソフトウェアを動的に集約し評価するためのスケーラブルなモデルを提案し、臨床情報学などにおけるより協調的で透明で効率的な研究プラクティスを奨励する。

In the evolving landscape of clinical informatics, the integration and utilization of software tools developed through governmental funding represent a pivotal advancement in research and application. However, the dispersion of these tools across various repositories, with no centralized knowledge base, poses significant challenges to leveraging their full potential. This study introduces an automated methodology to bridge this gap by systematically extracting GitHub repository URLs from academic papers indexed in arXiv, focusing on the field of clinical informatics. Our approach encompasses querying the arXiv API for relevant papers, cleaning extracted GitHub URLs, fetching comprehensive repository information via the GitHub API, and analyzing repository maturity based on defined metrics such as stars, forks, open issues, and contributors. The process is designed to be robust, incorporating error handling and rate limiting to ensure compliance with API constraints. Preliminary findings demonstrate the efficacy of this methodology in compiling a centralized knowledge base of NIH-funded software tools, laying the groundwork for an enriched understanding and utilization of these resources within the clinical informatics community. We propose the future integration of Large Language Models (LLMs) to generate concise summaries and evaluations of the tools. This approach facilitates the discovery and assessment of clinical informatics tools and also enables ongoing monitoring of new and actively updated repositories, revolutionizing how researchers access and leverage federally funded software. The implications of this study extend beyond simplification of access to valuable resources; it proposes a scalable model for the dynamic aggregation and evaluation of scientific software, encouraging more collaborative, transparent, and efficient research practices in clinical informatics and beyond.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-20
# プライバシの6つのレベル: ファイナンシャルシンセティックデータのためのフレームワーク

Six Levels of Privacy: A Framework for Financial Synthetic Data ( http://arxiv.org/abs/2403.14724v1 )

ライセンス: Link先を確認
Tucker Balch, Vamsi K. Potluru, Deepak Paramanand, Manuela Veloso, (参考訳) シンセティックデータは、金融アプリケーションにおいてますます重要になっている。 金融モデリングの改善やテスト手順の改善といったメリットに加えて、プライバシのリスクも生じます。 このようなデータは、保護されなければならないクライアント情報、ビジネス情報、その他のプロプライエタリなソースから生じます。 シンセティックデータを生成するプロセスは、元のデータをある程度隠蔽するのに役立ちますが、プライバシが保持されている範囲を評価するのは難しいです。 そこで、我々は、合成データ生成手法の分類に有用な「レベル」のプライバシー階層を導入し、それらが提供する保護を段階的に改善した。 6つのレベルは金融応用の文脈で考案されたが、他の業界にも当てはまるかもしれない。 ファイナンシャル・シンセティック・データの概要、その利用方法、価値の評価方法、プライバシーリスク、プライバシ・アタックについて概説する。 これらの攻撃に対する防御を含む `Six Levels'' の詳細を詳述する。

Synthetic Data is increasingly important in financial applications. In addition to the benefits it provides, such as improved financial modeling and better testing procedures, it poses privacy risks as well. Such data may arise from client information, business information, or other proprietary sources that must be protected. Even though the process by which Synthetic Data is generated serves to obscure the original data to some degree, the extent to which privacy is preserved is hard to assess. Accordingly, we introduce a hierarchy of ``levels'' of privacy that are useful for categorizing Synthetic Data generation methods and the progressively improved protections they offer. While the six levels were devised in the context of financial applications, they may also be appropriate for other industries as well. Our paper includes: A brief overview of Financial Synthetic Data, how it can be used, how its value can be assessed, privacy risks, and privacy attacks. We close with details of the ``Six Levels'' that include defenses against those attacks.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-20
# ジェイルブレイクは定義によって解決される

Jailbreaking is Best Solved by Definition ( http://arxiv.org/abs/2403.14725v1 )

ライセンス: Link先を確認
Taeyoun Kim, Suhas Kotha, Aditi Raghunathan, (参考訳) 言語モデルに対する「ジェイルブレイク」攻撃の台頭は、望ましくない応答の出力を防ぐための防衛策の急増につながった。 本研究では,防衛パイプラインの2つの段階について批判的に検討する。 一 安全でない出力を構成するものの定義、及び 二 入力処理又は微調整等の方法による定義の施行 我々は、安全でないアウトプットの単純な定義でさえも守れないことを示すことで、既存の執行機構の有効性に深刻な疑念を抱いた。 対照的に、後処理の出力はそのような定義に対して完全に堅牢である。 良い定義がなければ、執行戦略は成功できないが、よい定義では、出力処理は推論時のオーバーヘッドを伴うにもかかわらず、すでに堅牢なベースラインとして機能している。

The rise of "jailbreak" attacks on language models has led to a flurry of defenses aimed at preventing the output of undesirable responses. In this work, we critically examine the two stages of the defense pipeline: (i) the definition of what constitutes unsafe outputs, and (ii) the enforcement of the definition via methods such as input processing or fine-tuning. We cast severe doubt on the efficacy of existing enforcement mechanisms by showing that they fail to defend even for a simple definition of unsafe outputs--outputs that contain the word "purple". In contrast, post-processing outputs is perfectly robust for such a definition. Drawing on our results, we present our position that the real challenge in defending jailbreaks lies in obtaining a good definition of unsafe responses: without a good definition, no enforcement strategy can succeed, but with a good definition, output processing already serves as a robust baseline albeit with inference-time overheads.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-20
# 深部特徴一致変分オートエンコーダ

Deep Feature Consistent Variational Autoencoder ( http://arxiv.org/abs/1610.00291v2 )

ライセンス: Link先を確認
Xianxu Hou, Linlin Shen, Ke Sun, Guoping Qiu, (参考訳) 本稿では,変分オートエンコーダ(VAE)を構築するための新しい手法を提案する。 ピクセル・バイ・ピクセル・ロスを使用する代わりに、入力とVAEの出力の深い特徴一貫性を強制し、VAEの出力が入力の空間的相関特性を維持することを保証することにより、出力はより自然な視覚的外観と知覚的品質を持つ。 スタイル伝達などの最近のディープラーニングの成果に基づいて,事前学習した深層畳み込みニューラルネットワーク(CNN)を用いて,その隠れた特徴を用いて,VAEトレーニングにおける特徴知覚損失を定義する。 CelebAの顔データセットから,本モデルが文献の他の手法よりも優れた結果をもたらすことを示す。 また,提案手法は,顔の表情の意味情報をキャプチャし,顔属性予測の最先端性能を実現する潜在ベクトルを生成できることを示す。

We present a novel method for constructing Variational Autoencoder (VAE). Instead of using pixel-by-pixel loss, we enforce deep feature consistency between the input and the output of a VAE, which ensures the VAE's output to preserve the spatial correlation characteristics of the input, thus leading the output to have a more natural visual appearance and better perceptual quality. Based on recent deep learning works such as style transfer, we employ a pre-trained deep convolutional neural network (CNN) and use its hidden features to define a feature perceptual loss for VAE training. Evaluated on the CelebA face dataset, we show that our model produces better results than other methods in the literature. We also show that our method can produce latent vectors that can capture the semantic information of face expressions and can be used to achieve state-of-the-art performance in facial attribute prediction.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-20
# 最大絡み合った状態を用いた非局所ゲームに対するラウンドング準最適量子戦略

Rounding near-optimal quantum strategies for nonlocal games to strategies using maximally entangled states ( http://arxiv.org/abs/2203.02525v3 )

ライセンス: Link先を確認
Connor Paddock, (参考訳) ブール制約系(BCS)非局所ゲームに対する近似剛性結果を確立する。 特に、ほぼ完全な量子戦略は、小さなフロベニウスノルムにおける対応するBCS代数の近似表現であることを示す。 同様に、XOR の非局所ゲームに対して、準最適量子戦略はゲームに関連する対応する *-代数の近似表現であることを示す。 どちらの場合も、近似表現のノルムは戦略で用いられる量子状態とは独立である。 また、BCS (resp. XOR-algebra) の近似表現は、対応するゲームに対して最大に絡み合った状態を用いて、ほぼ完全に近い量子戦略(resp. near-optimal)であることを示す。 系として、BCS(英語版)(略して準最適XOR)の量子戦略は、最大絡み合った状態を用いて、ほぼ完全(略して準最適)の量子戦略に近い。 最後に、すべての同期代数があるBCS代数に*同型であることを示し、その結果を同期非局所ゲームのクラスにも適用できるようにする。

We establish approximate rigidity results for boolean constraint system (BCS) nonlocal games. In particular, we show that near-perfect quantum strategies are approximate representations of the corresponding BCS algebra in the little Frobenius norm. Likewise, for the class of XOR nonlocal games, we show that near-optimal quantum strategies are approximate representations of the corresponding *-algebra associated with the game. In both cases, the norm of the approximate representations is independent of the quantum state employed in the strategy. We also show that approximate representations of the BCS (resp. XOR-algebra) are close to near-perfect (resp. near-optimal) quantum strategies employing a maximally entangled state for the corresponding game. As a corollary, any near-perfect BCS (resp. near-optimal XOR) quantum strategy is close to a near-perfect (resp. near-optimal) quantum strategy using a maximally entangled state. Lastly, we show that every synchronous algebra is *-isomorphic to a certain BCS algebra, allowing us to apply our results to the class of synchronous nonlocal games as well.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-20
# イベント時間関係抽出のためのマルチスケールコントラスト知識共蒸留

Multi-Scale Contrastive Knowledge Co-Distillation for Event Temporal Relation Extraction ( http://arxiv.org/abs/2209.00568v2 )

ライセンス: Link先を確認
Hao-Ren Yao, Luke Breitfeller, Aakanksha Naik, Chunxiao Zhou, Carolyn Rose, (参考訳) イベント時間関係抽出(ETRE)は重要な問題であるが、難しい問題である。 事象対は異なる距離の談話の中にあり、近接帯域と呼ばれる。 時間的順序付けは、より遠く(例えば ``long'' )かそれ以下(すなわち ``short'' )のイベントペアについて伝達される。 SOTA ETREモデルは、短距離または長距離の近接バンドに位置するイベントでもうまく機能する傾向にあるが、両方ではない。 しかし、現実世界の自然なテキストには、あらゆる時間的イベントペアが含まれている。 本稿では,MulCo: Multi-Scale Contrastive Knowledge Co-Distillationを提案する。 実験の結果,MulCoは近距離帯域と近距離帯域の時間的推論に関連する言語的手がかりをうまく統合し,複数のETREベンチマークデータセットで新たな最先端結果を得ることができた。

Event Temporal Relation Extraction (ETRE) is a crucial yet challenging problem. Event pairs are situated within a discourse at different distances, which we refer to as proximity bands. The temporal ordering communicated about event pairs situated at more remote (i.e., ``long'') or less remote (i.e., ``short'') proximity bands is encoded differently. SOTA ETRE models have tended to perform well on events situated at either short or long proximity bands, but not both. Yet, real-world, natural texts contain all types of temporal event-pairs. In this paper, we present MulCo: Multi-Scale Contrastive Knowledge Co-Distillation, a fusion approach that shares knowledge across multiple event pair proximity bands in order to improve performance on all types of temporal datasets. Our experimental results show that MulCo successfully integrates linguistic cues pertaining to temporal reasoning across both short and long proximity bands and achieves new state-of-the-art results on several ETRE benchmark datasets.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-20
# スペクトルクラスタリングのための非パラメトリックブートストラップ

A Non-Parametric Bootstrap for Spectral Clustering ( http://arxiv.org/abs/2209.05812v2 )

ライセンス: Link先を確認
Liam Welsh, Phillip Shreeves, (参考訳) 有限混合モデリングはクラスタリングの分野では一般的な手法であり、そのソフトクラスタのメンバシップ確率に大きく寄与する。 有限混合モデルに適合する一般的な方法はスペクトルクラスタリングを用いることで、期待最大化(EM)アルゴリズムを利用することができる。 しかし、EMアルゴリズムは、準最適解への収束など、多くの問題に悩まされる。 本稿では,データ行列のスペクトル分解と非パラメトリックブートストラップサンプリング方式を取り入れた2つの新しいアルゴリズムを開発することにより,この問題に対処する。 シミュレーションは我々のアルゴリズムの有効性を示し、その柔軟性だけでなく、有限混合モデルを推定する他のクラスタリングアルゴリズムと比較して、その計算効率と低解を回避する能力も示している。 我々の手法は、有限混合モデルに適合する他のブートストラップアルゴリズムと比較して収束性においてより一貫性がある。

Finite mixture modelling is a popular method in the field of clustering and is beneficial largely due to its soft cluster membership probabilities. A common method for fitting finite mixture models is to employ spectral clustering, which can utilize the expectation-maximization (EM) algorithm. However, the EM algorithm falls victim to a number of issues, including convergence to sub-optimal solutions. We address this issue by developing two novel algorithms that incorporate the spectral decomposition of the data matrix and a non-parametric bootstrap sampling scheme. Simulations display the validity of our algorithms and demonstrate not only their flexibility, but also their computational efficiency and ability to avoid poor solutions when compared to other clustering algorithms for estimating finite mixture models. Our techniques are more consistent in their convergence when compared to other bootstrapped algorithms that fit finite mixture models.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-20
# ハブ対応ランダムウォークグラフ埋め込み法による分類

Hub-aware Random Walk Graph Embedding Methods for Classification ( http://arxiv.org/abs/2209.07603v3 )

ライセンス: Link先を確認
Aleksandar Tomčić, Miloš Savić, Miloš Radovanović, (参考訳) 過去20年で、グラフやネットワークという形で構築された貴重なビッグデータが大幅に増加するのを目撃しています。 このようなデータに従来の機械学習とデータ解析技術を適用するためには、グラフの最も重要な構造特性を保持するベクトルベースの表現に変換する必要がある。 この目的のために,本研究では多数のグラフ埋め込み手法が提案されている。 それらの多くは、ノードクラスタリング、ノード分類、グラフの可視化、リンク予測など、さまざまなアプリケーションに適した汎用的な埋め込みを生成する。 本稿では,ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。 提案アルゴリズムのランダムウォークサンプリング戦略は、大規模グラフの全体的な連結性に最も重要な役割を果たす高次ノードであるハブに特別な注意を払うように設計されている。 提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。 その結果,本手法は一般的なグラフ埋め込み(node2vec)を生成するために,現在最も普及しているランダムウォーク法と比較して,検証された分類器の予測能力を大幅に向上することが示された。

In the last two decades we are witnessing a huge increase of valuable big data structured in the form of graphs or networks. To apply traditional machine learning and data analytic techniques to such data it is necessary to transform graphs into vector-based representations that preserve the most essential structural properties of graphs. For this purpose, a large number of graph embedding methods have been proposed in the literature. Most of them produce general-purpose embeddings suitable for a variety of applications such as node clustering, node classification, graph visualisation and link prediction. In this paper, we propose two novel graph embedding algorithms based on random walks that are specifically designed for the node classification problem. Random walk sampling strategies of the proposed algorithms have been designed to pay special attention to hubs -- high-degree nodes that have the most critical role for the overall connectedness in large-scale graphs. The proposed methods are experimentally evaluated by analyzing the classification performance of three classification algorithms trained on embeddings of real-world networks. The obtained results indicate that our methods considerably improve the predictive power of examined classifiers compared to currently the most popular random walk method for generating general-purpose graph embeddings (node2vec).
翻訳日:2024-03-22 20:49:10 公開日:2024-03-20
# 勾配分割によるSVRGとTD-SVRGのギャップの解消

Closing the gap between SVRG and TD-SVRG with Gradient Splitting ( http://arxiv.org/abs/2211.16237v3 )

ライセンス: Link先を確認
Arsenii Mustafin, Alex Olshevsky, Ioannis Ch. Paschalidis, (参考訳) 時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。 近年,幾何収束率を達成するために,確率変数低減勾配法(SVRG)を用いてTD学習を融合する研究が数多く行われている。 しかし、収束速度は凸最適化の設定においてSVRGが達成したものよりも著しく弱い。 本研究では,TD-ラーニングの最近の解釈を,適切に選択された関数の勾配の分割として利用し,アルゴリズムの簡素化とSVRGとの融合を図る。 本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。 我々の理論的な発見は一連の実験によって裏付けられている。

Temporal difference (TD) learning is a policy evaluation in reinforcement learning whose performance can be enhanced by variance reduction methods. Recently, multiple works have sought to fuse TD learning with Stochastic Variance Reduced Gradient (SVRG) method to achieve a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. Our main result is a geometric convergence bound with predetermined learning rate of $1/8$, which is identical to the convergence bound available for SVRG in the convex setting. Our theoretical findings are supported by a set of experiments.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-20
# 格子ゲージ理論のためのランダム化測定プロトコル

Randomized measurement protocols for lattice gauge theories ( http://arxiv.org/abs/2303.15519v2 )

ライセンス: Link先を確認
Jacob Bringewatt, Jonathan Kunjummen, Niklas Mueller, (参考訳) 古典的シャドウ、絡み合いトモグラフィ、ランダム化ベンチマークなどのランダム化測定プロトコルは、観測可能なものを推定したり、状態トモグラフィを実行したり、量子状態の絡み合い特性を抽出したりするための強力な技術である。 量子状態の複雑な構造を解くことは一般に困難で資源集約的であるが、自然界の量子系はしばしば対称性によって厳しく制約される。 これは、測定コストの削減、実験における対称性に基づく誤差緩和の実現、(格子)ゲージ理論の絡み合い構造の微分測定、そして潜在的には、既存の実験および短期実験における位相的に順序付けられた状態の検証など、対称性を考慮したランダム化よりも明確な利点が得られる。 重要なことに、対称性のブラインドランダム化測定プロトコルとは異なり、これらの後者のタスクは密度行列の完全な再構成を通じて対称性を学習することなく実行できる。

Randomized measurement protocols, including classical shadows, entanglement tomography, and randomized benchmarking are powerful techniques to estimate observables, perform state tomography, or extract the entanglement properties of quantum states. While unraveling the intricate structure of quantum states is generally difficult and resource-intensive, quantum systems in nature are often tightly constrained by symmetries. This can be leveraged by the symmetry-conscious randomized measurement schemes we propose, yielding clear advantages over symmetry-blind randomization such as reducing measurement costs, enabling symmetry-based error mitigation in experiments, allowing differentiated measurement of (lattice) gauge theory entanglement structure, and, potentially, the verification of topologically ordered states in existing and near-term experiments. Crucially, unlike symmetry-blind randomized measurement protocols, these latter tasks can be performed without relearning symmetries via full reconstruction of the density matrix.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-20
# 高度回帰モデルと持続管理のためのメタヒューリスティック手法によるエネルギー効率の構築

Building Energy Efficiency through Advanced Regression Models and Metaheuristic Techniques for Sustainable Management ( http://arxiv.org/abs/2305.08886v2 )

ライセンス: Link先を確認
Hamed Khosravi, Hadi Sahebi, Rahim khanizad, Imtiaz Ahmed, (参考訳) 世界的持続可能性の文脈では、建物はエネルギーの重要な消費者であり、効率を高め環境への影響を減らす革新的な戦略の必要性を強調している。 本研究は, 建設インフラから得られた広範囲な生データを利用して, エネルギー消費パターンを明らかにし, 資源利用を最適化するための戦略を考案する。 本研究では, エネルギー利用予測の精度向上のために, ラッソ回帰, 決定木, ランダムフォレストモデルを用いて, 建物のエネルギー効率とコスト削減に影響を与える要因について検討する。 本研究は, エネルギー利用に影響を及ぼす要因を考察し, 原燃料と電気エネルギーに焦点をあて, 大幅なコスト削減と環境効果の可能性について考察した。 ここではメタヒューリスティックな手法を用いて決定木アルゴリズムを改良し,予測精度を向上する。 これにより、高エネルギー効率・低エネルギー能を有する建物の特性をより微妙に理解することができる。 本研究は, 持続可能な開発とクリーンな生産という幅広い目標に寄与し, エネルギー消費と運用コストを削減するための実用的な知見を提供する。 この研究は、建物におけるエネルギー利用の鍵となる要因を特定することによって、政策立案者や業界のステークホルダーがよりクリーンで持続可能なエネルギープラクティスを実装するための貴重な枠組みを提供する。

In the context of global sustainability, buildings are significant consumers of energy, emphasizing the necessity for innovative strategies to enhance efficiency and reduce environmental impact. This research leverages extensive raw data from building infrastructures to uncover energy consumption patterns and devise strategies for optimizing resource use. We investigate the factors influencing energy efficiency and cost reduction in buildings, utilizing Lasso Regression, Decision Tree, and Random Forest models for accurate energy use forecasting. Our study delves into the factors affecting energy utilization, focusing on primary fuel and electrical energy, and discusses the potential for substantial cost savings and environmental benefits. Significantly, we apply metaheuristic techniques to enhance the Decision Tree algorithm, resulting in improved predictive precision. This enables a more nuanced understanding of the characteristics of buildings with high and low energy efficiency potential. Our findings offer practical insights for reducing energy consumption and operational costs, contributing to the broader goals of sustainable development and cleaner production. By identifying key drivers of energy use in buildings, this study provides a valuable framework for policymakers and industry stakeholders to implement cleaner and more sustainable energy practices.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-20
# Trojan Playground: ハードウェアトロイの木馬の挿入と検出のための強化学習フレームワーク

Trojan Playground: A Reinforcement Learning Framework for Hardware Trojan Insertion and Detection ( http://arxiv.org/abs/2305.09592v2 )

ライセンス: Link先を確認
Amin Sarihi, Ahmad Patooghy, Peter Jamieson, Abdel-Hameed A. Badawy, (参考訳) 現在のハードウェアトロイジャン(HT)検出技術は、主に限られたHTベンチマークに基づいて開発されている。 既存のHTベンチマーク回路は、複数の欠点、すなわち、生成される。 一 創造時のデザイナーの考え方に大きく偏っていること、 二 それらは一次元のレンズで作られ、主に網の信号活動である。 本稿では,これらの欠点に対処する最初の自動強化学習(RL) HT挿入検出フレームワークを紹介する。 HT挿入フェーズでは、RLエージェントが回路を探索し、挿入されたHTを隠蔽するのに最適な場所を見つける。 防衛面では,HTの存在を発見するための試験ベクトルを生成する多基準RLベースのHT検出器を導入する。 提案されたフレームワークを使用することで、HT挿入および検出設計空間を探索し、人間のマインドセットとベンチマークの問題の限界を破り、最終的には次世代の革新的な検出器へと導くことができる。 我々は、ISCAS-85ベンチマークにおけるフレームワークの有効性を実証し、攻撃と検出の成功率を提供し、我々の技術を比較するための方法論を定義する。

Current Hardware Trojan (HT) detection techniques are mostly developed based on a limited set of HT benchmarks. Existing HT benchmark circuits are generated with multiple shortcomings, i.e., i) they are heavily biased by the designers' mindset when created, and ii) they are created through a one-dimensional lens, mainly the signal activity of nets. We introduce the first automated Reinforcement Learning (RL) HT insertion and detection framework to address these shortcomings. In the HT insertion phase, an RL agent explores the circuits and finds locations best for keeping inserted HTs hidden. On the defense side, we introduce a multi-criteria RL-based HT detector that generates test vectors to discover the existence of HTs. Using the proposed framework, one can explore the HT insertion and detection design spaces to break the limitations of human mindset and benchmark issues, ultimately leading toward the next generation of innovative detectors. We demonstrate the efficacy of our framework on ISCAS-85 benchmarks, provide the attack and detection success rates, and define a methodology for comparing our techniques.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-20
# 量子多体検出確率における相互作用誘起遷移

Interaction-induced transition in quantum many-body detection probability ( http://arxiv.org/abs/2306.01586v3 )

ライセンス: Link先を確認
Archak Purkayastha, Alberto Imparato, (参考訳) デジタルおよびアナログ量子シミュレーション実験の出現により、量子多体格子系の力学を実験的にシミュレートし、サイト分解された測定を行うことが可能となった。 これらの実験は、量子多体格子系の力学をシミュレーションしながら、複数の検出器を様々な場所に配置する際、特定の測定結果を得る確率を「シグナル」と呼ぶ。 本研究では,この問題を定式化し,量子多体検出確率(QMBDP)の概念を導入する。 いくつかのハミルトンパラメータをチューニングすると、QMBDP $\approx 1$のレジームから、QMBDP $\approx 0$のレジームへの急激な遷移が存在することを示す。 最も顕著な点として、そのような遷移の影響は単一の軌道レベルで観測できる。 これは測定誘起遷移ではなく、多体スペクトルの特定のタイプのギャップの開口を反映する非平衡遷移である。 我々はこれを単体不純物非可積分モデルで示し、多体相互作用の強さの変化がそのような遷移をもたらすことを示した。 以上の結果から,単発ストロボスコープは期待値ではなく,非平衡遷移の観測に有用であることが示唆された。

With the advent of digital and analog quantum simulation experiments, it is now possible to experimentally simulate dynamics of quantum many-body lattice systems and make site-resolved measurements. These experiments make it pertinent to consider the probability of getting any specific measurement outcome, which we call the `signal', on placing multiple detectors at various sites while simulating dynamics of a quantum many-body lattice system. In this work, we formulate and investigate this problem, introducing the concept of quantum many-body detection probability (QMBDP), which refers to the probability of detecting a chosen signal at least once in a given time. We show that, on tuning some Hamiltonian parameters, there can be sharp transition from a regime where QMBDP $\approx 1$, to a regime, where QMBDP $\approx 0$. Most notably, the effects of such a transition can be observed at a single trajectory level. This is not a measurement-induced transition, but rather a non-equilibrium transition reflecting opening of a specific type of gap in the many-body spectrum. We demonstrate this in a single-impurity non-integrable model, where changing the many-body interaction strength brings about such a transition. Our findings suggest that instead of measuring expectation values, single-shot stroboscopic measurements could be used to observe non-equilibrium transitions.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-20
# 顎関節終末音声処理タスクにおけるガンマトネグラムの表現:音声認識,話者識別,知能度評価

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment ( http://arxiv.org/abs/2307.03296v2 )

ライセンス: Link先を確認
Aref Farhadipour, Hadi Veisi, (参考訳) 失語症(Dysarthria)は、人間の音声システムに障害を引き起こし、人の音声の品質と知性を減らす障害である。 このため、通常の音声処理システムは、障害のある音声に対して適切に機能することができない。 この障害は通常身体障害と関連している。 したがって、スマートホームで音声コマンドを受信することでタスクを遂行できるシステムを設計することは重要な成果である。 本研究では,畳み込みニューラルネットワークの入力として使用される識別的詳細を持つ音声ファイルの効率的な表現法としてガンマトングラムを導入する。 言い換えると、各音声ファイルを画像に変換し、異なるシナリオで音声を分類する画像認識システムを提案する。 提案したCNNは、事前学習されたAlexnet上の転写学習法に基づいている。 本研究では,音声認識,話者識別,インテリジェンス評価のためのシステムの有効性を評価する。 UAデータセットの結果によると、提案した音声認識システムは話者依存モードで91.29%の精度を達成し、話者識別システムはテキスト依存モードで87.74%の精度を獲得し、2クラスモードで96.47%の精度を達成した。 最後に,完全に自動で動作するマルチネットワーク音声認識システムを提案する。 本システムは,2階層のインテリジェンスアセスメントシステムとカスケードに配置し,音声認識ネットワークの各々の出力を活性化する。 このアーキテクチャは92.3%のWRRを達成している。 本論文のソースコードは公開されている。

Dysarthria is a disability that causes a disturbance in the human speech system and reduces the quality and intelligibility of a person's speech. Because of this effect, the normal speech processing systems can not work properly on impaired speech. This disability is usually associated with physical disabilities. Therefore, designing a system that can perform some tasks by receiving voice commands in the smart home can be a significant achievement. In this work, we introduce gammatonegram as an effective method to represent audio files with discriminative details, which is used as input for the convolutional neural network. On the other word, we convert each speech file into an image and propose image recognition system to classify speech in different scenarios. Proposed CNN is based on the transfer learning method on the pre-trained Alexnet. In this research, the efficiency of the proposed system for speech recognition, speaker identification, and intelligibility assessment is evaluated. According to the results on the UA dataset, the proposed speech recognition system achieved 91.29% accuracy in speaker-dependent mode, the speaker identification system acquired 87.74% accuracy in text-dependent mode, and the intelligibility assessment system achieved 96.47% accuracy in two-class mode. Finally, we propose a multi-network speech recognition system that works fully automatically. This system is located in a cascade arrangement with the two-class intelligibility assessment system, and the output of this system activates each one of the speech recognition networks. This architecture achieves an accuracy of 92.3% WRR. The source code of this paper is available.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-20
# 巻き戻しによる3次元フロケット符号

Engineering 3D Floquet codes by rewinding ( http://arxiv.org/abs/2307.13668v4 )

ライセンス: Link先を確認
Arpit Dua, Nathanan Tantivasadakarn, Joseph Sullivan, Tyler D. Ellison, (参考訳) 浮動小数点符号(英: Floquet codes)は、非可換測定の周期的なスケジュールから生じる動的に生成された論理量子ビットを持つ量子誤り訂正符号の新しいクラスである。 我々は、位相的励起の凝縮と測定シーケンスの巻き戻しという観点から測定の解釈を利用して、フロケ符号の新しい例を設計する。 特に、巻き戻しは、トーリックおよび平面配置の両方において、所望の即時安定化群を得るのに有利である。 最初の例は、3Dトーリックコードと同じトポロジ的順序の即時安定化符号を持つFloquetコードです。 また、このフロケ符号は、3Dトリック符号のトポロジ的順序を、関連する一連の測定、すなわち、1ラウンドで1つの3Dトリック符号のコピーの瞬間安定群と、次のラウンドで2つの3Dトリック符号のコピーの瞬間安定群とに分割する。 この3Dコードの境界をさらに構築し、それを2つの3Dサブシステムトーリックコードで積み重ねることで、論理的な非クリフォード$CCZ$ゲートの超越的な実装が可能になると主張している。 また、X-cube Floquet符号の結合層構造は、各瞬時安定化器符号が、トーリック符号までX-cubeモデルと同等の有限深度で、X-cubeモデルからX-cubeモデルとトーリック符号のコピーへの分割を示すような巻き戻しスケジュールで変更可能であることを示す。 最後の3D例は、ハニカム格子上の2Dフロケトーリックコードを3Dに一般化したもので、これは3Dフェルミオントーリックコードと同じトポロジカル順序の瞬時安定化符号を持つ。

Floquet codes are a novel class of quantum error-correcting codes with dynamically generated logical qubits arising from a periodic schedule of non-commuting measurements. We utilize the interpretation of measurements in terms of condensation of topological excitations and the rewinding of measurement sequences to engineer new examples of Floquet codes. In particular, rewinding is advantageous for obtaining a desired set of instantaneous stabilizer groups on both toric and planar layouts. Our first example is a Floquet code with instantaneous stabilizer codes that have the same topological order as 3D toric code(s). This Floquet code also exhibits a splitting of the topological order of the 3D toric code under the associated sequence of measurements, i.e., an instantaneous stabilizer group of a single copy of 3D toric code in one round transforms into an instantaneous stabilizer group of two copies of 3D toric codes up to nonlocal stabilizers in the following round. We further construct boundaries for this 3D code and argue that stacking it with two copies of 3D subsystem toric code allows for a transversal implementation of the logical non-Clifford $CCZ$ gate. We also show that the coupled-layer construction of the X-cube Floquet code can be modified by a rewinding schedule such that each of the instantaneous stabilizer codes is finite-depth-equivalent to the X-cube model up to toric codes; the X-cube Floquet code exhibits a splitting of the X-cube model into a copy of the X-cube model and toric codes under the measurement sequence. Our final 3D example is a generalization of the 2D Floquet toric code on the honeycomb lattice to 3D, which has instantaneous stabilizer codes with the same topological order as the 3D fermionic toric code.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-20
# メタ認知プロンプトは、大規模言語モデルにおける理解を改善する

Metacognitive Prompting Improves Understanding in Large Language Models ( http://arxiv.org/abs/2308.05342v4 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, (参考訳) LLM(Large Language Models)では、タスク固有のパフォーマンスが一貫した進歩を遂げており、その大部分は効果的なプロンプト設計の影響を受けている。 近年、LLMの論理集約的なタスクの推論が強化されているが、複雑な情報の処理や解釈に欠かせないこれらのモデルの微妙な理解能力はいまだ未解明のままである。 本研究では,人間の内省的推論プロセスに触発されたメタ認知プロンプト(MP)について紹介する。 MPを用いることで、LLMは構造化された自己認識評価の体系的なシリーズを実行し、その膨大な固有の知識と新たな洞察を生かした。 Llama2, PaLM2, GPT-3.5, GPT-4の4つのLLMに対して, GLUE, SuperGLUE, BLUE, LexGLUEの10つの自然言語理解(NLU)データセットに対して広範な実験を行った。 さらに,提案手法をチェーン・オブ・シークレット・プロンプトとその先進バージョンと比較する。 その結果、GPT-4は全てのタスクに一貫して優れており、MPと組み合わせて使用する場合、他のモデルでは大きな進歩が見られた。 さらに、MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドよりも一貫して優れている。 本研究は、LLMの理解能力を増幅する可能性を強調し、NLUタスクにおける人間の内省的推論を反映する利点を強調した。

In Large Language Models (LLMs), there have been consistent advancements in task-specific performance, largely influenced by effective prompt design. Recent advancements in prompting have enhanced reasoning in logic-intensive tasks for LLMs, yet the nuanced understanding abilities of these models, crucial for processing and interpreting complex information, remain underexplored. In this study, we introduce Metacognitive Prompting (MP), a strategy inspired by human introspective reasoning processes. Using MP, LLMs undergo a systematic series of structured, self-aware evaluations, drawing on both their vast inherent knowledge and new insights. We conduct extensive experiments on four prevalent LLMs: Llama2, PaLM2, GPT-3.5, and GPT-4, across ten natural language understanding (NLU) datasets from GLUE, SuperGLUE, BLUE, and LexGLUE benchmarks. Additionally, we compare our method with chain-of-thought prompting and its advanced versions. The results show that GPT-4 consistently excels across all tasks, while other models have shown significant progress in some tasks when used in conjunction with MP. Furthermore, MP consistently outperforms existing prompting methods in both general and domain-specific NLU tasks. This study underscores the potential to amplify the understanding abilities of LLMs and highlights the benefits of mirroring human introspective reasoning in NLU tasks.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-20
# RecMind:リコメンデーションのための大規模言語モデルパワードエージェント

RecMind: Large Language Model Powered Agent For Recommendation ( http://arxiv.org/abs/2308.14296v3 )

ライセンス: Link先を確認
Yancheng Wang, Ziyan Jiang, Zheng Chen, Fan Yang, Yingxue Zhou, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, Yingzhen Yang, (参考訳) レコメンデーションシステム(RS)はディープラーニングによって大幅に進歩しているが、現在のRSアプローチは通常、タスク固有のデータセット上で訓練と微調整を行い、新しいレコメンデーションタスクへの一般化可能性と、モデルスケールとデータサイズ制約による外部知識を活用する能力を制限する。 そこで我々は、外部知識を活用して、注意深い計画とツールを活用して、ゼロショットパーソナライズされたレコメンデーションを提供するLLM方式の自律型レコメンデーションエージェントRecMindを設計した。 計画能力を向上させるための自己刺激型アルゴリズムを提案する。 各中間段階において、LLMは、以前に検討された全ての状態が次のステップのために計画されていることを自覚する。 このメカニズムは、推薦の計画において、過去の情報を理解し、活用するモデルの能力を大幅に改善する。 様々なレコメンデーションシナリオでRecMindのパフォーマンスを評価する。 実験の結果,RecMind は既存のゼロ/フェーショット LLM ベースのレコメンデーションベースライン手法よりも優れた性能を示し,完全に訓練されたレコメンデーションモデル P5 に匹敵する性能を実現している。

While the recommendation system (RS) has advanced significantly through deep learning, current RS approaches usually train and fine-tune models on task-specific datasets, limiting their generalizability to new recommendation tasks and their ability to leverage external knowledge due to model scale and data size constraints. Thus, we designed an LLM-powered autonomous recommender agent, RecMind, which is capable of leveraging external knowledge, utilizing tools with careful planning to provide zero-shot personalized recommendations. We propose a Self-Inspiring algorithm to improve the planning ability. At each intermediate step, the LLM self-inspires to consider all previously explored states to plan for the next step. This mechanism greatly improves the model's ability to comprehend and utilize historical information in planning for recommendation. We evaluate RecMind's performance in various recommendation scenarios. Our experiment shows that RecMind outperforms existing zero/few-shot LLM-based recommendation baseline methods in various tasks and achieves comparable performance to a fully trained recommendation model P5.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-20
# 階層的リワードモデリングによる深層強化学習

Deep Reinforcement Learning with Hierarchical Reward Modeling ( http://arxiv.org/abs/2309.02632v2 )

ライセンス: Link先を確認
Alexander Bukharin, Yixiao Li, Pengcheng He, Weizhu Chen, Tuo Zhao, (参考訳) リワードデザインは、強化学習(RL)の基本的な、しかし難しい側面である。 研究者は通常、環境からのフィードバック信号を使って報酬関数を手作りするが、このプロセスは、フィードバック信号の様々なスケールと複雑な依存関係のため、必ずしも効果的ではない。 本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。 具体的には,階層的な報酬モデリングフレームワークであるHERONをシナリオとして提案する。 (I) フィードバック信号は自然に階層構造を呈し, (II) 報酬は希少であるが,政策学習を支援するための補助的フィードバックは少ない。 どちらのシナリオも、フィードバック信号の重要ランク付けによって誘導される階層的な決定木を設計し、RL軌道と比較することができる。 このような嗜好データを用いて、政策学習のための報酬モデルをトレーニングすることができる。 我々はHERONをいくつかのRLアプリケーションに適用し、我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善やロバストネスなどの付加的なメリットも提供できることを発見した。 私たちのコードは \url{https://github.com/abukharin3/HERON} で利用可能です。

Reward design is a fundamental, yet challenging aspect of reinforcement learning (RL). Researchers typically utilize feedback signals from the environment to handcraft a reward function, but this process is not always effective due to the varying scale and intricate dependencies of the feedback signals. This paper shows by exploiting certain structures, one can ease the reward design process. Specifically, we propose a hierarchical reward modeling framework -- HERON for scenarios: (I) The feedback signals naturally present hierarchy; (II) The reward is sparse, but with less important surrogate feedback to help policy learning. Both scenarios allow us to design a hierarchical decision tree induced by the importance ranking of the feedback signals to compare RL trajectories. With such preference data, we can then train a reward model for policy learning. We apply HERON to several RL applications, and we find that our framework can not only train high performing agents on a variety of difficult tasks, but also provide additional benefits such as improved sample efficiency and robustness. Our code is available at \url{https://github.com/abukharin3/HERON}.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-20
# RoDia: 音声からのルーマニア方言識別のための新しいデータセット

RoDia: A New Dataset for Romanian Dialect Identification from Speech ( http://arxiv.org/abs/2309.03378v3 )

ライセンス: Link先を確認
Codrut Rotaru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, (参考訳) ルーマニア語の方言識別のための最初のデータセットであるRoDiaを紹介する。 RoDiaデータセットには、ルーマニアの5つの異なる地域の音声サンプルの様々なコンパイルが含まれており、都市と農村の両方の環境をカバーし、手動で注釈付けされた音声データの合計2時間が含まれている。 データセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。 上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。 そこで我々はロディアがルーマニア語の方言識別の課題に対処するために研究を刺激する貴重な資源であると信じている。 データセットはhttps://github.com/codrut2/RoDia.comで公開しています。

We introduce RoDia, the first dataset for Romanian dialect identification from speech. The RoDia dataset includes a varied compilation of speech samples from five distinct regions of Romania, covering both urban and rural environments, totaling 2 hours of manually annotated speech data. Along with our dataset, we introduce a set of competitive models to be used as baselines for future research. The top scoring model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%, indicating that the task is challenging. We thus believe that RoDia is a valuable resource that will stimulate research aiming to address the challenges of Romanian dialect identification. We release our dataset at https://github.com/codrut2/RoDia.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-20
# 金融時系列予測のためのモダリティ対応変圧器

Modality-aware Transformer for Financial Time series Forecasting ( http://arxiv.org/abs/2310.01232v2 )

ライセンス: Link先を確認
Hajar Emami, Xuan-Hong Dang, Yousaf Shah, Petros Zerfos, (参考訳) 時系列の予測は、特にその正確さが歴史的価値にのみ依存するのではなく、外部データソースに依存している場合、重大な課題となる。 この問題は金融セクターでよく知られており、時系列の今後の行動は、様々なテキストレポートや様々な経済指標から得られる情報と複雑に関連付けられていることが多い。 実際、重要な課題は、様々な情報源からのデータを活用し、ターゲットの時系列を正確に予測するための貴重な洞察を抽出できる信頼性のある時系列予測モデルを構築することである。 本研究では,この課題に取り組み,新しいマルチモーダルトランスモデルである「textit{Modality-aware Transformer}」を導入する。 本モデルでは,分類的テキストと数値的時系列の両方のパワーを探索し,対象時系列を効果的に予測すると同時に,その神経的注意機構による洞察を提供する。 これを実現するために、各データモダリティ内で最も関連性の高い機能にモデルを集中させる機能レベルの注意層を開発する。 提案する特徴レベルの注意を取り入れることで,MHAに特徴と時間の両方の注意を取り入れた新しいモーダル・マルチヘッド・アテンション (MHA) , モーダルMHA, ターゲット・モーダルMHAを開発した。 これにより、MHAはモダリティと特徴の重要性を考慮して時間的注意を発生させ、より情報的な埋め込みをもたらす。 提案したモダリティ対応構造により,各モダリティ内の情報を効果的に活用し,モダリティ間の理解を促進することができる。 ファイナンシャルデータセットに関する広範な実験により、Modality-aware Transformerは既存の手法よりも優れており、マルチモーダルな金融時系列予測の複雑な課題に対して、新しい実用的な解決策を提供する。

Time series forecasting presents a significant challenge, particularly when its accuracy relies on external data sources rather than solely on historical values. This issue is prevalent in the financial sector, where the future behavior of time series is often intricately linked to information derived from various textual reports and a multitude of economic indicators. In practice, the key challenge lies in constructing a reliable time series forecasting model capable of harnessing data from diverse sources and extracting valuable insights to predict the target time series accurately. In this work, we tackle this challenging problem and introduce a novel multimodal transformer-based model named the \textit{Modality-aware Transformer}. Our model excels in exploring the power of both categorical text and numerical timeseries to forecast the target time series effectively while providing insights through its neural attention mechanism. To achieve this, we develop feature-level attention layers that encourage the model to focus on the most relevant features within each data modality. By incorporating the proposed feature-level attention, we develop a novel Intra-modal multi-head attention (MHA), Inter-modal MHA and Target-modal MHA in a way that both feature and temporal attentions are incorporated in MHAs. This enables the MHAs to generate temporal attentions with consideration of modality and feature importance which leads to more informative embeddings. The proposed modality-aware structure enables the model to effectively exploit information within each modality as well as foster cross-modal understanding. Our extensive experiments on financial datasets demonstrate that Modality-aware Transformer outperforms existing methods, offering a novel and practical solution to the complex challenges of multi-modal financial time series forecasting.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-20
# AutoDAN: 調整済み大規模言語モデル上での定常的ジェイルブレイクプロンプトの生成

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models ( http://arxiv.org/abs/2310.04451v2 )

ライセンス: Link先を確認
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, (参考訳) LLM(Large Language Models)は、人間のフィードバックと広範囲に一致して作成される、強力な言語理解と意思決定ツールである。 しかし、これらの大きなモデルはジェイルブレイク攻撃の影響を受けやすいままであり、敵は、一致したLSMが与えるべきでない悪意のあるアウトプットを誘導するプロンプトを操作する。 ジェイルブレイクのプロンプトを調査すれば、LSMの限界を掘り下げて、それらを保護するためのガイドになります。 残念ながら、既存のjailbreakテクニックは、(1)手動によるプロンプト作成に大きく依存するスケーラビリティの問題、または(2)トークンベースのアルゴリズムに依存して、意味的に意味のないプロンプトを生成するため、基本的なパープレキシティテストによって検出される可能性があるため、ステルスネスの問題のいずれかに悩まされている。 これらの課題を踏まえて、私たちはこの質問に答えるつもりです。ステルスなジェイルブレイクプロンプトを自動生成できるアプローチを開発できますか? 本稿では,ALMに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。 広範囲な評価の結果,AutoDANは意味的意味性を維持しながらプロセスを自動化するだけでなく,モデル間の伝達性やベースラインと比較した場合のクロスサンプル普遍性にも優れた攻撃強度を示す。 さらに,AutoDANとパープレキシティベースの防御手法を比較し,AutoDANがそれらを効果的に回避できることを示す。

The aligned Large Language Models (LLMs) are powerful language understanding and decision-making tools that are created through extensive alignment with human feedback. However, these large models remain susceptible to jailbreak attacks, where adversaries manipulate prompts to elicit malicious outputs that should not be given by aligned LLMs. Investigating jailbreak prompts can lead us to delve into the limitations of LLMs and further guide us to secure them. Unfortunately, existing jailbreak techniques suffer from either (1) scalability issues, where attacks heavily rely on manual crafting of prompts, or (2) stealthiness problems, as attacks depend on token-based algorithms to generate prompts that are often semantically meaningless, making them susceptible to detection through basic perplexity testing. In light of these challenges, we intend to answer this question: Can we develop an approach that can automatically generate stealthy jailbreak prompts? In this paper, we introduce AutoDAN, a novel jailbreak attack against aligned LLMs. AutoDAN can automatically generate stealthy jailbreak prompts by the carefully designed hierarchical genetic algorithm. Extensive evaluations demonstrate that AutoDAN not only automates the process while preserving semantic meaningfulness, but also demonstrates superior attack strength in cross-model transferability, and cross-sample universality compared with the baseline. Moreover, we also compare AutoDAN with perplexity-based defense methods and show that AutoDAN can bypass them effectively.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-20
# ナレッジワーカーはどのようにして生成AIが産業を変革するか(Not)

How Knowledge Workers Think Generative AI Will (Not) Transform Their Industries ( http://arxiv.org/abs/2310.06778v2 )

ライセンス: Link先を確認
Allison Woodruff, Renee Shelby, Patrick Gage Kelley, Steven Rousso-Schindler, Jamila Smith-Loud, Lauren Wilcox, (参考訳) ジェネレーティブAIは、複数の知識産業に変革をもたらすことが期待されている。 そこで我々は7つの異なる産業を対象とした参加型研究ワークショップを実施し,米国3都市で54人の参加者を集めた。 参加者は、人間のレビューの下で、月経作業を行うためのツールとして、生成AIを主に想定している。 参加者は一般的に、メディアや学術的な物語に現在投影されている知識産業の破壊的な変化を期待していない。 しかし、参加者は、生成AIが現在産業を形作っている4つの社会勢力を増幅することを期待している。 これらの力について述べ、その上で、特定の知識産業における態度についてさらなる詳細を述べる。 我々は,HCIコミュニティの意義と研究課題について論じる。

Generative AI is expected to have transformative effects in multiple knowledge industries. To better understand how knowledge workers expect generative AI may affect their industries in the future, we conducted participatory research workshops for seven different industries, with a total of 54 participants across three US cities. We describe participants' expectations of generative AI's impact, including a dominant narrative that cut across the groups' discourse: participants largely envision generative AI as a tool to perform menial work, under human review. Participants do not generally anticipate the disruptive changes to knowledge industries currently projected in common media and academic narratives. Participants do however envision generative AI may amplify four social forces currently shaping their industries: deskilling, dehumanization, disconnection, and disinformation. We describe these forces, and then we provide additional detail regarding attitudes in specific knowledge industries. We conclude with a discussion of implications and research challenges for the HCI community.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-20
# ランダムデータプロジェクタによる自己教師付き表現学習

Self-supervised Representation Learning From Random Data Projectors ( http://arxiv.org/abs/2310.07756v2 )

ライセンス: Link先を確認
Yi Sui, Tongzi Wu, Jesse C. Cresswell, Ga Wu, George Stein, Xiao Shi Huang, Xiaochen Zhang, Maksims Volkovs, (参考訳) 自己教師付き表現学習~(SSRL)は、人工的に設計されたデータ拡張の下での変換不変性の仮定を利用して、かなり進歩してきた。 拡張ベースのSSRLアルゴリズムは、コンピュータビジョンと自然言語処理のパフォーマンスの境界を押し上げるが、それらはしばしば他のデータモダリティに直接適用されず、アプリケーション固有のデータ拡張制約と矛盾する可能性がある。 本稿では、拡張やマスキングに依存しないため、任意のデータモダリティやネットワークアーキテクチャに適用可能なSSRLアプローチを提案する。 具体的には、ランダムなデータプロジェクションを再構築することで、高品質なデータ表現が学習可能であることを示す。 提案手法は多種多様なモダリティと実世界の応用にまたがる幅広い表現学習タスクに対して評価する。 複数の最先端SSRLベースラインを上回っていることを示す。 その適用性と強い経験的結果から、ランダム性からの学習は注目に値する実りある研究方向であり、さらなる研究が必要であると論じる。

Self-supervised representation learning~(SSRL) has advanced considerably by exploiting the transformation invariance assumption under artificially designed data augmentations. While augmentation-based SSRL algorithms push the boundaries of performance in computer vision and natural language processing, they are often not directly applicable to other data modalities, and can conflict with application-specific data augmentation constraints. This paper presents an SSRL approach that can be applied to any data modality and network architecture because it does not rely on augmentations or masking. Specifically, we show that high-quality data representations can be learned by reconstructing random data projections. We evaluate the proposed approach on a wide range of representation learning tasks that span diverse modalities and real-world applications. We show that it outperforms multiple state-of-the-art SSRL baselines. Due to its wide applicability and strong empirical results, we argue that learning from randomness is a fruitful research direction worthy of attention and further study.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-20
# Redditのナラティブにおける道徳的判断:社会常識と言語信号による道徳的火花の調査

Moral Judgments in Narratives on Reddit: Investigating Moral Sparks via Social Commonsense and Linguistic Signals ( http://arxiv.org/abs/2310.19268v2 )

ライセンス: Link先を確認
Ruijie Xi, Munindar P. Singh, (参考訳) 機械倫理は人工知能(AI)モデルとエージェントにおける倫理的行為を保証する。 実生活の応用を理解することは、多くの状況において実践的倫理を学ぶことの恩恵を受け、多様な文脈において人間の倫理の複雑さを把握するための貴重なデータを提供する。 本稿では,実生活の倫理的シナリオと人間の道徳的判断を理解するためのソーシャルメディアプラットフォームについて検討する。 r/AmITheAssholeというRedditのサブレディット(サブコミュニティ)の投稿を調べ、著者や評論家が非難に値する人についての道徳的判断を共有する。 我々は、道徳的判断に影響を及ぼす根底にある推論を調査するために、計算技術を用いる。 われわれは、モラルの火花(moral sparks)と呼ぶ抜粋に焦点をあてる。 この目的のために,(1)社会的コモンセンスを活性化する事象,(2)言語信号がモラル・スパークの割り当てやその後の判断にどのように影響するかを検討する。 672件以上の投稿と175988件のコメントから、事象に関連する否定的特徴(例えば、未熟、無礼)が注意を引き、非難を喚起し、性格的特徴と道徳的価値の依存的関係を示唆することを発見した。 特に,社会的コモンセンスを活性化する事象(c-events)を含む因果グラフに着目した。 我々は, c-events が, 様々な情報度で知覚され, モラル・スパークや判断の割り当てに異なる影響を与えることを観察した。 この観察は、意味的に類似したc-eventを記述する言語的特徴を調べることで強化される。 さらに、コメンテーターの認知過程に影響を与える言語は、抜粋が道徳的火花になる確率を高める一方、事実的、具体的記述は、この効果を阻害する傾向にある。

Machine ethics ensures ethical conduct in Artificial Intelligence (AI) models and agents. Examining real-life applications benefit learning practical ethics in many situations, offering valuable data to grasp the complexities of human ethics in diverse contexts. In this paper, we examine social media platforms for understanding real-life ethical scenarios and human moral judgments. We examine posts from a popular Reddit subreddit (i.e., a subcommunity) called r/AmITheAsshole, where authors and commenters share their moral judgments on who is blameworthy. We employ computational techniques to investigate the underlying reasoning influencing moral judgments. We focus on excerpts-which we term moral sparks-from original posts that commenters include to indicate what motivates their judgments. To this end, we examine how (1) events activating social commonsense and (2) linguistic signals affect moral sparks assignment and their subsequent judgments. By examining over 24 672 posts and 175988 comments, we find that event-related negative character traits (e.g., immature and rude) attract attention and stimulate blame, implying a dependent relationship between character traits and moral values. Specially, we focus on causal graph involving events (c-events) that activate social commonsense. We observe that c-events are perceived with varying levels of informativeness, influencing moral spark and judgment assignment in distinct ways. This observation is reinforced by examining linguistic features describing semantically similar c-events. Moreover, language influencing commenters' cognitive processes enhances the probability of an excerpt becoming a moral spark, while factual and concrete descriptions tend to inhibit this effect.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-20
# 効率的な選択政策の学習によるグラフGNNの効率化

Efficient Subgraph GNNs by Learning Effective Selection Policies ( http://arxiv.org/abs/2310.20082v2 )

ライセンス: Link先を確認
Beatrice Bevilacqua, Moshe Eliasof, Eli Meirom, Bruno Ribeiro, Haggai Maron, (参考訳) グラフGNN(Subgraph GNN)は、グラフ表現をグラフの集合から学習する、証明可能な表現可能なニューラルネットワークアーキテクチャである。 残念ながら、それらの適用性は、多くのサブグラフでメッセージパッシングを行う際の計算複雑性によって妨げられている。 本稿では,データ駆動方式で可能な膨大なサブグラフのサブセットを選択することの難しさについて考察する。 まず、効率的な部分グラフ選択ポリシーが存在するWL識別不能グラフの族が存在することを証明し、その問題を動機付けます。 次に、反復的な方法でサブグラフの選択方法を学ぶ、Policy-Learnという新しいアプローチを提案する。 私たちは、一般的なランダムなポリシーや同じ問題に対処する事前の作業とは異なり、アーキテクチャが上記の効率的なポリシーを学ぶことができることを証明しています。 我々の実験結果から、Policy-Learnは、幅広いデータセットで既存のベースラインを上回ります。

Subgraph GNNs are provably expressive neural architectures that learn graph representations from sets of subgraphs. Unfortunately, their applicability is hampered by the computational complexity associated with performing message passing on many subgraphs. In this paper, we consider the problem of learning to select a small subset of the large set of possible subgraphs in a data-driven fashion. We first motivate the problem by proving that there are families of WL-indistinguishable graphs for which there exist efficient subgraph selection policies: small subsets of subgraphs that can already identify all the graphs within the family. We then propose a new approach, called Policy-Learn, that learns how to select subgraphs in an iterative manner. We prove that, unlike popular random policies and prior work addressing the same problem, our architecture is able to learn the efficient policies mentioned above. Our experimental results demonstrate that Policy-Learn outperforms existing baselines across a wide range of datasets.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-20
# 大規模言語モデル(LLM)のセキュリティとプライバシに関する調査

A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly ( http://arxiv.org/abs/2312.02003v3 )

ライセンス: Link先を確認
Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun, Yue Zhang, (参考訳) ChatGPTやBardのような大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。 深い言語理解、人間に似たテキスト生成能力、文脈認識、堅牢な問題解決能力を備えており、さまざまな領域(検索エンジン、カスタマーサポート、翻訳など)で重要視されている。 一方、LLMはセキュリティコミュニティでも注目を集めており、セキュリティ上の脆弱性を明らかにし、セキュリティ関連のタスクにおけるその可能性を示している。 本稿では,LLMとセキュリティとプライバシの交わりについて考察する。 具体的には、LSMがセキュリティとプライバシ、それらの使用に関連する潜在的なリスクと脅威、およびLSM内の固有の脆弱性にどう影響するかを検討する。 総合的な文献レビューを通じて、論文を「善」と「悪」と「悪」に分類する。 興味深い発見がいくつかあります。 例えば、LLMはコードセキュリティ(コードの脆弱性検出)とデータプライバシ(データの機密性保護)を強化し、従来の方法よりも優れています。 しかし、人間のような推論能力のため、様々な攻撃(特にユーザーレベルの攻撃)に利用することもできる。 我々はさらなる研究を必要とする分野を特定した。 例えば、モデルとパラメータ抽出攻撃の研究は、LLMパラメータスケールと機密性によって制限され、しばしば理論的に妨げられる。 近年の開発であるセーフインストラクションチューニングは、さらなる探索を必要とする。 LLMがサイバーセキュリティを強化し、危険に晒す可能性に光を当てられることを願っています。

Large Language Models (LLMs), such as ChatGPT and Bard, have revolutionized natural language understanding and generation. They possess deep language comprehension, human-like text generation capabilities, contextual awareness, and robust problem-solving skills, making them invaluable in various domains (e.g., search engines, customer support, translation). In the meantime, LLMs have also gained traction in the security community, revealing security vulnerabilities and showcasing their potential in security-related tasks. This paper explores the intersection of LLMs with security and privacy. Specifically, we investigate how LLMs positively impact security and privacy, potential risks and threats associated with their use, and inherent vulnerabilities within LLMs. Through a comprehensive literature review, the paper categorizes the papers into "The Good" (beneficial LLM applications), "The Bad" (offensive applications), and "The Ugly" (vulnerabilities of LLMs and their defenses). We have some interesting findings. For example, LLMs have proven to enhance code security (code vulnerability detection) and data privacy (data confidentiality protection), outperforming traditional methods. However, they can also be harnessed for various attacks (particularly user-level attacks) due to their human-like reasoning abilities. We have identified areas that require further research efforts. For example, Research on model and parameter extraction attacks is limited and often theoretical, hindered by LLM parameter scale and confidentiality. Safe instruction tuning, a recent development, requires more exploration. We hope that our work can shed light on the LLMs' potential to both bolster and jeopardize cybersecurity.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-20
# フェルミオン波パケット散乱--量子コンピューティングのアプローチ

Fermionic wave packet scattering: a quantum computing approach ( http://arxiv.org/abs/2312.02272v2 )

ライセンス: Link先を確認
Yahui Chai, Arianna Crippa, Karl Jansen, Stefan Kühn, Vincent R. Pascuzzi, Francesco Tacchino, Ivano Tavernelli, (参考訳) フェルミオンハミルトニアンの相互作用する基底状態の上に運動量を持つガウス波パケットを作成する方法を提案する。 本稿では,デジタル量子コンピュータ上でのウェーブパケットの進化を通じて,観測対象の期待値の効率よく取得する方法を示す。 本稿では,Thiringモデルの格子定式化に適用し,2つのウェーブパケットの散乱について検討する。 散乱過程中に発生する粒子密度とエントロピーをモニタリングし,その現象を特徴付け,デジタル量子コンピュータ上でのより複雑な衝突過程を研究するための第一歩を提供する。 さらに、我々はIBMの量子ハードウェア上で小さなデモを行い、我々の手法が現在の量子デバイスと短期量子デバイスに適していることを示す。

We propose a method to prepare Gaussian wave packets with momentum on top of the interacting ground state of a fermionic Hamiltonian. Using Givens rotation, we show how to efficiently obtain expectation values of observables throughout the evolution of the wave packets on digital quantum computers. We demonstrate our technique by applying it to the staggered lattice formulation of the Thirring model and studying the scattering of two wave packets. Monitoring the the particle density and the entropy produced during the scattering process, we characterize the phenomenon and provide a first step towards studying more complicated collision processes on digital quantum computers. In addition, we perform a small-scale demonstration on IBM's quantum hardware, showing that our method is suitable for current and near-term quantum devices.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-20
# 後ろ向きに働く - ピッキングによる場所への学習

Working Backwards: Learning to Place by Picking ( http://arxiv.org/abs/2312.02352v2 )

ライセンス: Link先を確認
Oliver Limoyo, Abhisek Konar, Trevor Ablett, Jonathan Kelly, Francois R. Hogan, Gregory Dudek, (参考訳) 対象物を特定の接触制約のある場所に操作しなければならないタスクを配置するファミリーに対して,実世界の実演を自律的に収集する手法であるピッキング・バイ・ピッキング(PvP)を提案する。 PvPでは、把握過程を逆転させ、ピック・アンド・プレイス問題固有の対称性を活用することにより、ロボット物体配置デモの収集にアプローチする。 具体的には、まず、対象位置にある対象物の一連の把握シーケンスから、実演を配置する。 触覚の再現と把握のための適合制御という2つのモジュールを組み合わせることで,人間の介入なしに接触拘束環境下で数百のデモを収集できる。 我々は、自律的に収集した実演を用いて、行動クローンを通して視覚観察から直接ポリシーを訓練する。 これにより、ポリシーは、特権情報(例えば、テーブルから拾ったプレートを置く)なしで、トレーニング環境外のオブジェクト配置シナリオに一般化することができる。 食器洗い機とテーブル設定を含む家庭内ロボットシナリオにおけるアプローチを検証する。 提案手法は,人的監督を必要とせず,性能とデータ効率の両面において,審美教育で訓練された方針を上回り,ロボットの配置方針を導出する。

We present placing via picking (PvP), a method to autonomously collect real-world demonstrations for a family of placing tasks in which objects must be manipulated to specific contact-constrained locations. With PvP, we approach the collection of robotic object placement demonstrations by reversing the grasping process and exploiting the inherent symmetry of the pick and place problems. Specifically, we obtain placing demonstrations from a set of grasp sequences of objects initially located at their target placement locations. Our system can collect hundreds of demonstrations in contact-constrained environments without human intervention by combining two modules: tactile regrasping and compliant control for grasps. We train a policy directly from visual observations through behavioral cloning, using the autonomously-collected demonstrations. By doing so, the policy can generalize to object placement scenarios outside of the training environment without privileged information (e.g., placing a plate picked up from a table). We validate our approach in home robotic scenarios that include dishwasher loading and table setting. Our approach yields robotic placing policies that outperform policies trained with kinesthetic teaching, both in terms of performance and data efficiency, while requiring no human supervision.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-20
# AVID:拡散モデルで描いたどんな長編ビデオでも

AVID: Any-Length Video Inpainting with Diffusion Model ( http://arxiv.org/abs/2312.03816v2 )

ライセンス: Link先を確認
Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan Zhao, Peter Vajda, Dimitris Metaxas, Licheng Yu, (参考訳) 拡散モデルの最近の進歩は、テキスト誘導画像の塗装をうまく実現している。 このような編集機能をビデオ領域に拡張することは簡単と思われるが、テキスト誘導ビデオの塗装に関する作業は少ない。 ビデオ、初期フレームのマスキング領域、編集プロンプトが与えられた場合、マスク外領域を無傷に保ちながら、編集ガイダンスに従って各フレームに埋め込むモデルが必要となる。 編集されたビデオの時間的一貫性(i$)、異なる構造的忠実度レベルで異なるインペイントタイプをサポートする(ii$)、可変ビデオ長を扱う(iii$)。 これらの課題に対処するために,AVIDと呼ばれる拡散モデルを用いたAny-Length Video Inpaintingを導入する。 このモデルの中心となるのは、固定長ビデオのインペイントのための効果的なモーションモジュールと調整可能な構造ガイダンスである。 そこで本研究では,中間フレームの注意誘導機構を備えた時間的多次元サンプリングパイプラインを提案する。 包括的実験により,映像の持続時間範囲の異なる様々なインペイントタイプを,高品質で頑健に扱えることを示す。 さらなる視覚化結果はhttps://zhang-zx.github.io/AVID/ で公開されている。

Recent advances in diffusion models have successfully enabled text-guided image inpainting. While it seems straightforward to extend such editing capability into the video domain, there have been fewer works regarding text-guided video inpainting. Given a video, a masked region at its initial frame, and an editing prompt, it requires a model to do infilling at each frame following the editing guidance while keeping the out-of-mask region intact. There are three main challenges in text-guided video inpainting: ($i$) temporal consistency of the edited video, ($ii$) supporting different inpainting types at different structural fidelity levels, and ($iii$) dealing with variable video length. To address these challenges, we introduce Any-Length Video Inpainting with Diffusion Model, dubbed as AVID. At its core, our model is equipped with effective motion modules and adjustable structure guidance, for fixed-length video inpainting. Building on top of that, we propose a novel Temporal MultiDiffusion sampling pipeline with a middle-frame attention guidance mechanism, facilitating the generation of videos with any desired duration. Our comprehensive experiments show our model can robustly deal with various inpainting types at different video duration ranges, with high quality. More visualization results are made publicly available at https://zhang-zx.github.io/AVID/ .
翻訳日:2024-03-22 19:37:15 公開日:2024-03-20
# Prompt Highlighter:マルチモードLCMのインタラクティブ制御

Prompt Highlighter: Interactive Control for Multi-Modal LLMs ( http://arxiv.org/abs/2312.04302v2 )

ライセンス: Link先を確認
Yuechen Zhang, Shengju Qian, Bohao Peng, Shu Liu, Jiaya Jia, (参考訳) 本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。 マルチモーダルLLMは、セマンティックジェネレーションの能力でマルチモーダル理解を向上するが、自己回帰的生成性により、説明可能性の低下と、プロンプト内容への依存度がより高くなる。 プロンプトフォーマットを操作することでアウトプットを改善することができるが、タスクごとに特定のプロンプトを設計することは困難で非効率である。 この問題に対処するために、ユーザが特定のプロンプトスパンをハイライトして、生成中のフォーカスをインタラクティブに制御できる新しい推論手法であるPrompt Highlighterを導入する。 分類器フリー拡散誘導により強調されたトークンに基づいて正規および無条件のコンテキストペアを形成し、モデルにおける自己回帰生成を分類器フリーな方法でガイドできることを実証する。 特に、推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。 我々のアプローチは、現在のLLMやVLMと互換性があり、トレーニングなしで優れたカスタマイズされた生成結果が得られる。 実験は、入力コンテキストに着目し、信頼性のあるコンテンツを生成することの有効性を確認する。 LLaVA-v1.5をチューニングせずにMMBench試験で70.7, MME知覚で1552.5を確保した。 コードは、https://github.com/dvlab-research/Prompt-Highlighter/で入手できる。

This study targets a critical aspect of multi-modal LLMs' (LLMs&VLMs) inference: explicit controllable text generation. Multi-modal LLMs empower multi-modality understanding with the capability of semantic generation yet bring less explainability and heavier reliance on prompt contents due to their autoregressive generative nature. While manipulating prompt formats could improve outputs, designing specific and precise prompts per task can be challenging and ineffective. To tackle this issue, we introduce a novel inference method, Prompt Highlighter, which enables users to highlight specific prompt spans to interactively control the focus during generation. Motivated by the classifier-free diffusion guidance, we form regular and unconditional context pairs based on highlighted tokens, demonstrating that the autoregressive generation in models can be guided in a classifier-free way. Notably, we find that, during inference, guiding the models with highlighted tokens through the attention weights leads to more desired outputs. Our approach is compatible with current LLMs and VLMs, achieving impressive customized generation results without training. Experiments confirm its effectiveness in focusing on input contexts and generating reliable content. Without tuning on LLaVA-v1.5, our method secured 70.7 in the MMBench test and 1552.5 in MME-perception. The code is available at: https://github.com/dvlab-research/Prompt-Highlighter/
翻訳日:2024-03-22 19:37:15 公開日:2024-03-20
# 照明推定のための知覚評価フレームワークの実現に向けて

Towards a Perceptual Evaluation Framework for Lighting Estimation ( http://arxiv.org/abs/2312.04334v3 )

ライセンス: Link先を確認
Justine Giroux, Mohammad Reza Karimi Dastjerdi, Yannick Hold-Geoffroy, Javier Vazquez-Corral, Jean-François Lalonde, (参考訳) 照明推定の進歩は、標準データセットの画像上の既存の画像品質評価(IQA)メトリクスを計算することによって追跡される。 これは合理的なアプローチのように見えるが、仮想シーンをリアルな写真にリライトするために推定照明を使用する場合、人間の嗜好と相関しないことを示す。 そこで我々は,近年の文献から選択された照明推定アルゴリズムを用いて照らされたシーンの中から,人間の観察者が好みを選ばなければならない制御心理物理学実験を設計し,これらのアルゴリズムが人間の知覚に応じてどのように機能するかを分析する。 そして、文献から最も人気のあるIQA指標のうち、個別に取られたものは、人間の知覚を正しく表現するものではないことを実証した。 最後に、既存のIQAメトリクスの組み合わせを学習することで、人間の好みをより正確に表現できることを示す。 これは、将来の照明推定アルゴリズムを評価するのに役立つ新しい知覚フレームワークを提供する。

Progress in lighting estimation is tracked by computing existing image quality assessment (IQA) metrics on images from standard datasets. While this may appear to be a reasonable approach, we demonstrate that doing so does not correlate to human preference when the estimated lighting is used to relight a virtual scene into a real photograph. To study this, we design a controlled psychophysical experiment where human observers must choose their preference amongst rendered scenes lit using a set of lighting estimation algorithms selected from the recent literature, and use it to analyse how these algorithms perform according to human perception. Then, we demonstrate that none of the most popular IQA metrics from the literature, taken individually, correctly represent human perception. Finally, we show that by learning a combination of existing IQA metrics, we can more accurately represent human preference. This provides a new perceptual framework to help evaluate future lighting estimation algorithms.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-20
# 二次元ファンデルワールス磁石におけるトポロジカルマグノン-ポーラロン輸送

Topological magnon-polaron transport in a bilayer van der Waals magnet ( http://arxiv.org/abs/2312.07463v2 )

ライセンス: Link先を確認
Zhi-Xing Lin, Shu Zhang, (参考訳) 内在的に磁性ファンデルワールス材料を積み重ねることで、マグノンの調整可能な輸送効果を探索し、スピントロニクスの応用の可能性を示す。 これらの系に位相的に非自明なマグノンを持つ可能性は、探索の範囲をさらに広げることができる。 本研究では, 層内強磁性交換と反強磁性交換の弱い2層系を考察し, 磁気弾性結合によって誘起されるトポロジカルマグノン-ポーラロン励起について検討する。 印加磁場下では、磁気基底状態が反平行層から平行層へと変化するメタ磁性遷移が特徴的である。 メタ磁性遷移はマグノンポーラロンのトポロジカル構造の遷移に伴い、トポロジ誘起輸送効果の顕著な変化をもたらすことを示す。 熱ホール伝導率とスピンネルンスト係数の磁場依存性を線形応答理論を用いて解析した。

The stacking of intrinsically magnetic van der Waals materials provides a fertile platform to explore tunable transport effects of magnons, presenting significant prospects for spintronic applications. The possibility of having topologically nontrivial magnons in these systems can further expand the scope of exploration. In this work, we consider a bilayer system with intralayer ferromagnetic exchange and a weak interlayer antiferromagnetic exchange, and study the topological magnon-polaron excitations induced by magnetoelastic couplings. Under an applied magnetic field, the system features a metamagnetic transition, where the magnetic ground state changes from antiparallel layers to parallel. We show that the metamagnetic transition is accompanied by a transition of the topological structure of the magnon polarons, which results in discernible changes in the topology induced transport effects. The magnetic-field dependence of the thermal Hall conductivity and spin Nernst coefficient is analyzed with linear response theories.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-20
# ガウスボソンサンプリングにおけるアンチ濃縮の推移

Transition of Anticoncentration in Gaussian Boson Sampling ( http://arxiv.org/abs/2312.08433v2 )

ライセンス: Link先を確認
Adam Ehrenberg, Joseph T. Iosue, Abhinav Deshpande, Dominik Hangleiter, Alexey V. Gorshkov, (参考訳) ガウスボソンサンプリングは、他の同等のスキームよりも実装が容易であるため、量子優位性の実験的な実証のための有望な方法である。 ガウスボソンサンプリングの性質はこれらの他のスキームと同じ程度に理解されているが、出力分布の統計的性質についてはほとんど分かっていない。 最も関連する統計的性質は、量子優位性を示す観点から、第2モーメントで測定された出力分布の反集中である。 ガウスボソンサンプリングの複雑性理論的硬さを議論する上でのアンチ集中の度合いは、クロスエントロピーベンチマークを用いて実験性能を検証する際にも重要である。 本研究では,ガウスボソンサンプリング分布のモーメントを解析するためのグラフ理論フレームワークを開発する。 この枠組みを用いることで、ガウスボソンサンプリングは、回路の終端で測定された光子の数と比較して、最初に圧縮されるモードの数の関数として、反濃縮の遷移を行うことを示す。 初期硬化モードの数が光子数とともに十分に緩やかにスケールすると、反濃縮の欠如が生じる。 しかし、初期圧縮モードの数が十分にスケールすると、出力確率は反集中的に弱くなる。

Gaussian Boson Sampling is a promising method for experimental demonstrations of quantum advantage because it is easier to implement than other comparable schemes. While most of the properties of Gaussian Boson Sampling are understood to the same degree as for these other schemes, we understand relatively little about the statistical properties of its output distribution. The most relevant statistical property, from the perspective of demonstrating quantum advantage, is the anticoncentration of the output distribution as measured by its second moment. The degree of anticoncentration features in arguments for the complexity-theoretic hardness of Gaussian Boson Sampling, and it is also important to know when using cross-entropy benchmarking to verify experimental performance. In this work, we develop a graph-theoretic framework for analyzing the moments of the Gaussian Boson Sampling distribution. Using this framework, we show that Gaussian Boson Sampling undergoes a transition in anticoncentration as a function of the number of modes that are initially squeezed compared to the number of photons measured at the end of the circuit. When the number of initially squeezed modes scales sufficiently slowly with the number of photons, there is a lack of anticoncentration. However, if the number of initially squeezed modes scales quickly enough, the output probabilities anticoncentrate weakly.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-20
# ウェアラブル・センサ・分布データの解析のための解釈可能な因果推論

Interpretable Causal Inference for Analyzing Wearable, Sensor, and Distributional Data ( http://arxiv.org/abs/2312.10569v2 )

ライセンス: Link先を確認
Srikar Katta, Harsh Parikh, Cynthia Rudin, Alexander Volfovsky, (参考訳) 現代の因果問題の多くは、ウェアラブルデバイスやセンサーを用いて測定される複雑な結果にどのように影響するかを問うものである。 現在の分析手法では、これらのデータをスカラー統計(例えば平均)に要約する必要があるが、これらの要約は誤解を招く可能性がある。 例えば、異なる分布は同じ手段、分散、その他の統計を持つことができる。 研究者は代わりにデータを分散として表現することで、情報の喪失を克服することができる。 我々は、信頼性と堅牢性を保証する分散データ分析の解釈可能な方法を開発した。 我が家 一 見積戦略の正しさの分析上の保証を提供する。 (II) ADD MALTSが他の分布データ解析法よりも処理効果を推定し, 性能を向上することを示すシミュレーションによる実演 3) ADD MALTS がサブポピュレーション内における治療単位とコントロール単位の凝集度が十分であるかどうかを検証し,治療効果を信頼性に見積もる能力を示す。 ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性について検討した。

Many modern causal questions ask how treatments affect complex outcomes that are measured using wearable devices and sensors. Current analysis approaches require summarizing these data into scalar statistics (e.g., the mean), but these summaries can be misleading. For example, disparate distributions can have the same means, variances, and other statistics. Researchers can overcome the loss of information by instead representing the data as distributions. We develop an interpretable method for distributional data analysis that ensures trustworthy and robust decision-making: Analyzing Distributional Data via Matching After Learning to Stretch (ADD MALTS). We (i) provide analytical guarantees of the correctness of our estimation strategy, (ii) demonstrate via simulation that ADD MALTS outperforms other distributional data analysis methods at estimating treatment effects, and (iii) illustrate ADD MALTS' ability to verify whether there is enough cohesion between treatment and control units within subpopulations to trustworthily estimate treatment effects. We demonstrate ADD MALTS' utility by studying the effectiveness of continuous glucose monitors in mitigating diabetes risks.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-20
# ジョセフソン接合における散逸性量子相転移の欠如:理論

Absence of a dissipative quantum phase transition in Josephson junctions: Theory ( http://arxiv.org/abs/2312.14754v2 )

ライセンス: Link先を確認
Carles Altimiras, Daniel Esteve, Çağlar Girit, Hélène le Sueur, Philippe Joyez, (参考訳) 強誘電体ジョセフソン接合(RSJ)の縮小密度行列を,ファインマン・ヴァーノン関数に基づく正確な数値スキームである確率的リウヴィル方程式法を用いて求める。 検討された全てのパラメータについて、ジャンクションを絞ると超伝導が増すことが分かる。 RSJの超伝導絶縁量子相転移の痕跡は発見されていない。 この研究は、実験的な観察に基づいて、2020年にMuraniらによって導かれた同様の結論を理論的に裏付けている。 我々はUV遮断のない抵抗体が常に完全に局所的な位相を生じることを明らかにし、絶縁状態を予測する以前の研究がどのように逆の結果を得たかを説明する。

We obtain the reduced density matrix of a resistively shunted Josephson junction (RSJ), using the stochastic Liouville equation method in imaginary time - an exact numerical scheme based on the Feynman-Vernon influence functional. For all parameters investigated, we find that shunting a junction makes it more superconducting. We find no trace of the Schmid superconducting-insulating quantum phase transition long believed to occur in the RSJ. This work confirms theoretically a similar conclusion drawn in 2020 by Murani et al., based on experimental observations. We reveal that resistors with no UV cutoff always yield a fully localized phase and we explain how previous works predicting an insulating state came to obtain a contrary result.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-20
# LLMサージオン

The LLM Surgeon ( http://arxiv.org/abs/2312.17244v2 )

ライセンス: Link先を確認
Tycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort, (参考訳) 現状の言語モデルは、利用可能なテキストデータの大規模なコーパス上で最高のパフォーマンスを達成するために、ますます大きくなってきている。 しかし、Transformerアーキテクチャのかなりのサイズは、計算、環境、デバイス固有の制約の中でモデルをデプロイすることを困難にしている。 我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。 そこで我々は Kronecker による目標損失景観の曲率近似を大規模言語モデルに拡張する。 そうすることで、取り除くことができる構造の動的割り当てと、取り除くための残りの重みの更新の両方を計算できます。 我々は,非構造的,半構造的,構造的プルーニングのための一般的なフレームワークを提供し,重み間の相関性を高めつつ,計算効率を向上する。 実験により,OPTモデルとLlamav2-7Bから行や列を20%~30%の精度で抽出し,非構造化および半構造化された大規模言語モデルにおける最先端の結果を得ることができた。

State-of-the-art language models are becoming increasingly large in an effort to achieve the highest performance on large corpora of available textual data. However, the sheer size of the Transformer architectures makes it difficult to deploy models within computational, environmental or device-specific constraints. We explore data-driven compression of existing pretrained models as an alternative to training smaller models from scratch. To do so, we scale Kronecker-factored curvature approximations of the target loss landscape to large language models. In doing so, we can compute both the dynamic allocation of structures that can be removed as well as updates of remaining weights that account for the removal. We provide a general framework for unstructured, semi-structured and structured pruning and improve upon weight updates to capture more correlations between weights, while remaining computationally efficient. Experimentally, our method can prune rows and columns from a range of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance, and achieve state-of-the-art results in unstructured and semi-structured pruning of large language models.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-20
# ファイナンスにおける合成データ応用

Synthetic Data Applications in Finance ( http://arxiv.org/abs/2401.00081v2 )

ライセンス: Link先を確認
Vamsi K. Potluru, Daniel Borrajo, Andrea Coletta, Niccolò Dalmasso, Yousef El-Laham, Elizabeth Fons, Mohsen Ghassemi, Sriram Gopalakrishnan, Vikesh Gosai, Eleonora Kreačić, Ganapathy Mani, Saheed Obitayo, Deepak Paramanand, Natraj Raman, Mikhail Solonin, Srijan Sood, Svitlana Vyetrenko, Haibei Zhu, Manuela Veloso, Tucker Balch, (参考訳) 合成データは、金融、ヘルスケア、バーチャルリアリティーなど、さまざまな商業的環境において大きな進歩を遂げてきた。 本稿では、金融セクターにおける合成データのプロトタイプ的応用について概観する。 これらは、表表、時系列、イベントシリーズ、および市場および小売金融アプリケーションの両方から生じる非構造化を含む、さまざまなデータモダリティをカバーする。 金融は高度に規制された産業であるため、合成データはプライバシー、公正性、説明可能性に関連する問題を扱うための潜在的アプローチである。 これらのアプリケーションにおける我々のアプローチの品質と有効性を評価するために、様々なメトリクスが利用されます。 我々は、金融分野の文脈において、合成データのオープンな方向で結論付ける。

Synthetic data has made tremendous strides in various commercial settings including finance, healthcare, and virtual reality. We present a broad overview of prototypical applications of synthetic data in the financial sector and in particular provide richer details for a few select ones. These cover a wide variety of data modalities including tabular, time-series, event-series, and unstructured arising from both markets and retail financial applications. Since finance is a highly regulated industry, synthetic data is a potential approach for dealing with issues related to privacy, fairness, and explainability. Various metrics are utilized in evaluating the quality and effectiveness of our approaches in these applications. We conclude with open directions in synthetic data in the context of the financial domain.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-20
# PhotoBot: 自然言語による参照ガイド付きインタラクティブ写真

PhotoBot: Reference-Guided Interactive Photography via Natural Language ( http://arxiv.org/abs/2401.11061v2 )

ライセンス: Link先を確認
Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, Gregory Dudek, (参考訳) 我々は,ハイレベルな人間の言語指導とロボットカメラマンとの相互作用に基づいた,完全自動写真取得のためのフレームワークPhotoBotを紹介する。 本稿では,キュレートされたギャラリーから選択した参照画像を通じて,ユーザに対して写真提案を伝えることを提案する。 視覚言語モデル (VLM) とオブジェクト検出器を用いて, テキスト記述による参照画像の特徴付けを行い, テキストベース推論によるユーザの言語クエリに基づく参照画像の検索に, 大規模言語モデル (LLM) を用いる。 参照画像と観察シーンを対応付けるために,視覚変換器から事前学習した特徴を利用して,特徴のある外観変化を横断する意味的類似性を捉える。 これらの特徴を用いて,視点n-point(PnP)問題を解くことにより,RGB-Dカメラのポーズ調整を計算する。 我々は手首カメラを備えたマニピュレータによるアプローチを実証する。 われわれのユーザー調査によると、PhotoBotが撮影した写真は、人間のフィードバックによって測定された、ユーザー自身が撮影した写真よりも審美的に喜ぶことが多い。 また,PhotoBotが絵画などの参考資料に一般化可能であることも示している。

We introduce PhotoBot, a framework for fully automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to the user via reference images that are selected from a curated gallery. We leverage a visual language model (VLM) and an object detector to characterize the reference images via textual descriptions and then use a large language model (LLM) to retrieve relevant reference images based on a user's language query through text-based reasoning. To correspond the reference image and the observed scene, we exploit pre-trained features from a vision transformer capable of capturing semantic similarity across marked appearance variations. Using these features, we compute pose adjustments for an RGB-D camera by solving a perspective-n-point (PnP) problem. We demonstrate our approach using a manipulator equipped with a wrist camera. Our user studies show that photos taken by PhotoBot are often more aesthetically pleasing than those taken by users themselves, as measured by human feedback. We also show that PhotoBot can generalize to other reference sources such as paintings.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-20
# 対実的説明のためのグラフ編集:比較研究

Graph Edits for Counterfactual Explanations: A comparative study ( http://arxiv.org/abs/2401.11609v2 )

ライセンス: Link先を確認
Angeliki Dimitriou, Nikolaos Chaidos, Maria Lymperaiou, Giorgos Stamou, (参考訳) ファクトファクトは、最小限の編集のセットを利用して分類器の予測を変更する一般的な説明可能性手法として確立されている。 画像上の概念上の反事実を考える場合、要求された編集は入力データに存在する健全な概念に対応するべきである。 同時に、概念距離は知識グラフによって定義され、概念編集の最適性を保証する。 本研究では,教師付きグラフニューラルネット(GNN)アプローチと教師なしグラフニューラルネット(GNN)アプローチの両方を含む比較研究を行うことにより,グラフ編集における過去の取り組みを,対実的な説明として拡張する。 この目的のために、我々は入力データをグラフとして表現すべきかという重要な研究課題を提起する。これは、ブラックボックス画像分類器に対する最小限かつ有意義な反実的説明を生成するために、性能と時間効率の観点から最適なGNNアプローチである。

Counterfactuals have been established as a popular explainability technique which leverages a set of minimal edits to alter the prediction of a classifier. When considering conceptual counterfactuals on images, the edits requested should correspond to salient concepts present in the input data. At the same time, conceptual distances are defined by knowledge graphs, ensuring the optimality of conceptual edits. In this work, we extend previous endeavors on graph edits as counterfactual explanations by conducting a comparative study which encompasses both supervised and unsupervised Graph Neural Network (GNN) approaches. To this end, we pose the following significant research question: should we represent input data as graphs, which is the optimal GNN approach in terms of performance and time efficiency to generate minimal and meaningful counterfactual explanations for black-box image classifiers?
翻訳日:2024-03-22 19:17:37 公開日:2024-03-20
# qec_code_sim: 超伝導量子ビットにおける量子エラー訂正符号の有効性を推定するオープンソースのPythonフレームワーク

qec_code_sim: An open-source Python framework for estimating the effectiveness of quantum-error correcting codes on superconducting qubits ( http://arxiv.org/abs/2402.06745v2 )

ライセンス: Link先を確認
Santiago Lopez, Jonathan Andrade Plascencia, Gabriel N. Perdue, (参考訳) 量子コンピュータは、意図しない環境との相互作用によるエラーに非常に敏感である。 量子状態に関する情報を得ることなく、これらのエラーを修正することが重要である。 量子エラー補正(Quantum Error Correction, QEC)は、システムの量子状態を妥協することなく、発生したエラーに関する情報を提供する。 しかし、QECの実装は、現在の量子ビットのパフォーマンスレベルのため、難しいことが証明されている。 QECコードの成功にキュービットのパフォーマンス要素がどのように影響するかを理解することは、フォールトトレラントな量子コンピューティングへの進捗を追跡するための貴重なエクササイズである。 ここでは,超電導トランスモン量子ビットに適した現実的エラーモデルの影響下で,小さな量子誤り訂正符号の性能を研究するための,オープンソースの軽量Pythonフレームワークであるqec_code_simについて述べる。 qec_code_simは、最小限のソフトウェア依存関係を必要とし、実行速度よりも使いやすさ、変更の容易さ、教育性を優先する。 そのため、1ダースのキュービットの順序でシステムを研究する小さなチームに適している。

Quantum computers are highly susceptible to errors due to unintended interactions with their environment. It is crucial to correct these errors without gaining information about the quantum state, which would result in its destruction through back-action. Quantum Error Correction (QEC) provides information about occurred errors without compromising the quantum state of the system. However, the implementation of QEC has proven to be challenging due to the current performance levels of qubits -- break-even requires fabrication and operation quality that is beyond the state-of-the-art. Understanding how qubit performance factors into the success of a QEC code is a valuable exercise for tracking progress towards fault-tolerant quantum computing. Here we present qec_code_sim, an open-source, lightweight Python framework for studying the performance of small quantum error correcting codes under the influence of a realistic error model appropriate for superconducting transmon qubits, with the goal of enabling useful hardware studies and experiments. qec_code_sim requires minimal software dependencies and prioritizes ease of use, ease of change, and pedagogy over execution speed. As such, it is a tool well-suited to small teams studying systems on the order of one dozen qubits.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-20
# クレーム検証の文脈におけるChatGPTの推論能力の評価

Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification ( http://arxiv.org/abs/2402.10735v2 )

ライセンス: Link先を確認
John Dougrez-Lewis, Mahmud Elahi Akhter, Yulan He, Maria Liakata, (参考訳) LLMの理由付け能力は、現在ホットな議論がなされている。 クレーム/噂の検証の観点から問題を考察する。 証拠と組み合わせた主張や噂を、検証に必要な原子的推論ステップに分解するために設計された最初の論理的推論フレームワークを提案する。 当社のフレームワークをベースとして,ウィキペディアの合成データセットと,Twitter上で流される噂から生ずる実世界のデータセットという,このような主張/証拠のペアの注釈付きコレクションを2つキュレートした。 GPT-3.5-Turbo と GPT-4 (以下 ChatGPT と呼ぶ) の推論能力をフレームワークのコンテキスト内で評価し、徹底的な分析を行う。 以上の結果から,ChatGPTはZero-Shot (ZS) やZS CoT (ZS) のアプローチに対して,手動のChain of Thought (CoT) を用いることによって多少緩和できるが,帰納的推論に苦慮していることが示された。 本研究は,ChatGPTの推論プロセスが人間ライクな推論を反映する可能性が低いこと,特にクレーム検証のような実世界の課題において,ハイプと実際の能力を区別するために,LCMをより厳格に評価する必要があることを示唆する研究の組織に寄与する。

The reasoning capabilities of LLMs are currently hotly debated. We examine the issue from the perspective of claim/rumour verification. We propose the first logical reasoning framework designed to break down any claim or rumour paired with evidence into the atomic reasoning steps necessary for verification. Based on our framework, we curate two annotated collections of such claim/evidence pairs: a synthetic dataset from Wikipedia and a real-world set stemming from rumours circulating on Twitter. We use them to evaluate the reasoning capabilities of GPT-3.5-Turbo and GPT-4 (hereinafter referred to as ChatGPT) within the context of our framework, providing a thorough analysis. Our results show that ChatGPT struggles in abductive reasoning, although this can be somewhat mitigated by using manual Chain of Thought (CoT) as opposed to Zero-Shot (ZS) and ZS CoT approaches. Our study contributes to the growing body of research suggesting that ChatGPT's reasoning processes are unlikely to mirror human-like reasoning, and that LLMs need to be more rigorously evaluated to distinguish between hype and actual capabilities, especially in high-stakes real-world tasks such as claim verification.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-20
# AIに基づく精度オンコロジーに向けて:マルチオミクスデータに基づく個人化された対物処理提案のための機械学習フレームワーク

Towards AI-Based Precision Oncology: A Machine Learning Framework for Personalized Counterfactual Treatment Suggestions based on Multi-Omics Data ( http://arxiv.org/abs/2402.12190v2 )

ライセンス: Link先を確認
Manuel Schürch, Laura Boos, Viola Heinzelmann-Schwarz, Gabriele Gut, Michael Krauthammer, Andreas Wicki, Tumor Profiler Consortium, (参考訳) AI駆動の精度オンコロジーは、複雑な患者の特徴とそれに対応する治療結果の間の相互作用を分析するために、AIモデルのパワーを活用することによって、がん治療を再形成するトランスフォーメーションの可能性を秘めている。 新しい技術プラットフォームは、単細胞マルチオミクスデータのような前例のない解像度で腫瘍生物学のマルチモーダルデータのタイムリーな取得を促進し、この品質と量のデータをデータ駆動による臨床診断の改善に利用できるようにする。 本研究では,多様なマルチオミクス技術で訓練された機械学習専門家の集まりに基づいて,対物がん治療のパーソナライズを目的としたモジュール型機械学習フレームワークを提案する。 これらの特殊対物的専門家は、常に優れたパフォーマンスを持つより強力な専門家に集約され、その決定に対する自信と説明を提供することができる。 このフレームワークは、データの高次元的な性質や、振り返り観測データにおける治療代入バイアスの存在など、データ駆動がん研究に固有の重要な課題に対処するように調整されている。 このフレームワークは、卵巣がん患者のコホートからのin-vitroおよびin-vivo治療反応のデータを用いて、包括的なデモを通して展示される。 本手法は, がん患者のマルチオミクス特性に対する治療戦略を調整するための, 信頼度を調整した確率的治療提案, パーソナライズされた説明を含む, 現実的な意思決定支援ツールを臨床医に提供することを目的としている。

AI-driven precision oncology has the transformative potential to reshape cancer treatment by leveraging the power of AI models to analyze the interaction between complex patient characteristics and their corresponding treatment outcomes. New technological platforms have facilitated the timely acquisition of multimodal data on tumor biology at an unprecedented resolution, such as single-cell multi-omics data, making this quality and quantity of data available for data-driven improved clinical decision-making. In this work, we propose a modular machine learning framework designed for personalized counterfactual cancer treatment suggestions based on an ensemble of machine learning experts trained on diverse multi-omics technologies. These specialized counterfactual experts per technology are consistently aggregated into a more powerful expert with superior performance and can provide both confidence and an explanation of its decision. The framework is tailored to address critical challenges inherent in data-driven cancer research, including the high-dimensional nature of the data, and the presence of treatment assignment bias in the retrospective observational data. The framework is showcased through comprehensive demonstrations using data from in-vitro and in-vivo treatment responses from a cohort of patients with ovarian cancer. Our method aims to empower clinicians with a reality-centric decision-support tool including probabilistic treatment suggestions with calibrated confidence and personalized explanations for tailoring treatment strategies to multi-omics characteristics of individual cancer patients.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-20
# 特殊化を超えて:年齢と性別の推定におけるMLLMの能力を評価する

Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation ( http://arxiv.org/abs/2403.02302v2 )

ライセンス: Link先を確認
Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, (参考訳) MLLM(Multimodal Large Language Models)は近年大きな人気を集めている。 ChatGPT-4VやGeminiのような強力な商用モデルやLLaVAのようなオープンソースモデルは基本的に汎用モデルであり、コンピュータビジョンを含む幅広いタスクを解決するために応用されている。 これらのニューラルネットワークは、高度に一般的な知識と推論能力を有しており、特に訓練されていないタスクでも作業できることが証明されている。 現在までに最も強力なMLLM(ShareGPT4V, ChatGPT, LLaVA-Next)の能力を比較した。 MiVOLOも更新し、この記事では詳細と新しいメトリクスを提供しています。 この比較は、参加モデルの強みと弱みに関する興味深い結果と洞察をもたらした。 さらに,この課題に対してShareGPT4Vモデルを微調整する様々な方法を試みた。 このようなモデルは、MiVOLOのような特殊なモデルと比べて非常に高価であるため、本番環境では実用的ではないが、データアノテーションのようなタスクで非常に有用である可能性がある。

Multimodal Large Language Models (MLLMs) have recently gained immense popularity. Powerful commercial models like ChatGPT-4V and Gemini, as well as open-source ones such as LLaVA, are essentially general-purpose models and are applied to solve a wide variety of tasks, including those in computer vision. These neural networks possess such strong general knowledge and reasoning abilities that they have proven capable of working even on tasks for which they were not specifically trained. We compared the capabilities of the most powerful MLLMs to date: ShareGPT4V, ChatGPT, LLaVA-Next in a specialized task of age and gender estimation with our state-of-the-art specialized model, MiVOLO. We also updated MiVOLO and provide details and new metrics in this article. This comparison has yielded some interesting results and insights about the strengths and weaknesses of the participating models. Furthermore, we attempted various ways to fine-tune the ShareGPT4V model for this specific task, aiming to achieve state-of-the-art results in this particular challenge. Although such a model would not be practical in production, as it is incredibly expensive compared to a specialized model like MiVOLO, it could be very useful in some tasks, like data annotation.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-20
# これが現実なのか? 幻想なのか? LLMとの社会的相互作用のシミュレーションの失敗の成功

Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs ( http://arxiv.org/abs/2403.05020v2 )

ライセンス: Link先を確認
Xuhui Zhou, Zhe Su, Tiwalayo Eisape, Hyunwoo Kim, Maarten Sap, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、より豊かな社会シミュレーションを可能にし、LLMベースのエージェントを用いた様々な社会現象の研究を可能にしている。 しかしながら、ほとんどの研究は、これらのシミュレーション(例えば、すべてのインターロケータを生成するために単一のLSM)に関する全知的な視点を使用しており、基本的には人間が持っている非全知的な情報非対称な相互作用と矛盾している。 これらの違いを調べるために, 様々な環境下でのLLMとの社会的相互作用をシミュレートする評価フレームワークを開発した。 実験の結果,実験員は非公正エージェントよりも社会的目標を達成するのに成功していることがわかった。 さらに、全能シミュレーションからの学習は、相互作用の明らかな自然性を改善するが、協調シナリオにおける目標達成度をわずかに向上させることを実証する。 以上の結果から, 情報非対称性に対処することが, LLMをベースとしたエージェントの根本的な課題であることが示唆された。

Recent advances in large language models (LLM) have enabled richer social simulations, allowing for the study of various social phenomena with LLM-based agents. However, most work has used an omniscient perspective on these simulations (e.g., single LLM to generate all interlocutors), which is fundamentally at odds with the non-omniscient, information asymmetric interactions that humans have. To examine these differences, we develop an evaluation framework to simulate social interactions with LLMs in various settings (omniscient, non-omniscient). Our experiments show that interlocutors simulated omnisciently are much more successful at accomplishing social goals compared to non-omniscient agents, despite the latter being the more realistic setting. Furthermore, we demonstrate that learning from omniscient simulations improves the apparent naturalness of interactions but scarcely enhances goal achievement in cooperative scenarios. Our findings indicate that addressing information asymmetry remains a fundamental challenge for LLM-based agents.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# OmniCount:Semantic-Geometric Priorsを用いたマルチラベルオブジェクトカウント

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors ( http://arxiv.org/abs/2403.05435v3 )

ライセンス: Link先を確認
Anindya Mondal, Sauradip Nag, Xiatian Zhu, Anjan Dutta, (参考訳) オブジェクトのカウントはシーンの構成を理解する上で重要である。 以前は、このタスクはクラス固有のメソッドに支配され、徐々に適応性のあるクラスに依存しない戦略へと進化してきた。 しかしながら、これらの戦略には、手動の模範入力の必要性や複数のカテゴリの複数のパスなど、独自の制限があるため、大きな非効率性が生じる。 本稿では,オープン語彙フレームワークを用いて複数のオブジェクトカテゴリを同時カウント可能な,より実用的なアプローチを提案する。 我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察を用いて、ユーザーが指定した複数のカテゴリのオブジェクトを、追加のトレーニングなしでカウントすることで際立っている。 OmniCountは、正確なオブジェクトマスクを生成し、Segment Anything Modelを介してポイントプロンプトを活用することで、自分自身を区別する。 OmniCount-191ベンチマークは、ポイント、バウンディングボックス、VQAアノテーションを含む、複数ラベルのオブジェクトカウントを備えたファーストオブザイズ型データセットです。 OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの優れたパフォーマンスを示し、既存のソリューションを大幅に上回り、オブジェクトカウント技術の新たな時代を告げています。

Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a new, more practical approach enabling simultaneous counting of multiple object categories using an open vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging point prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount's exceptional performance, significantly outpacing existing solutions and heralding a new era in object counting technology.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# ビジュアライゼーションのための画像ベース型タイポロジー

An Image-based Typology for Visualization ( http://arxiv.org/abs/2403.05594v2 )

ライセンス: Link先を確認
Jian Chen, Petra Isenberg, Robert S. Laramee, Tobias Isenberg, Michael Sedlmair, Torsten Moeller, Rui Li, (参考訳) 本稿では,画像からの視覚表現の質的解析結果について述べる。 我々は、各画像の本質的な刺激をラベル付けし、その除去によって視覚化が理解不能になるようにした。 その結果,定義群を10種類に分類した。 私たちが関わった類型論の導出過程について述べる。 研究者は、コミュニティの進化とその研究成果を時間をかけて研究することができ、研究と教育のために視覚化画像の分類を容易にし、研究者や実践者が視覚情報プロセッサの定量化をさらに整合させる視覚デザインスタイルを特定できるようになる。 画像の可視化に加えて、6,833枚のタグ付き画像のデータセットと、ラベル付き画像の大規模な集合を探索・解析するオンラインツールを提供する。 ツールとデータセットは、学者が使用する多様なビジュアルデザインと、コミュニティ内でどのように公開され、コミュニケーションされるかを詳細に調べることを可能にする。 事前登録、この論文の無料コピー、およびすべての補足材料はosf.io/dxjwtを介して利用可能である。

We present and discuss the results of a qualitative analysis of visual representations from images. We labeled each image's essential stimuli, the removal of which would render a visualization uninterpretable. As a result, we derive a typology of 10 visualization types of defined groups. We describe the typology derivation process in which we engaged. The resulting typology and image analysis can serve a number of purposes: enabling researchers to study the evolution of the community and its research output over time, facilitating the categorization of visualization images for the purpose of research and teaching, allowing researchers and practitioners to identify visual design styles to further align the quantification of any visual information processor, be that a person or an algorithm observer, and it facilitates a discussion of standardization in visualization. In addition to the visualization typology from images, we provide a dataset of 6,833 tagged images and an online tool that can be used to explore and analyze the large set of labeled images. The tool and data set enable scholars to closely examine the diverse visual designs used and how they are published and communicated in our community. A pre-registration, a free copy of this paper, and all supplemental materials are available via osf.io/dxjwt.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# スケッチに基づく画像検索におけるスケッチ抽象化の扱い方

How to Handle Sketch-Abstraction in Sketch-Based Image Retrieval? ( http://arxiv.org/abs/2403.07203v2 )

ライセンス: Link先を確認
Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, (参考訳) 本稿では,様々なレベルでスケッチの抽象化を処理可能な,新しい抽象化対応のスケッチベース画像検索フレームワークを提案する。 従来は,図形や順序などのサブファクタの処理に重点を置いていたが,その代わりに抽象化全体をモデル化し,機能レベルと検索粒度レベルの設計を提案し,システムをそのDNAに組み込むことで抽象化を解釈する必要があった。 抽象化を意識した特徴の学習では,事前学習したStyleGANモデルのリッチなセマンティック埋め込みと,抽象化のレベルを解読し,特徴行列の適切な次元を動的に選択する新しい抽象化レベルのマッパーを併用して,異なる抽象化レベルに対応するために自由にトラバース可能な特徴行列埋め込みを構築する。 粒度レベルの抽象化理解のために、検索モデルは全ての抽象化レベルを等しく扱ってはならないと判断し、微分可能なサロゲートAccを導入する。 システムにその理解を注入するために、@qは失われます。 金標準の三重項の損失と異なり、Acc。 qの損失は、スケッチがいかに厳密であるかという観点で焦点を絞りたり壊したりすることができる。 大規模な実験では,従来のSBIRタスクを上回り,早期検索,法医学的スケッチ写真マッチング,スタイル不変検索といった難題を克服する。

In this paper, we propose a novel abstraction-aware sketch-based image retrieval framework capable of handling sketch abstraction at varied levels. Prior works had mainly focused on tackling sub-factors such as drawing style and order, we instead attempt to model abstraction as a whole, and propose feature-level and retrieval granularity-level designs so that the system builds into its DNA the necessary means to interpret abstraction. On learning abstraction-aware features, we for the first-time harness the rich semantic embedding of pre-trained StyleGAN model, together with a novel abstraction-level mapper that deciphers the level of abstraction and dynamically selects appropriate dimensions in the feature matrix correspondingly, to construct a feature matrix embedding that can be freely traversed to accommodate different levels of abstraction. For granularity-level abstraction understanding, we dictate that the retrieval model should not treat all abstraction-levels equally and introduce a differentiable surrogate Acc.@q loss to inject that understanding into the system. Different to the gold-standard triplet loss, our Acc.@q loss uniquely allows a sketch to narrow/broaden its focus in terms of how stringent the evaluation should be - the more abstract a sketch, the less stringent (higher q). Extensive experiments depict our method to outperform existing state-of-the-arts in standard SBIR tasks along with challenging scenarios like early retrieval, forensic sketch-photo matching, and style-invariant retrieval.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# テキストから画像への拡散モデル

Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers ( http://arxiv.org/abs/2403.07214v2 )

ライセンス: Link先を確認
Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, (参考訳) 本稿では,ZES-SBIR(Zero-Shot Sketch-based Image Retrieval)のテキスト・画像拡散モデルについて検討する。 スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。 この能力は、その頑健なクロスモーダル能力と形状バイアスによって支えられています。 事前学習した拡散モデルを効果的に活用するために、最適な特徴層の選択と視覚的およびテキスト的プロンプトの活用という、2つの重要な側面に焦点を当てた、単純かつ強力な戦略を導入する。 前者にとって、どの層が最も情報に富んでいるかを特定し、特定の検索要求(カテゴリレベルまたはきめ細かな粒度)に最も適しているかを特定する。 次に、視覚的およびテキスト的プロンプトを使用して、モデルの特徴抽出プロセスをガイドし、より識別的かつ文脈的に関連付けられたクロスモーダル表現を生成する。 いくつかのベンチマークデータセットに対する大規模な実験は、大幅なパフォーマンス改善を実証する。

This paper, for the first time, explores text-to-image diffusion models for Zero-Shot Sketch-based Image Retrieval (ZS-SBIR). We highlight a pivotal discovery: the capacity of text-to-image diffusion models to seamlessly bridge the gap between sketches and photos. This proficiency is underpinned by their robust cross-modal capabilities and shape bias, findings that are substantiated through our pilot studies. In order to harness pre-trained diffusion models effectively, we introduce a straightforward yet powerful strategy focused on two key aspects: selecting optimal feature layers and utilising visual and textual prompts. For the former, we identify which layers are most enriched with information and are best suited for the specific retrieval requirements (category-level or fine-grained). Then we employ visual and textual prompts to guide the model's feature extraction process, enabling it to generate more discriminative and contextually relevant cross-modal representations. Extensive experiments on several benchmark datasets validate significant performance improvements.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# 美麗な画像検索ができる「Sketch and Text Duet」(動画あり)

You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval ( http://arxiv.org/abs/2403.07222v2 )

ライセンス: Link先を確認
Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, (参考訳) 画像検索における2つの主要な入力モダリティは、スケッチとテキストである。 テキストはカテゴリ間検索タスクに広く使われているが、複雑な視覚的詳細をキャプチャできるため、細粒度画像検索のための唯一のモダリティとして、スケッチが確立されている。 本稿では、スケッチとテキストの両方の微細な表現能力を同時に探索し、両者のデュエットを編成することで、スケッチのみの微細な画像検索への依存を疑問視する。 その結果、これまでは達成不可能だった正確な検索が可能となり、ユーザーは常に精細なクエリをポーズしたり、テキストから色やコンテキストの手がかりなどの属性を組み込むことができる。 そこで本研究では,事前学習したCLIPモデルを用いてスケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。 最後に、本システムは、合成画像検索、ドメイン属性転送、微粒化生成における新しい応用に拡張され、様々な実世界のシナリオに対するソリューションを提供する。

Two primary input modalities prevail in image retrieval: sketch and text. While text is widely used for inter-category retrieval tasks, sketches have been established as the sole preferred modality for fine-grained image retrieval due to their ability to capture intricate visual details. In this paper, we question the reliance on sketches alone for fine-grained image retrieval by simultaneously exploring the fine-grained representation capabilities of both sketch and text, orchestrating a duet between the two. The end result enables precise retrievals previously unattainable, allowing users to pose ever-finer queries and incorporate attributes like colour and contextual cues from text. For this purpose, we introduce a novel compositionality framework, effectively combining sketches and text using pre-trained CLIP models, while eliminating the need for extensive fine-grained textual descriptions. Last but not least, our system extends to novel applications in composed image retrieval, domain attribute transfer, and fine-grained generation, providing solutions for various real-world scenarios.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# 拡散モデルにおけるスケッチ制御の民主化

It's All About Your Sketch: Democratising Sketch Control in Diffusion Models ( http://arxiv.org/abs/2403.07234v2 )

ライセンス: Link先を確認
Subhadeep Koley, Ayan Kumar Bhunia, Deeptanshu Sekhri, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, (参考訳) 本稿では,拡散モデルにおけるスケッチの可能性を明らかにするとともに,生成型AIにおける直接スケッチ制御の詐欺的可能性に対処する。 私たちはこのプロセスを民主化し、アマチュアのスケッチが正確なイメージを生成できるようにします。 パイロット研究は、既存のモデルの変形が空間条件に起因することを明らかにし、その必要性を強調している。 これを修正するために, スケッチアダプタ, 適応時間ステップサンプリング, および事前訓練した微粒なスケッチベース画像検索モデルからの識別的ガイダンスを利用した抽象認識フレームワークを提案し, 相乗的に微粒なスケッチ写真関連を補強する。 私たちのアプローチは、テキストプロンプトを必要とせずに、推論中にシームレスに動作します。 論文とその補助書に提示された結果を調べるよう皆に歓迎します。 コントリビューションには、スケッチコントロールの民主化、抽象化対応フレームワークの導入、広範な実験を通じて検証された差別的ガイダンスの活用などが含まれる。

This paper unravels the potential of sketches for diffusion models, addressing the deceptive promise of direct sketch control in generative AI. We importantly democratise the process, enabling amateur sketches to generate precise images, living up to the commitment of "what you sketch is what you get". A pilot study underscores the necessity, revealing that deformities in existing models stem from spatial-conditioning. To rectify this, we propose an abstraction-aware framework, utilising a sketch adapter, adaptive time-step sampling, and discriminative guidance from a pre-trained fine-grained sketch-based image retrieval model, working synergistically to reinforce fine-grained sketch-photo association. Our approach operates seamlessly during inference without the need for textual prompts; a simple, rough sketch akin to what you and I can create suffices! We welcome everyone to examine results presented in the paper and its supplementary. Contributions include democratising sketch control, introducing an abstraction-aware framework, and leveraging discriminative guidance, validated through extensive experiments.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# バイオメディカル・コンピテンシーギャップを橋渡しする小型マルチモーダルモデルの訓練 : 放射線画像検査を例として

Training Small Multimodal Models to Bridge Biomedical Competency Gap: A Case Study in Radiology Imaging ( http://arxiv.org/abs/2403.08002v2 )

ライセンス: Link先を確認
Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu, Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang, Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P. Lungren, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon, (参考訳) 大規模ファンデーションモデルのスケーリング法則と異常な性能は、このような大規模モデルのバイオメディシン開発と利用を動機付けている。 しかしながら、いくつかのバイオメディカルなベンチマークで早期に有望な結果が出たにもかかわらず、これらのモデルが現実世界のアプリケーションで使われるようになる前に対処する必要がある大きな課題がまだ残っている。 GPT-4Vのようなフロンティアモデルは、バイオメディカル応用のためのマルチモーダル能力において依然として大きな能力ギャップがある。 さらに、アクセス、コスト、レイテンシ、コンプライアンスといった実用的問題により、臨床医は、プライベートにホストされた最先端の大規模モデルをプライベートな患者データに直接使用するのが難しくなる。 本稿では, バイオメディカル・コンピテンシーのギャップを埋めるために, オープンソースの小型マルチモーダル・モデル(SMM)の訓練について検討する。 データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、各モダリティをテキスト埋め込み空間に基礎付けるための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。 ラジオグラフィー画像におけるこのアプローチの包括的研究を行っている。 トレーニングのために、100万以上の画像テキストペアからなる大規模なデータセットを組み立てます。 評価のために,GPT-4を用いた臨床駆動型新規アプローチを提案し,専門家による評価と同等性を実証した。 我々はまた、注意力を用いて定性的に接地について研究する。 ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。 結果のLLaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった放射線学のタスクにおいて、GPT-4V や Med-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。 LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。

The scaling laws and extraordinary performance of large foundation models motivate the development and utilization of such large models in biomedicine. However, despite early promising results on some biomedical benchmarks, there are still major challenges that need to be addressed before these models can be used in real-world applications. Frontier models such as GPT-4V still have major competency gaps in multimodal capabilities for biomedical applications. Moreover, pragmatic issues such as access, cost, latency, and compliance make it hard for clinicians to use privately-hosted state-of-the-art large models directly on private patient data. In this paper, we explore training open-source small multimodal models (SMMs) to bridge biomedical competency gaps for unmet clinical needs. To maximize data efficiency, we adopt a modular approach by incorporating state-of-the-art pre-trained models for image and text modalities, and focusing on training a lightweight adapter to ground each modality to the text embedding space. We conduct a comprehensive study of this approach on radiology imaging. For training, we assemble a large dataset with over 1 million image-text pairs. For evaluation, we propose a clinically driven novel approach using GPT-4 and demonstrate its parity with expert evaluation. We also study grounding qualitatively using attention. For best practice, we conduct a systematic ablation study on various choices in data engineering and multimodal training. The resulting LLaVA-Rad (7B) model attains state-of-the-art results on radiology tasks such as report generation and cross-modal retrieval, even outperforming much larger models such as GPT-4V and Med-PaLM M (84B). LLaVA-Rad is fast and can be run on a single V100 GPU in private settings, offering a promising state-of-the-art tool for real-world clinical applications.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-20
# MRC-Net:マルチスケール残差相関を用いた6-DoF推定

MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation ( http://arxiv.org/abs/2403.08019v3 )

ライセンス: Link先を確認
Yuelong Li, Yafei Mao, Raja Bala, Sunil Hadap, (参考訳) 本稿では,1枚のRGB画像から3次元コンピュータ支援デザイン(CAD)モデルを用いてオブジェクトの6-DoFポーズを決定するための単発アプローチを提案する。 MRC-Netと呼ばれる本手法は,2段階からなる。 1つ目はポーズ分類を行い、3Dオブジェクトを分類されたポーズに描画する。 第2段階は、クラス内のきめ細かい残留ポーズを予測するために回帰を実行する。 2つのステージを接続する新しいマルチスケール残差相関層(MRC)は、入力画像と第1ステージからのレンダリングとの間の高レベルな対応をキャプチャする。 MRC-Netは、入力画像と描画画像の埋め込みを学習するために、両方のステージ間で重みを共有するSiameseネットワークを使用している。 対称オブジェクト上の離散的なポーズクラスラベルを予測する際のあいまいさを軽減するため、第1段階でポーズクラスを定義するためにソフト確率ラベルを用いる。 我々は、T-LESS, LM-O, YCB-V, ITODDの4つの挑戦的ベンチマークデータセットにおいて、競合するRGBベースの手法を全て上回り、最先端の精度を実証する。 提案手法は非定型であり, 複雑な後処理は不要である。

We propose a single-shot approach to determining 6-DoF pose of an object with available 3D computer-aided design (CAD) model from a single RGB image. Our method, dubbed MRC-Net, comprises two stages. The first performs pose classification and renders the 3D object in the classified pose. The second stage performs regression to predict fine-grained residual pose within class. Connecting the two stages is a novel multi-scale residual correlation (MRC) layer that captures high-and-low level correspondences between the input image and rendering from first stage. MRC-Net employs a Siamese network with shared weights between both stages to learn embeddings for input and rendered images. To mitigate ambiguity when predicting discrete pose class labels on symmetric objects, we use soft probabilistic labels to define pose class in the first stage. We demonstrate state-of-the-art accuracy, outperforming all competing RGB-based methods on four challenging BOP benchmark datasets: T-LESS, LM-O, YCB-V, and ITODD. Our method is non-iterative and requires no complex post-processing.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-20
# エッジ上の量子カオス

Quantum Chaos on Edge ( http://arxiv.org/abs/2403.13516v1 )

ライセンス: Link先を確認
Alexander Altland, Kun Woo Kim, Tobias Micklitz, Maedeh Rezaei, Julian Sonner, Jacobus J. M. Verbaarschot, (参考訳) 近年では、基底状態に近い多体量子カオス系の物理学が強化された精査の対象となっている。 このような研究は、スペクトル全体にわたってカオス的変動を示すモデル系(Sachdev-Ye-Kitaev(SYK)モデルが有名である)の出現と、同様に基底状態に近いホログラフィック原理の物理学によって動機づけられている。 ここでは、スペクトルの端を量子臨界点として解釈し、多種多様な解析的および数値的手法を組み合わせて、2つの異なる普遍性クラスの同定と包括的記述を行う。 この区別は、系のランダムパラメータの数とヒルベルト空間次元の比にある。 2つのクラスの著名な代表者は、一般的なカオス多体モデル(スパース)と単一粒子系、不変なランダム行列アンサンブル、カオス重力系(センス)である。 2つの族は、レベル間隔に匹敵するエネルギースケールで同一のスペクトル相関を共有するが、状態の密度とエッジ付近のゆらぎは異なる。 スパースクラスの代表としてSYKモデルを考えると、場の理論と正確な対角化の組み合わせをエッジスペクトルの詳細な議論に適用する。 逆に、Jackiw-Teitelboim重みは、高密度クラスに対する我々の参照モデルであり、重力経路積分とランダム行列理論の分析によりスパースクラスに対する普遍的な違いが示され、これはホログラフィック原理の構築に影響を及ぼす。

In recent years, the physics of many-body quantum chaotic systems close to their ground states has come under intensified scrutiny. Such studies are motivated by the emergence of model systems exhibiting chaotic fluctuations throughout the entire spectrum (the Sachdev-Ye-Kitaev (SYK) model being a renowned representative) as well as by the physics of holographic principles, which likewise unfold close to ground states. Interpreting the edge of the spectrum as a quantum critical point, here we combine a wide range of analytical and numerical methods to the identification and comprehensive description of two different universality classes: the near edge physics of ``sparse'' and the near edge of ``dense'' chaotic systems. The distinction lies in the ratio between the number of a system's random parameters and its Hilbert space dimension, which is exponentially small or algebraically small in the sparse and dense case, respectively. Notable representatives of the two classes are generic chaotic many-body models (sparse) and single particle systems, invariant random matrix ensembles, or chaotic gravitational systems (dense). While the two families share identical spectral correlations at energy scales comparable to the level spacing, the density of states and its fluctuations near the edge are different. Considering the SYK model as a representative of the sparse class, we apply a combination of field theory and exact diagonalization to a detailed discussion of its edge spectrum. Conversely, Jackiw-Teitelboim gravity is our reference model for the dense class, where an analysis of the gravitational path integral and random matrix theory reveal universal differences to the sparse class, whose implications for the construction of holographic principles we discuss.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-20
# フォトダイオードデータを用いたLPBFにおける過熱異常の機械学習による層別検出

Machine Learning-based Layer-wise Detection of Overheating Anomaly in LPBF using Photodiode Data ( http://arxiv.org/abs/2403.13861v1 )

ライセンス: Link先を確認
Nazmul Hasan, Apurba Kumar Saha, Andrew Wessman, Mohammed Shafae, (参考訳) レーザーパウダーベッド融合(LPBF)添加物製造(AM)により製造される部品の品質と信頼性には過熱異常検出が不可欠である。 本研究では,フォトダイオードセンサデータを用いた過熱異常の検出に焦点を当てた。 光ダイオードセンサーは、プロセスのダイナミクスと熱履歴を反映して、溶融プールから高周波データを収集することができる。 提案手法は,フォトダイオードセンサデータを用いて過熱異常の検出を行う機械学習(ML)フレームワークを提供する。 MSMM(平均、標準偏差、中央値、最大値)、MSQ(平均値、標準偏差、準位)、MSD(平均値、標準偏差、偏差、偏差)の3つの特徴セットを抽出する。 これら3つのデータセットは、いくつかのML分類器のトレーニングに使用される。 コストセンシティブな学習は、ベンチマークデータセットの"異常"層(オーバーヒートの影響)と"最小"層の間のクラス不均衡を処理するために使用される。 検出精度を高めるために,提案するMLフレームワークは,多数決アンサンブル(MVE)アプローチを利用する。 提案手法は,いくつかの層で意図的に過熱異常を呈するLPBF検体からの光ダイオード測定のオープンベンチマークデータセットを含むケーススタディを用いて実証した。 ケーススタディの結果,MSDはすべての分類器で最高の性能を示し,MVE分類器(平均F1スコア0.8654)は個々のML分類器を上回った。 さらに, 機械学習手法は, 同じベンチマークデータセットを用いた文献において, 階層的に過熱する異常を検出する上で, 優れた結果(平均F1スコアの9.66%の改善)を達成している。

Overheating anomaly detection is essential for the quality and reliability of parts produced by laser powder bed fusion (LPBF) additive manufacturing (AM). In this research, we focus on the detection of overheating anomalies using photodiode sensor data. Photodiode sensors can collect high-frequency data from the melt pool, reflecting the process dynamics and thermal history. Hence, the proposed method offers a machine learning (ML) framework to utilize photodiode sensor data for layer-wise detection of overheating anomalies. In doing so, three sets of features are extracted from the raw photodiode data: MSMM (mean, standard deviation, median, maximum), MSQ (mean, standard deviation, quartiles), and MSD (mean, standard deviation, deciles). These three datasets are used to train several ML classifiers. Cost-sensitive learning is used to handle the class imbalance between the "anomalous" layers (affected by overheating) and "nominal" layers in the benchmark dataset. To boost detection accuracy, our proposed ML framework involves utilizing the majority voting ensemble (MVE) approach. The proposed method is demonstrated using a case study including an open benchmark dataset of photodiode measurements from an LPBF specimen with deliberate overheating anomalies at some layers. The results from the case study demonstrate that the MSD features yield the best performance for all classifiers, and the MVE classifier (with a mean F1-score of 0.8654) surpasses the individual ML classifiers. Moreover, our machine learning methodology achieves superior results (9.66% improvement in mean F1-score) in detecting layer-wise overheating anomalies, surpassing the existing methods in the literature that use the same benchmark dataset.
翻訳日:2024-03-22 18:28:52 公開日:2024-03-20
# DiffImpute:拡散確率モデルによる語彙データ計算

DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2403.13863v1 )

ライセンス: Link先を確認
Yizhu Wen, Kai Yi, Jing Ke, Yiqing Shen, (参考訳) タブラルデータは、様々な領域において重要な役割を果たすが、しばしば欠落する値に悩まされるため、潜在的な効用は減少する。 従来の計算手法は、しばしば準最適結果をもたらし、かなりの計算負担を課し、その後のモデリングタスクにおいて不正確な結果をもたらす。 これらの課題に対処するため、我々はDiffImputeという新しい拡散確率モデル(DDPM)を提案する。 具体的には、DiffImputeは完全な表形式のデータセットに基づいてトレーニングされており、既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成することができる。 革新的には、MAR(Missing Completely At Random)とMAR(Missing At Random)の様々な設定に適用できる。 MLP, ResNet, Transformer, U-Net にまたがる4つの表型 denoising ネットワークを, DDPM の表型特徴を効果的に扱えるように調整する。 また,観測データとインプットデータのコヒーレンスを高めるためのハーモニゼーションを提案する。 計算性能を維持しながら効率的な推論を可能にするため,ハーモナイゼーションと協調して動作する改良された非マルコフサンプリングプロセスを提案する。 7つの多様なデータセットに関する実証的な評価は、DiffImputeの長所を浮き彫りにした。 具体的には、Transformerをデノナイジングネットワークとして組み合わせると、平均1.7のランクと最も最小限の標準偏差を誇って、競争相手を一貫して上回っている。 対照的に、次の最良の方法は、ランクが2.8で標準偏差が0.9の遅延である。 コードはhttps://github.com/Dendiiiii/DiffImpute.comで公開されている。

Tabular data plays a crucial role in various domains but often suffers from missing values, thereby curtailing its potential utility. Traditional imputation techniques frequently yield suboptimal results and impose substantial computational burdens, leading to inaccuracies in subsequent modeling tasks. To address these challenges, we propose DiffImpute, a novel Denoising Diffusion Probabilistic Model (DDPM). Specifically, DiffImpute is trained on complete tabular datasets, ensuring that it can produce credible imputations for missing entries without undermining the authenticity of the existing data. Innovatively, it can be applied to various settings of Missing Completely At Random (MCAR) and Missing At Random (MAR). To effectively handle the tabular features in DDPM, we tailor four tabular denoising networks, spanning MLP, ResNet, Transformer, and U-Net. We also propose Harmonization to enhance coherence between observed and imputed data by infusing the data back and denoising them multiple times during the sampling stage. To enable efficient inference while maintaining imputation performance, we propose a refined non-Markovian sampling process that works along with Harmonization. Empirical evaluations on seven diverse datasets underscore the prowess of DiffImpute. Specifically, when paired with the Transformer as the denoising network, it consistently outperforms its competitors, boasting an average ranking of 1.7 and the most minimal standard deviation. In contrast, the next best method lags with a ranking of 2.8 and a standard deviation of 0.9. The code is available at https://github.com/Dendiiiii/DiffImpute.
翻訳日:2024-03-22 18:28:52 公開日:2024-03-20
# フェアネスのための最適輸送:小さな研究データセットを用いたアーカイブデータ修復

Optimal Transport for Fairness: Archival Data Repair using Small Research Data Sets ( http://arxiv.org/abs/2403.13864v1 )

ライセンス: Link先を確認
Abigail Langbridge, Anthony Quinn, Robert Shorten, (参考訳) AI法やその他の規制の出現により、トレーニングデータの不正性を修復するアルゴリズムが緊急に必要になった。 本稿では、保護属性(S$)と非保護属性(U$)の条件独立性の観点から公正性を定義する。 本稿では,これらのデータのうちわずかにS|U$-labelled(研究データ)を用いて,アーカイブデータのトレントを修復する必要がある重要な設定に対処する。 補間支援のための最適輸送(OT)ベースの補修計画の設計に後者を用いる。 これにより、固定性仮定の下で、ラベル付けされたアーカイブデータを修復することができる。 また、OTプランのサポートのサイズを大幅に削減し、設計コストとオフサンプルデータへのアプリケーションである {\em sequence\/} の大幅な削減を実現した。 実データ(アダルトデータセット)のシミュレーションとベンチマークによる詳細な実験結果を提供する。 我々の業績は、大量のオフサンプル、ラベル付き(アーキバル)データの効果的な修復(クエンチング条件依存)を実証している。

With the advent of the AI Act and other regulations, there is now an urgent need for algorithms that repair unfairness in training data. In this paper, we define fairness in terms of conditional independence between protected attributes ($S$) and features ($X$), given unprotected attributes ($U$). We address the important setting in which torrents of archival data need to be repaired, using only a small proportion of these data, which are $S|U$-labelled (the research data). We use the latter to design optimal transport (OT)-based repair plans on interpolated supports. This allows {\em off-sample}, labelled, archival data to be repaired, subject to stationarity assumptions. It also significantly reduces the size of the supports of the OT plans, with correspondingly large savings in the cost of their design and of their {\em sequential\/} application to the off-sample data. We provide detailed experimental results with simulated and benchmark real data (the Adult data set). Our performance figures demonstrate effective repair -- in the sense of quenching conditional dependence -- of large quantities of off-sample, labelled (archival) data.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# ソーシャルネットワークにおけるターゲットノードのクローリングのためのグラフニューラルネットワーク

Graph Neural Network for Crawling Target Nodes in Social Networks ( http://arxiv.org/abs/2403.13865v1 )

ライセンス: Link先を確認
Kirill Lukyanov, Mikhail Drobyshevskiy, Danil Shaikhelislamov, Denis Turdakov, (参考訳) ソーシャルネットワークのクロールは、ここ数年、活発な研究の焦点となっている。 難しいタスクの1つは、クローリングステップの予算を考えれば、当初未知のグラフでターゲットノードを収集することである。 部分的に知られている近傍に基づくノード特性の予測は、成功したクローラーの中心にある。 本稿では,この目的のためにグラフニューラルネットワークを採用し,従来の分類器と競合することを示す。 また,クロール初期におけるトレーニングセットの多様化に寄与し,予測品質の向上を図る訓練サンプルブースティング手法を提案する。 3種類のターゲット・セット・トポロジーに関する実験的研究は、特に分散ターゲットノードの場合、GNNベースのアプローチがクローリング・タスクの可能性を示唆している。

Social networks crawling is in the focus of active research the last years. One of the challenging task is to collect target nodes in an initially unknown graph given a budget of crawling steps. Predicting a node property based on its partially known neighbourhood is at the heart of a successful crawler. In this paper we adopt graph neural networks for this purpose and show they are competitive to traditional classifiers and are better for individual cases. Additionally we suggest a training sample boosting technique, which helps to diversify the training set at early stages of crawling and thus improves the predictor quality. The experimental study on three types of target set topology indicates GNN based approach has a potential in crawling task, especially in the case of distributed target nodes.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# ビッド・ピクチャーズ:オークションにインスパイアされたマルチプレイヤー・ジェネレーティブ・アドバイサル・ネットワークのトレーニング

The Bid Picture: Auction-Inspired Multi-player Generative Adversarial Networks Training ( http://arxiv.org/abs/2403.13866v1 )

ライセンス: Link先を確認
Joo Yong Shim, Jean Seong Bjorn Choe, Jong-Kook Kim, (参考訳) 本稿では,GANのモード崩壊問題を緩和する,オークション型マルチプレイヤー生成対向ネットワークトレーニングを提案する。 モード崩壊は、過度に適合したジェネレータが限られた範囲のサンプルを生成し、しばしばデータ分散の小さなサブセットに集中したときに起こる。 生成したサンプルの多様性が制限されているにもかかわらず、判別器は実際の分布からこれらのサンプルを実際のサンプルと区別することができる。 外部標準がなければ、モデルはトレーニングフェーズ中にその失敗を認識することができない。 生成的敵ネットワークの2人プレイヤゲームをマルチプレイヤーゲームに拡張する。 トレーニング中、各モデルの値は、オークションのようなプロセスで他のプレイヤーが提出した入札によって決定される。

This article proposes auction-inspired multi-player generative adversarial networks training, which mitigates the mode collapse problem of GANs. Mode collapse occurs when an over-fitted generator generates a limited range of samples, often concentrating on a small subset of the data distribution. Despite the restricted diversity of generated samples, the discriminator can still be deceived into distinguishing these samples as real samples from the actual distribution. In the absence of external standards, a model cannot recognize its failure during the training phase. We extend the two-player game of generative adversarial networks to the multi-player game. During the training, the values of each model are determined by the bids submitted by other players in an auction-like process.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 時系列データのための雑音安定化器としてのカプセルニューラルネットワーク

Capsule Neural Networks as Noise Stabilizer for Time Series Data ( http://arxiv.org/abs/2403.13867v1 )

ライセンス: Link先を確認
Soyeon Kim, Jihyeon Seong, Hyunkyung Han, Jaesik Choi, (参考訳) Capsule Neural Networksは、単一ベクトルにニューロンを結合するカプセルを使用し、位置同変の特徴を学ぶことで、元の畳み込みニューラルネットワークよりも堅牢である。 CapsNetはアフィン変換行列と結合係数を持つ動的ルーティングを用いて、堅牢に学習する。 本稿では,高感度でノイズの多い時系列センサデータの解析におけるCapsNetsの有効性について検討する。 CapsNetsのロバスト性を示すために、心電図データ、医療時系列センサデータと複雑なパターンとノイズのCNNの性能を比較した。 本研究では,CapsNetsが雑音安定化器として機能することを示す実証的証拠として,高速勾配標識法と,オフセットシフト,段階的ドリフト,時間的遅延を含む3つの手動攻撃を用いた手動・対向攻撃実験を行った。 要約すると、CapsNetsは手動攻撃と敵攻撃の両方でCNNを上回っている。 以上の結果から,CapsNetsは様々なセンサシステムに効果的に適用でき,ノイズアタックに対するレジリエンスを向上させることができることが示唆された。 これらの結果は、実世界のアプリケーションで堅牢な機械学習モデルの設計と実装に重大な影響を及ぼす。 さらに,本研究は,ノイズデータ処理におけるCapsNetモデルの有効性に寄与し,時系列解析におけるノイズデータの課題に対処する可能性を強調した。

Capsule Neural Networks utilize capsules, which bind neurons into a single vector and learn position equivariant features, which makes them more robust than original Convolutional Neural Networks. CapsNets employ an affine transformation matrix and dynamic routing with coupling coefficients to learn robustly. In this paper, we investigate the effectiveness of CapsNets in analyzing highly sensitive and noisy time series sensor data. To demonstrate CapsNets robustness, we compare their performance with original CNNs on electrocardiogram data, a medical time series sensor data with complex patterns and noise. Our study provides empirical evidence that CapsNets function as noise stabilizers, as investigated by manual and adversarial attack experiments using the fast gradient sign method and three manual attacks, including offset shifting, gradual drift, and temporal lagging. In summary, CapsNets outperform CNNs in both manual and adversarial attacked data. Our findings suggest that CapsNets can be effectively applied to various sensor systems to improve their resilience to noise attacks. These results have significant implications for designing and implementing robust machine learning models in real world applications. Additionally, this study contributes to the effectiveness of CapsNet models in handling noisy data and highlights their potential for addressing the challenges of noise data in time series analysis.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 確率的再帰方程式による確率的グラディエントDescentの重テール特性の解析

Analysing heavy-tail properties of Stochastic Gradient Descent by means of Stochastic Recurrence Equations ( http://arxiv.org/abs/2403.13868v1 )

ライセンス: Link先を確認
Ewa Damek, Sebastian Mentemeier, (参考訳) 近年の機械学習理論において,確率的再帰の確率的枠組みにおいて,確率的勾配 Descent (SGD) の重いテール特性が研究されている。 特に、G\"{u}rb\"{u}zbalaban et al (arXiv:2006.04740) は、A_k$ がランダム対称行列であり、$B_k$ がランダムなベクトルであるような独立かつ同一に分散されたペアに対して、SGD の反復を多変量アフィン確率再帰 $X_k=A_k X_{k-1}+B_k$ でモデル化できる線形回帰に対応する構成を考えた。 この研究では、引用された論文のいくつかのオープンな質問に答え、既約(i-p)行列の理論を適用して結果を拡張する。

In recent works on the theory of machine learning, it has been observed that heavy tail properties of Stochastic Gradient Descent (SGD) can be studied in the probabilistic framework of stochastic recursions. In particular, G\"{u}rb\"{u}zbalaban et al. (arXiv:2006.04740) considered a setup corresponding to linear regression for which iterations of SGD can be modelled by a multivariate affine stochastic recursion $X_k=A_k X_{k-1}+B_k$, for independent and identically distributed pairs $(A_k, B_k)$, where $A_k$ is a random symmetric matrix and $B_k$ is a random vector. In this work, we will answer several open questions of the quoted paper and extend their results by applying the theory of irreducible-proximal (i-p) matrices.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# インテリジェントシステムにおける安全臨界イベントの正確な予測可能性

Accurately Predicting Probabilities of Safety-Critical Rare Events for Intelligent Systems ( http://arxiv.org/abs/2403.13869v1 )

ライセンス: Link先を確認
Ruoxuan Bai, Jingxuan Yang, Weiduo Gong, Yi Zhang, Qiujing Lu, Shuo Feng, (参考訳) インテリジェントなシステムは私たちの日常生活にますます不可欠なものになっていますが、安全クリティカルな出来事は実践的な展開に重大な脅威をもたらします。 この課題に対処するためには、現在の状態から与えられた時間ステップ内で発生する安全クリティカル事象の確率を正確に予測する。 臨界の予測の複雑さは、希少事象に関連する高次元変数における希少事象による極端なデータ不均衡から生じる。 既存の方法は、過度に保守的であるか、安全クリティカルな出来事を見渡す傾向があるため、高い精度とリコール率の両方を達成するのに苦労し、適用性を著しく制限する傾向にある。 本研究は,安全クリティカルな自律システムの臨界度を評価するために,精度とリコール率を両立させる臨界予測モデルを開発することを目的とする。 本稿では,データセットを段階的に密度化するために設計された多段階学習フレームワークを提案する。 アプローチを検証するために,月面着陸機と二足歩行機という2つの事例で評価を行った。 その結果,本手法は従来の手法を超越し,知的システムにおける臨界度をより正確かつ信頼性の高い評価を行うことができた。

Intelligent systems are increasingly integral to our daily lives, yet rare safety-critical events present significant latent threats to their practical deployment. Addressing this challenge hinges on accurately predicting the probability of safety-critical events occurring within a given time step from the current state, a metric we define as 'criticality'. The complexity of predicting criticality arises from the extreme data imbalance caused by rare events in high dimensional variables associated with the rare events, a challenge we refer to as the curse of rarity. Existing methods tend to be either overly conservative or prone to overlooking safety-critical events, thus struggling to achieve both high precision and recall rates, which severely limits their applicability. This study endeavors to develop a criticality prediction model that excels in both precision and recall rates for evaluating the criticality of safety-critical autonomous systems. We propose a multi-stage learning framework designed to progressively densify the dataset, mitigating the curse of rarity across stages. To validate our approach, we evaluate it in two cases: lunar lander and bipedal walker scenarios. The results demonstrate that our method surpasses traditional approaches, providing a more accurate and dependable assessment of criticality in intelligent systems.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# ExMap: 教師なしグループロバストネスのための説明可能性ヒートマップの活用

ExMap: Leveraging Explainability Heatmaps for Unsupervised Group Robustness to Spurious Correlations ( http://arxiv.org/abs/2403.13870v1 )

ライセンス: Link先を確認
Rwiddhi Chakraborty, Adrian Sletten, Michael Kampffmeyer, (参考訳) グループロバストネス戦略は、トレーニングデータセットに存在する刺激的な相関から生じるディープラーニングモデルにおける学習バイアスを軽減することを目的としている。 しかし、既存の手法のほとんどは、グループの名前の分布にアクセスすることに依存しており、それは時間がかかり、入手するのにコストがかかる。 その結果、教師なしのグループロバストネス戦略が求められた。 学習モデルの分類戦略を説明可能性ヒートマップに基づいて正確に推定できるという知見に基づいて,従来の分類器におけるグループロバスト性を高めるために設計された,教師なし2段階のメカニズムであるExMapを紹介した。 ExMapはクラスタリングモジュールを使用して、モデルの説明可能性ヒートマップに基づいて擬似ラベルを推論する。 ExMapの有効性を検証する実証的研究 - 教師付きメソッドとパフォーマンスギャップを橋渡しし、既存の部分教師付きメソッドと教師なしメソッドを上回ります。 さらに、ExMapは既存のグループロバストネス学習戦略とシームレスに統合できる。 最後に、マルチショートカット緩和の新興問題に取り組む可能性を示す。footnote{Code available at \url{https://github.com/rwchakra/exmap}}。

Group robustness strategies aim to mitigate learned biases in deep learning models that arise from spurious correlations present in their training datasets. However, most existing methods rely on the access to the label distribution of the groups, which is time-consuming and expensive to obtain. As a result, unsupervised group robustness strategies are sought. Based on the insight that a trained model's classification strategies can be inferred accurately based on explainability heatmaps, we introduce ExMap, an unsupervised two stage mechanism designed to enhance group robustness in traditional classifiers. ExMap utilizes a clustering module to infer pseudo-labels based on a model's explainability heatmaps, which are then used during training in lieu of actual labels. Our empirical studies validate the efficacy of ExMap - We demonstrate that it bridges the performance gap with its supervised counterparts and outperforms existing partially supervised and unsupervised methods. Additionally, ExMap can be seamlessly integrated with existing group robustness learning strategies. Finally, we demonstrate its potential in tackling the emerging issue of multiple shortcut mitigation\footnote{Code available at \url{https://github.com/rwchakra/exmap}}.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 2つの完全励起量子エミッタの集団非マルコフ崩壊に対する厳密解

Exact solution for the collective non-Markovian decay of two fully excited quantum emitters ( http://arxiv.org/abs/2403.13871v1 )

ライセンス: Link先を確認
Alfonso Lanuza, Dominik Schneble, (参考訳) 量子エミッターの自然崩壊は、他のエミッタの状態と周囲の放射線の状態の両方に大きく影響される。 このような例は、一般に別々に扱われる量子光学における2つの中心的なトピック、すなわち集合崩壊と非マルコフ力学を組み合わせたものである。 ここでは、1次元の単一バンド導波路の隣接する単位セルに位置する2つの励起量子エミッタの正確な解を通して、集団的非マルコフ崩壊にアクセスする。 変換された場の振幅は、基本関数の観点で表現し、指数関数、代数的、分数的、混合代数的-指数的崩壊、および代数的部分の対数的補正を合成する。 我々は非線形量子光学現象の複雑さに光を当てる多粒子オープン量子系の解析法を開発した。

The spontaneous decay of a quantum emitter can be significantly affected by both, the state of other emitters and the state of the surrounding radiation. Such instances combine two central topics in quantum optics that are typically treated separately: collective decay and non-Markovian dynamics. Here we access collective non-Markovian decay through the exact solution for two excited quantum emitters located at adjacent unit cells of a one-dimensional single-band waveguide. The transformed field amplitudes, which we express in terms of elementary functions, combine exponential, algebraic, fractional, and mixed algebraic-exponential decay, as well as logarithmic corrections to some of the algebraic parts. We develop analytic methods for multiparticle open quantum systems that shed light on the complexity of non-linear quantum optical phenomena.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 戦術ネットワークにおける空間時間グラフ表現学習の現状と将来予測

Spatial-Temporal Graph Representation Learning for Tactical Networks Future State Prediction ( http://arxiv.org/abs/2403.13872v1 )

ライセンス: Link先を確認
Liu Junhua, Albrethsen Justin, Goh Lincoln, Yau David, Lim Kwan Hui, (参考訳) 戦術的アドホックネットワークにおける資源配分は、その動的およびマルチホップの性質から、ユニークな課題を示す。 将来のネットワーク接続の正確な予測は、そのような環境での効果的な資源配分に不可欠である。 本稿では,ネットワーク状態の空間的特徴と時間的特徴を活用して潜在的戦術行動を効果的に学習する,時空間グラフエンコーダ・デコーダ(STGED)フレームワークを提案する。 STGEDはグラフベースの注意機構を利用して一連の通信ネットワーク状態を空間的にエンコードし、リカレントニューラルネットワークを使って状態の進化を時間的にエンコードする。 広範にわたる実験により,STGED は,戦術通信ネットワークの将来の状態予測タスクに対して,最大99.2\% の精度を達成し,異なる時間ステップの入力に対する大きなマージンでベースラインモデルより一貫して優れることを示した。

Resource allocation in tactical ad-hoc networks presents unique challenges due to their dynamic and multi-hop nature. Accurate prediction of future network connectivity is essential for effective resource allocation in such environments. In this paper, we introduce the Spatial-Temporal Graph Encoder-Decoder (STGED) framework for Tactical Communication Networks that leverages both spatial and temporal features of network states to learn latent tactical behaviors effectively. STGED hierarchically utilizes graph-based attention mechanism to spatially encode a series of communication network states, leverages a recurrent neural network to temporally encode the evolution of states, and a fully-connected feed-forward network to decode the connectivity in the future state. Through extensive experiments, we demonstrate that STGED consistently outperforms baseline models by large margins across different time-steps input, achieving an accuracy of up to 99.2\% for the future state prediction task of tactical communication networks.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 光抑制光合成電荷移動の量子画像:光遮断

A quantum picture of light-suppressed photosynthetic charge transfer: Photo-blockade ( http://arxiv.org/abs/2403.13873v1 )

ライセンス: Link先を確認
Guang Yang, Gen Tatara, (参考訳) 光環境の異なる植物における光化学の可逆的制御のための動的機構を提案する。 光励起直前に電荷供与体と電荷受容体間の相関を考慮に入れた3レベル量子モデルを用いて、光の定常かつコヒーレントな駆動の下で電荷移動の効率が入射光の強度に逆比例していることを示し、光合成電子輸送の制限要因となるように著しく抑制できる。 これらの結果は光合成パラメータの光応答の知見を得るために分析された。 光化学実験で用いられる光源の熱ゆらぎの影響を議論し、高光条件下では、白熱灯で測定された量子収量はレーザーで測定されたものよりも高くなり、ランプ照明における熱ゆらぎの顕在化を論じる。 我々の新しい写真は、光系Iにおけるプラストシアニン依存電子輸送、P700の双相性酸化還元反応、および波長依存量子収率などの幅広い実験の一貫性のある解釈を示し、光系IIへの不可逆的な損傷の開始のためのドナーサイドスキームを提供する。

We propose a dynamic mechanism for the reversible regulation of photochemistry in plants under varying light environments. We employ a three-level quantum model to take into account the correlations between charge donors and charge acceptors immediately before photoexcitation, and show that under steady and coherent driving of light, the efficiency of charge transfer is inversely proportional to the intensity of incident light, which can be suppressed so severely that it becomes a limiting factor on photosynthetic electron transport. These results are analyzed to gain insight in the light responses of photosynthetic parameters. We discuss the implications of thermal fluctuation in the light source used in photochemical experiments, and argue that in high light conditions, the quantum yields measured with an incandescent lamp may be higher than those measured with a laser, a manifestation of thermal fluctuation in lamp illumination. Our new picture renders a consistent interpretation of a wide range of experiments, including plastocyanin-dependent electron transport in photosystem I, biphasic redox kinetics of P700 and wavelength-dependent quantum yields, and provides a donor-side scheme for the onset of irreversible damage to photosystem II.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# ガウスボソンサンプリングにおけるハフニャンの第二モーメント

The Second Moment of Hafnians in Gaussian Boson Sampling ( http://arxiv.org/abs/2403.13878v1 )

ライセンス: Link先を確認
Adam Ehrenberg, Joseph T. Iosue, Abhinav Deshpande, Dominik Hangleiter, Alexey V. Gorshkov, (参考訳) ガウスボソンサンプリングは量子優位性の実験的な実証の一般的な方法であるが、多くの微妙さは理論的な基盤を完全に理解している。 サンプリングの平均ケース硬度を近似する理論的議論における重要な要素は、出力確率の第2モーメント特性であるアンチ集中である。 ガウスのボソンサンプリングでは、これらは一般化された正方形アンサンブル行列のハフニアンによって与えられる。 共同研究(arXiv:2312.08433)において、これらのモーメントを解析し、反濃縮の遷移を特定するグラフ理論法を開発した。 本研究では、これらのグラフ理論手法を用いて、第2の瞬間に再帰的表現を求める。 この再帰を手作業で解くことはできないが、数値的に解けるので、フォックセクターが 2n = 80$ になる。 第2モーメントに関する新たな分析結果も導き出す。 これらの結果から, 反集中化の推移を見極めることができ, さらに, 理想的な(エラーのない)デバイスに対して, 期待される線形クロスエントロピーベンチマークスコアを得ることができた。

Gaussian Boson Sampling is a popular method for experimental demonstrations of quantum advantage, but many subtleties remain in fully understanding its theoretical underpinnings. An important component in the theoretical arguments for approximate average-case hardness of sampling is anticoncentration, which is a second-moment property of the output probabilities. In Gaussian Boson Sampling these are given by hafnians of generalized circular orthogonal ensemble matrices. In a companion work [arXiv:2312.08433], we develop a graph-theoretic method to study these moments and use it to identify a transition in anticoncentration. In this work, we find a recursive expression for the second moment using these graph-theoretic techniques. While we have not been able to solve this recursion by hand, we are able to solve it numerically exactly, which we do up to Fock sector $2n = 80$. We further derive new analytical results about the second moment. These results allow us to pinpoint the transition in anticoncentration and furthermore yield the expected linear cross-entropy benchmarking score for an ideal (error-free) device.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 内在混合位相秩序に対する雑音的アプローチ

A Noisy Approach to Intrinsically Mixed-State Topological Order ( http://arxiv.org/abs/2403.13879v1 )

ライセンス: Link先を確認
Ramanjit Sohal, Abhinav Prem, (参考訳) 局所相関誤差を受ける2次元(2次元)位相秩序状態の研究のための一般的な枠組みを提案し,その混合状態が2次元局所ギャップハミルトンの基底状態では起こり得ないような内在混合状態位相秩序(imTO)を示すことを示す。 具体的には、以前は二重ヒルベルト空間の任意の凝縮と解釈されていたデコヒーレンス(decoherence)がより自然に言い換えられ、元のヒルベルト空間の任意の電子を「ゲージアウト」するための物理的なメカニズムを提供することを示す。 我々は、ある異常な1-形式対称性の下でデコヒートされた混合状態が強い対称性を持つ、イムト(ImTO)を総称的にガグアウトすることは、イムト(ImTO)をもたらすことを見出した。 このフレームワークは、デコヒード密度行列とトポロジカルサブシステム符号の間の顕著な接続をほとんど含んでおり、3次元トポロジカル秩序の異常な表面状態として現れる。 一連の例を通して、デコヒーレント状態は古典的なメモリを表示し、論理量子ビットを符号化し(量子メモリを表示する)、キラルあるいは非モジュラー位相秩序をホストすることさえできることを示した。 我々は、デコヒード状態は物質の真の混合状態量子相を表し、ImTOの部分的な分類は、ブレイド融合のカテゴリによって与えられると論じる。

We propose a general framework for studying two-dimensional (2D) topologically ordered states subject to local correlated errors and show that the resulting mixed-state can display intrinsically mixed-state topological order (imTO) -- topological order which is not expected to occur in the ground state of 2D local gapped Hamiltonians. Specifically, we show that decoherence, previously interpreted as anyon condensation in a doubled Hilbert space, is more naturally phrased as, and provides a physical mechanism for, "gauging out" anyons in the original Hilbert space. We find that gauging out anyons generically results in imTO, with the decohered mixed-state strongly symmetric under certain anomalous 1-form symmetries. This framework lays bare a striking connection between the decohered density matrix and topological subsystem codes, which can appear as anomalous surface states of 3D topological orders. Through a series of examples, we show that the decohered state can display a classical memory, encode logical qubits (i.e., exhibit a quantum memory), and even host chiral or non-modular topological order. We argue that the decohered states represent genuine mixed-state quantum phases of matter and that a partial classification of imTO is given in terms of braided fusion categories.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# スパースSYKモデルにおける量子カオス

Quantum chaos in the sparse SYK model ( http://arxiv.org/abs/2403.13884v1 )

ライセンス: Link先を確認
Patrick Orman, Hrant Gharibyan, John Preskill, (参考訳) サハデフ・イ・キタエフ(Sachdev-Ye-Kitaev、SYK)モデルは、ランダムな相互作用と強いカオス力学を持つ$N$マヨラナフェルミオンの系であり、低エネルギーでは2次元ジャッキー・ティーテルボイム重力としてホログラフィック的に二重の記述が認められる。 したがって、SYKモデルは、短期量子ハードウェアでシミュレートできるかもしれない量子重力のおもちゃモデルを提供する。 このようなシミュレーションに必要なリソースを減らすことを目的として、我々はSYKモデルのスパース化バージョンについて検討し、相互作用項を確率1{-p}$で削除する。 具体的には,スペクトル形状係数 (SFF, ハミルトンの固有値ペア相関関数のフーリエ変換) と近傍の固有値ギャップ比$r$ (連続固有値間のギャップの分布特性) を数値的に計算する。 p$ が遷移値 $p_1$ より大きい場合、SFF と $r$ は、完全な未分離モデルとランダム行列理論(RMT)の期待値に一致する。 しかし、$p<p_1$の場合、スパース化されていないSYKとRTTからの偏差が生じ、高度にスパース化された状態におけるホログラフィーの崩壊が示唆された。 さらに小さい値の$p_2$は1/N^3$とスケールするが、連続する固有値の間隔もRTT値と異なり、スペクトル剛性の完全な分解を示す。 その結果,高度にスパース化されたSYKモデルのホログラフィック解釈は,テレポーテーション不忠実度を損失関数として用いた機械学習によって得られることが示唆された。

The Sachdev-Ye-Kitaev (SYK) model is a system of $N$ Majorana fermions with random interactions and strongly chaotic dynamics, which at low energy admits a holographically dual description as two-dimensional Jackiw-Teitelboim gravity. Hence the SYK model provides a toy model of quantum gravity that might be feasible to simulate with near-term quantum hardware. Motivated by the goal of reducing the resources needed for such a simulation, we study a sparsified version of the SYK model, in which interaction terms are deleted with probability $1{-p}$. Specifically, we compute numerically the spectral form factor (SFF, the Fourier transform of the Hamiltonian's eigenvalue pair correlation function) and the nearest-neighbor eigenvalue gap ratio $r$ (characterizing the distribution of gaps between consecutive eigenvalues). We find that when $p$ is greater than a transition value $p_1$, which scales as $1/N^3$, both the SFF and $r$ match the values attained by the full unsparsified model and with expectations from random matrix theory (RMT). But for $p<p_1$, deviations from unsparsified SYK and RMT occur, indicating a breakdown of holography in the highly sparsified regime. Below an even smaller value $p_2$, which also scales as $1/N^3$, even the spacing of consecutive eigenvalues differs from RMT values, signaling a complete breakdown of spectral rigidity. Our results cast doubt on the holographic interpretation of very highly sparsified SYK models obtained via machine learning using teleportation infidelity as a loss function.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 可換準マグヌス作用素による時間依存ハミルトニアンの量子シミュレーション

Quantum simulation of time-dependent Hamiltonians via commutator-free quasi-Magnus operators ( http://arxiv.org/abs/2403.13889v1 )

ライセンス: Link先を確認
Pablo Antonio Moreno Casares, Modjtaba Shokrian Zini, Juan Miguel Arrazola, (参考訳) ハミルトンシミュレーションは間違いなく量子コンピュータの最も基本的な応用である。 マグナス作用素(Magnus operator)は、計算数学における時間依存ハミルトニアンシミュレーション(英語版)の一般的な方法であるが、その使用法は、これまで量子コンピューティングには適用されなかった交換子の指数関数の実装を必要とする。 通勤者なし準マグヌス作用素(CFQM)の開発は、証明可能なグローバル数値誤差境界の欠如を犠牲にして、この障害を回避する。 本研究では,CFQMに基づく時間依存量子ハミルトニアンシミュレーションにおいて,各ステップの誤差を慎重に推定することにより,そのような誤差の1つを確立する。 これにより、コストと代替品を比較することができ、CFQMは、しばしば1桁以上のオーダーで利用できる最も効率的な製品-フォーミュラ技術であることを示すことができる。 その結果,CFQMは早期のフォールトトレラント量子コンピュータ上での時間依存ハミルトニアンのシミュレートに特に有用であることがわかった。

Hamiltonian simulation is arguably the most fundamental application of quantum computers. The Magnus operator is a popular method for time-dependent Hamiltonian simulation in computational mathematics, yet its usage requires the implementation of exponentials of commutators, which has previously made it unappealing for quantum computing. The development of commutator-free quasi-Magnus operators (CFQMs) circumvents this obstacle, at the expense of a lack of provable global numeric error bounds. In this work, we establish one such error bound for CFQM-based time-dependent quantum Hamiltonian simulation by carefully estimating the error of each step involved in their definition. This allows us to compare its cost with the alternatives, and show that CFQMs are often the most efficient product-formula technique available by more than an order of magnitude. As a result, we find that CFQMs may be particularly useful to simulate time-dependent Hamiltonians on early fault-tolerant quantum computers.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# マルチコンディション遅延拡散モデルを用いたコントラスト運動学の学習に向けて

Towards Learning Contrast Kinetics with Multi-Condition Latent Diffusion Models ( http://arxiv.org/abs/2403.13890v1 )

ライセンス: Link先を確認
Richard Osuala, Daniel Lang, Preeti Verma, Smriti Joshi, Apostolia Tsirikoglou, Grzegorz Skorupko, Kaisar Kushibar, Lidia Garrucho, Walter H. L. Pinaya, Oliver Diaz, Julia Schnabel, Karim Lekadir, (参考訳) ダイナミックコントラスト造影MRIにおける造影剤は、腫瘍を局在させ、そのコントラスト動態を観察することができる。 しかし、コントラスト剤の投与は、有害な健康リスクだけでなく、妊娠中の患者、腎臓機能不全の患者、その他の副作用に制限されている。 病変悪性度, 癌再発リスク, 治療反応の指標としてのコントラスト取り込みは, 静脈内コントラスト剤投与への依存性を減少させる重要な指標となる。 そこで本研究では,DCE-MRI時系列の時間条件画像合成が可能な多条件潜在拡散モデルを提案する。 医用画像の合成を評価するために,合成画像データと実画像データとのバイオマーカーのばらつきに基づいて,Fr'echetラジオミクス距離を画像品質指標として提案し,評価する。 以上の結果から,本手法は多列性脂肪飽和DCE-MRIを現実的に生成し,深層学習に基づくコントラスト運動学シミュレーションの可能性を明らかにすることができる。 アクセス可能なコードベースはhttps://github.com/RichardObi/ccnet.comで公開しています。

Contrast agents in dynamic contrast enhanced magnetic resonance imaging allow to localize tumors and observe their contrast kinetics, which is essential for cancer characterization and respective treatment decision-making. However, contrast agent administration is not only associated with adverse health risks, but also restricted for patients during pregnancy, and for those with kidney malfunction, or other adverse reactions. With contrast uptake as key biomarker for lesion malignancy, cancer recurrence risk, and treatment response, it becomes pivotal to reduce the dependency on intravenous contrast agent administration. To this end, we propose a multi-conditional latent diffusion model capable of acquisition time-conditioned image synthesis of DCE-MRI temporal sequences. To evaluate medical image synthesis, we additionally propose and validate the Fr\'echet radiomics distance as an image quality measure based on biomarker variability between synthetic and real imaging data. Our results demonstrate our method's ability to generate realistic multi-sequence fat-saturated breast DCE-MRI and uncover the emerging potential of deep learning based contrast kinetics simulation. We publicly share our accessible codebase at https://github.com/RichardObi/ccnet.
翻訳日:2024-03-22 18:18:59 公開日:2024-03-20
# 分散データ市場のための実験設計によるデータ獲得

Data Acquisition via Experimental Design for Decentralized Data Markets ( http://arxiv.org/abs/2403.13893v1 )

ライセンス: Link先を確認
Charles Lu, Baihe Huang, Sai Praneeth Karimireddy, Praneeth Vepakomma, Michael Jordan, Ramesh Raskar, (参考訳) 現在の機械学習モデルでは、高品質なトレーニングデータを取得することが不可欠だ。 データ市場は、特に医療などのデータ共有分野において、潜在的なデータ販売者への市場への参加を促すことによって、データの供給を増やす手段を提供する。 このような市場におけるデータ買い手にとっての大きな課題は、データ売り手から最も価値のあるデータポイントを選択することだ。 集中型データアクセスを前提とするデータ評価の先行研究とは異なり,線形実験設計にインスパイアされたデータ選択問題に対するフェデレートされたアプローチを提案する。 提案手法はラベル付き検証データを必要とせずに予測誤差を低減し,高速かつフェデレートな手法で最適化することができる。 我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。

Acquiring high-quality training data is essential for current machine learning models. Data markets provide a way to increase the supply of data, particularly in data-scarce domains such as healthcare, by incentivizing potential data sellers to join the market. A major challenge for a data buyer in such a market is selecting the most valuable data points from a data seller. Unlike prior work in data valuation, which assumes centralized data access, we propose a federated approach to the data selection problem that is inspired by linear experimental design. Our proposed data selection method achieves lower prediction error without requiring labeled validation data and can be optimized in a fast and federated procedure. The key insight of our work is that a method that directly estimates the benefit of acquiring data for test set prediction is particularly compatible with a decentralized market setting.
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# CoMo:言語ガイドポスコード編集による制御可能なモーション生成

CoMo: Controllable Motion Generation through Language Guided Pose Code Editing ( http://arxiv.org/abs/2403.13900v1 )

ライセンス: Link先を確認
Yiming Huang, Weilin Wan, Yue Yang, Chris Callison-Burch, Mark Yatskar, Lingjie Liu, (参考訳) テキスト・トゥ・モーション・モデルは、効率的な人間の動作生成において優れているが、既存のアプローチでは生成プロセスに対するきめ細かい制御性が欠如している。 結果として、動きの中で微妙な姿勢を変更したり、特定の瞬間に新しいアクションを挿入したりすることは依然として困難であり、様々なシナリオにおけるこれらの手法の適用性を制限している。 これらの課題を踏まえて,大規模言語モデル (LLM) の知識を生かして,正確な動作の生成と編集に長けた制御可能な動作生成モデルであるCoMoを導入する。 特に、CoMoは動作を個別で意味のあるポーズコードに分解し、各コードは身体部分の意味をカプセル化し、「左膝がわずかに曲がった」といった基本的な情報を表す。 テキスト入力が与えられた後、CoMoは自動的にポーズコードのシーケンスを生成し、3Dモーションにデコードする。 ポーズコードを解釈可能な表現として活用することにより、LPMは、編集命令に従ってポーズコードを調整することにより、モーション編集において直接介入することができる。 実験により、CoMoは最先端のモデルと比較して、動作生成における競争性能が向上する一方、人間の研究では、CoMoは従来の動作編集能力よりも大幅に上回っていることが示された。

Text-to-motion models excel at efficient human motion generation, but existing approaches lack fine-grained controllability over the generation process. Consequently, modifying subtle postures within a motion or inserting new actions at specific moments remains a challenge, limiting the applicability of these methods in diverse scenarios. In light of these challenges, we introduce CoMo, a Controllable Motion generation model, adept at accurately generating and editing motions by leveraging the knowledge priors of large language models (LLMs). Specifically, CoMo decomposes motions into discrete and semantically meaningful pose codes, with each code encapsulating the semantics of a body part, representing elementary information such as "left knee slightly bent". Given textual inputs, CoMo autoregressively generates sequences of pose codes, which are then decoded into 3D motions. Leveraging pose codes as interpretable representations, an LLM can directly intervene in motion editing by adjusting the pose codes according to editing instructions. Experiments demonstrate that CoMo achieves competitive performance in motion generation compared to state-of-the-art models while, in human studies, CoMo substantially surpasses previous work in motion editing abilities.
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# トレイン・アンド・コンストレイン:トピックとパラフレーズから音韻的にインフォームドされたトング・ツイスター生成

Train & Constrain: Phonologically Informed Tongue-Twister Generation from Topics and Paraphrases ( http://arxiv.org/abs/2403.13901v1 )

ライセンス: Link先を確認
Tyler Loakman, Chen Tang, Chenghua Lin, (参考訳) 音韻学的・音声学的に根ざした言語生成の先行研究は、主に句や詩などの領域に焦点を当てている。 本稿では,音声の重なり合いを最大化するために音素レベルで条件付けする必要がある言語として,入力話題とのセマンティックな整合性を維持しつつ,文法的に正しい言語である舌のツイスターの生成について述べる。 本稿では,Large Language Models (LLMs) から音声学的に入力された舌結節を生成するパイプラインであるTwisterListerについて紹介する。 我々の生成パイプラインは、LLMと共に音韻的に制約された語彙を用いることで、新規な非派生的な舌-ツイスターの例を生成する。 さらに, 音声学的知識を明示的に注入することなく, 音韻的動機付け言語が生成できる範囲を示すために, 生成されたデータセット上で訓練された小型モデルの自動的, 人為的評価結果も提示する。 さらに,任意の因果言語モデルに統合可能なPhoneme-Aware Constrained Decoding Module (PACD)を導入し,基礎となる言語モデルを微調整することなく,高品質な舌音を生成できることを実証した。 また,音韻的に動機付けされ,音素編集距離(PED)に基づく舌音の独特の特徴を捉えた舌音素生成タスクのための多種多様な自動測度を設計,実装する。

Previous work in phonologically and phonetically grounded language generation has mainly focused on domains such as puns and poetry. In this article, we present new work on the generation of tongue-twisters - a form of language that is required to be conditioned on a phoneme level to maximize sound overlap, whilst maintaining semantic consistency with an input topic and still being grammatically correct. We present TwisterLister, a pipeline for generating phonologically informed tongue-twisters from Large Language Models (LLMs) that we use to generate TwistList 2.0, the largest annotated dataset of tongue-twisters to date, consisting of 17K+ examples from a combination of human and LLM authors. Our generation pipeline involves the use of a phonologically constrained vocabulary alongside LLM prompting to generate novel, non-derivative tongue-twister examples. We additionally present the results of automatic and human evaluation of smaller models trained on our generated dataset to demonstrate the extent to which phonologically motivated language types can be generated without explicit injection of phonological knowledge. Additionally, we introduce a Phoneme-Aware Constrained Decoding module (PACD) that can be integrated into any causal language model and demonstrate that this method generates good quality tongue-twisters both with and without fine-tuning the underlying language model. We also design and implement a range of automatic metrics for the task of tongue-twister generation that is phonologically motivated and captures the unique essence of tongue-twisters based on Phonemic Edit Distance (PED).
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# オープン情報抽出のための言語的に強化された埋め込みの活用

Leveraging Linguistically Enhanced Embeddings for Open Information Extraction ( http://arxiv.org/abs/2403.13903v1 )

ライセンス: Link先を確認
Fauzan Farooqui, Thanmay Jayakumar, Pulkit Mathur, Mansi Radke, (参考訳) Open Information extract (OIE) は、自然言語処理(NLP)における構造化予測(SP)タスクであり、自由テキストから構造化された$n$-ary tuple(通常、主題関係オブジェクトのトリプル)を抽出することを目的としている。 入力テキストへの単語の埋め込みは言語的特徴(通常はPart-of-Speech (PoS) と Syntactic Dependency Parse (SynDP) ラベル)で拡張することができる。 しかし,従来の拡張技術では,OIEにはほとんど使われていない事前学習言語モデル(PLM)のパワーを活用できない。 このギャップを埋めるために、私たちは初めて、OIE用のSeq2Seq PLMで言語機能を活用しました。 私たちは、重み付け加算と線形化結合という2つの方法を導入します。 私たちの作業は、任意のニューラルなOIEアーキテクチャに対して、PLMと言語機能の両方から重要なパフォーマンス向上を提供することができます。 私たちの設定では、ベースライン上での精度、リコール、F1スコアの最大24.9%、27.3%、14.9%の改善が示されています。 機能による計算オーバーヘッドを削減するには、Semantic Dependency Parse(SemDP)タグを最初に利用し、現在のデータセットの欠陥に対処するため、クリーンな合成データセットを作成します。

Open Information Extraction (OIE) is a structured prediction (SP) task in Natural Language Processing (NLP) that aims to extract structured $n$-ary tuples - usually subject-relation-object triples - from free text. The word embeddings in the input text can be enhanced with linguistic features, usually Part-of-Speech (PoS) and Syntactic Dependency Parse (SynDP) labels. However, past enhancement techniques cannot leverage the power of pretrained language models (PLMs), which themselves have been hardly used for OIE. To bridge this gap, we are the first to leverage linguistic features with a Seq2Seq PLM for OIE. We do so by introducing two methods - Weighted Addition and Linearized Concatenation. Our work can give any neural OIE architecture the key performance boost from both PLMs and linguistic features in one go. In our settings, this shows wide improvements of up to 24.9%, 27.3% and 14.9% on Precision, Recall and F1 scores respectively over the baseline. Beyond this, we address other important challenges in the field: to reduce compute overheads with the features, we are the first ones to exploit Semantic Dependency Parse (SemDP) tags; to address flaws in current datasets, we create a clean synthetic dataset; finally, we contribute the first known study of OIE behaviour in SP models.
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# 構造環境間の非平衡量子熱輸送

Nonequilibrium quantum heat transport between structured environments ( http://arxiv.org/abs/2403.13904v1 )

ライセンス: Link先を確認
Graeme Pleasance, Francesco Petruccione, (参考訳) 本研究では, スピン-ボソン型モデルにおける非平衡熱伝達の解析に, 中間対の結合調和振動子によって中心スピンを通る熱伝達を媒介する動きの階層式を適用した。 各発振器間の結合は, システム-オシレータ-貯留層相互作用を特徴付ける効果的なスペクトル密度に局所的ギャップをもたらすことを示す。 単一媒質発振器の場合と比較して、熱電流は弱い系-バス結合で劇的に変化することがわかった。 特に、2階の処理では、この状態における正しい定常状態の挙動を捉えられず、これはエネルギー移動率の$\lambda^4$-scalingから、結合強度$\lambda$の最低次へと導かれる。 このことは、漸近的に弱い結合限界における定常電流の強い抑制につながる。 一方、電流ノイズは揺動散逸定理に従って単一発振器の場合と同じスケーリングに従う。 さらに、熱電流は大きな温度バイアスでもフーリエの法則と一致することが分かる。 熱環境のスペクトル特性を調整したナノスケールシステムにおける熱輸送制御機構について述べる。

We apply the hierarchical equations of motion technique to analyzing nonequilibrium heat transport in a spin-boson type model, whereby heat transfer through a central spin is mediated by an intermediate pair of coupled harmonic oscillators. The coupling between each pair of oscillators is shown to introduce a localized gap into the effective spectral densities characterizing the system-oscillator-reservoir interactions. Compared to the case of a single mediating oscillator, we find the heat current to be drastically modified at weak system-bath coupling. In particular, a second-order treatment fails to capture the correct steady-state behavior in this regime, which stems from the $\lambda^4$-scaling of the energy transfer rate to lowest order in the coupling strength $\lambda$. This leads naturally to a strong suppression in the steady-state current in the asymptotically weak coupling limit. On the other hand, the current noise follows the same scaling as in the single oscillator case in accordance with the fluctuation-dissipation theorem. Additionally, we find the heat current to be consistent with Fourier's law even at large temperature bias. Our analysis highlights a novel mechanism for controlling heat transport in nanoscale systems based on tailoring the spectral properties of thermal environments.
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# 複雑な海洋航行のシークエンスモデリング:客船を事例として(概要)

Sequential Modeling of Complex Marine Navigation: Case Study on a Passenger Vessel (Student Abstract) ( http://arxiv.org/abs/2403.13909v1 )

ライセンス: Link先を確認
Yimeng Fan, Pedram Agand, Mo Chen, Edward J. Park, Allison Kennedy, Chanwoo Bae, (参考訳) 海洋産業の持続可能性への継続的なコミットメントは、船舶の燃料消費を減らす方法を精力的に探究することにつながった。 本稿では,カナダ西海岸のフェリーで2年間にわたる実世界のデータセットを活用する,機械学習アプローチを通じて,この課題を克服する。 我々の焦点は、動的かつ静的な状態、行動、乱れを考慮に入れた時系列予測モデルの作成に焦点を当てています。 このモデルは、提供された行動に基づいて動的状態を予測するように設計され、その後、船長の指導の下でフェリーの操作の熟練度を評価するための評価ツールとして機能する。 さらに、将来の最適化アルゴリズムの基礎を築き、意思決定プロセスに対する貴重なフィードバックを提供する。 将来の研究を容易にするため、我々のコードは \url{https://github.com/pagand/model_optimze_vessel/tree/AAAI} で入手できる。

The maritime industry's continuous commitment to sustainability has led to a dedicated exploration of methods to reduce vessel fuel consumption. This paper undertakes this challenge through a machine learning approach, leveraging a real-world dataset spanning two years of a ferry in west coast Canada. Our focus centers on the creation of a time series forecasting model given the dynamic and static states, actions, and disturbances. This model is designed to predict dynamic states based on the actions provided, subsequently serving as an evaluative tool to assess the proficiency of the ferry's operation under the captain's guidance. Additionally, it lays the foundation for future optimization algorithms, providing valuable feedback on decision-making processes. To facilitate future studies, our code is available at \url{https://github.com/pagand/model_optimze_vessel/tree/AAAI}
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# スケーラブルなロボット模倣学習のための拡張現実デモ

Augmented Reality Demonstrations for Scalable Robot Imitation Learning ( http://arxiv.org/abs/2403.13910v1 )

ライセンス: Link先を確認
Yue Yang, Bryce Ikeda, Gedas Bertasius, Daniel Szafir, (参考訳) ロボット・イミテーション・ラーニング(英: Robot Imitation Learning, IL)は、人間の実演を模倣してスキルを身につけるロボットを訓練する手法である。 しかし、実際のロボットアームを動作させることでデモを行う必要があるため、実用性は制限されている。 本稿では,拡張現実(AR)を利用したデモ収集フレームワークを提案する。HoloLens 2.0のようなデバイスを用いたロボットILのデモを,非ロボティスティックなユーザに提供する。 本フレームワークは,実世界のタスクに対して,スケーラブルで多様なデモコレクションを実現する。 従来の3つのロボットのタスク(リーチ、プッシュ、ピック・アンド・プレイス)で、我々のアプローチを検証する。 実際のロボットは、AR経由で収集されたデモを再生しながら、各タスクをうまく実行します。

Robot Imitation Learning (IL) is a widely used method for training robots to perform manipulation tasks that involve mimicking human demonstrations to acquire skills. However, its practicality has been limited due to its requirement that users be trained in operating real robot arms to provide demonstrations. This paper presents an innovative solution: an Augmented Reality (AR)-assisted framework for demonstration collection, empowering non-roboticist users to produce demonstrations for robot IL using devices like the HoloLens 2. Our framework facilitates scalable and diverse demonstration collection for real-world tasks. We validate our approach with experiments on three classical robotics tasks: reach, push, and pick-and-place. The real robot performs each task successfully while replaying demonstrations collected via AR.
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# ド・ジッター空間におけるスクランブル, 温度, 超拡散について

On scrambling, tomperature and superdiffusion in de Sitter space ( http://arxiv.org/abs/2403.13915v1 )

ライセンス: Link先を確認
Alexey Milekhin, Jiuci Xu, (参考訳) 本稿では,プローブ近似における単純な2点関数を用いたde Sitter静的パッチの基本特性について検討する。 デ・シッターは微分的に平衡するほとんどの物理系とは異なり、超拡散的に平衡する。 また、スクランブル時間についても調べる。 デ・ジッターにおいて、自由体の2点函数は、クァンタが静的パッチの極から反射できるので、しばらくは崩壊しない。 これは、ストレッチされた水平線上に導入された摂動に対してさえ、$\log(1/G_N)$の最小スクランブル時間が示され、デシッターの静的パッチ内で高速スクランブルが示される。 また,熱力学温度と逆相関時間との相互作用についても論じる。

This paper investigates basic properties of the de Sitter static patch using simple two-point functions in the probe approximation. We find that de Sitter equilibrates in a superdiffusive manner, unlike most physical systems which equilibrate diffusively. We also examine the scrambling time. In de Sitter, the two-point functions of free fields do not decay for sometime because quanta can reflect off the pole of the static patch. This suggests a minimum scrambling time of the order $\log(1/G_N)$, even for perturbations introduced on the stretched horizon, indicating fast scrambling inside de Sitter static patch. We also discuss the interplay between thermodynamic temperature and inverse correlation time, sometimes called "tomperature".
翻訳日:2024-03-22 18:09:15 公開日:2024-03-20
# GAN、拡散モデル、スタイル転送技術による指紋画像合成の強化

Enhancing Fingerprint Image Synthesis with GANs, Diffusion Models, and Style Transfer Techniques ( http://arxiv.org/abs/2403.13916v1 )

ライセンス: Link先を確認
W. Tang, D. Figueroa, D. Liu, K. Johnsson, A. Sopasakis, (参考訳) 本稿では, 高品質, ライブ, スプーフの指紋画像の合成と, 特異性や多様性などの特徴を保ちながら, 生成的敵ネットワークと拡散モデルを含む新しいアプローチを提案する。 我々は様々な方法でノイズからライブ指紋を生成し、画像翻訳技術を用いてライブ指紋画像をスプーフに変換する。 限られたトレーニングデータに基づいて異なる種類のスプーフ画像を生成するために、モード崩壊や不安定を避けるために、Wassersteinメトリックを備えたサイクルオートエンコーダとGradient Penalty(CycleWGAN-GP)を組み込んだスタイル転送手法を組み込んだ。 スプーフ訓練データに異なるスプーフ特性が含まれていると、スプーフ翻訳の改善につながることが判明した。 本研究では,Fr'echet Inception Distance(FID)とFalse Acceptance Rate(FAR)を用いて,生成された指紋画像の多様性と現実性を評価する。 FIDは15.78。 比較対象のWGAN-GPモデルでは,トレーニングデータと比較した場合,FARが若干低いため,一意性評価が向上し,クリエイティビティが向上した。 さらに、DDPMモデルが現実的な指紋画像を生成することができることを示す例を示す。

We present novel approaches involving generative adversarial networks and diffusion models in order to synthesize high quality, live and spoof fingerprint images while preserving features such as uniqueness and diversity. We generate live fingerprints from noise with a variety of methods, and we use image translation techniques to translate live fingerprint images to spoof. To generate different types of spoof images based on limited training data we incorporate style transfer techniques through a cycle autoencoder equipped with a Wasserstein metric along with Gradient Penalty (CycleWGAN-GP) in order to avoid mode collapse and instability. We find that when the spoof training data includes distinct spoof characteristics, it leads to improved live-to-spoof translation. We assess the diversity and realism of the generated live fingerprint images mainly through the Fr\'echet Inception Distance (FID) and the False Acceptance Rate (FAR). Our best diffusion model achieved a FID of 15.78. The comparable WGAN-GP model achieved slightly higher FID while performing better in the uniqueness assessment due to a slightly lower FAR when matched against the training data, indicating better creativity. Moreover, we give example images showing that a DDPM model clearly can generate realistic fingerprint images.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# 相互排他バイアスを有する視覚的接地音声モデル

Visually Grounded Speech Models have a Mutual Exclusivity Bias ( http://arxiv.org/abs/2403.13922v1 )

ライセンス: Link先を確認
Leanne Nortje, Dan Oneaţă, Yevgen Matusevych, Herman Kamper, (参考訳) 子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる:新しい単語は親しみやすい単語ではなく、新しいオブジェクトにマップされる。 このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。 自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。 具体的には、慣れ親しんだ単語をモデルにトレーニングし、新しい単語を問う際に、小説と親しみのあるオブジェクトのどちらを選択するかを問うことで、そのMEバイアスをテストする。 事前の音響知識と視覚知識をシミュレートするために,事前学習した音声と視覚ネットワークを用いて,いくつかの初期化戦略を実験する。 以上の結果から,より先行的(特に視覚的)な知識を持つモデルにおいて,MEバイアスは,異なる初期化アプローチにまたがって強いバイアスを呈することがわかった。 さらに, 損失関数が異なる場合であっても, 結果の堅牢性を確認した。

When children learn new words, they employ constraints such as the mutual exclusivity (ME) bias: a novel word is mapped to a novel object rather than a familiar one. This bias has been studied computationally, but only in models that use discrete word representations as input, ignoring the high variability of spoken words. We investigate the ME bias in the context of visually grounded speech models that learn from natural images and continuous speech audio. Concretely, we train a model on familiar words and test its ME bias by asking it to select between a novel and a familiar object when queried with a novel word. To simulate prior acoustic and visual knowledge, we experiment with several initialisation strategies using pretrained speech and vision networks. Our findings reveal the ME bias across the different initialisation approaches, with a stronger bias in models with more prior (in particular, visual) knowledge. Additional tests confirm the robustness of our results, even when different loss functions are considered.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# 制限産業」に重きを置く大規模言語モデルバイアスの削減:自動データセット拡張と偏見量化

Reducing Large Language Model Bias with Emphasis on 'Restricted Industries': Automated Dataset Augmentation and Prejudice Quantification ( http://arxiv.org/abs/2403.13925v1 )

ライセンス: Link先を確認
Devam Mondal, Carlo Lipizzi, (参考訳) 大きな言語モデルの能力の増大にもかかわらず、彼らが開発するバイアスには懸念がある。 本稿では, バイアス生産者のレンズにおける特定のデータセットの増大と, 限られたデータによる「制限産業」の文脈において, 偏りを緩和する機構を新たに提案する。 さらに、本質的なモデルアーキテクチャとデータセットの両方によってバイアスが発生するという考え方を考慮して、バイアスを定量化するために、mb-indexとdb-indexという2つの新たなメトリクスを作成します。

Despite the growing capabilities of large language models, there exists concerns about the biases they develop. In this paper, we propose a novel, automated mechanism for debiasing through specified dataset augmentation in the lens of bias producers and in the context of 'restricted industries' with limited data. We additionally create two new additional metrics, the mb-index and db-index, to quantify bias, considering the idea that bias occurs due to both intrinsic model architecture and dataset.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# 騒音誘起浅部回路とバレン高原の欠如

Noise-induced shallow circuits and absence of barren plateaus ( http://arxiv.org/abs/2403.13927v1 )

ライセンス: Link先を確認
Antonio Anna Mele, Armando Angrisani, Soumik Ghosh, Sumeet Khatri, Jens Eisert, Daniel Stilck França, Yihui Quek, (参考訳) プリフォールト・トレラント時代の現実的なハードウェア的考察により、不正確なノイズが量子回路に与える影響を包括的に研究する。 最初に、パウリ期待値を計算するタスクにおいて、最も多くの量子回路を効果的に対数深度に'トランケート'することを示す。 次に,非単位雑音下での量子回路は,局所可観測物からなるコスト関数に対するバレンプラトーの欠如を証明した。 しかし, 有効浅度を利用して, アンサンブル上の確率の高い逆多項式加法誤差内におけるパウリ期待値を推定する古典的アルゴリズムを設計する。 その実行時間は回路深さとは独立であり、一次元アーキテクチャのキュービット数と高次元アーキテクチャの準多項式時間で多項式時間で動作する。 まとめると、我々はノイズを利用するために回路を慎重に設計しない限り、多くの変分量子機械学習の提案のように、パウリ期待値推定を出力するアルゴリズムにおいて、ノイズの多い量子回路の方が浅い量子回路よりも好ましいとは考えにくい。 さらに,本研究は,(単体でない)ノイズランダム回路からのサンプリングの複雑さに関する基本的なオープンな問題に対する貴重な洞察を与えることができると期待している。

Motivated by realistic hardware considerations of the pre-fault-tolerant era, we comprehensively study the impact of uncorrected noise on quantum circuits. We first show that any noise `truncates' most quantum circuits to effectively logarithmic depth, in the task of computing Pauli expectation values. We then prove that quantum circuits under any non-unital noise exhibit lack of barren plateaus for cost functions composed of local observables. But, by leveraging the effective shallowness, we also design a classical algorithm to estimate Pauli expectation values within inverse-polynomial additive error with high probability over the ensemble. Its runtime is independent of circuit depth and it operates in polynomial time in the number of qubits for one-dimensional architectures and quasi-polynomial time for higher-dimensional ones. Taken together, our results showcase that, unless we carefully engineer the circuits to take advantage of the noise, it is unlikely that noisy quantum circuits are preferable over shallow quantum circuits for algorithms that output Pauli expectation value estimates, like many variational quantum machine learning proposals. Moreover, we anticipate that our work could provide valuable insights into the fundamental open question about the complexity of sampling from (possibly non-unital) noisy random circuits.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# dc原子核量子干渉デバイス:持続電流状態とパリティ保護量子ビットの量子重ね合わせ

dc atomtronic quantum interference device: quantum superposition of persistent-current states and a parity-protected qubit ( http://arxiv.org/abs/2403.13930v1 )

ライセンス: Link先を確認
H. M. Cataldo, (参考訳) 二モード近似における一般化されたボース・ハッバードモデルを適用し、直流原子線量子干渉装置の回転動力学を研究する。 ジョセフソンモードの小さな振動周期から導かれるハミルトニアンのオンサイト相互作用の修正値とペアトンネリングパラメータは、回転周波数範囲全体のグロス・ピタエフスキーシミュレーション結果に優れた一致を示し、不均衡と電流の臨界値にも到達した。 これは、量子化が定常状態の量子的特徴を調べるために用いられる修正ハミルトンの半古典近似の完全な検証である。 ポテンシャルエネルギーが2つのミニマを持つ周波数間隔に着目して、そのようなミニマが対称な中心周波数は、印加フラックスの半量子でスレッディングされた超伝導回路と同様に、両方の持続電流状態の最大絡み合いを持つ原子番号パリティ保護量子ビットが得られることを示した。 このようなパリティ保護スキームは中心周波数の周りの小さな間隔で存続し、量子ビットの実装に必要な最小回転周波数精度を設定する。 周波数決定におけるそのような許容誤差の最大値は、量子ビットエネルギーレベルと以下のレベルの間のギャップを測定する量子ビット品質係数に逆比例することが判明した。 その結果, 化学ポテンシャルや凝縮粒子数は適切な制御パラメータとして利用でき, 量子ビット特性の最良のトレードオフを実現することができることがわかった。

A generalized Bose-Hubbard model in a two-mode approximation is applied to study the rotational dynamics of a direct-current atomtronic quantum interference device. Modified values of on-site interaction and pair-tunneling parameters of the Hamiltonian, derived from the small-oscillation periods of the Josephson modes, are shown to provide an excellent agreement to the Gross-Pitaevskii simulation results for the whole rotational frequency range, reaching also the critical values of imbalance and current. This amounts to a full validation of the semiclassical approximation of the modified Hamiltonian, whose quantization is employed to investigate the quantum features of the stationary states. Focusing on the frequency interval where the potential energy presents two minima, it is shown that the central frequency, at which such minima are symmetric, yields an atom number parity-protected qubit with a maximum entanglement of both persistent-current states, similar to those of superconducting circuits threaded by a half-quantum of applied flux. Such a parity protection scheme survives within a small interval around the central frequency, which sets the minimum rotational frequency precision that should be required to implement the qubit. It is found that such a maximum admissible error in the frequency determination turns out to be inversely proportional to the qubit quality factor that measures the gap between the qubit energy levels and the following levels. It is shown that the chemical potential or condensate particle number could be employed as suitable control parameters to achieve the best trade-off between such qubit characteristics.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# 説明者のアンサンブルが生み出す反事実の集合から説明を選択するための多基準アプローチ

Multi-criteria approach for selecting an explanation from the set of counterfactuals produced by an ensemble of explainers ( http://arxiv.org/abs/2403.13940v1 )

ライセンス: Link先を確認
Ignacy Stępka, Mateusz Lango, Jerzy Stefanowski, (参考訳) ファクトファクトは、より望ましい予測を得るための代替シナリオを提供することで、MLモデルの予測を説明するために広く使用される。 これらは、異なる、時には矛盾する、品質測定を最適化し、全く異なるソリューションを生成する様々な方法によって生成される。 しかし、最も適切な説明方法と生成された偽物を選択することは容易ではない。 本稿では,ユーザが様々な説明手法をテストし,矛盾する解を解析する代わりに,多段階アンサンブルアプローチを用いることを提案する。 それは妥協ソリューションを提供し、いくつかの人気のある品質基準によく適合する。 このアプローチは,パレートフロントから1つのファクトファクトを選択する,支配関係と理想的なポイント決定支援手法を利用する。 実験により,提案手法は,検討された品質指標の魅力的な妥協値を持つ,完全な動作可能な反事実を生成できることが実証された。

Counterfactuals are widely used to explain ML model predictions by providing alternative scenarios for obtaining the more desired predictions. They can be generated by a variety of methods that optimize different, sometimes conflicting, quality measures and produce quite different solutions. However, choosing the most appropriate explanation method and one of the generated counterfactuals is not an easy task. Instead of forcing the user to test many different explanation methods and analysing conflicting solutions, in this paper, we propose to use a multi-stage ensemble approach that will select single counterfactual based on the multiple-criteria analysis. It offers a compromise solution that scores well on several popular quality measures. This approach exploits the dominance relation and the ideal point decision aid method, which selects one counterfactual from the Pareto front. The conducted experiments demonstrated that the proposed approach generates fully actionable counterfactuals with attractive compromise values of the considered quality measures.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# Shortchanged:消費者苦情における親密なパートナーの財務的悪用の発見と分析

Shortchanged: Uncovering and Analyzing Intimate Partner Financial Abuse in Consumer Complaints ( http://arxiv.org/abs/2403.13944v1 )

ライセンス: Link先を確認
Arkaprabha Bhattacharya, Kevin Lee, Vineeth Ravi, Jessica Staddon, Rosanna Bellini, (参考訳) デジタル金融サービスは、ユーザー、特に親密なパートナー金融悪用(IPFA)の生存者に対して、新たなデジタル安全リスクを導入することができる。 このようなユーザへのサポートの改善を実現するためには、支援ニーズと金融機関が直面する障壁の包括的理解が不可欠である。 顧客270万件の苦情のデータセットから、言語モデリング技術と専門家による人間のレビューを利用してIPFAを記述した苦情を識別するbspokeワークフローを実装した。 私たちの混合メソッド分析は、これらの攻撃に関わる最も一般的なデジタル金融製品と、それを行う際に消費者が報告する障壁に関する洞察を提供する。 我々の貢献は2つあり、我々はこの見落とされがちな害に対する最初の人間ラベル付きデータセットを提供し、IPFAの生存者のより良い支援と保護のための技術的実践、研究、設計に実践的な意味を提供する。

Digital financial services can introduce new digital-safety risks for users, particularly survivors of intimate partner financial abuse (IPFA). To offer improved support for such users, a comprehensive understanding of their support needs and the barriers they face to redress by financial institutions is essential. Drawing from a dataset of 2.7 million customer complaints, we implement a bespoke workflow that utilizes language-modeling techniques and expert human review to identify complaints describing IPFA. Our mixed-method analysis provides insight into the most common digital financial products involved in these attacks, and the barriers consumers report encountering when doing so. Our contributions are twofold; we offer the first human-labeled dataset for this overlooked harm and provide practical implications for technical practice, research, and design for better supporting and protecting survivors of IPFA.
翻訳日:2024-03-22 18:09:14 公開日:2024-03-20
# BlendScape: 生成AIによる統一およびパーソナライズされたビデオ会議環境の実現

BlendScape: Enabling Unified and Personalized Video-Conferencing Environments through Generative AI ( http://arxiv.org/abs/2403.13947v1 )

ライセンス: Link先を確認
Shwetha Rajaram, Nels Numan, Balasaravanan Thoravi Kumaravel, Nicolai Marquardt, Andrew D. Wilson, (参考訳) 今日のビデオ会議ツールは、さまざまなプロフェッショナルや社会的活動をサポートするが、その汎用的なグリッドベースの環境は、分散コラボレータのさまざまなニーズを満たすために、容易に適応できない。 エンドユーザーによるカスタマイズを実現するため,AI画像生成技術を活用して参加者にビデオ会議環境を構築するシステムであるBlendScapeを開発した。 BlendScapeは、ユーザの物理的あるいは仮想的な背景を統一された環境にブレンドすることで、タスク空間の柔軟な表現をサポートし、生成を制御するためのマルチモーダルインタラクション技術を実装している。 エンドユーザー15名を対象に,作業シナリオと社会的シナリオのカスタマイズ選好について検討した。 参加者はBlendScapeでデザインの意図を迅速に表現することができ、将来のミーティングでコラボレーションを構築するためにシステムを使用することを想定しました。 我々は,BlendScapeが先行作業から分散コラボレーション技術をサポートするための表現力を示すシナリオを実装し,環境の質を向上させるための合成技術を提案する。

Today's video-conferencing tools support a rich range of professional and social activities, but their generic, grid-based environments cannot be easily adapted to meet the varying needs of distributed collaborators. To enable end-user customization, we developed BlendScape, a system for meeting participants to compose video-conferencing environments tailored to their collaboration context by leveraging AI image generation techniques. BlendScape supports flexible representations of task spaces by blending users' physical or virtual backgrounds into unified environments and implements multimodal interaction techniques to steer the generation. Through an evaluation with 15 end-users, we investigated their customization preferences for work and social scenarios. Participants could rapidly express their design intentions with BlendScape and envisioned using the system to structure collaboration in future meetings, but experienced challenges with preventing distracting elements. We implement scenarios to demonstrate BlendScape's expressiveness in supporting distributed collaboration techniques from prior work and propose composition techniques to improve the quality of environments.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# Evo* 2023 -- Late-Breaking Abstracts Volume

Evo* 2023 -- Late-Breaking Abstracts Volume ( http://arxiv.org/abs/2403.13950v1 )

ライセンス: Link先を確認
A. M. Mora, A. I. Esparcia-Alcázar, (参考訳) 4月12日から14日にかけて、ブルノ(チェコ共和国)で開催されたEvo* 2023会議に提出されたラトブレキング抽象書の巻。 これらの論文は, バイオインスパイアド・メソッド(主に進化的計算)の異なるアプローチを様々な問題に適用するための研究と予備的な成果を提示する。

Volume with the Late-Breaking Abstracts submitted to the Evo* 2023 Conference, held in Brno (Czech Republic), from 12 to 14 of April. These papers present ongoing research and preliminary results investigating on the application of different approaches of Bioinspired Methods (mainly Evolutionary Computation) to different problems, most of them real world ones.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# ACDG-VTON:仮想トライオンにおける高精度かつ包含拡散生成

ACDG-VTON: Accurate and Contained Diffusion Generation for Virtual Try-On ( http://arxiv.org/abs/2403.13951v1 )

ライセンス: Link先を確認
Jeffrey Zhang, Kedan Li, Shao-Yu Chang, David Forsyth, (参考訳) VTON(Virtual Try-on)は、選択された服装を身に着けている人の画像を生成する。 拡散に基づく手法は、特に高品質な画像を作成することができるが、彼らは入力された衣服のアイデンティティを維持するのに苦労している。 この問題は,拡散のためのトレーニング定式化の具体的特徴に起因していると同定した。 そこで本研究では,拡散の訓練範囲を制限するユニークな学習手法を提案する。 私たちは、トレーニング中にターゲットイメージと完全に整合するコントロールイメージを使用します。 これにより、推測中の衣服の細部を正確に保存することができる。 本手法は衣服の詳細を効果的に保存するだけでなく, 階層化, スタイリング, 靴の試着も可能であることを実証する。 提案手法は,マルチガーメント試行を1回の推論サイクルで実行し,高解像度でトレーニングすることなく高品質なズームイン世代をサポートする。 最後に,提案手法が従来手法を超越した精度と品質を示す。

Virtual Try-on (VTON) involves generating images of a person wearing selected garments. Diffusion-based methods, in particular, can create high-quality images, but they struggle to maintain the identities of the input garments. We identified this problem stems from the specifics in the training formulation for diffusion. To address this, we propose a unique training scheme that limits the scope in which diffusion is trained. We use a control image that perfectly aligns with the target image during training. In turn, this accurately preserves garment details during inference. We demonstrate our method not only effectively conserves garment details but also allows for layering, styling, and shoe try-on. Our method runs multi-garment try-on in a single inference cycle and can support high-quality zoomed-in generations without training in higher resolutions. Finally, we show our method surpasses prior methods in accuracy and quality.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# 自由エネルギー計算におけるML相互作用ポテンシャルの利用に関する考察

Considerations in the use of ML interaction potentials for free energy calculations ( http://arxiv.org/abs/2403.13952v1 )

ライセンス: Link先を確認
Orlando A. Mendible, Jonathan K. Whitmer, Yamil J. Colón, (参考訳) 機械学習ポテンシャル(MLP)は、量子力学の精度と古典的なシミュレーションに類似した効率で、分子のエネルギーと自由エネルギーのランドスケープを正確にモデル化する能力を提供する。 本研究は、平衡分子軌道のモデル化における有効性が証明されたため、同変グラフニューラルネットワーク MLP の使用に焦点を当てる。 主要な問題は、分子配置のエネルギーと多様性の両方を考慮して、自由エネルギーと遷移状態を正確に予測できるMPPの能力である。 ブタおよびアラニンジペプチド(ADP)のメタダイナミックスシミュレーションを用いて,訓練データ中の集合変数(CV)の分布がシステムの自由エネルギー面(FES)を決定する際のMLP精度に与える影響を検討した。 この研究は43個のMLPをトレーニングし、半分は古典的な分子動力学データに基づいて、残りはab initio計算エネルギーで行った。 MLPは、システムの基盤となるFESが不明な場合に得られたサンプルCVの仮説シナリオを再現するための異なる分布を用いて訓練された。 ブタンの発見から,キーFES領域のトレーニングデータカバレッジにより,CV分布にかかわらずモデルの精度が保証されることがわかった。 しかし、重要なFES領域の欠如はエネルギー予測の正しさに繋がったが、自由エネルギーの再構築には失敗した。 ADPでは、古典力学データに基づいてトレーニングされたモデルは明らかに正確ではなく、アブイニシオベースのMLPはポテンシャルエネルギーを予測したが、自由エネルギー予測には干渉しなかった。 これらの結果は、正確なFES予測のために全アクセストレーニングセットを組み立てることの課題を強調し、トレーニングデータの作成においてFESを理解することの重要性を強調している。 この研究は、自由エネルギー計算におけるMLPの限界を指摘し、効果的なモデルトレーニングのためにシステムの完全なFESを含む包括的なデータの必要性を強調した。

Machine learning potentials (MLPs) offer the potential to accurately model the energy and free energy landscapes of molecules with the precision of quantum mechanics and an efficiency similar to classical simulations. This research focuses on using equivariant graph neural networks MLPs due to their proven effectiveness in modeling equilibrium molecular trajectories. A key issue addressed is the capability of MLPs to accurately predict free energies and transition states by considering both the energy and the diversity of molecular configurations. We examined how the distribution of collective variables (CVs) in the training data affects MLP accuracy in determining the free energy surface (FES) of systems, using Metadynamics simulations for butane and alanine dipeptide (ADP). The study involved training forty-three MLPs, half based on classical molecular dynamics data and the rest on ab initio computed energies. The MLPs were trained using different distributions that aim to replicate hypothetical scenarios of sampled CVs obtained if the underlying FES of the system was unknown. Findings for butane revealed that training data coverage of key FES regions ensures model accuracy regardless of CV distribution. However, missing significant FES regions led to correct potential energy predictions but failed free energy reconstruction. For ADP, models trained on classical dynamics data were notably less accurate, while ab initio-based MLPs predicted potential energy well but faltered on free energy predictions. These results emphasize the challenge of assembling an all-encompassing training set for accurate FES prediction and highlight the importance of understanding the FES in preparing training data. The study points out the limitations of MLPs in free energy calculations, stressing the need for comprehensive data that encompasses the system's full FES for effective model training.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# Open Access NAO (OAN): NAOロボットを用いたHRIアプリケーションのためのROS2ベースのソフトウェアフレームワーク

Open Access NAO (OAN): a ROS2-based software framework for HRI applications with the NAO robot ( http://arxiv.org/abs/2403.13960v1 )

ライセンス: Link先を確認
Antonio Bono, Kenji Brameld, Luigi D'Alfonso, Giuseppe Fedele, (参考訳) 本稿では,ユナイテッド・ロボティクス・グループによって開発された共通NAOロボットの第6バージョンを用いて,HRI実験のための新しいソフトウェアフレームワークを提案する。 NAOのより優れたパフォーマンスと新機能に対する研究者の共通の要求を受け入れるため、著者らは、NAO上でROS2を実行して、製造業者が提供したAPIに依存しないフレームワークを開発する能力を生かした。 このようなシステムは、人間型ロボットの基本スキルである歩行・再生運動だけでなく、音声認識/合成、顔と物体の拘留、会話のためのジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルの使用など、HRIでよく使われる特徴をNAOに提供する。 したがって、開発済みのコードは、ROSコミュニティが提供する可能性のおかげで、使えるだけでなく、高度に拡張可能で即効性のあるツールとして構成されている。

This paper presents a new software framework for HRI experimentation with the sixth version of the common NAO robot produced by the United Robotics Group. Embracing the common demand of researchers for better performance and new features for NAO, the authors took advantage of the ability to run ROS2 onboard on the NAO to develop a framework independent of the APIs provided by the manufacturer. Such a system provides NAO with not only the basic skills of a humanoid robot such as walking and reproducing movements of interest but also features often used in HRI such as: speech recognition/synthesis, face and object detention, and the use of Generative Pre-trained Transformer (GPT) models for conversation. The developed code is therefore configured as a ready-to-use but also highly expandable and improvable tool thanks to the possibilities provided by the ROS community.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# ConGeo: 地形変動を横切るロバストなクロスビュージオローカライゼーション

ConGeo: Robust Cross-view Geo-localization across Ground View Variations ( http://arxiv.org/abs/2403.13965v1 )

ライセンス: Link先を確認
Li Mi, Chang Xu, Javiera Castillo-Navarro, Syrielle Montariol, Wen Yang, Antoine Bosselut, Devis Tuia, (参考訳) クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。 現実のシナリオでは、そのタスクは、様々な向きと視野の縮小(FoVs)を持つユーザによってキャプチャされた多様な地上画像の調整を必要とする。 しかし、既存の学習パイプラインは指向性やFoV固有のもので、異なる地上ビューのバリエーションに対する個別のモデルトレーニングを必要としている。 このようなモデルは、トレーニングデータにおける北向きの空間対応と事前定義されたFoVに大きく依存し、異なる設定にまたがって頑丈さを損なう。 この課題に対処するために,コンジオ (ConGeo) という,地中局所化のための単一・クロスモーダルなコントラスト法を提案する。同じ位置の地上ビューの変動に近接させることで,モデルの方向への不変性やFoV変動に対するレジリエンスを改善するため,特徴表現の堅牢性と一貫性を向上させる。 クロスビューなジオローカライゼーションのための一般的な学習目的として、ConGeoは、最先端のパイプラインに統合された場合、多様な地上ビューのバリエーションのための4つのジオローカライゼーションベンチマークにおいて、3つのベースモデルの性能を著しく向上させ、各地上ビューのバリエーションに対して別々のモデルを訓練する競合する手法よりも優れています。

Cross-view geo-localization aims at localizing a ground-level query image by matching it to its corresponding geo-referenced aerial view. In real-world scenarios, the task requires accommodating diverse ground images captured by users with varying orientations and reduced field of views (FoVs). However, existing learning pipelines are orientation-specific or FoV-specific, demanding separate model training for different ground view variations. Such models heavily depend on the North-aligned spatial correspondence and predefined FoVs in the training data, compromising their robustness across different settings. To tackle this challenge, we propose ConGeo, a single- and cross-modal Contrastive method for Geo-localization: it enhances robustness and consistency in feature representations to improve a model's invariance to orientation and its resilience to FoV variations, by enforcing proximity between ground view variations of the same location. As a generic learning objective for cross-view geo-localization, when integrated into state-of-the-art pipelines, ConGeo significantly boosts the performance of three base models on four geo-localization benchmarks for diverse ground view variations and outperforms competing methods that train separate models for each ground view variation.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# 「これはデータ問題ではない」カナダにおける公立高等教育におけるアルゴリズムと力

"This is not a data problem": Algorithms and Power in Public Higher Education in Canada ( http://arxiv.org/abs/2403.13969v1 )

ライセンス: Link先を確認
Kelly McConvey, Shion Guha, (参考訳) アルゴリズムによる意思決定は、公立高等教育においてますます採用されている。 ポストセカンダリ機関によるデータ駆動の実践の拡大は、新自由主義政権によるニュー・パブリック・マネジメントのアプローチの採用と並行して起こっている。 本研究では,カナダのオンタリオ州にある公立大学におけるデータとアルゴリズムの詳細なエスノグラフィーケーススタディについて質的分析を行った。 大学で使われているデータ、アルゴリズム、結果を特定します。 我々は,大学のプロセスと関係が,これらの成果と,大学のデータ駆動システムに対する異なる利害関係者の認識をどのように支えているかを評価する。 さらに,アルゴリズム決定への依存度の増加は,学生の監視の向上,既存不平等の悪化,教員-学生関係の自動化につながることがわかった。 最後に,アルゴリズムによる意思決定によって持続する制度的力の増大のサイクルを特定し,金融持続可能性への推進によって推し進める。

Algorithmic decision-making is increasingly being adopted across public higher education. The expansion of data-driven practices by post-secondary institutions has occurred in parallel with the adoption of New Public Management approaches by neoliberal administrations. In this study, we conduct a qualitative analysis of an in-depth ethnographic case study of data and algorithms in use at a public college in Ontario, Canada. We identify the data, algorithms, and outcomes in use at the college. We assess how the college's processes and relationships support those outcomes and the different stakeholders' perceptions of the college's data-driven systems. In addition, we find that the growing reliance on algorithmic decisions leads to increased student surveillance, exacerbation of existing inequities, and the automation of the faculty-student relationship. Finally, we identify a cycle of increased institutional power perpetuated by algorithmic decision-making, and driven by a push towards financial sustainability.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# SeFFeC: きめ細かい顔編集のためのセマンティック顔特徴制御

SeFFeC: Semantic Facial Feature Control for Fine-grained Face Editing ( http://arxiv.org/abs/2403.13972v1 )

ライセンス: Link先を確認
Florian Strohm, Mihai Bâce, Markus Kaltenecker, Andreas Bulling, (参考訳) 顔のきめ細かい形状の編集を行うセマンティック顔特徴制御法(SeFFeC)を提案する。 本手法は, 顔のランドマークの異なるグループによって定義される鼻の長さや口幅などの, 人間の理解できない意味的な顔の特徴の操作を可能にする。 既存の方法とは対照的に、顔のランドマークを使用することで、顔の特徴を正確に測定することができ、手動でアノテートされたラベルなしでSeFFeCをトレーニングすることができる。 SeFFeCは、予め訓練された生成モデルの潜伏ベクトルと入力として埋め込まれた顔特徴を受信し、潜伏ベクトルを変更して所望の顔編集操作を行う変圧器ベースのエンコーダネットワークからなる。 非相関な特徴を変化させることなく、目的値に対して所望の特徴測定が変更されることを保証するため、我々は、新しい意味的顔の特徴損失を導入した。 定性的かつ定量的な結果は、SeFFeCが23の顔の特徴を正確にきめ細かな制御を可能にしていることを示している。 既存の方法とは異なり、SeFFeCは顔の特徴の正確な値を決定論的に制御する。

We propose Semantic Facial Feature Control (SeFFeC) - a novel method for fine-grained face shape editing. Our method enables the manipulation of human-understandable, semantic face features, such as nose length or mouth width, which are defined by different groups of facial landmarks. In contrast to existing methods, the use of facial landmarks enables precise measurement of the facial features, which then enables training SeFFeC without any manually annotated labels. SeFFeC consists of a transformer-based encoder network that takes a latent vector of a pre-trained generative model and a facial feature embedding as input, and learns to modify the latent vector to perform the desired face edit operation. To ensure that the desired feature measurement is changed towards the target value without altering uncorrelated features, we introduced a novel semantic face feature loss. Qualitative and quantitative results show that SeFFeC enables precise and fine-grained control of 23 facial features, some of which could not previously be controlled by other methods, without requiring manual annotations. Unlike existing methods, SeFFeC also provides deterministic control over the exact values of the facial features and more localised and disentangled face edits.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# FastFlip: 組成誤差注入分析

FastFlip: Compositional Error Injection Analysis ( http://arxiv.org/abs/2403.13989v1 )

ライセンス: Link先を確認
Keyur Joshi, Rahul Singh, Tommaso Bassetto, Sarita Adve, Darko Marinov, Sasa Misailovic, (参考訳) インストラクションレベルのエラーインジェクション分析は、エラーがSDC(Silent Data Corruptions)のような受け入れがたい結果につながることの多い命令を見つけることを目的としている。 これらの分析にはかなりの時間がかかるが、開発者が時間とともに進化するソフトウェアを定期的に分析したい場合、特に問題となる。 本稿では,経験的エラーインジェクションと記号的SDC伝搬解析を組み合わせたFastFlipを提案する。 FastFlipは、プログラムセクション間でSDCがどのように伝播するかを計算し、エラーによって起こりうる予期せぬ副作用を正しく説明する。 FastFlipを使用して、5つのベンチマークと、各ベンチマークの2つの修正バージョンを分析します。 FastFlipは、インクリメンタルに修正されたプログラムの分析を3.2\times$(geomean)で高速化する。 FastFlipは、SDCに対して保護する一連の命令を選択し、すべてのSDCキャッシュエラーの開発者が指定したターゲット割合を保護しながら、保護のランタイムコストを最小限にする。

Instruction-level error injection analyses aim to find instructions where errors often lead to unacceptable outcomes like Silent Data Corruptions (SDCs). These analyses require significant time, which is especially problematic if developers wish to regularly analyze software that evolves over time. We present FastFlip, a combination of empirical error injection and symbolic SDC propagation analyses that enables fast, compositional error injection analysis of evolving programs. FastFlip calculates how SDCs propagate across program sections and correctly accounts for unexpected side effects that can occur due to errors. Using FastFlip, we analyze five benchmarks, plus two modified versions of each benchmark. FastFlip speeds up the analysis of incrementally modified programs by $3.2\times$ (geomean). FastFlip selects a set of instructions to protect against SDCs that minimizes the runtime cost of protection while protecting against a developer-specified target fraction of all SDC-causing errors.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# P-Count:脳MRIにおける白質高強度の持続的測定

P-Count: Persistence-based Counting of White Matter Hyperintensities in Brain MRI ( http://arxiv.org/abs/2403.13996v1 )

ライセンス: Link先を確認
Xiaoling Hu, Annabel Sorby-Adams, Frederik Barkhof, W Taylor Kimberly, Oula Puonti, Juan Eugenio Iglesias, (参考訳) 白色物質過敏症(WMH)は脳血管疾患と多発性硬化症の指標である。 自動WMHセグメンテーション法は、全病変負荷の推定、病変の空間分布、病変数(しきい値以降の連結成分数)を定量的に分析する。 従来の2つの指標は概してしっかりと見積もることができるが、病変の数はノイズやセグメンテーションのミスに非常に敏感である。 本稿では,持続的ホモロジーに基づく代数的WMHカウントツールであるP-Countについて述べる。 計算幾何学を用いて、P-Countは連結成分の持続性を考慮に入れ、ノイズの多いWMH陽性を効果的にフィルタリングし、結果として真の病変をより正確に数える。 また,ISBI2015長手病変セグメンテーションデータセットを用いてP-Countを検証し,直接しきい値よりも有意に精度の高い結果を得た。

White matter hyperintensities (WMH) are a hallmark of cerebrovascular disease and multiple sclerosis. Automated WMH segmentation methods enable quantitative analysis via estimation of total lesion load, spatial distribution of lesions, and number of lesions (i.e., number of connected components after thresholding), all of which are correlated with patient outcomes. While the two former measures can generally be estimated robustly, the number of lesions is highly sensitive to noise and segmentation mistakes -- even when small connected components are eroded or disregarded. In this article, we present P-Count, an algebraic WMH counting tool based on persistent homology that accounts for the topological features of WM lesions in a robust manner. Using computational geometry, P-Count takes the persistence of connected components into consideration, effectively filtering out the noisy WMH positives, resulting in a more accurate count of true lesions. We validated P-Count on the ISBI2015 longitudinal lesion segmentation dataset, where it produces significantly more accurate results than direct thresholding.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# 事前学習文埋め込みにおける教師なし次元性低減手法の評価

Evaluating Unsupervised Dimensionality Reduction Methods for Pretrained Sentence Embeddings ( http://arxiv.org/abs/2403.14001v1 )

ライセンス: Link先を確認
Gaifan Zhang, Yi Zhou, Danushka Bollegala, (参考訳) Pretrained Language Models (PLMs) が生成する文の埋め込みは、多くの下流アプリケーションでテキストを表現する際の優れた性能のために、NLPコミュニティから広く注目を集めている。 しかし, PLMが生成する文埋め込みの高次元性は, メモリや計算に制約のあるデバイスで大量の文を表現する場合に問題となる。 そこで本研究では, PLM による文埋め込みの次元化を図るため, 教師なしの次元化手法の評価を行った。 実験結果から,主成分分析(PCA)のような単純な手法は,複数の下流タスクにおいて性能が著しく低下することなく,文埋め込みの寸法を50 %程度削減できることがわかった。 意外なことに、あるタスクにおいて PLM によって生成された文の埋め込みに対する元の高次元バージョンよりも、次元性の低減により性能が向上する。

Sentence embeddings produced by Pretrained Language Models (PLMs) have received wide attention from the NLP community due to their superior performance when representing texts in numerous downstream applications. However, the high dimensionality of the sentence embeddings produced by PLMs is problematic when representing large numbers of sentences in memory- or compute-constrained devices. As a solution, we evaluate unsupervised dimensionality reduction methods to reduce the dimensionality of sentence embeddings produced by PLMs. Our experimental results show that simple methods such as Principal Component Analysis (PCA) can reduce the dimensionality of sentence embeddings by almost $50\%$, without incurring a significant loss in performance in multiple downstream tasks. Surprisingly, reducing the dimensionality further improves performance over the original high-dimensional versions for the sentence embeddings produced by some PLMs in some tasks.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# 水中検査における画像分割のための不確かさ駆動型能動学習

Uncertainty Driven Active Learning for Image Segmentation in Underwater Inspection ( http://arxiv.org/abs/2403.14002v1 )

ライセンス: Link先を確認
Luiza Ribeiro Marnet, Yury Brodskiy, Stella Grasshof, Andrzej Wasowski, (参考訳) アクティブラーニングは、データセット全体でトレーニングされたモデルと同じように機能するモデルをトレーニングするために、最小限のデータ量を選択することを目的としている。 本研究では,大量のデータを収集する水中インフラストラクチャ検査タスクにおいて,画像セグメント化のための能動的学習の可能性について検討する。 パイプライン検査画像は通常、意味論的に反復的であるが、品質に大きな変化がある。 我々はモンテカルロのドロップアウトを用いて計算した取得関数として相互情報を用いる。 フレームワークの有効性を評価するために、DenseNetとHyperSegは、アクティブラーニングを使用してCamVidデータセットでトレーニングされる。 さらに、HyperSegは5万以上のイメージのパイプライン検査データセットでトレーニングされている。 パイプラインデータセットでは、アクティブな学習を持つHyperSegは、12.5%のデータを使用したIoU平均67.5%、同じランダムに選択された画像の61.4%を達成した。 このことは,水中検査作業におけるセグメンテーションモデルに対するアクティブラーニングを用いることで,コストを大幅に削減できることを示唆している。

Active learning aims to select the minimum amount of data to train a model that performs similarly to a model trained with the entire dataset. We study the potential of active learning for image segmentation in underwater infrastructure inspection tasks, where large amounts of data are typically collected. The pipeline inspection images are usually semantically repetitive but with great variations in quality. We use mutual information as the acquisition function, calculated using Monte Carlo dropout. To assess the effectiveness of the framework, DenseNet and HyperSeg are trained with the CamVid dataset using active learning. In addition, HyperSeg is trained with a pipeline inspection dataset of over 50,000 images. For the pipeline dataset, HyperSeg with active learning achieved 67.5% meanIoU using 12.5% of the data, and 61.4% with the same amount of randomly selected images. This shows that using active learning for segmentation models in underwater inspection tasks can lower the cost significantly.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# 視覚情報グラウンドリングによるマルチモーダル幻覚制御

Multi-Modal Hallucination Control by Visual Information Grounding ( http://arxiv.org/abs/2403.14003v1 )

ライセンス: Link先を確認
Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto, (参考訳) VLM(Generative Vision-Language Models)は、入力画像に常に接点があるとは限らない、可視音の答えを生成する傾向にある。 本稿では,この現象を「ハロシン化」と呼び,それ以前の言語への過度な依存に起因していることを示す。 特に、より多くのトークンが生成されると、視覚的プロンプトへの依存が減少し、この行動は幻覚の出現と強く関連していることを示す。 幻覚を低減するため,マルチモーダルな相互情報復号法 (M3ID) を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。 M3IDは、追加のトレーニングを必要とせず、計算オーバーヘッドも最小限に抑えられることなく、推論時に事前訓練された自己回帰型VLMに適用することができる。 トレーニングがオプションであれば、M3IDとDPO(Direct Preference Optimization)を組み合わせて、ラベルを必要とせずに、モデルがプロンプトイメージに依存することを改善することができることを示す。 実験結果から,本アルゴリズムは学習前のVLMの流速と言語的能力を維持しつつ,視覚的未解決の回答を緩和することにより幻覚を軽減していることが明らかとなった。 具体的には、LLaVA 13Bモデルにおいて、M3IDとM3ID+DPOは、それぞれキャプションタスクにおける幻覚オブジェクトの割合を25%と28%削減し、POPEなどのVQAベンチマークの精度を21%と24%向上させた。

Generative Vision-Language Models (VLMs) are prone to generate plausible-sounding textual answers that, however, are not always grounded in the input image. We investigate this phenomenon, usually referred to as "hallucination" and show that it stems from an excessive reliance on the language prior. In particular, we show that as more tokens are generated, the reliance on the visual prompt decreases, and this behavior strongly correlates with the emergence of hallucinations. To reduce hallucinations, we introduce Multi-Modal Mutual-Information Decoding (M3ID), a new sampling method for prompt amplification. M3ID amplifies the influence of the reference image over the language prior, hence favoring the generation of tokens with higher mutual information with the visual prompt. M3ID can be applied to any pre-trained autoregressive VLM at inference time without necessitating further training and with minimal computational overhead. If training is an option, we show that M3ID can be paired with Direct Preference Optimization (DPO) to improve the model's reliance on the prompt image without requiring any labels. Our empirical findings show that our algorithms maintain the fluency and linguistic capabilities of pre-trained VLMs while reducing hallucinations by mitigating visually ungrounded answers. Specifically, for the LLaVA 13B model, M3ID and M3ID+DPO reduce the percentage of hallucinated objects in captioning tasks by 25% and 28%, respectively, and improve the accuracy on VQA benchmarks such as POPE by 21% and 24%.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# Pricing4SaaS: 価格駆動機能トグルリングのための一連のソフトウェアライブラリ

Pricing4SaaS: a suite of software libraries for pricing-driven feature toggling ( http://arxiv.org/abs/2403.14004v1 )

ライセンス: Link先を確認
Alejandro García-Fernández, José Antonio Parejo, Pablo Trinidad, Antonio Ruiz-Cortés, (参考訳) デジタル市場が発展するにつれて、市場要求や価格戦略に応えて機能やサービスを動的に調整または無効化する能力は、競争上の優位性を維持し、ユーザのエンゲージメントを高めるためにますます重要になっている。 本稿では,SaaSシステムのフロントエンドとバックエンドの両方において,価格駆動機能トグルの実装を容易にするために設計された,プライシング4SaaSというソフトウェアライブラリスイートを紹介し,そのアーキテクチャ設計原則について議論する。 フロントエンドのPricing4ReactとバックエンドのPricing4Javaを含むこのスイートは、価格プランに基づいてコントロール可能な機能トグルの統合、集中トグル管理の強調、クライアントとサーバ間のトグル状態のセキュアな同期を可能にする。 また、人気のあるSpring PetClinicプロジェクトに基づくケーススタディとして、開発者の生産性を最適化し、技術的負債を回避し、運用効率を向上させるために、このスイートをどのように活用できるかを説明します。

As the digital marketplace evolves, the ability to dynamically adjust or disable features and services in response to market demands and pricing strategies becomes increasingly crucial for maintaining competitive advantage and enhancing user engagement. This paper introduces a novel suite of software libraries named Pricing4SaaS, designed to facilitate the implementation of pricing-driven feature toggles in both the front-end and back-end of SaaS systems, and discuss its architectural design principles. Including Pricing4React for front-end and Pricing4Java for back-end, the suite enables developers a streamlined and efficient approach to integrating feature toggles that can be controlled based on pricing plans, emphasizing centralized toggle management, and secure synchronization of the toggling state between the client and server. We also present a case study based on the popular Spring PetClinic project to illustrate how the suite can be leveraged to optimize developer productivity, avoiding technical debt, and improving operational efficiency.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# 影響計算におけるChatGPTのプロンプト感度について

On Prompt Sensitivity of ChatGPT in Affective Computing ( http://arxiv.org/abs/2403.14006v1 )

ライセンス: Link先を確認
Mostafa M. Amin, Björn W. Schuller, (参考訳) 最近の研究は、ChatGPTのような基礎モデルが、感情コンピューティングを含むいくつかの分野で出現する可能性を実証している。 しかし、これらの新興機能へのアクセスは、迅速なエンジニアリングによって容易になる。 いくつかの急進的な技術が存在するにもかかわらず、この分野はまだ急速に進化しており、多くの急進的なアイデアは依然として調査を必要としている。 本研究では,異なるプロンプトや生成パラメータに基づいて基礎モデルの性能評価と評価を行う手法を提案する。 感情分析, 毒性検出, 皮肉検出の3つの主要な問題に対して, 感情計算の範囲内でChatGPTの評価を行った。 まず、自動回帰テキスト生成におけるピボットパラメータ、特にNucleusサンプリングにおける温度パラメータ$T$とトップ$p$パラメータの感度分析を行い、生成中のモデルの保守性や創造性を決定する。 さらに、異なるインセンティブや構造を与えることがパフォーマンスに与える影響について検討する。 本評価では, 情意計算タスクの性能評価と, 提案した指示に従うモデルの有効性を考慮し, 下流アプリケーションでスムーズに使用可能なパース応答を生成する。

Recent studies have demonstrated the emerging capabilities of foundation models like ChatGPT in several fields, including affective computing. However, accessing these emerging capabilities is facilitated through prompt engineering. Despite the existence of some prompting techniques, the field is still rapidly evolving and many prompting ideas still require investigation. In this work, we introduce a method to evaluate and investigate the sensitivity of the performance of foundation models based on different prompts or generation parameters. We perform our evaluation on ChatGPT within the scope of affective computing on three major problems, namely sentiment analysis, toxicity detection, and sarcasm detection. First, we carry out a sensitivity analysis on pivotal parameters in auto-regressive text generation, specifically the temperature parameter $T$ and the top-$p$ parameter in Nucleus sampling, dictating how conservative or creative the model should be during generation. Furthermore, we explore the efficacy of several prompting ideas, where we explore how giving different incentives or structures affect the performance. Our evaluation takes into consideration performance measures on the affective computing tasks, and the effectiveness of the model to follow the stated instructions, hence generating easy-to-parse responses to be smoothly used in downstream applications.
翻訳日:2024-03-22 17:59:26 公開日:2024-03-20
# SaaSの価格駆動開発と運用 : 課題と機会

Pricing-driven Development and Operation of SaaS : Challenges and Opportunities ( http://arxiv.org/abs/2403.14007v1 )

ライセンス: Link先を確認
Alejandro García-Fernández, José Antonio Parejo, Antonio Ruiz-Cortés, (参考訳) ソフトウェア・アズ・ア・サービス(SaaS)のパラダイムがソフトウェア産業を再形成し続けるにつれ、運用のダイナミクスに関する微妙な理解がますます重要になっています。 本稿では,SaaSモデルにおける価格戦略とソフトウェア開発の複雑な関係について述べる。 ケーススタディとしてPetClinicを使用することで、SaaSシステムの価格駆動開発と運用のアプローチの影響を調査し、ビジネス主導の意思決定と技術的実装の課題の微妙なバランスを強調し、価格プランがソフトウェア機能やデプロイメントをどのように形作るかを明らかにします。 私たちの議論は、この統合アプローチの複雑さをナビゲートする戦略的洞察を提供することを目的としています。

As the Software as a Service (SaaS) paradigm continues to reshape the software industry, a nuanced understanding of its operational dynamics becomes increasingly crucial. This paper delves into the intricate relationship between pricing strategies and software development within the SaaS model. Using PetClinic as a case study, we explore the implications of a Pricing-driven Development and Operation approach of SaaS systems, highlighting the delicate balance between business-driven decision-making and technical implementation challenges, shedding light on how pricing plans can shape software features and deployment. Our discussion aims to provide strategic insights for the community to navigate the complexities of this integrated approach, fostering a better alignment between business models and technological capabilities for effective cloud-based services.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 高性能言語技術のための大規模多言語データセット

A New Massive Multilingual Dataset for High-Performance Language Technologies ( http://arxiv.org/abs/2403.14009v1 )

ライセンス: Link先を確認
Ona de Gibert, Graeme Nail, Nikolay Arefyev, Marta Bañón, Jelmer van der Linde, Shaoxiong Ji, Jaume Zaragoza-Bernabeu, Mikko Aulamo, Gema Ramírez-Sánchez, Andrey Kutuzov, Sampo Pyysalo, Stephan Oepen, Jörg Tiedemann, (参考訳) The HPLT (High Performance Language Technologies) language resources, a new massive multilingual dataset including monolingual and bilingual corpora extracted from CommonCrawl and previously used web crawls from the Internet Archive。 本稿では,オープンソースのソフトウェアツールや高性能コンピューティングに依存する大規模コーパスのデータ取得,管理,処理を行う手法について述べる。 我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計で5.6兆個のワードトークンがドキュメントレベルで重複している。 私たちの英語中心のパラレルコーパスは、モノリンガルの対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。 HPLT言語リソースは、これまでリリースされた中で最大のオープンテキストコーパスの1つであり、言語モデリングと機械翻訳トレーニングのための優れたリソースを提供する。 この作業で使用されるコーパス、ソフトウェア、ツールを公開しています。

We present the HPLT (High Performance Language Technologies) language resources, a new massive multilingual dataset including both monolingual and bilingual corpora extracted from CommonCrawl and previously unused web crawls from the Internet Archive. We describe our methods for data acquisition, management and processing of large corpora, which rely on open-source software tools and high-performance computing. Our monolingual collection focuses on low- to medium-resourced languages and covers 75 languages and a total of ~5.6 trillion word tokens de-duplicated on the document level. Our English-centric parallel corpus is derived from its monolingual counterpart and covers 18 language pairs and more than 96 million aligned sentence pairs with roughly 1.4 billion English tokens. The HPLT language resources are one of the largest open text corpora ever released, providing a great resource for language modeling and machine translation training. We publicly release the corpora, the software, and the tools used in this work.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 容量化車両ルーティング問題と制約付きセントロイドクラスタリングの接続に向けて

Towards a connection between the capacitated vehicle routing problem and the constrained centroid-based clustering ( http://arxiv.org/abs/2403.14013v1 )

ライセンス: Link先を確認
Abdelhakim Abdellaoui, Loubna Benabbou, Issmail El Hallaoui, (参考訳) 実用的な実行環境における車両ルーティング問題(VRP)の効率的な解決は、デリバリ管理企業にとって重要な課題である。 本稿では,CVRP(Capacitated Vehicle Routing Problem)とCCBC(Constrained Centroid-Based Clustering)の理論的および実験的関係について検討する。 CVRP を CCBC に還元することは、指数関数から多項式の複雑性への移行のシノニムであり、クラスタリングの一般的なアルゴリズム、すなわち K-平均を用いる。 はじめに,この2つの問題の関連性を明らかにするための探索的解析を行い,いくつかの数学的関係の定式化と特性を同時に導出する。 第2のレベルでは,CCBCに基づくアプローチにいくつかの改良を加えて提案する。 提案するフレームワークは3つのステージで構成されている。 最初のステップでは、制約付きセントロイドベースのクラスタリングアルゴリズムが顧客の実現可能なクラスタを生成する。 この手法には,初期セントロイドのマルチスタート手順,顧客割当基準,クラスタ数を選択する自己調整機構の3つの拡張ツールが組み込まれている。 第2のステップでは、各クラスタ内の顧客の順序を最適化するために、旅行セールスマン問題(TSP)解決器が使用される。 最後に,線形および整数型プログラミングモデルの解法を求める経路切断と再リンクの手順に依存するプロセスを導入し,得られた経路をさらに改善する。 このステップは、破滅と再現のアルゴリズムにインスパイアされている。 このアプローチは、古典的なクラスタファーストのルート秒法の拡張であり、よく知られたベンチマークインスタンスに対して、ソリューションの品質と計算ランタイムの観点から、ほぼ最適なソリューションを提供し、VRPの解決におけるマイルストーンを提供します。

Efficiently solving a vehicle routing problem (VRP) in a practical runtime is a critical challenge for delivery management companies. This paper explores both a theoretical and experimental connection between the Capacitated Vehicle Routing Problem (CVRP) and the Constrained Centroid-Based Clustering (CCBC). Reducing a CVRP to a CCBC is a synonym for a transition from an exponential to a polynomial complexity using commonly known algorithms for clustering, i.e K-means. At the beginning, we conduct an exploratory analysis to highlight the existence of such a relationship between the two problems through illustrative small-size examples and simultaneously deduce some mathematically-related formulations and properties. On a second level, the paper proposes a CCBC based approach endowed with some enhancements. The proposed framework consists of three stages. At the first step, a constrained centroid-based clustering algorithm generates feasible clusters of customers. This methodology incorporates three enhancement tools to achieve near-optimal clusters, namely: a multi-start procedure for initial centroids, a customer assignment metric, and a self-adjustment mechanism for choosing the number of clusters. At the second step, a traveling salesman problem (T SP) solver is used to optimize the order of customers within each cluster. Finally, we introduce a process relying on routes cutting and relinking procedure, which calls upon solving a linear and integer programming model to further improve the obtained routes. This step is inspired by the ruin & recreate algorithm. This approach is an extension of the classical cluster-first, route-second method and provides near-optimal solutions on well-known benchmark instances in terms of solution quality and computational runtime, offering a milestone in solving VRP.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# メトロロジーのための散逸性2軸カウンタツイズ法(TACT)の線形解析

Linearized analysis of dissipative Two Axis Counter Twisting (TACT) squeezing for Metrology ( http://arxiv.org/abs/2403.14017v1 )

ライセンス: Link先を確認
Garry Goldstein, (参考訳) 本研究では, 脱分極チャネル散逸の存在下での2軸ねじれの解析を行う。 スピンスクイージングが可能であるのは、散逸がスクイージング結合よりもパラメトリックに弱い場合に限られる。 スクイージングは、気象学的に有用なスピンノイズの減少に使用されるが、測定前にスクイージングが発生した場合にのみ用いられる。 この研究で得られた重要な数学的進歩は、分極ノイズの存在下でのTACTは、分極が減少しノイズのないTACTと等価である、という観察である。 雑音に対する信号の指数的な利得は、スクイーズ強度と脱分極率の比に比例する。

In this work we analyze two axis twisting in the presence of depolarizing channel dissipation. We find that spin squeezing is only possible if the dissipation is parametrically weaker than the squeezing coupling. Squeezing may be used for meteorologically useful decrease of spin noise but only in the case where the squeezing occurs before measurement, in the case one squeezes as one measures one also squeezes the signal thereby making spin squeezing ineffective for metrological gain. The key mathematical advance made in this work is the observation that TACT in the presence of depolarizing noise is equivalent to TACT with reduced polarization and no noise. We find an exponential gain in signal to noise with the exponent proportional to the ratio between the squeezing strength and the depolarization rate.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# モノのインターネットにおける無関係なピアリングと認証に対する信号注入攻撃

A Signal Injection Attack Against Zero Involvement Pairing and Authentication for the Internet of Things ( http://arxiv.org/abs/2403.14018v1 )

ライセンス: Link先を確認
Isaac Ahlgren, Jack West, Kyuin Lee, George Thiruvathukal, Neil Klingensmith, (参考訳) Zero Involvement Pairing and Authentication (ZIPA)は、IoT(Internet-of-Things)デバイスの大規模なネットワークを自動プロビジョニングするための有望なテクニックである。 そこで本研究では,ZIPAシステムに対する最初のシグナル注入攻撃について述べる。 既存のZIPAシステムの多くは、安全でない外部空間から安全でない内部空間への影響が無視できると仮定している。 実際には、環境信号は隣接した安全でない空間から漏れ、保護された空間の環境に影響を与える。 我々の攻撃は、この事実を利用して、人気のあるシュルマン&シッグアルゴリズムに対する信号注入攻撃を行う。 95dBAの信号注入攻撃で相手が生成した鍵は、正当装置の標準誤差内にある。

Zero Involvement Pairing and Authentication (ZIPA) is a promising technique for autoprovisioning large networks of Internet-of-Things (IoT) devices. In this work, we present the first successful signal injection attack on a ZIPA system. Most existing ZIPA systems assume there is a negligible amount of influence from the unsecured outside space on the secured inside space. In reality, environmental signals do leak from adjacent unsecured spaces and influence the environment of the secured space. Our attack takes advantage of this fact to perform a signal injection attack on the popular Schurmann & Sigg algorithm. The keys generated by the adversary with a signal injection attack at 95 dBA is within the standard error of the legitimate device.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 検索空間: ニューラルネットワークのための幾何学的エンコーディングのメタ進化

Searching Search Spaces: Meta-evolving a Geometric Encoding for Neural Networks ( http://arxiv.org/abs/2403.14019v1 )

ライセンス: Link先を確認
Tarek Kunze, Paul Templier, Dennis G Wilson, (参考訳) 進化的ポリシー探索では、ニューラルネットワークは通常、直接マッピングを使用して表現される:各遺伝子は1つのネットワーク重みをコードする。 間接符号化法では、各遺伝子が複数の重みをエンコードし、ゲノムを短くして検索空間の次元を減らし、置換や対称性をうまく活用することができる。 Geometric Encoding for Neural Network Evolution (GENE)は、接続の重みを2つの連結ニューロン間の(擬似)距離として計算する間接エンコーディングを導入し、直接エンコーディングでは2次ではなく2次的な遺伝子数と線形に増加するゲノムサイズを導いた。 しかし、GENEは手作り距離関数に依存しており、事前の最適化はない。 ここでは、メタ進化的手法により、Cartesian Genetic Programming (CGP) を用いた GENE において、より優れた距離関数が見つかることを示し、これにより、符号化を最適化し、利用し易い検索空間を作成する。 学習機能を持つ遺伝子は、直接符号化と手作り距離の両方を上回り、目に見えない問題を一般化し、そのエンコーディングがニューラルネットワーク特性に与える影響について検討する。

In evolutionary policy search, neural networks are usually represented using a direct mapping: each gene encodes one network weight. Indirect encoding methods, where each gene can encode for multiple weights, shorten the genome to reduce the dimensions of the search space and better exploit permutations and symmetries. The Geometric Encoding for Neural network Evolution (GENE) introduced an indirect encoding where the weight of a connection is computed as the (pseudo-)distance between the two linked neurons, leading to a genome size growing linearly with the number of genes instead of quadratically in direct encoding. However GENE still relies on hand-crafted distance functions with no prior optimization. Here we show that better performing distance functions can be found for GENE using Cartesian Genetic Programming (CGP) in a meta-evolution approach, hence optimizing the encoding to create a search space that is easier to exploit. We show that GENE with a learned function can outperform both direct encoding and the hand-crafted distances, generalizing on unseen problems, and we study how the encoding impacts neural network properties.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 識別のゼロ知識証明--C-ITSのための標準互換シビル耐性擬似音韻拡張

Zero-Knowledge Proof of Distinct Identity: a Standard-compatible Sybil-resistant Pseudonym Extension for C-ITS ( http://arxiv.org/abs/2403.14020v1 )

ライセンス: Link先を確認
Ye Tao, Hongyi Wu, Ehsan Javanmardi, Manabu Tsukada, Hiroshi Esaki, (参考訳) 偽名は、車両の位置プライバシーを保護するために、C-ITS(Cooperative Intelligent Transport Systems)で広く使われている。 しかし、偽名の非リンク性は、悪意のある車両が同時に複数の車両のふりをするシビル攻撃を可能にする。 本稿では,0-knowledge Proof of Distinct Identity(zk-PoDI,zk-PoDI)と呼ばれる新しいプロトコルを提案する。 Zk-PoDIはディオファントイン方程式とzk-SNARKに基づいており、特定の名前の設計やインフラの補助に依存しない。 我々は、zk-PoDIが実用的なSybil-Resistance擬似名詞システムに必要な全ての要件を満たすことを示し、低レイテンシ、調整可能な難易度、適度な計算オーバーヘッド、無視可能な通信コストを有することを示した。 また,現実的な都市規模シミュレーション環境におけるzk-PoDIの実装と評価の今後の課題についても論じる。

Pseudonyms are widely used in Cooperative Intelligent Transport Systems (C-ITS) to protect the location privacy of vehicles. However, the unlinkability nature of pseudonyms also enables Sybil attacks, where a malicious vehicle can pretend to be multiple vehicles at the same time. In this paper, we propose a novel protocol called zero-knowledge Proof of Distinct Identity (zk-PoDI,) which allows a vehicle to prove that it is not the owner of another pseudonym in the local area, without revealing its actual identity. Zk-PoDI is based on the Diophantine equation and zk-SNARK, and does not rely on any specific pseudonym design or infrastructure assistance. We show that zk-PoDI satisfies all the requirements for a practical Sybil-resistance pseudonym system, and it has low latency, adjustable difficulty, moderate computation overhead, and negligible communication cost. We also discuss the future work of implementing and evaluating zk-PoDI in a realistic city-scale simulation environment.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 水素分子イオン分光法による最先端不確実性をもつ基本定数決定の展望

Prospects for the determination of fundamental constants with beyond-state-of-the-art uncertainty using molecular hydrogen ion spectroscopy ( http://arxiv.org/abs/2403.14021v1 )

ライセンス: Link先を確認
Stephan Schiller, Jean-Philippe Karr, (参考訳) 陽子、重陽子、トリトン質量は、水素分子イオンの可視光分光によって電子質量に対して決定することができる。 これは、実験的に測定された遷移周波数と、質量比への依存性を正確に計算できるab initio計算周波数を比較することで発生しなければならない。 これまでの精密実験(HD$^+$とH$_2^+$)では、遷移は地上振動レベル$v=0$と量子数$v'=9$の励起振動レベルを含む。 これらの遷移について, 高次QED寄与に対するab initio周波数の感度は, 質量比と相関する。 これにより、これらの量の効率的な同時決定が実験データから妨げられるため、質量比の精度は理論上の不確実性によって本質的に制限される。 ここでは、質量比に対する感度が負か0に近いよりも正である大きな量子数を持つレベル間の実験的な遷移周波数を提供することにより、質量比の精度がどのように向上するかを分析する。 これにより、未知のQED寄与と関連する基本定数は、いくつかの測定の合同解析からより効率的に決定できる。 また、D$_2^+$の遷移を含むシナリオについても考察する。 これらは強力なアプローチであり、原理的にはCODATA 2018より2桁小さい質量比で不確実性に達することができる。 リドベルク定数と電荷半径について、4から11の因子による改善が予想される。

The proton, deuteron and triton masses can be determined relative to the electron mass via rovibrational spectroscopy of molecular hydrogen ions. This has to occur via comparison of the experimentally measured transition frequencies and the ab initio calculated frequencies, whose dependence on the mass ratios can be calculated precisely. In precision experiments to date (on HD$^+$ and H$_2^+$), the transitions have involved the ground vibrational level $v=0$ and excited vibrational levels with quantum numbers up to $v'=9$. For these transitions, the sensitivity of the ab initio frequency on the high-order-QED contributions is correlated with that on the mass ratios. This prevents an efficient simultaneous determination of these quantities from experimental data, so that the accuracy of the mass ratios is essentially limited by the theoretical uncertainty. Here we analyze how the accuracy of mass ratios may be improved by providing experimental transition frequencies between levels with larger quantum numbers, whose sensitivity on the mass ratio is positive rather than negative, or close to zero. This allows the unknown QED contributions and involved fundamental constants to be much more efficiently determined from a joint analysis of several measurements. We also consider scenarios where transitions of D$_2^+$ are included. We find these to be powerful approaches, allowing in principle to reach uncertainties for the mass ratios two orders smaller than CODATA 2018, and without using muonic hydrogen data. For the Rydberg constant and the charge radii, improvements by factors of 4 to 11 are projected.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# グローバルDNA合成を検証・プライベートにスクリーニングするシステム

A system capable of verifiably and privately screening global DNA synthesis ( http://arxiv.org/abs/2403.14023v1 )

ライセンス: Link先を確認
Carsten Baum, Jens Berlips, Walther Chen, Hongrui Cui, Ivan Damgard, Jiangbin Dong, Kevin M. Esvelt, Mingyu Gao, Dana Gretton, Leonard Foner, Martin Kysel, Kaiyi Zhang, Juanru Li, Xiang Li, Omer Paneth, Ronald L. Rivest, Francesca Sage-Ling, Adi Shamir, Yue Shen, Meicen Sun, Vinod Vaikuntanathan, Lynn Van Hauwe, Theia Vogel, Benjamin Weinstein-Raun, Yun Wang, Daniel Wichs, Stephen Wooster, Andrew C. Yao, Yu Yu, Haoling Zhang, (参考訳) 科学や生物医学の研究にはカスタムDNA配列の印刷が不可欠であるが、この技術は疫病や治療薬の製造にも利用できる。 インクプリンターがお金を偽造しようとする試みを承認し拒否するのと同じように、DNA合成者やアセンブラは、パンデミックの発火に使えるウイルスDNAを作るための無許可の要求を否定しなければならない。 合併症は3つあります。 まず、新たに発見された通貨を扱うためにプリンタを素早く更新する必要はありませんが、新しいウイルスやその他の生物学的脅威について定期的に学習しています。 第二に、生物学的脅威に関する情報とは異なり、ローカルプリンタの偽造防止仕様は悪意あるアクターによって抽出され、誤用されない。 最後に、検査されたDNAシークエンスを秘密にしておく必要がある。 ここでは、SecureDNAについて説明する。SecureDNAは、30以上の塩基対の全DNA合成順序を、最新のハザードデータベースに対して検証し、米国、ヨーロッパ、中国のプロバイダによって合成された6700万塩基対のDNAに適用した場合の、その運用性能と特異性について説明する。

Printing custom DNA sequences is essential to scientific and biomedical research, but the technology can be used to manufacture plagues as well as cures. Just as ink printers recognize and reject attempts to counterfeit money, DNA synthesizers and assemblers should deny unauthorized requests to make viral DNA that could be used to ignite a pandemic. There are three complications. First, we don't need to quickly update printers to deal with newly discovered currencies, whereas we regularly learn of new viruses and other biological threats. Second, anti-counterfeiting specifications on a local printer can't be extracted and misused by malicious actors, unlike information on biological threats. Finally, any screening must keep the inspected DNA sequences private, as they may constitute valuable trade secrets. Here we describe SecureDNA, a free, privacy-preserving, and fully automated system capable of verifiably screening all DNA synthesis orders of 30+ base pairs against an up-to-date database of hazards, and its operational performance and specificity when applied to 67 million base pairs of DNA synthesized by providers in the United States, Europe, and China.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 教養教育のためのHRIカリキュラム

HRI Curriculum for a Liberal Arts Education ( http://arxiv.org/abs/2403.14025v1 )

ライセンス: Link先を確認
Jason R. Wilson, Emily Jensen, (参考訳) 本稿では,大学院リベラル・アーツ・カレッジにおける人間-ロボットインタラクション教育の機会と課題について論じる。 コースの以前のバージョンから適応したサンプルシラバスを提供する。

In this paper, we discuss the opportunities and challenges of teaching a human-robot interaction course at an undergraduate liberal arts college. We provide a sample syllabus adapted from a previous version of a course.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# EcoSense:エッジクラウドコラボレーションによる海上船舶検出のためのエネルギー効率の高いインテリジェントセンシング

EcoSense: Energy-Efficient Intelligent Sensing for In-Shore Ship Detection through Edge-Cloud Collaboration ( http://arxiv.org/abs/2403.14027v1 )

ライセンス: Link先を確認
Wenjun Huang, Hanning Chen, Yang Ni, Arghavan Rezvani, Sanggeon Yun, Sungheon Jeon, Eric Pedley, Mohsen Imani, (参考訳) 海洋の物体を海岸で検出することは、システムの展開におけるアルゴリズム的な複雑さと複雑さによる課題を提起する。 本稿では,タスクをオブジェクトの局所化ときめ細かい分類に分割する,エッジクラウド協調センシングシステムを提案する。 オブジェクトは、その推定困難度に基づいて、エッジまたはクラウド内のいずれかに分類される。 このフレームワークは、オブジェクトのローカライゼーション、分類、難易度推定のための低消費電力デバイス調整フロントエンドモデルと、微細な分類のためのトランスフォーマーグラフ畳み込みネットワークベースのバックエンドモデルから構成される。 本システムは,広く使用されている海洋物体検出データセットにおいて,mAP@0.5 +4.3%以上の性能を示し,システムレベルでのデータ伝送量(95.43%)とエネルギー消費(72.7%)の両方を著しく低減する。 提案システムは,様々な組込みシステムプラットフォームと,ドローンの配備を含む実環境シナリオで検証する。

Detecting marine objects inshore presents challenges owing to algorithmic intricacies and complexities in system deployment. We propose a difficulty-aware edge-cloud collaborative sensing system that splits the task into object localization and fine-grained classification. Objects are classified either at the edge or within the cloud, based on their estimated difficulty. The framework comprises a low-power device-tailored front-end model for object localization, classification, and difficulty estimation, along with a transformer-graph convolutional network-based back-end model for fine-grained classification. Our system demonstrates superior performance (mAP@0.5 +4.3%}) on widely used marine object detection datasets, significantly reducing both data transmission volume (by 95.43%) and energy consumption (by 72.7%}) at the system level. We validate the proposed system across various embedded system platforms and in real-world scenarios involving drone deployment.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# Ax-to-Grind Urdu:Urduフェイクニュース検出のためのベンチマークデータセット

Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection ( http://arxiv.org/abs/2403.14037v1 )

ライセンス: Link先を確認
Sheetal Harris, Jinshuo Liu, Hassan Jalil Hadi, Yue Cao, (参考訳) 誤報は社会に深刻な影響を与え、世論から機関的な信任、国家の政治的地平に影響を及ぼす。 オンラインウェブサイトでのフェイクニュース(FN)の拡散とオンラインソーシャルネットワーク(OSN)は急速に増加している。 様々なファクトチェックのウェブサイトには、英語のニュースが含まれており、地域言語におけるFNに関する情報はほとんど提供されていない。 したがって、Urdu FNのPurveyorsはファクトチェックポータルでは識別できない。 フェイクニュース検出(FND)のためのSOTAアプローチは、適切にラベル付けされた大きなデータセットに基づいてカウントされる。 FNDは、限られたサイズのデータセットと正当な語彙資源が欠如しているため、地域および資源に制約のある言語で遅れている。 以前のUrdu FNDのデータセットは、制限されたサイズ、ドメイン制限付き、公開されていない。 本稿では,Urdu FND(Ax-to-Grind Urdu)の最初の公開データセットをキュレートし,コントリビューションし,既存のUrduデータセットのギャップと限界を橋渡しする。 パキスタンとインドの新聞やニュースチャンネルから収集された15のドメインで10,083件の偽ニュースと実ニュースで構成されている。 Ax-to-GrindデータセットのFNはWebサイトやクラウドソーシングから収集される。 データセットには、2017年から2023年までのウルドゥー語でニュースアイテムが含まれている。 専門家ジャーナリストはデータセットに注釈を付けました。 我々は,mBERT,XLNet,XLM RoBERTaのアンサンブルモデルを用いて,データセットのベンチマークを行った。 選択されたモデルは、もともとは多言語の大きなコーパスで訓練されている。 提案モデルの結果は,性能指標,F1スコア,精度,精度,リコール,MCC値に基づく。

Misinformation can seriously impact society, affecting anything from public opinion to institutional confidence and the political horizon of a state. Fake News (FN) proliferation on online websites and Online Social Networks (OSNs) has increased profusely. Various fact-checking websites include news in English and barely provide information about FN in regional languages. Thus the Urdu FN purveyors cannot be discerned using factchecking portals. SOTA approaches for Fake News Detection (FND) count upon appropriately labelled and large datasets. FND in regional and resource-constrained languages lags due to the lack of limited-sized datasets and legitimate lexical resources. The previous datasets for Urdu FND are limited-sized, domain-restricted, publicly unavailable and not manually verified where the news is translated from English into Urdu. In this paper, we curate and contribute the first largest publicly available dataset for Urdu FND, Ax-to-Grind Urdu, to bridge the identified gaps and limitations of existing Urdu datasets in the literature. It constitutes 10,083 fake and real news on fifteen domains collected from leading and authentic Urdu newspapers and news channel websites in Pakistan and India. FN for the Ax-to-Grind dataset is collected from websites and crowdsourcing. The dataset contains news items in Urdu from the year 2017 to the year 2023. Expert journalists annotated the dataset. We benchmark the dataset with an ensemble model of mBERT,XLNet, and XLM RoBERTa. The selected models are originally trained on multilingual large corpora. The results of the proposed model are based on performance metrics, F1-score, accuracy, precision, recall and MCC value.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 空間フェアネス--その重要性、既存の仕事の限界、今後の研究ガイドライン

Spatial Fairness: The Case for its Importance, Limitations of Existing Work, and Guidelines for Future Research ( http://arxiv.org/abs/2403.14040v1 )

ライセンス: Link先を確認
Nripsuta Ani Saxena, Wenbin Zhang, Cyrus Shahabi, (参考訳) 住宅ローンや保険など多くのデリケートなドメインで採用されている意思決定システムでは位置がますます使われているが、人種や民族起源などの差別防止法で保護されていると考えられる特徴と位置の相関関係から生じる不公平さには驚くほど注意が払われていない。 このポジションペーパーは、位置と保護された特徴との相関により持続する害を概説することにより、位置に関する公平性を考える緊急の必要性を論じている。 この学際的な研究は、公共政策、経済発展、地理などの分野からの知識を結びつけ、現在フェアAI研究が空間バイアスの補正に不足している点を強調し、空間データに固有の課題を考慮しない。 さらに,現在提案されている空間的公正性作業の限界を識別し,今後の研究のガイドラインを詳述し,今後の課題を回避し,空間的偏見の補正に役立てることができる。

Despite location being increasingly used in decision-making systems employed in many sensitive domains such as mortgages and insurance, astonishingly little attention has been paid to unfairness that may seep in due to the correlation of location with characteristics considered protected under anti-discrimination law, such as race or national origin. This position paper argues for the urgent need to consider fairness with respect to location, termed \textit{spatial fairness}, by outlining the harms that continue to be perpetuated due to location's correlation with protected characteristics. This interdisciplinary work connects knowledge from fields such as public policy, economic development, and geography to highlight how fair-AI research currently falls short of correcting for spatial biases, and does not consider challenges unique to spatial data. Furthermore, we identify limitations of the handful of spatial fairness work proposed so far, and finally, detail guidelines for future research so subsequent work may avoid such issues and help correct spatial biases.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-20
# 適応前のアライメント: 一般化可能なビデオアクション認識のためのEntity-to-Regionアライメントの活用

Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition ( http://arxiv.org/abs/2311.15619v3 )

ライセンス: Link先を確認
Yifei Chen, Dapeng Chen, Ruijin Liu, Sai Zhou, Wenyuan Xue, Wei Peng, (参考訳) 大規模視覚言語事前学習モデルは様々なビデオタスクで大きな成功を収めた。 しかし、既存のほとんどの手法は、訓練済みの画像エンコーダをビデオレベルの表現のモデル化に適応させ、アクションラベルのワンホットまたはテキスト埋め込みを監督に利用する「適応的整合」パラダイムに従っている。 このパラダイムは、静的イメージから複雑なアクティビティ概念へのマッピングという課題を見落としている。 本稿では,Align before Adapt(ALT)パラダイムを提案する。 ビデオ表現学習に適応する前に、各フレームのエンティティ・ツー・リージョンアライメントを利用する。 このアライメントは、領域認識された画像埋め込みをオフラインで構築されたテキストコーパスにマッチングすることで達成される。 一致したエンティティを用いて、変換器ベースのビデオアダプタにテキスト埋め込みをクエリとして送り、ビデオからベクターへの最も重要なエンティティのセマンティクスの抽出に役立てる。 このパラダイムは、適応中のVLPの視覚言語アライメントを再利用し、基礎となるエンティティによるアクションを説明しようとする。 これは複雑なアクティビティセマンティクスとのギャップを埋めることによって、アクションを理解するのに役立つ。 ALTは計算コストを著しく低く保ちながら、競争性能を示す。 完全に監督された実験では、キネティクス400で88.1%の精度で4947 GFLOPを達成している。 さらに、ALTはゼロショットと少数ショットの両方の実験において従来の最先端の手法よりも優れており、様々な学習シナリオにおける優れた一般化性を強調している。

Large-scale visual-language pre-trained models have achieved significant success in various video tasks. However, most existing methods follow an "adapt then align" paradigm, which adapts pre-trained image encoders to model video-level representations and utilizes one-hot or text embedding of the action labels for supervision. This paradigm overlooks the challenge of mapping from static images to complicated activity concepts. In this paper, we propose a novel "Align before Adapt" (ALT) paradigm. Prior to adapting to video representation learning, we exploit the entity-to-region alignments for each frame. The alignments are fulfilled by matching the region-aware image embeddings to an offline-constructed text corpus. With the aligned entities, we feed their text embeddings to a transformer-based video adapter as the queries, which can help extract the semantics of the most important entities from a video to a vector. This paradigm reuses the visual-language alignment of VLP during adaptation and tries to explain an action by the underlying entities. This helps understand actions by bridging the gap with complex activity semantics, particularly when facing unfamiliar or unseen categories. ALT demonstrates competitive performance while maintaining remarkably low computational costs. In fully supervised experiments, it achieves 88.1% top-1 accuracy on Kinetics-400 with only 4947 GFLOPs. Moreover, ALT outperforms the previous state-of-the-art methods in both zero-shot and few-shot experiments, emphasizing its superior generalizability across various learning scenarios.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-20
# メトロジーのための1軸ツイストリング(OAT)スピンスクイーズ

One Axis Twisting (OAT) spin squeezing for metrology ( http://arxiv.org/abs/2403.11587v2 )

ライセンス: Link先を確認
Garry Goldstein, (参考訳) 本研究は, 1軸ツイストリング(OAT)スピンスキーズについて, 脱コヒーレンスの存在下でのメソロジーについて検討する。 我々は,T_1およびT_2(縦・横緩和過程)の存在下でのリンブラディアン進化について検討した。 スピンスクイージングは,OATスクイージングにおけるデコヒーレンスの存在下においても,メロジカルな精度向上に有効であることを示す。 我々は, 多くのスピン OAT ハミルトニアンのスクイーズ強度の不均一性に敏感であり, 非常に一般的な圧縮状態は絡み合いの強いデコヒーレンスを持たないことを示した。 また, 北川上田OATスクイーズ式を有限分極に拡張する。

In this work we study One Axis Twisting (OAT) spin squeezing for metrology in the presence of decoherence. We study Linbladian evolution in the presence of both T_1 and T_2 (longitudinal and transverse relaxation processes). We show that spin squeezing can be an effective way to improve metrological accuracy even in the presence of decoherence for OAT squeezing. We show our results are not sensitive to inhomogeneity of the squeezing strength of the many spin OAT Hamiltonian and that very general squeezed states do not have entanglement enhanced decoherence. We also extend the Kitagawa-Ueda OAT squeezing formula to finite polarization.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-20
# ウィリアムソンの定理におけるオルソシンプレクティック対角化

Orthosymplectic diagonalization in Williamson's theorem ( http://arxiv.org/abs/2403.11609v2 )

ライセンス: Link先を確認
Hemant K. Mishra, (参考訳) 本稿では、任意の 2n \times 2n$ Real symmetric positive definite matrix に対して代数的条件を提供し、この行列はウィリアムソンの定理の意味で直交行列によって対角化されるのに十分である。

In this paper, we provide an algebraic condition on any $2n \times 2n$ real symmetric positive definite matrix which is necessary and sufficient for the matrix to be diagonalized by an orthosymplectic matrix in the sense of Williamson's theorem.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-20
# 機械学習プロジェクトにおけるCI/CDパイプラインの進化に関する実証分析

Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects ( http://arxiv.org/abs/2403.12199v2 )

ライセンス: Link先を確認
Alaa Houerbi, Chadha Siala, Alexis Tucker, Dhia Elhaq Rzig, Foyzul Hassan, (参考訳) 機械学習(ML)の人気が高まり、他のソフトウェアアーティファクトとのMLコンポーネントの統合が増加し、Travis CIやGitHub Actionsなどの継続的インテグレーションとデリバリ(CI/CD)ツールが利用されるようになった。 このようなCI/CD構成とサービスは、プロジェクトのライフサイクル中に同期を必要とする。 従来のソフトウェアシステムにおけるCI/CD構成とサービスの使い方について、いくつかの研究が議論された。 しかしながら、MLプロジェクトでのCI/CD構成とサービスの変更に関する知識は限られている。 この知識ギャップを埋めるために、この研究は、MLソフトウェアシステムにおけるCI/CD構成の進化に関する最初の経験的分析を示す。 我々は508のオープンソースMLプロジェクトから収集された343のコミットを手動で分析し、MLプロジェクトにおいて一般的なCI/CD構成変更カテゴリを特定し、CI/CDとMLコンポーネントの14の共変更の分類法を考案した。 さらに, 頻繁なCI/CD構成変更パターンを15,634コミットで識別するCI/CD構成変更クラスタリングツールを開発した。 さらに、CI/CD構成を変更するML開発者の専門知識を測定しました。 この分析から、コミットの61.8%がビルドポリシーの変更と、一般的なオープンソースプロジェクトと比較してパフォーマンスと保守性に関する最小限の変更を含んでいることがわかった。 さらに、共進化分析では、CI/CD構成が、依存関係の直接包摂や標準化されたテストフレームワークの使用の欠如といった悪いプラクティスのために、不要に変更されたことが判明した。 推奨外の設定とジェネリックビルド言語への依存による変更パターンの分析を通じて、さらに多くのプラクティスが見つかった。 最後に、私たちの開発者の専門知識分析は、経験豊富な開発者がCI/CD構成を変更する傾向にあることを示唆しています。

The growing popularity of machine learning (ML) and the integration of ML components with other software artifacts has led to the use of continuous integration and delivery (CI/CD) tools, such as Travis CI, GitHub Actions, etc. that enable faster integration and testing for ML projects. Such CI/CD configurations and services require synchronization during the life cycle of the projects. Several works discussed how CI/CD configuration and services change during their usage in traditional software systems. However, there is very limited knowledge of how CI/CD configuration and services change in ML projects. To fill this knowledge gap, this work presents the first empirical analysis of how CI/CD configuration evolves for ML software systems. We manually analyzed 343 commits collected from 508 open-source ML projects to identify common CI/CD configuration change categories in ML projects and devised a taxonomy of 14 co-changes in CI/CD and ML components. Moreover, we developed a CI/CD configuration change clustering tool that identified frequent CI/CD configuration change patterns in 15,634 commits. Furthermore, we measured the expertise of ML developers who modify CI/CD configurations. Based on this analysis, we found that 61.8% of commits include a change to the build policy and minimal changes related to performance and maintainability compared to general open-source projects. Additionally, the co-evolution analysis identified that CI/CD configurations, in many cases, changed unnecessarily due to bad practices such as the direct inclusion of dependencies and a lack of usage of standardized testing frameworks. More practices were found through the change patterns analysis consisting of using deprecated settings and reliance on a generic build language. Finally, our developer's expertise analysis suggests that experienced developers are more inclined to modify CI/CD configurations.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-20
# クラウドワーカーのセルフマネジメント企業に影響を与える要因の理解:包括的レビュー

Understanding the Factors Influencing Self-Managed Enterprises of Crowdworkers: A Comprehensive Review ( http://arxiv.org/abs/2403.12769v2 )

ライセンス: Link先を確認
Alexandre Prestes Uchoa, Daniel Schneider, (参考訳) 本稿では,従来のプラットフォーム制御モデルから切り離された,クラウドソーシングの自己管理型企業(SMEC)への移行について検討する。 本研究は、SMECの台頭を説明する重要な要因、特にオンライン労働プラットフォーム(OLP)とクラウドワーカー間の力のダイナミクスと緊張について、このシフトの基本的な側面を理解するために文献をレビューする。 この研究は、今後の研究を指導し、政策とプラットフォーム開発を指導することを目的としており、この発展途上の風景における公正な労働実践の重要性を強調している。

This paper investigates the shift in crowdsourcing towards self-managed enterprises of crowdworkers (SMECs), diverging from traditional platform-controlled models. It reviews the literature to understand the foundational aspects of this shift, focusing on identifying key factors that may explain the rise of SMECs, particularly concerning power dynamics and tensions between Online Labor Platforms (OLPs) and crowdworkers. The study aims to guide future research and inform policy and platform development, emphasizing the importance of fair labor practices in this evolving landscape.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-20
# 画像分類器における複数バイアス部分群の検出と緩和

Discover and Mitigate Multiple Biased Subgroups in Image Classifiers ( http://arxiv.org/abs/2403.12777v2 )

ライセンス: Link先を確認
Zeliang Zhang, Mingqian Feng, Zhiheng Li, Chenliang Xu, (参考訳) 機械学習モデルは、分散データでうまく機能するが、トレーニングデータで不足している偏りのあるサブグループで失敗することが多く、信頼性の高いアプリケーションに対するモデルの堅牢性を妨げる。 このようなサブグループは通常、サブグループラベルがないため不明である。 バイアスのあるサブグループを発見することは、モデルの失敗モードを理解し、モデルの堅牢性をさらに改善する鍵となる。 それまでのサブグループ発見のほとんどの研究は、モデルが単一のバイアス付き部分群でのみ過小評価されるという暗黙の仮定を立てている。 本稿では,画像分類器における複数のバイアス付き部分群を発見するための,より困難な問題に対処する新しい手法として,分解,解釈,緩和(DIM)を提案する。 提案手法では,画像特徴を複数のサブグループを表す複数のコンポーネントに分解する。 この分解は、画像分類器から有用な監督によって導かれる、双線形次元削減法である部分最小広場(PLS)によって達成される。 さらに、視覚言語基礎モデルを用いて、自然言語記述を生成することにより、各サブグループコンポーネントの意味を解釈する。 最後に、DIMはデータとモデル中心の戦略を含む2つの戦略を通じて、複数のバイアス付きサブグループを同時に緩和する。 CIFAR-100とBreedsデータセットの大規模な実験は、複数のバイアスのあるサブグループの発見と緩和におけるDIMの有効性を実証している。 さらに、DIMは、Hard ImageNet上の分類器の故障モードを明らかにし、画像分類器のモデルバイアスを理解するための幅広い適用性を示している。 コードはhttps://github.com/ZhangAIPI/DIMで入手できる。

Machine learning models can perform well on in-distribution data but often fail on biased subgroups that are underrepresented in the training data, hindering the robustness of models for reliable applications. Such subgroups are typically unknown due to the absence of subgroup labels. Discovering biased subgroups is the key to understanding models' failure modes and further improving models' robustness. Most previous works of subgroup discovery make an implicit assumption that models only underperform on a single biased subgroup, which does not hold on in-the-wild data where multiple biased subgroups exist. In this work, we propose Decomposition, Interpretation, and Mitigation (DIM), a novel method to address a more challenging but also more practical problem of discovering multiple biased subgroups in image classifiers. Our approach decomposes the image features into multiple components that represent multiple subgroups. This decomposition is achieved via a bilinear dimension reduction method, Partial Least Square (PLS), guided by useful supervision from the image classifier. We further interpret the semantic meaning of each subgroup component by generating natural language descriptions using vision-language foundation models. Finally, DIM mitigates multiple biased subgroups simultaneously via two strategies, including the data- and model-centric strategies. Extensive experiments on CIFAR-100 and Breeds datasets demonstrate the effectiveness of DIM in discovering and mitigating multiple biased subgroups. Furthermore, DIM uncovers the failure modes of the classifier on Hard ImageNet, showcasing its broader applicability to understanding model bias in image classifiers. The code is available at https://github.com/ZhangAIPI/DIM.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-20
# 多数の腕を持つマルチアーメッドバンドにおけるグリーディアルゴリズムの妥当な有効性

The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms ( http://arxiv.org/abs/2002.10121v4 )

ライセンス: Link先を確認
Mohsen Bayati, Nima Hamidi, Ramesh Johari, Khashayar Khosravi, (参考訳) 我々は、emph{many-armed} 体制におけるベイズ的 $k$-armed bandit 問題を調査し、$k \geq \sqrt{T}$ と $T$ は時間的地平線を表す。 従来の UCB アルゴリズムは準最適であるのに対して,UPB (SS-UCB) は$\Theta(\sqrt{T})$ arms を選択して UCB フレームワーク上での実行を最適化し,レート最適化を実現する。 しかし、SS-UCBの理論的には最適な後悔の約束にもかかわらず、経験的に最高の腕を常に選択する欲求アルゴリズムと比較して経験的に劣る。 この観察は実世界のデータを用いたシミュレーションを通じてコンテキスト設定にまで拡張される。 以上の結果から, 腕の報酬の分布に関する末尾イベントと基本的に関連付けられている, 多数の腕の文脈において, 欲求アルゴリズムに有用な新しい形態の「emph{free exploration」が示唆された。 この発見は、文脈的バンディット文学で最近議論されたように、共変量変動に関連する自由探索の概念から分岐する。 これらの知見を拡大して、サブサンプルの欲求アプローチが、ベルヌーイの盗賊の利率最適性を達成するだけでなく、幅広い分布においてサブ線形後悔を達成できることを示す。 我々の研究は、多くの武器を持つ体制では、実践者が欲求アルゴリズムを採用することにより大きな価値を見出す可能性があることを示唆している。

We investigate a Bayesian $k$-armed bandit problem in the \emph{many-armed} regime, where $k \geq \sqrt{T}$ and $T$ represents the time horizon. Initially, and aligned with recent literature on many-armed bandit problems, we observe that subsampling plays a key role in designing optimal algorithms; the conventional UCB algorithm is sub-optimal, whereas a subsampled UCB (SS-UCB), which selects $\Theta(\sqrt{T})$ arms for execution under the UCB framework, achieves rate-optimality. However, despite SS-UCB's theoretical promise of optimal regret, it empirically underperforms compared to a greedy algorithm that consistently chooses the empirically best arm. This observation extends to contextual settings through simulations with real-world data. Our findings suggest a new form of \emph{free exploration} beneficial to greedy algorithms in the many-armed context, fundamentally linked to a tail event concerning the prior distribution of arm rewards. This finding diverges from the notion of free exploration, which relates to covariate variation, as recently discussed in contextual bandit literature. Expanding upon these insights, we establish that the subsampled greedy approach not only achieves rate-optimality for Bernoulli bandits within the many-armed regime but also attains sublinear regret across broader distributions. Collectively, our research indicates that in the many-armed regime, practitioners might find greater value in adopting greedy algorithms.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# 複雑細胞オートマトンの量子インスピレーションによる同定

Quantum-inspired identification of complex cellular automata ( http://arxiv.org/abs/2103.14053v2 )

ライセンス: Link先を確認
Matthew Ho, Andri Pradana, Thomas J. Elliott, Lock Yue Chew, Mile Gu, (参考訳) 基本細胞オートマトン(ECA)は複雑なシステムの象徴的な例である。 近傍の更新規則に従って進化するバイナリセルの1次元文字列によってのみ記述されるが、一部のECA規則は普遍計算が可能な複雑なダイナミクスを示す。 しかし、どの規則が複雑な振る舞いを示すかを正確に分類することは重要な課題である。 ここでは、量子統計メモリ(量子機械のクラスを用いて確率過程をモデル化するために必要なメモリ)が確率過程の構造を定量化するために用いられる量子確率モデリングのツールを用いて、この問題にアプローチする。 ECAルールを確率的パターンの変換として見ることにより、量子統計メモリによって定量化された構造を生成するか、その場合、どれくらいの速さで生成されるのか? 時間とともにこの測定値の成長が、単純なECAと複雑なECAを正しく区別する方法について説明する。 さらに、複雑なECAを定量的に識別するためのより洗練された手段を提供し、それらが構造を生成する速度でECAの複雑さをランク付けできるスペクトルを提供する。

Elementary cellular automata (ECA) present iconic examples of complex systems. Though described only by one-dimensional strings of binary cells evolving according to nearest-neighbour update rules, certain ECA rules manifest complex dynamics capable of universal computation. Yet, the classification of precisely which rules exhibit complex behaviour remains a significant challenge. Here we approach this question using tools from quantum stochastic modelling, where quantum statistical memory -- the memory required to model a stochastic process using a class of quantum machines -- can be used to quantify the structure of a stochastic process. By viewing ECA rules as transformations of stochastic patterns, we ask: Does an ECA generate structure as quantified by the quantum statistical memory, and if so, how quickly? We illustrate how the growth of this measure over time correctly distinguishes simple ECA from complex counterparts. Moreover, it provides a more refined means for quantitatively identifying complex ECAs -- providing a spectrum on which we can rank the complexity of ECA by the rate in which they generate structure.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# 動力学的システムのための回転変換局所座標フレーム

Roto-translated Local Coordinate Frames For Interacting Dynamical Systems ( http://arxiv.org/abs/2110.14961v3 )

ライセンス: Link先を確認
Miltiadis Kofinas, Naveen Shankar Nagaraja, Efstratios Gavves, (参考訳) モデリング相互作用は、複雑な力学系、すなわち、非常に非線形で時間依存的な振る舞いを持つ相互作用対象のシステムを学ぶ際に重要である。 そのようなシステムの大規模なクラスは$\textit{geometric graphs}$, $\textit{i.e.}$、ユークリッド空間にノードを配置したグラフとして、例えば交通シーンの車両のように、$\textit{arbitrally}$選択されたグローバル座標系として形式化することができる。 任意のグローバル座標系にかかわらず、各力学系の制御力学は回転や変換に不変であり、 $\textit{Galilean invariance}$ とも呼ばれる。 これらの不変性を無視すると一般化が悪化するので、この研究ではノードオブジェクトごとの局所座標フレームを提案し、相互作用する力学系の幾何学的グラフにロト変換不変性を誘導する。 さらに、局所座標フレームはグラフニューラルネットワークにおける異方性フィルタリングの自然な定義を可能にする。 交通シーンや3Dモーションキャプチャ、衝突粒子の実験では、提案手法が最近の最先端技術よりも快適に優れていることが示されている。

Modelling interactions is critical in learning complex dynamical systems, namely systems of interacting objects with highly non-linear and time-dependent behaviour. A large class of such systems can be formalized as $\textit{geometric graphs}$, $\textit{i.e.}$, graphs with nodes positioned in the Euclidean space given an $\textit{arbitrarily}$ chosen global coordinate system, for instance vehicles in a traffic scene. Notwithstanding the arbitrary global coordinate system, the governing dynamics of the respective dynamical systems are invariant to rotations and translations, also known as $\textit{Galilean invariance}$. As ignoring these invariances leads to worse generalization, in this work we propose local coordinate frames per node-object to induce roto-translation invariance to the geometric graph of the interacting dynamical system. Further, the local coordinate frames allow for a natural definition of anisotropic filtering in graph neural networks. Experiments in traffic scenes, 3D motion capture, and colliding particles demonstrate that the proposed approach comfortably outperforms the recent state-of-the-art.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# アノテーションを壊さない:Biasはすでにアノテーションのインストラクションで始まっている

Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions ( http://arxiv.org/abs/2205.00415v3 )

ライセンス: Link先を確認
Mihir Parmar, Swaroop Mishra, Mor Geva, Chitta Baral, (参考訳) 近年、NLUの進歩はベンチマークによって推進されている。 これらのベンチマークは通常、クラウドソーシングによって収集される。 本研究では,アノテータがクラウドソーシング命令のパターンを拾い上げると,収集したデータに過剰に表現された類似した例をたくさん書くことに偏りがある,という仮説を立てる。 提案手法は,14のNLUベンチマークにおいて,この形式のバイアス,いわゆる命令バイアスについて検討し,実例では,収集したデータに対して,クラウドワーカーによって伝播される具体的なパターンがしばしば現れることを示した。 これは以前の作業(Geva et al , 2019)を拡張し、タスクではなくデータセット作成者の指示をモデル化しているかどうかという新たな懸念を提起する。 一連の実験を通して、実際に、命令バイアスがモデル性能の過大評価につながることを示し、モデルがクラウドソーシングの指示に起因したバイアスを超えた一般化に苦慮していることを示す。 さらに、パターン周波数とモデルサイズにおける命令バイアスの影響を分析し、将来のNLUベンチマークを作成するための具体的な勧告を導出する。

In recent years, progress in NLU has been driven by benchmarks. These benchmarks are typically collected by crowdsourcing, where annotators write examples based on annotation instructions crafted by dataset creators. In this work, we hypothesize that annotators pick up on patterns in the crowdsourcing instructions, which bias them to write many similar examples that are then over-represented in the collected data. We study this form of bias, termed instruction bias, in 14 recent NLU benchmarks, showing that instruction examples often exhibit concrete patterns, which are propagated by crowdworkers to the collected data. This extends previous work (Geva et al., 2019) and raises a new concern of whether we are modeling the dataset creator's instructions, rather than the task. Through a series of experiments, we show that, indeed, instruction bias can lead to overestimation of model performance, and that models struggle to generalize beyond biases originating in the crowdsourcing instructions. We further analyze the influence of instruction bias in terms of pattern frequency and model size, and derive concrete recommendations for creating future NLU benchmarks.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# 記憶のレンズによるデータ強化のプライバシー効果について

On the Privacy Effect of Data Enhancement via the Lens of Memorization ( http://arxiv.org/abs/2208.08270v3 )

ライセンス: Link先を確認
Xiao Li, Qiongxiu Li, Zhanhao Hu, Xiaolin Hu, (参考訳) 機械学習は、学習したモデルがトレーニングデータに関する機密情報を明らかにできることが示されているため、厳しいプライバシー上の懸念を生じさせる。 多くの研究が、機械学習モデルのプライバシー漏洩に対するデータ強化と呼ばれる、広く採用されているデータ強化と敵対的トレーニング技術の効果を調査してきた。 このようなプライバシー効果は、特定のサンプルがトレーニングセットに属しているかどうかを特定することを目的とした、メンバーシップ推論攻撃(MIAs)によってしばしば測定される。 我々は,記憶化という新たな視点からプライバシを調査することを提案する。 記憶のレンズを通して、以前デプロイされたMIAは、プライバシーリスクの低いサンプルに比べて、より高いプライバシーリスクのサンプルをメンバーとして識別する可能性が低いため、誤解を招く結果をもたらすことがわかった。 この問題を解決するために,個々のサンプルの記憶度をキャプチャして評価する最近の攻撃を展開した。 広範な実験を通じて、プライバシ、一般化ギャップ、対向ロバスト性など、機械学習モデルの本質的な3つの性質の関連性に関するいくつかの知見を明らかにした。 一般化ギャップとプライバシリークは, これまでの結果に比べて相関が低いことを示す。 さらに、敵対的堅牢性とプライバシとの間には必ずしもトレードオフがあるわけではない。

Machine learning poses severe privacy concerns as it has been shown that the learned models can reveal sensitive information about their training data. Many works have investigated the effect of widely adopted data augmentation and adversarial training techniques, termed data enhancement in the paper, on the privacy leakage of machine learning models. Such privacy effects are often measured by membership inference attacks (MIAs), which aim to identify whether a particular example belongs to the training set or not. We propose to investigate privacy from a new perspective called memorization. Through the lens of memorization, we find that previously deployed MIAs produce misleading results as they are less likely to identify samples with higher privacy risks as members compared to samples with low privacy risks. To solve this problem, we deploy a recent attack that can capture individual samples' memorization degrees for evaluation. Through extensive experiments, we unveil several findings about the connections between three essential properties of machine learning models, including privacy, generalization gap, and adversarial robustness. We demonstrate that the generalization gap and privacy leakage are less correlated than those of the previous results. Moreover, there is not necessarily a trade-off between adversarial robustness and privacy as stronger adversarial robustness does not make the model more susceptible to privacy attacks.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# BOBA:ラベルスキューネスによるビザンチン・ロバスト・フェデレーションラーニング

BOBA: Byzantine-Robust Federated Learning with Label Skewness ( http://arxiv.org/abs/2208.12932v2 )

ライセンス: Link先を確認
Wenxuan Bao, Jun Wu, Jingrui He, (参考訳) 連合学習において、既存のロバストアグリゲーションルール(AGR)は、クライアントデータが独立して同一に分散されていると仮定されるIDD設定でビザンチン攻撃と戦う。 本稿では,より現実的で難易度の高い非IIDセッティングであるラベルスキューネスについて述べる。 この設定では、最先端のAGRは選択バイアスに悩まされ、特定のクラスのパフォーマンスが大幅に低下する。 これらの制約に対処するため,BOBAという2段階の効率的な手法を提案する。 理論的には、BOBAの収束を最適順序の誤差で証明する。 我々の経験的評価は、BOBAが様々なベースラインと比較して、多様なモデルやデータセットにまたがる優れた不偏性や堅牢性を示している。 私たちのコードはhttps://github.com/baowenxuan/BOBAで利用可能です。

In federated learning, most existing robust aggregation rules (AGRs) combat Byzantine attacks in the IID setting, where client data is assumed to be independent and identically distributed. In this paper, we address label skewness, a more realistic and challenging non-IID setting, where each client only has access to a few classes of data. In this setting, state-of-the-art AGRs suffer from selection bias, leading to significant performance drop for particular classes; they are also more vulnerable to Byzantine attacks due to the increased variation among gradients of honest clients. To address these limitations, we propose an efficient two-stage method named BOBA. Theoretically, we prove the convergence of BOBA with an error of the optimal order. Our empirical evaluations demonstrate BOBA's superior unbiasedness and robustness across diverse models and datasets when compared to various baselines. Our code is available at https://github.com/baowenxuan/BOBA .
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# 多型スパンニング林による磁化ラプラシアンのスカラー化

Sparsification of the regularized magnetic Laplacian with multi-type spanning forests ( http://arxiv.org/abs/2208.14797v2 )

ライセンス: Link先を確認
Michaël Fanuel, Rémi Bardenet, (参考訳) 本稿では,向きの反転の下で共役する単位モジュラー複素数を持つグラフとして,${\rm U}(1)$-connection graphを考える。 組合せラプラシアンの自然な置換は、グラフの接続に関する情報を含むエルミート行列である磁気ラプラシアンである。 磁気ラプラシアン(英語版)は角同期の問題に現れる。 大規模で高密度なグラフの文脈では、磁気ラプラシアン$\Delta$、すなわち、エッジの少ない部分グラフに基づくスペクトル近似のスペーサーについて研究する。 提案手法は, 多様性を優先するエッジ上の確率分布である, カスタム決定点プロセスを用いて, MTSF(Multi-type spanning forests)をサンプリングすることに依存する。 一言で言えば、MTSFは、接続されたコンポーネントが木またはサイクルルート木のいずれかであるスパンニング部分グラフである。 後者は接続グラフの角不整合を部分的に捉え、接続に含まれる情報を圧縮する方法を提供する。 興味深いことに、接続グラフが不整合なサイクルを持つ場合、決定点プロセスから検討中のサンプルは、サイクルのポップアップを伴うランダムウォークを用いて、‘a la Wilson’が得られる。 ラプラシアン接続の自然推定器の選択に関する統計的保証を提供し、このスペーサーの2つの実用的応用として、角同期によるランク付けとグラフに基づく半教師付き学習について検討する。 統計学的見地からすると、この論文の副作用は、内在次元で有界なチェルノフ行列であり、これは正規化の -- $\Delta + q \mathbb{I}$ with $q>0$ -- がスパース化保証に与える影響を考えることができる。

In this paper, we consider a ${\rm U}(1)$-connection graph, that is, a graph where each oriented edge is endowed with a unit modulus complex number that is conjugated under orientation flip. A natural replacement for the combinatorial Laplacian is then the magnetic Laplacian, an Hermitian matrix that includes information about the graph's connection. Magnetic Laplacians appear, e.g., in the problem of angular synchronization. In the context of large and dense graphs, we study here sparsifiers of the magnetic Laplacian $\Delta$, i.e., spectral approximations based on subgraphs with few edges. Our approach relies on sampling multi-type spanning forests (MTSFs) using a custom determinantal point process, a probability distribution over edges that favours diversity. In a word, an MTSF is a spanning subgraph whose connected components are either trees or cycle-rooted trees. The latter partially capture the angular inconsistencies of the connection graph, and thus provide a way to compress the information contained in the connection. Interestingly, when the connection graph has weakly inconsistent cycles, samples from the determinantal point process under consideration can be obtained \`a la Wilson, using a random walk with cycle popping. We provide statistical guarantees for a choice of natural estimators of the connection Laplacian, and investigate two practical applications of our sparsifiers: ranking with angular synchronization and graph-based semi-supervised learning. From a statistical perspective, a side result of this paper of independent interest is a matrix Chernoff bound with intrinsic dimension, which allows considering the influence of a regularization -- of the form $\Delta + q \mathbb{I}$ with $q>0$ -- on sparsification guarantees.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# FairSNA: ソーシャルネットワーク分析におけるアルゴリズム的公正性

FairSNA: Algorithmic Fairness in Social Network Analysis ( http://arxiv.org/abs/2209.01678v2 )

ライセンス: Link先を確認
Akrati Saxena, George Fletcher, Mykola Pechenizkiy, (参考訳) 近年, 機械学習, 自然言語処理, 情報検索などの分野において, 公平性を意識した手法の設計が注目されている。 しかし、ソーシャルネットワークにおける構造バイアスや不平等の理解や、ソーシャルネットワーク分析(SNA)における様々な研究課題に対する公平性に配慮した手法の設計には、あまり関心が寄せられていない。 本研究では、ソーシャルネットワークの構造バイアスが、異なるSNA手法の公平性にどのように影響するかを強調する。 さらに、リンク予測、影響の最大化、集中度ランキング、コミュニティ検出など、異なるSNA問題に対するネットワーク構造に基づくソリューションを提案しながら考慮すべき公平性について論じる。 本論文は,提案するソリューションにおいて,公正さと偏見を考慮した研究はほとんどなく,リンク予測や影響の最大化,PageRankなど,いくつかの研究トピックに重点を置いている。 しかし、影響遮断やコミュニティ検出など、他の研究トピックに対しては、フェアネスについてはまだ言及されていない。 我々は, 公正性制約, 限界, ビジョンなど, SNA のさまざまな研究テーマについて, 現状を概観する。 また、これらの研究で使用される評価指標、利用可能なデータセット、合成ネットワーク生成モデルについても述べる。 最後に、フェアネスとSNAのギャップを埋めるために研究者の注意を必要とする様々なオープンな研究の方向性を強調した。

In recent years, designing fairness-aware methods has received much attention in various domains, including machine learning, natural language processing, and information retrieval. However, understanding structural bias and inequalities in social networks and designing fairness-aware methods for various research problems in social network analysis (SNA) have not received much attention. In this work, we highlight how the structural bias of social networks impacts the fairness of different SNA methods. We further discuss fairness aspects that should be considered while proposing network structure-based solutions for different SNA problems, such as link prediction, influence maximization, centrality ranking, and community detection. This paper clearly highlights that very few works have considered fairness and bias while proposing solutions; even these works are mainly focused on some research topics, such as link prediction, influence maximization, and PageRank. However, fairness has not yet been addressed for other research topics, such as influence blocking and community detection. We review state-of-the-art for different research topics in SNA, including the considered fairness constraints, their limitations, and our vision. This paper also covers evaluation metrics, available datasets, and synthetic network generating models used in such studies. Finally, we highlight various open research directions that require researchers' attention to bridge the gap between fairness and SNA.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# SDA:コントラスト型文表現学習のための簡易離散化

SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning ( http://arxiv.org/abs/2210.03963v2 )

ライセンス: Link先を確認
Dongsheng Zhu, Zhenyu Mao, Jinghui Lu, Rui Zhao, Fei Tan, (参考訳) コントラスト学習は、教師なし文表現において、近年、魅力的なパフォーマンスを達成している。 しかし、重要な要素として、データ拡張プロトコルは十分に研究されていない。 先駆的な研究であるSimCSEは、単純なドロップアウト機構(連続的な拡張と見なされる)に頼り、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。 そこで我々は,既存の手法を再検討し,意味的一貫性と表現の多様性のバランスという,合理的なデータ拡張手法のデシラタを仮説化しようと試みる。 次に, 句読点挿入, モーダル動詞, 二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。 語彙レベルでは最小限のノイズとして機能し、多種多様な文を生成する。 さらに、標準否定を利用して、対照的な学習に関わる特徴抑制を緩和するための負のサンプルを生成する。 多様なデータセットのセマンティックテキスト類似性を広範囲に実験した。 その結果,提案手法の優越性は一貫して向上した。

Contrastive learning has recently achieved compelling performance in unsupervised sentence representation. As an essential element, data augmentation protocols, however, have not been well explored. The pioneering work SimCSE resorting to a simple dropout mechanism (viewed as continuous augmentation) surprisingly dominates discrete augmentations such as cropping, word deletion, and synonym replacement as reported. To understand the underlying rationales, we revisit existing approaches and attempt to hypothesize the desiderata of reasonable data augmentation methods: balance of semantic consistency and expression diversity. We then develop three simple yet effective discrete sentence augmentation schemes: punctuation insertion, modal verbs, and double negation. They act as minimal noises at lexical level to produce diverse forms of sentences. Furthermore, standard negation is capitalized on to generate negative samples for alleviating feature suppression involved in contrastive learning. We experimented extensively with semantic textual similarity on diverse datasets. The results support the superiority of the proposed methods consistently.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# BAFFLE:オフライン強化学習データセットにバックドアを埋める

BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets ( http://arxiv.org/abs/2210.04688v5 )

ライセンス: Link先を確認
Chen Gong, Zhou Yang, Yunpeng Bai, Junda He, Jieke Shi, Kecen Li, Arunesh Sinha, Bowen Xu, Xinwen Hou, David Lo, Tianhao Wang, (参考訳) 強化学習(Reinforcement Learning、RL)は、環境との相互作用中に収集された試行錯誤経験からエージェントに学習させる。 近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。 オフラインのRLでは、データプロバイダは大規模なプレコンパイルデータセットを共有し、他のプロバイダは環境と対話することなく高品質なエージェントをトレーニングできる。 このパラダイムは、ロボット制御や自律運転など、重要なタスクにおいて有効性を示している。 しかし、オフラインのRLシステムに対するセキュリティ上の脅威の調査には注意が払われていない。 本報告では, 正常な観測を行った場合, エージェントはハイリワード動作を行い, トリガーによって注入された観測に対する低リワード動作を行うような, 観測データ(観測データ)に摂動を加えるバックドア攻撃に焦点を当てる。 本稿では,オフラインRLデータセットを悪用してRLエージェントにバックドアを自動的に注入する手法であるBaffle (Backdoor Attack for Offline Reinforcement Learning)を提案する。 4つのタスクと4つのオフラインRLアルゴリズムで実施した実験では,既存のオフラインRLアルゴリズムはいずれも,そのようなバックドア攻撃に対して無害である,という不合理な事実が明らかにされている。 具体的には、Baffleは4つのタスク(3つのロボット制御と1つの自律運転)のデータセットの10%を修正している。 有毒なデータセットでトレーニングされたエージェントは、通常の設定でうまく機能する。 しかし、トリガーが提示されると、エージェントのパフォーマンスは平均して63.2\%、53.9\%、64.7\%、47.4\%と劇的に低下する。 バックドアは、清潔なデータセットに汚染物質を微調整した後も継続する。 さらに,一般的な防御法により,挿入されたバックドアの検出も困難であることを示す。 本稿では、オープンソースオフラインRLデータセットのより効果的な保護を開発することへの注意を喚起する。

Reinforcement learning (RL) makes an agent learn from trial-and-error experiences gathered during the interaction with the environment. Recently, offline RL has become a popular RL paradigm because it saves the interactions with environments. In offline RL, data providers share large pre-collected datasets, and others can train high-quality agents without interacting with the environments. This paradigm has demonstrated effectiveness in critical tasks like robot control, autonomous driving, etc. However, less attention is paid to investigating the security threats to the offline RL system. This paper focuses on backdoor attacks, where some perturbations are added to the data (observations) such that given normal observations, the agent takes high-rewards actions, and low-reward actions on observations injected with triggers. In this paper, we propose Baffle (Backdoor Attack for Offline Reinforcement Learning), an approach that automatically implants backdoors to RL agents by poisoning the offline RL dataset, and evaluate how different offline RL algorithms react to this attack. Our experiments conducted on four tasks and four offline RL algorithms expose a disquieting fact: none of the existing offline RL algorithms is immune to such a backdoor attack. More specifically, Baffle modifies 10\% of the datasets for four tasks (3 robotic controls and 1 autonomous driving). Agents trained on the poisoned datasets perform well in normal settings. However, when triggers are presented, the agents' performance decreases drastically by 63.2\%, 53.9\%, 64.7\%, and 47.4\% in the four tasks on average. The backdoor still persists after fine-tuning poisoned agents on clean datasets. We further show that the inserted backdoor is also hard to be detected by a popular defensive method. This paper calls attention to developing more effective protection for the open-source offline RL dataset.
翻訳日:2024-03-21 23:26:53 公開日:2024-03-20
# 半パラメトリック二値応答モデルの分散推定と推定

Distributed Estimation and Inference for Semi-parametric Binary Response Models ( http://arxiv.org/abs/2210.08393v3 )

ライセンス: Link先を確認
Xi Chen, Wenbo Jing, Weidong Liu, Yichen Zhang, (参考訳) 現代の技術の発展により、前例のない大きさのデータ収集が可能となり、多くの統計的推定と推測問題に新たな課題がもたらされた。 本稿では,分散コンピューティング環境下での半パラメトリック二値選択モデルの最大スコア推定について検討する。 直感的な分割・対数推定器は計算コストが高く、目的関数の非滑らかな性質のため、機械数に対する非正規制約によって制限される。 本研究では,(1)制約緩和の目的を円滑化させた1ショット分割・コンカレント推定器,(2)反復的平滑化による制約を完全に除去する多ラウンド推定器を提案する。 複数の繰り返しに対する最適化誤差の超直線的改善を実現するために、連続的に縮小する帯域幅を持つカーネルスムースなカーネルの選択を適応的に選択する。 繰り返し毎の統計精度の向上が導出され、最適統計誤差率までの2次収束が確立される。 さらに、データセットの不均一性を扱うための2つの一般化と、興味のパラメータがスパースである高次元問題を提供する。

The development of modern technology has enabled data collection of unprecedented size, which poses new challenges to many statistical estimation and inference problems. This paper studies the maximum score estimator of a semi-parametric binary choice model under a distributed computing environment without pre-specifying the noise distribution. An intuitive divide-and-conquer estimator is computationally expensive and restricted by a non-regular constraint on the number of machines, due to the highly non-smooth nature of the objective function. We propose (1) a one-shot divide-and-conquer estimator after smoothing the objective to relax the constraint, and (2) a multi-round estimator to completely remove the constraint via iterative smoothing. We specify an adaptive choice of kernel smoother with a sequentially shrinking bandwidth to achieve the superlinear improvement of the optimization error over the multiple iterations. The improved statistical accuracy per iteration is derived, and a quadratic convergence up to the optimal statistical error rate is established. We further provide two generalizations to handle the heterogeneity of datasets and high-dimensional problems where the parameter of interest is sparse.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# PAGE: グラフニューラルネットワークのためのプロトタイプベースモデルレベル記述

PAGE: Prototype-Based Model-Level Explanations for Graph Neural Networks ( http://arxiv.org/abs/2210.17159v2 )

ライセンス: Link先を確認
Yong-Min Shin, Sun-Woo Kim, Won-Yong Shin, (参考訳) グラフ表現学習に革命をもたらす強力なフレームワークとして、グラフニューラルネットワーク(GNN)が注目されているのとは別に、GNNモデルの説明に対する需要が高まっている。 GNNの様々な説明法が開発されているが、ほとんどの研究は、与えられたグラフのインスタンスに適した説明を生成するインスタンスレベルの説明に焦点を当てている。 本研究では,人間の解釈可能なプロトタイプグラフを探索することにより,GNNモデルがグラフ分類において何を学んだかを説明する新しいモデルレベルのGNN説明手法であるPAGEを提案する。 提案手法は,あるクラスに対して,インスタンスレベルの説明よりも簡潔で包括的な説明を提供することができる。 まず、PAGEはクラスタ化後にグラフレベルの埋め込み空間上のクラス識別入力グラフの埋め込みを選択する。 次に、PAGEは、プロトタイプスコアリング関数を介してノードレベルの埋め込みを用いて、高整合ノードタプルを反復的に探索することにより、共通のサブグラフパターンを発見し、その説明としてプロトタイプグラフを生成する。 6つのグラフ分類データセットを用いて、PAGEが最先端のモデルレベルの説明法よりも質的に定量的に優れていることを示す。 また、PAGEとインスタンスレベルの説明手法の関係、入力データ不足環境に対するPAGEの堅牢性、提案したPAGEのプロトタイプスコアリング関数の計算効率を実証し、体系的な実験を行った。

Aside from graph neural networks (GNNs) attracting significant attention as a powerful framework revolutionizing graph representation learning, there has been an increasing demand for explaining GNN models. Although various explanation methods for GNNs have been developed, most studies have focused on instance-level explanations, which produce explanations tailored to a given graph instance. In our study, we propose Prototype-bAsed GNN-Explainer (PAGE), a novel model-level GNN explanation method that explains what the underlying GNN model has learned for graph classification by discovering human-interpretable prototype graphs. Our method produces explanations for a given class, thus being capable of offering more concise and comprehensive explanations than those of instance-level explanations. First, PAGE selects embeddings of class-discriminative input graphs on the graph-level embedding space after clustering them. Then, PAGE discovers a common subgraph pattern by iteratively searching for high matching node tuples using node-level embeddings via a prototype scoring function, thereby yielding a prototype graph as our explanation. Using six graph classification datasets, we demonstrate that PAGE qualitatively and quantitatively outperforms the state-of-the-art model-level explanation method. We also carry out systematic experimental studies by demonstrating the relationship between PAGE and instance-level explanation methods, the robustness of PAGE to input data scarce environments, and the computational efficiency of the proposed prototype scoring function in PAGE.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# エンタングルメント分布による量子アニーリングの強化

Enhancing Quantum Annealing via entanglement distribution ( http://arxiv.org/abs/2212.02465v2 )

ライセンス: Link先を確認
Raúl Santos, Lorenzo Buffoni, Yasser Omar, (参考訳) 量子アニーリングは、いくつかの最適化問題に対処するための強力なツールであることが証明されている。 しかし、その性能は、基礎となる量子ハードウェアの限られた接続によって大きく影響され、量子スピードアップを損なう。 本研究では,ローカル操作・古典通信(LOCC)のレンズを通した非局所結合を実現する手法を記述することで,これらの問題に対処する新しい手法を提案する。 非局所結合は非常に汎用的であり、分散量子ネットワークの構成可能性を活用し、それによって基盤となるハードウェアの物理的接続性を大幅に向上させる。 さらに、異なる量子アニールプロセッサ間の非局所結合の実現により、分散システムのスケーラビリティポテンシャル、すなわち分散量子アニールシステムの実現が活性化される。 最後に、より遠方のビジョンでは、セキュアなマルチパーティ量子アニーリングアルゴリズムが可能であることを示し、量子アニーリングと特定のタイプの非局所カップリングを最適化することで、不信頼なパーティの協調を可能にする。

Quantum Annealing has proven to be a powerful tool to tackle several optimization problems. However, its performance is severely impacted by the limited connectivity of the underlying quantum hardware, compromising the quantum speedup. In this work, we present a novel approach to address these issues, by describing a method to implement non-local couplings throught the lens of Local Operations and Classical Communcations (LOCC). Non-local couplings are very versatile, harnessing the configurability of distributed quantum networks, which in turn lead to great enhancement of the physical connectivity of the underlying hardware. Furthermore, the realization of non-local couplings between distinct quantum annealing processors activates the scalability potential of distributed systems, i.e. allowing for a distributed quantum annealing system. Finally, in a more distant vision, we also show that secure multi-party quantum annealing algorithms are possible, allowing for cooperation of distrusting parties through optimization with quantum annealing and a particular type of non-local couplings.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# 新しい深層・アンサンブル学習フレームワークを用いたマラリア寄生虫検出

Malaria Parasitic Detection using a New Deep Boosted and Ensemble Learning Framework ( http://arxiv.org/abs/2212.02477v3 )

ライセンス: Link先を確認
Saddam Hussain Khan, Tahani Jaser Alahmadi, (参考訳) マラリア(英: Malaria)は、赤血細胞や世界中の何百万もの動物に感染する雌のアナフレア蚊によって注射される、致命的なプラスモジウム寄生虫である。 しかし、臨床実践における専門家の手動スクリーニングは困難であり、誤りを犯しがちである。 そこで,新たなBoosted-BR-STM畳み込みニューラルネットワーク(CNN)とアンサンブルML分類器を積み重ねた新しいDBELフレームワークを開発した。 提案したBoosted-BR-STMは、新しい拡張畳み込みブロックベースの分割変換マージ(STM)と特徴マップSqueezing-Boosting(SB)のアイデアに基づいている。 さらに、新しいSTMブロックは、マラリア原虫の同質性、異質性、およびパターンとのバウンダリを学習するために、地域的および境界的操作を使用する。 さらに,STMブロックの抽象的,メディア的,結論的レベルにおいて,Transfer Learningに基づく新しい特徴マップSBを用いて,寄生パターンの微妙な強度とテクスチャ変化を学習することで,多様なブーストチャネルを実現する。 提案したDBELフレームワークは、顕著で多様なブーストされたチャネルの積み重ねを含意し、ML分類器のアンサンブルに開発されたBoosted-BR-STMの識別特性を提供する。 提案フレームワークは,アンサンブル学習の識別能力と一般化を改善する。 さらに、開発したBoosted-BR-STMとカスタマイズされたCNNの深い特徴空間をML分類器に入力して比較分析を行う。 提案したDBELフレームワークは、離散ウェーブレット変換を用いて拡張されたNIHマラリアデータセットの既存の技術より優れており、特徴空間を豊かにする。 提案したDBELフレームワークは精度(98.50%)、感度(0.9920)、Fスコア(0.9850)、AUC(0.997)を達成した。

Malaria is a potentially fatal plasmodium parasite injected by female anopheles mosquitoes that infect red blood cells and millions worldwide yearly. However, specialists' manual screening in clinical practice is laborious and prone to error. Therefore, a novel Deep Boosted and Ensemble Learning (DBEL) framework, comprising the stacking of new Boosted-BR-STM convolutional neural networks (CNN) and the ensemble ML classifiers, is developed to screen malaria parasite images. The proposed Boosted-BR-STM is based on a new dilated-convolutional block-based split transform merge (STM) and feature-map Squeezing-Boosting (SB) ideas. Moreover, the new STM block uses regional and boundary operations to learn the malaria parasite's homogeneity, heterogeneity, and boundary with patterns. Furthermore, the diverse boosted channels are attained by employing Transfer Learning-based new feature-map SB in STM blocks at the abstract, medium, and conclusion levels to learn minute intensity and texture variation of the parasitic pattern. The proposed DBEL framework implicates the stacking of prominent and diverse boosted channels and provides the generated discriminative features of the developed Boosted-BR-STM to the ensemble of ML classifiers. The proposed framework improves the discrimination ability and generalization of ensemble learning. Moreover, the deep feature spaces of the developed Boosted-BR-STM and customized CNNs are fed into ML classifiers for comparative analysis. The proposed DBEL framework outperforms the existing techniques on the NIH malaria dataset that are enhanced using discrete wavelet transform to enrich feature space. The proposed DBEL framework achieved Accuracy (98.50%), Sensitivity (0.9920), F-score (0.9850), and AUC (0.997), which suggest it to be utilized for malaria parasite screening.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# データ提供によるTikTokのショートフォーマットビデオレコメンデーションによるユーザエンゲージメントの分析

Analyzing User Engagement with TikTok's Short Format Video Recommendations using Data Donations ( http://arxiv.org/abs/2301.04945v2 )

ライセンス: Link先を確認
Savvas Zannettou, Olivia-Nemes Nemeth, Oshrat Ayalon, Angelica Goetzen, Krishna P. Gummadi, Elissa M. Redmiles, Franziska Roesner, (参考訳) TikTok、Instagram、YouTubeなどのプラットフォームでは、短いフォーマットのビデオが爆発的に増えている。 それにもかかわらず、研究コミュニティは、人々が短いフォーマットのビデオとどのように関わり、そのようなコンテンツの無限のストリームを提供するレコメンデーションシステムの役割について、大規模な実証研究を欠いている。 本研究では,TikTokのユーザエンゲージメントをデータ提供システムを通じて収集したデータを用いて分析する。 我々は347人のTikTokユーザーを募集し、TikTokが受け取った920万のビデオレコメンデーションを収集した。 ユーザのエンゲージメントを分析することで,ユーザのライフタイムを通じて平均日使用時間が増加し,ユーザの注意が約45%安定していることが分かる。 また、フォローしていない人よりもフォローしている人がアップロードしたビデオの方が多いこともわかりました。 我々の研究は、ユーザーがTikTok上の短いフォーマットのビデオと関わり、データ提供システムの設計から学んだ教訓について、貴重な洞察を提供する。

Short-format videos have exploded on platforms like TikTok, Instagram, and YouTube. Despite this, the research community lacks large-scale empirical studies into how people engage with short-format videos and the role of recommendation systems that offer endless streams of such content. In this work, we analyze user engagement on TikTok using data we collect via a data donation system that allows TikTok users to donate their data. We recruited 347 TikTok users and collected 9.2M TikTok video recommendations they received. By analyzing user engagement, we find that the average daily usage time increases over the users' lifetime while the user attention remains stable at around 45%. We also find that users like more videos uploaded by people they follow than those recommended by people they do not follow. Our study offers valuable insights into how users engage with short-format videos on TikTok and lessons learned from designing a data donation system.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# グラフニューラルネットワークにおける個人の公正性のプライバシーリスクの解明

Unraveling Privacy Risks of Individual Fairness in Graph Neural Networks ( http://arxiv.org/abs/2301.12951v2 )

ライセンス: Link先を確認
He Zhang, Xingliang Yuan, Shirui Pan, (参考訳) グラフニューラルネットワーク(GNN)は、その拡張現実の応用により、大きな注目を集めている。 信頼できるGNNを構築するためには、公平性とプライバシという2つの側面が重要な考慮事項として浮上している。 これまでの研究では、GNNの公平性とプライバシの側面を別々に検討し、GNNのパフォーマンスとのトレードオフを明らかにしている。 しかし、この2つの側面の相互作用は未解明のままである。 本稿では,エッジリークのプライバシーリスクとGNNの個人的公正性との相互作用を探索する。 我々の理論的分析は、ノードの個々人の公正さが向上すると、エッジプライバシのリスクは残念ながらエスカレートすることを示している。 このような問題は、GNNのプライバシーと公正性の達成を同時に妨げている。 フェアネスとプライバシのバランスをとるために,影響関数とプライバシを意識したグラフ構造摂動モジュールに基づくフェアネス認識損失再重み付けを,微調整機構内に慎重に導入する。 実験結果から,GNNフェアネスの達成に対するアプローチの有効性を,パフォーマンスの妥協やプライバシーリスクのコントロールによる検証を行った。 この研究は、公正性とプライバシの両方の側面に同時に対処することで、総合的に発展する信頼できるGNNに貢献する。

Graph neural networks (GNNs) have gained significant attraction due to their expansive real-world applications. To build trustworthy GNNs, two aspects - fairness and privacy - have emerged as critical considerations. Previous studies have separately examined the fairness and privacy aspects of GNNs, revealing their trade-off with GNN performance. Yet, the interplay between these two aspects remains unexplored. In this paper, we pioneer the exploration of the interaction between the privacy risks of edge leakage and the individual fairness of a GNN. Our theoretical analysis unravels that edge privacy risks unfortunately escalate when the nodes' individual fairness improves. Such an issue hinders the accomplishment of privacy and fairness of GNNs at the same time. To balance fairness and privacy, we carefully introduce fairness-aware loss reweighting based on influence function and privacy-aware graph structure perturbation modules within a fine-tuning mechanism. Experimental results underscore the effectiveness of our approach in achieving GNN fairness with limited performance compromise and controlled privacy risks. This work contributes to the comprehensively developing trustworthy GNNs by simultaneously addressing both fairness and privacy aspects.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# Jaccard Metric Losses: ソフトラベルによるJaccard Indexの最適化

Jaccard Metric Losses: Optimizing the Jaccard Index with Soft Labels ( http://arxiv.org/abs/2302.05666v5 )

ライセンス: Link先を確認
Zifu Wang, Xuefei Ning, Matthew B. Blaschko, (参考訳) ユニオン(IoU)の損失に対するインターセクション(Intersection over Union)は、Jaccardインデックスを直接最適化するサロゲートである。 損失関数の一部としてのIoU損失の活用は、クロスエントロピー損失のみのような画素単位の損失を最適化するよりもセマンティックセグメンテーションタスクにおいて優れた性能を示した。 しかし, ラベルの平滑化, 知識の蒸留, 半教師あり学習など, ソフトラベルの処理が不可能なことから, 重要なトレーニング技術をサポートするために, 損失の柔軟性が欠如していることが確認できた。 ハードラベルを用いた標準設定では,Jaccard Metric Losses(JML)というソフトなJaccard損失と同じだが,ソフトなラベルと完全に互換性がある。 JMLをラベル平滑化,知識蒸留,半教師付き学習の3つの顕著なユースケースに適用し,モデルの精度と校正性を示す。 実験により,4つのセマンティックセグメンテーションデータセット(Cityscapes, PASCAL VOC, ADE20K, DeepGlobe Land)と13のアーキテクチャ間のクロスエントロピー損失に対する一貫した改善が示された。 注目すべきは、我々の素直なアプローチは、最先端の知識蒸留と半教師付き学習法を著しく上回ることである。 コードは \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses} で公開されている。

Intersection over Union (IoU) losses are surrogates that directly optimize the Jaccard index. Leveraging IoU losses as part of the loss function have demonstrated superior performance in semantic segmentation tasks compared to optimizing pixel-wise losses such as the cross-entropy loss alone. However, we identify a lack of flexibility in these losses to support vital training techniques like label smoothing, knowledge distillation, and semi-supervised learning, mainly due to their inability to process soft labels. To address this, we introduce Jaccard Metric Losses (JMLs), which are identical to the soft Jaccard loss in standard settings with hard labels but are fully compatible with soft labels. We apply JMLs to three prominent use cases of soft labels: label smoothing, knowledge distillation and semi-supervised learning, and demonstrate their potential to enhance model accuracy and calibration. Our experiments show consistent improvements over the cross-entropy loss across 4 semantic segmentation datasets (Cityscapes, PASCAL VOC, ADE20K, DeepGlobe Land) and 13 architectures, including classic CNNs and recent vision transformers. Remarkably, our straightforward approach significantly outperforms state-of-the-art knowledge distillation and semi-supervised learning methods. The code is available at \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# シュワルツシルトブラックホールの真空状態のフェルミオンエンタングルメントエントロピー

The Fermionic Entanglement Entropy of the Vacuum State of a Schwarzschild Black Hole Horizon ( http://arxiv.org/abs/2302.07212v3 )

ライセンス: Link先を確認
Felix Finster, Magdalena Lottner, (参考訳) 我々は、無限遠点における観測者の正規化真空状態に対するシュワルツ・スチャイルドブラックホール水平線のフェルミオンエンタングルメントエントロピーを定義し、解析する。 変数の分離とディラックプロパゲータの積分表現を用いて、絡み合いエントロピーは事象の地平線上の占有角運動量モードの1倍の精度で計算される。

We define and analyze the fermionic entanglement entropy of a Schwarz\-schild black hole horizon for the regularized vacuum state of an observer at infinity. Using separation of variables and an integral representation of the Dirac propagator, the entanglement entropy is computed to be a prefactor times the number of occupied angular momentum modes on the event horizon.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# 深層学習を用いたCaptchaの脆弱性解析

Vulnerability analysis of captcha using Deep learning ( http://arxiv.org/abs/2302.09389v2 )

ライセンス: Link先を確認
Jaskaran Singh Walia, Aryan Odugoudar, (参考訳) いくつかのウェブサイトはセキュリティを改善し、CAPTCHA(Completely Automated Public Turing Test to tell Computers and Humans Apart)を実装することで危険なインターネット攻撃を避ける。 最も一般的なCAPTCHAはテキストベースで、人間が容易に認識できるように設計されており、機械やロボットには解けない。 しかし、ディープラーニング技術の進歩に伴い、テキストベースのCAPTCHAを予測する畳み込みニューラルネットワーク(CNN)モデルの開発が容易になる。 本研究の目的は、CAPTCHA生成システムの欠陥と脆弱性を調査し、より弾力性のあるCAPTCHAを設計することである。 これを実現するために、我々は畳み込みニューラルネットワークであるCapNetを開発した。 提案プラットフォームは,数値およびアルファ数値CAPTCHAの両方を評価することができる

Several websites improve their security and avoid dangerous Internet attacks by implementing CAPTCHAs (Completely Automated Public Turing test to tell Computers and Humans Apart), a type of verification to identify whether the end-user is human or a robot. The most prevalent type of CAPTCHA is text-based, designed to be easily recognized by humans while being unsolvable towards machines or robots. However, as deep learning technology progresses, development of convolutional neural network (CNN) models that predict text-based CAPTCHAs becomes easier. The purpose of this research is to investigate the flaws and vulnerabilities in the CAPTCHA generating systems in order to design more resilient CAPTCHAs. To achieve this, we created CapNet, a Convolutional Neural Network. The proposed platform can evaluate both numerical and alphanumerical CAPTCHAs
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# 分離損失関数による顔認証の強化

Enhanced Face Authentication With Separate Loss Functions ( http://arxiv.org/abs/2302.11427v2 )

ライセンス: Link先を確認
Anh-Kiet Duong, Hoang-Lan Nguyen, Toan-Thinh Truong, (参考訳) 本プロジェクトの全体的な目的は、顔認識を用いて携帯電話やアプリケーションをアンロックする際の顔認識システムの提案と開発である。 システムには、顔検出、顔認識、顔の偽造、閉鎖眼の分類の4つの異なるアーキテクチャが含まれる。 そこで,画面の前に立つ人物の正体を絶対精度で判断する上で,顔認識の問題は最も重要な問題だと考えている。 顔認識問題の発展とともに、アンチフェイク顔の問題は徐々に普及し、等しく重要になっている。 我々の目標は、LMCotとDouble Lossという2つの損失関数の提案と開発です。 次に、顔認証プロセスに適用する。

The overall objective of the main project is to propose and develop a system of facial authentication in unlocking phones or applications in phones using facial recognition. The system will include four separate architectures: face detection, face recognition, face spoofing, and classification of closed eyes. In which, we consider the problem of face recognition to be the most important, determining the true identity of the person standing in front of the screen with absolute accuracy is what facial recognition systems need to achieve. Along with the development of the face recognition problem, the problem of the anti-fake face is also gradually becoming popular and equally important. Our goal is to propose and develop two loss functions: LMCot and Double Loss. Then apply them to the face authentication process.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# 学習条件確率モデルを用いた損失点雲形状と属性圧縮

Lossless Point Cloud Geometry and Attribute Compression Using a Learned Conditional Probability Model ( http://arxiv.org/abs/2303.06519v2 )

ライセンス: Link先を確認
Dat Thanh Nguyen, Andre Kaup, (参考訳) 近年、私たちは、没入型メディア、自動運転、ヘルスケアなど、私たちの生活の多くの面でポイントクラウドデータの存在を目にしてきました。 本稿では,スパーステンソルに基づく深層ニューラルネットワークを用いて,点雲の幾何と色確率分布を学習する効率的なロスレスポイントクラウド圧縮法を提案する。 本手法は,異なるビット深さの3つの属性特徴を持つ点雲を統一されたスパース表現で表現する。 これにより、スパーステンソルベースのニューラルネットワークを使用して、ポイントクラウド内の機能的およびポイント的依存関係を効率的に活用し、算術コーダのための正確な自動回帰コンテキストモデルを構築することができる。 私たちの知る限りでは、これは学習ベースのロスレスポイントクラウド幾何学と属性圧縮アプローチとしては初めてのものです。 移動画像専門家グループ (MPEG) の最先端ロスレスポイントクラウド圧縮法と比較して, 各種試験点雲の合計ビットレートは22.6%減少し, 幾何成分と色属性成分は49.0%, 18.3%減少した。

In recent years, we have witnessed the presence of point cloud data in many aspects of our life, from immersive media, autonomous driving to healthcare, although at the cost of a tremendous amount of data. In this paper, we present an efficient lossless point cloud compression method that uses sparse tensor-based deep neural networks to learn point cloud geometry and color probability distributions. Our method represents a point cloud with both occupancy feature and three attribute features at different bit depths in a unified sparse representation. This allows us to efficiently exploit feature-wise and point-wise dependencies within point clouds using a sparse tensor-based neural network and thus build an accurate auto-regressive context model for an arithmetic coder. To the best of our knowledge, this is the first learning-based lossless point cloud geometry and attribute compression approach. Compared with the-state-of-the-art lossless point cloud compression method from Moving Picture Experts Group (MPEG), our method achieves 22.6% reduction in total bitrate on a diverse set of test point clouds while having 49.0% and 18.3% rate reduction on geometry and color attribute component, respectively.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# 感情的:感情的慣性と感染による会話における感情認識のための依存モデル

EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation ( http://arxiv.org/abs/2303.11117v5 )

ライセンス: Link先を確認
Yingjian Liu, Jiang Li, Xiaoping Wang, Zhigang Zeng, (参考訳) 近年,人間とコンピュータのインターフェース技術の発展と実装により,会話における感情認識(ERC)が注目されている。 本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。 EmotionICは,IMMHA(Identity Masked Multi-Head Attention),DiaGRU(Gated Recurrent Unit),Skip-chain Conditional Random Field(SkipCRF)の3つの主要コンポーネントから構成される。 従来のERCモデルと比較して、EmotionICは特徴抽出レベルと分類レベルの両方で会話をより徹底的にモデル化することができる。 提案モデルでは,特徴抽出レベルにおいて注目度と反復度に基づく手法の利点を統合することを試みる。 具体的には、IDベースのグローバルコンテキスト依存をキャプチャするためにIMMHAを適用し、DiaGRUは話者と時間を考慮したローカルコンテキスト情報を抽出する。 分類レベルでは、SkipCRFは会話中の高次隣接発話からの複雑な感情フローを明示的にマイニングすることができる。 実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。 アブレーション研究は、我々のモジュールが感情的な慣性や伝染を効果的にモデル化できることを確認します。

Emotion Recognition in Conversation (ERC) has attracted growing attention in recent years as a result of the advancement and implementation of human-computer interface technologies. In this paper, we propose an emotional inertia and contagion-driven dependency modeling approach (EmotionIC) for ERC task. Our EmotionIC consists of three main components, i.e., Identity Masked Multi-Head Attention (IMMHA), Dialogue-based Gated Recurrent Unit (DiaGRU), and Skip-chain Conditional Random Field (SkipCRF). Compared to previous ERC models, EmotionIC can model a conversation more thoroughly at both the feature-extraction and classification levels. The proposed model attempts to integrate the advantages of attention- and recurrence-based methods at the feature-extraction level. Specifically, IMMHA is applied to capture identity-based global contextual dependencies, while DiaGRU is utilized to extract speaker- and temporal-aware local contextual information. At the classification level, SkipCRF can explicitly mine complex emotional flows from higher-order neighboring utterances in the conversation. Experimental results show that our method can significantly outperform the state-of-the-art models on four benchmark datasets. The ablation studies confirm that our modules can effectively model emotional inertia and contagion.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# SALAD:3次元形状生成と操作のための部分レベル遅延拡散

SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation ( http://arxiv.org/abs/2303.12236v2 )

ライセンス: Link先を確認
Juil Koo, Seungwoo Yoo, Minh Hieu Nguyen, Minhyuk Sung, (参考訳) 部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。 提案モデルでは,最先端の生成品質を実現し,条件付き設定での付加的なトレーニングを伴わずに,部分レベルの形状の編集と操作が可能となる。 拡散モデルは、ガイド付きリバースプロセスによるゼロショット補完と編集と同様に、データ生成における印象的な機能を示している。 最近の3次元拡散モデルの研究は、様々なデータ表現による生成能力の向上に重点を置いているが、構造情報の欠如により、タスクの完了や編集の能力は制限されている。 そこで我々は,部分レベルの暗黙表現を用いた新しい拡散モデルを提案する。 部品の高次元埋め込みベクトルによる拡散を効果的に学習するために,まず,部品の外部パラメータを符号化した低次元部分空間上で拡散を学習し,次に内在属性を符号化した他の高次元部分空間上で拡散を学習するカスケードフレームワークを提案する。 実験では,提案手法の動作性能を,生成タスクと部分レベル完了タスクと操作タスクの両方で比較した。

We present a cascaded diffusion model based on a part-level implicit 3D representation. Our model achieves state-of-the-art generation quality and also enables part-level shape editing and manipulation without any additional training in conditional setup. Diffusion models have demonstrated impressive capabilities in data generation as well as zero-shot completion and editing via a guided reverse process. Recent research on 3D diffusion models has focused on improving their generation capabilities with various data representations, while the absence of structural information has limited their capability in completion and editing tasks. We thus propose our novel diffusion model using a part-level implicit representation. To effectively learn diffusion with high-dimensional embedding vectors of parts, we propose a cascaded framework, learning diffusion first on a low-dimensional subspace encoding extrinsic parameters of parts and then on the other high-dimensional subspace encoding intrinsic attributes. In the experiments, we demonstrate the outperformance of our method compared with the previous ones both in generation and part-level completion and manipulation tasks.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# ディープ・マルチタスク表現学習を用いた手話画像の人物識別・性別・年齢推定

Joint Person Identity, Gender and Age Estimation from Hand Images using Deep Multi-Task Representation Learning ( http://arxiv.org/abs/2303.15263v4 )

ライセンス: Link先を確認
Nathanael L. Baisa, (参考訳) 本稿では, 性的虐待などの重大犯罪の場合において, 手動画像が唯一の情報であることから, 手動画像から人物の身元, 性別, 年齢を共同で推定するマルチタスク表現学習フレームワークを提案する。 重大犯罪の加害者の手動画像から身元、性別、年齢を同時推定するための最新のディープラーニングアーキテクチャについて検討し、それらの性能を比較した。 年齢予測を簡略化するため,年齢推定のための年齢群を作成する。 公開可能な1kハンドデータセット上で,畳み込みベースと変圧器ベースの両方のディープラーニングアーキテクチャの評価と比較を行う。 本研究は, 被疑者の身元だけでなく, 被疑者の性別や年齢などの属性を, 犯罪捜査のための手動画像から効果的に推定できることを示すものである。

In this paper, we propose a multi-task representation learning framework to jointly estimate the identity, gender and age of individuals from their hand images for the purpose of criminal investigations since the hand images are often the only available information in cases of serious crime such as sexual abuse. We investigate different up-to-date deep learning architectures and compare their performance for joint estimation of identity, gender and age from hand images of perpetrators of serious crime. To simplify the age prediction, we create age groups for the age estimation. We make extensive evaluations and comparisons of both convolution-based and transformer-based deep learning architectures on a publicly available 11k hands dataset. Our experimental analysis shows that it is possible to efficiently estimate not only identity but also other attributes such as gender and age of suspects jointly from hand images for criminal investigations, which is crucial in assisting international police forces in the court to identify and convict abusers.
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# Dice Semimetric Losses: ソフトラベルによるDice Scoreの最適化

Dice Semimetric Losses: Optimizing the Dice Score with Soft Labels ( http://arxiv.org/abs/2303.16296v4 )

ライセンス: Link先を確認
Zifu Wang, Teodora Popordanoska, Jeroen Bertels, Robin Lemmens, Matthew B. Blaschko, (参考訳) 軟Dice損失(SDL)は、医療画像コミュニティにおける多くの自動セグメンテーションパイプラインにおいて重要な役割を担っている。 ここ数年、その優れた機能の背後にあるいくつかの理由が明らかになり、さらなる最適化が検討されている。 しかしながら、ソフトラベルを含むシナリオにおいて、その直接的な利用をサポートする実装は今のところ存在しない。 したがって、SDLの使用とソフトラベルの利用による研究の相乗効果は、モデルキャリブレーションの文脈においても、いまだに欠落している。 本稿では,Dice semimetric loss (DML)を紹介する。 (i) ハードラベルの標準設定でSDLと同一の設計であるが、 (ii)ソフトラベルの設定で使用することができる。 一般のQUBIQ, LiTS, KiTSベンチマークを用いた実験により, ソフトラベル(平均化, ラベルの平滑化, 知識蒸留)とハードラベル(例えば, 多数決, ランダム選択)とのDMLの相乗効果が検証された。 その結果,より優れたDiceスコアとモデルキャリブレーションが得られた。 コードはhttps://github.com/zifuwanggg/JDTLossesで入手できる。

The soft Dice loss (SDL) has taken a pivotal role in numerous automated segmentation pipelines in the medical imaging community. Over the last years, some reasons behind its superior functioning have been uncovered and further optimizations have been explored. However, there is currently no implementation that supports its direct utilization in scenarios involving soft labels. Hence, a synergy between the use of SDL and research leveraging the use of soft labels, also in the context of model calibration, is still missing. In this work, we introduce Dice semimetric losses (DMLs), which (i) are by design identical to SDL in a standard setting with hard labels, but (ii) can be employed in settings with soft labels. Our experiments on the public QUBIQ, LiTS and KiTS benchmarks confirm the potential synergy of DMLs with soft labels (e.g. averaging, label smoothing, and knowledge distillation) over hard labels (e.g. majority voting and random selection). As a result, we obtain superior Dice scores and model calibration, which supports the wider adoption of DMLs in practice. The code is available at https://github.com/zifuwanggg/JDTLosses
翻訳日:2024-03-21 23:16:59 公開日:2024-03-20
# Wavelet Augmentation Transformer を用いた不確実性フリー適応画像超解像

Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer ( http://arxiv.org/abs/2303.17783v5 )

ライセンス: Link先を確認
Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Lei Zhang, Ran He, (参考訳) Unsupervised Domain Adaptation (UDA)は、ソースデータとターゲットデータの両方にアクセスすることで、実世界の画像スーパーリゾリューション(SR)におけるドメインギャップ問題に効果的に対処することができる。 実際のシナリオにおいて、プライバシポリシやソースデータの送信制限を考慮して、この問題を解決するために、画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。 SODA-SRはソース学習モデルを利用して、教師学習のための洗練された擬似ラベルを生成する。 疑似ラベルをよりよく活用するために、既存のネットワークに柔軟に組み込むことができるウェーブレット拡張変換器(WAT)という新しいウェーブレットベースの拡張手法を提案し、有用な拡張データを暗黙的に生成する。 WATは、変形可能な注意によって効率的に集約される様々なサンプルの様々なレベルの低周波情報を学習する。 さらに、疑似ラベルの精度を向上させるために、不確実性を考慮した自己学習機構を提案し、不確実性推定によって不正確な予測が修正されている。 より優れたSR結果を取得し、擬似ラベルの過適合を避けるため、周波数領域におけるターゲットLRとSR画像の制約にいくつかの正規化損失が提案される。 実験によると、ソースデータにアクセスせずに、SODA-SRは合成$\rightarrow$realとreal$\rightarrow$realの両方で最先端のUDAメソッドより優れており、特定のネットワークアーキテクチャでは制約されない。

Unsupervised Domain Adaptation (UDA) can effectively address domain gap issues in real-world image Super-Resolution (SR) by accessing both the source and target data. Considering privacy policies or transmission restrictions of source data in practical scenarios, we propose a SOurce-free Domain Adaptation framework for image SR (SODA-SR) to address this issue, i.e., adapt a source-trained model to a target domain with only unlabeled target data. SODA-SR leverages the source-trained model to generate refined pseudo-labels for teacher-student learning. To better utilize pseudo-labels, we propose a novel wavelet-based augmentation method, named Wavelet Augmentation Transformer (WAT), which can be flexibly incorporated with existing networks, to implicitly produce useful augmented data. WAT learns low-frequency information of varying levels across diverse samples, which is aggregated efficiently via deformable attention. Furthermore, an uncertainty-aware self-training mechanism is proposed to improve the accuracy of pseudo-labels, with inaccurate predictions being rectified by uncertainty estimation. To acquire better SR results and avoid overfitting pseudo-labels, several regularization losses are proposed to constrain target LR and SR images in the frequency domain. Experiments show that without accessing source data, SODA-SR outperforms state-of-the-art UDA methods in both synthetic$\rightarrow$real and real$\rightarrow$real adaptation settings, and is not constrained by specific network architectures.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# 秩序流画像表現による短期変動予測の学習

Learning to Predict Short-Term Volatility with Order Flow Image Representation ( http://arxiv.org/abs/2304.02472v2 )

ライセンス: Link先を確認
Artem Lensky, Mingyu Hao, (参考訳) 導入: 注文フロー情報を用いてBitcoin価格の短期的な変動を予測するという課題に対処する。 本質的に確率的な性質と価格の反持続性は正確な予測に困難をもたらす。 方法: これを解決するため, 一定時間間隔(スナップショット)で順序流データを画像に変換する手法を提案する。 注文フローは、取引サイズ、取引方向、リミットオーダーブックを含み、画像カラーチャネルにマップされる。 これらの画像は、単純な3層畳み込みニューラルネットワーク(CNN)と、より高度なResNet-18とConvMixerの両方をトレーニングするために使用され、さらに手作りの機能を補う。 モデルは、従来のGARCH、生データに基づいて訓練された多層パーセプトロン、および現在のボラティリティを予測として考慮した単純推定法に対して評価される。 結果:2021年1月の価格データを用いて実験を行い,根平均二乗誤差(RMSPE)によるモデル性能の評価を行った。 その結果, 予測モデルとしてCNNを用いた順序流表現は, 集約された特徴を持つモデルに対して0.85+/-1.1, 特徴補足を伴わないモデルに対して1.0+/-1.4のRMSPEで, 最高の性能が得られることがわかった。 機能追加のConvMixerは、密接に従う。 一方, ナイーブ推定法における RMSPE は 1.4+/-3.0 であった。

Introduction: The paper addresses the challenging problem of predicting the short-term realized volatility of the Bitcoin price using order flow information. The inherent stochastic nature and anti-persistence of price pose difficulties in accurate prediction. Methods: To address this, we propose a method that transforms order flow data over a fixed time interval (snapshots) into images. The order flow includes trade sizes, trade directions, and limit order book, and is mapped into image colour channels. These images are then used to train both a simple 3-layer Convolutional Neural Network (CNN) and more advanced ResNet-18 and ConvMixer, with additionally supplementing them with hand-crafted features. The models are evaluated against classical GARCH, Multilayer Perceptron trained on raw data, and a naive guess method that considers current volatility as a prediction. Results: The experiments are conducted using price data from January 2021 and evaluate model performance in terms of root mean square error (RMSPE). The results show that our order flow representation with a CNN as a predictive model achieves the best performance, with an RMSPE of 0.85+/-1.1 for the model with aggregated features and 1.0+/-1.4 for the model without feature supplementation. ConvMixer with feature supplementation follows closely. In comparison, the RMSPE for the naive guess method was 1.4+/-3.0.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# 確率的グラフィカルモデルを用いたワーム開始器の並行解析

Contingency Analyses with Warm Starter using Probabilistic Graphical Model ( http://arxiv.org/abs/2304.06727v2 )

ライセンス: Link先を確認
Shimiao Li, Amritanshu Pandey, Larry Pileggi, (参考訳) サイバー脅威は電力網にとってますます一般的なリスクであり、セキュアなグリッド運用を妨げる可能性がある。 本稿では,サイバー脅威評価を含む緊急分析の拡張を提案する。 しかし、従来のN-1やN-2とは異なり、サイバースリート(例えば、MadIoT)は(k>>2)実際の時間内に難解なN-kをシミュレートする必要がある。 純粋に物理学に基づくパワーフローソルバは正確であるが、遅いため、N-kコンセントをタイムリーに解けない場合がある。 これらの課題に対処するために,サイバー脅威の迅速かつ正確な評価を行う条件付きガウスランダムフィールドに基づくデータ駆動手法を提案する。 物理解法における開始点の改善という温暖化開始シミュレーションにより,同時解析の高速化を実現する。 物理的解釈性と一般化性を改善するため,グリッドトポロジのグラフィカルな性質を考慮し,ドメイン知識を取り入れた手法を提案する。 拡張性を改善するため、物理インフォームド正規化を適用し、モデルの複雑さを低減する。 マッドIoTによる攻撃を温かいスターターでシミュレーションする実験は、現実的な2000バスシステムでは約5倍高速になる。

Cyberthreats are an increasingly common risk to the power grid and can thwart secure grid operations. We propose to extend contingency analysis to include cyberthreat evaluations. However, unlike the traditional N-1 or N-2 contingencies, cyberthreats (e.g., MadIoT) require simulating hard-to-solve N-k (with k >> 2) contingencies in a practical amount of time. Purely physics-based power flow solvers, while being accurate, are slow and may not solve N-k contingencies in a timely manner, whereas the emerging data-driven alternatives are fast but not sufficiently generalizable, interpretable, and scalable. To address these challenges, we propose a novel conditional Gaussian Random Field-based data-driven method that performs fast and accurate evaluation of cyberthreats. It achieves speedup of contingency analysis by warm-starting simulations, i.e., improving starting points, for the physical solvers. To improve the physical interpretability and generalizability, the proposed method incorporates domain knowledge by considering the graphical nature of the grid topology. To improve scalability, the method applies physics-informed regularization that reduces model complexity. Experiments validate that simulating MadIoT-induced attacks with our warm starter becomes approximately 5x faster on a realistic 2000-bus system.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# 表面プラズモン偏光子導波路によって形成される非マルコフ量子相互干渉

Non-Markovian quantum interconnect formed by a surface plasmon polariton waveguide ( http://arxiv.org/abs/2305.01156v2 )

ライセンス: Link先を確認
Chun-Jie Yang, Xin-Yue Liu, Shi-Qiang Xia, Si-Yuan Bai, Jun-Hong An, (参考訳) 遠方の量子エミッタ(QEs)間の効果的な相互作用を空飛ぶ光子を介して得ることができ、量子相互接続(QI)は本質的には光物質界面であり、量子技術の構成要素として機能する。 金属導波路で支持される表面プラズモン偏光子(SPP)は、強い光-物質結合を探索し、QIを実現するのに理想的な界面を提供する。 しかし、金属中のSPPの損失は、QEsの介在的絡み合いを減少させ、距離と時間の増加を妨げている。 金属ナノワイヤのSPPによって形成される非マルコフ的QIのスキームを提案する。 生成したQEsの絡み合いを持続させる機構が発見された。 総QE-SPP系のエネルギースペクトルにおいて境界状態が形成される限り、SPPを介する絡み合いの減衰は、SPPへの金属吸収の存在下でも克服される。 我々の発見は吸収性媒体における光-物質結合の理解を豊かにし、QI設計におけるSPPの利用方法を舗装する。

Allowing the generation of effective interactions between distant quantum emitters (QEs) via flying photons, quantum interconnect (QI) is essentially a light-matter interface and acts as a building block in quantum technologies. A surface plasmon polariton (SPP) supported by a metallic waveguide provides an ideal interface to explore strong light-matter couplings and to realize QI. However, the loss of SPP in metal makes the mediated entanglement of the QEs damp with the increase of the distance and time, which hinders its applications. We propose a scheme of non-Markovian QI formed by the SPP of a metallic nanowire. A mechanism to make the generated entanglement of the QEs persistent is discovered. We find that, as long as bound states are formed in the energy spectrum of total QE-SPP system, the damping of the SPP-mediated entanglement is overcome even in the presence of the metal absorption to the SPP. Our finding enriches our understanding of light-matter couplings in absorptive medium and paves the way for using the SPP in designing QI.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# タスク非依存BERT圧縮における重み付き蒸留法

Weight-Inherited Distillation for Task-Agnostic BERT Compression ( http://arxiv.org/abs/2305.09098v2 )

ライセンス: Link先を確認
Taiqiang Wu, Cheng Hou, Shanshan Lao, Jiayi Li, Ngai Wong, Zhe Zhao, Yujiu Yang, (参考訳) 知識蒸留(KD)はBERT圧縮の主要な手法である。 従来のKDベースの手法では、教師モデルの振る舞いを模倣するために、学生モデルの余分なアライメント損失を設計することに集中していた。 これらの手法は間接的に知識を伝達する。 本稿では,教師から直接知識を伝達するWID(Weight-Inherited Distillation)を提案する。 WIDは付加的なアライメント損失を必要とせず、知識蒸留の新たな視点を示すため、体重を継承することでコンパクトな学生を訓練する。 具体的には、列圧縮機と列圧縮機を写像として設計し、構造的再パラメータ化により重みを圧縮する。 GLUEとSQuADのベンチマーク実験の結果、WIDは従来のKDベースのベースラインよりも優れていた。 さらに分析した結果,教師モデルから注意パターンを学習しても,注意分布のアライメントを損なうことなく学習できることが示唆された。 コードはhttps://github.com/wutaiqiang/WID-NAACL2024で公開されている。

Knowledge Distillation (KD) is a predominant approach for BERT compression. Previous KD-based methods focus on designing extra alignment losses for the student model to mimic the behavior of the teacher model. These methods transfer the knowledge in an indirect way. In this paper, we propose a novel Weight-Inherited Distillation (WID), which directly transfers knowledge from the teacher. WID does not require any additional alignment loss and trains a compact student by inheriting the weights, showing a new perspective of knowledge distillation. Specifically, we design the row compactors and column compactors as mappings and then compress the weights via structural re-parameterization. Experimental results on the GLUE and SQuAD benchmarks show that WID outperforms previous state-of-the-art KD-based baselines. Further analysis indicates that WID can also learn the attention patterns from the teacher model without any alignment loss on attention distributions. The code is available at https://github.com/wutaiqiang/WID-NAACL2024.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# マシンメイドメディア:誤情報とメインストリームニュースサイトにおける機械学習記事のモビライゼーションのモニタリング

Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites ( http://arxiv.org/abs/2305.09820v5 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric, (参考訳) ChatGPTのような大規模言語モデル(LLM)が注目を集めるにつれ、ニュースサイトが記事作成に利用し始めている。 しかし、これらの言語モデルは、信頼できるウェブサイト上で事実的に不正確な記事を生成できるだけでなく、不確かなニュースサイトはLLMを利用して誤情報を大量生成することができる。 この現象を理解するために,オンラインニュースメディアにおける合成記事の普及状況について,大規模な研究を行った。 そのために、DeBERTaベースの合成ニュース検出器を訓練し、3,074件の誤報やメインストリームのニュースサイトから156万件以上の記事を分類する。 2022年1月1日から2023年5月1日までの間に、メインストリームのウェブサイトでは、合成ニュース記事の相対数が57.3%増加し、誤情報サイトでは474%増加した。 この増加は、ほとんど人気が低いウェブサイトによって引き起こされている。 中断時間番組を用いたChatGPTのリリースの影響を分析した結果,小規模サイトや誤報ニュースサイトにおける合成記事の増加は顕著であったが,大手ニュースサイトではそれに相当する増加は見られなかった。

As large language models (LLMs) like ChatGPT have gained traction, an increasing number of news websites have begun utilizing them to generate articles. However, not only can these language models produce factually inaccurate articles on reputable websites but disreputable news sites can utilize LLMs to mass produce misinformation. To begin to understand this phenomenon, we present one of the first large-scale studies of the prevalence of synthetic articles within online news media. To do this, we train a DeBERTa-based synthetic news detector and classify over 15.46 million articles from 3,074 misinformation and mainstream news websites. We find that between January 1, 2022, and May 1, 2023, the relative number of synthetic news articles increased by 57.3% on mainstream websites while increasing by 474% on misinformation sites. We find that this increase is largely driven by smaller less popular websites. Analyzing the impact of the release of ChatGPT using an interrupted-time-series, we show that while its release resulted in a marked increase in synthetic articles on small sites as well as misinformation news websites, there was not a corresponding increase on large mainstream news websites.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# SPDニューラルネットワークに対するリーマン多項ロジスティックス回帰

Riemannian Multinomial Logistics Regression for SPD Neural Networks ( http://arxiv.org/abs/2305.11288v2 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Gaowen Liu, Ramana Rao Kompella, Xiaojun Wu, Nicu Sebe, (参考訳) Symmetric Positive Definite (SPD)行列を学習するためのディープニューラルネットワークは、機械学習において注目を集めている。 かなりの進歩にもかかわらず、既存のSPDネットワークのほとんどは、SPD多様体の幾何を正確に捉える固有の分類器ではなく、近似空間上の伝統的なユークリッド分類器を使用している。 ハイパボリックニューラルネットワーク(HNN)に着想を得て,SPDネットワークの分類層に対して,Riemannian Multinomial Logistics Regression (RMLR)を提案する。 我々は、ユークリッド空間から引き戻されたメトリクスに基づいてリーマン分類器を構築するための統一的なフレームワークを導入し、パラメータ化されたLog-Euclidean Metric (LEM) とLog-Cholesky Metric (LCM)の下で我々のフレームワークを紹介した。 さらに,本フレームワークは既存のSPDネットワークにおけるLogEig分類器の斬新な説明を提供する。 本手法の有効性は,レーダ認識,人行動認識,脳波分類(EEG)の3つの応用で実証された。 コードはhttps://github.com/GitZH-Chen/SPDMLR.gitで公開されている。

Deep neural networks for learning Symmetric Positive Definite (SPD) matrices are gaining increasing attention in machine learning. Despite the significant progress, most existing SPD networks use traditional Euclidean classifiers on an approximated space rather than intrinsic classifiers that accurately capture the geometry of SPD manifolds. Inspired by Hyperbolic Neural Networks (HNNs), we propose Riemannian Multinomial Logistics Regression (RMLR) for the classification layers in SPD networks. We introduce a unified framework for building Riemannian classifiers under the metrics pulled back from the Euclidean space, and showcase our framework under the parameterized Log-Euclidean Metric (LEM) and Log-Cholesky Metric (LCM). Besides, our framework offers a novel intrinsic explanation for the most popular LogEig classifier in existing SPD networks. The effectiveness of our method is demonstrated in three applications: radar recognition, human action recognition, and electroencephalography (EEG) classification. The code is available at https://github.com/GitZH-Chen/SPDMLR.git.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# AttriCLIP : インクリメンタル知識学習のための非インクリメンタル学習システム

AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning ( http://arxiv.org/abs/2305.11488v2 )

ライセンス: Link先を確認
Runqi Wang, Xiaoyue Duan, Guoliang Kang, Jianzhuang Liu, Shaohui Lin, Songcen Xu, Jinhu Lv, Baochang Zhang, (参考訳) 連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。 従来の分類アーキテクチャは特徴抽出器と分類器から構成されていた。 特徴抽出器は順次到着したタスクやクラス間で共有されるが、新しいクラスに対応する分類器の重みの1つの特定のグループをインクリメンタルに拡張する必要がある。 これにより、連続学習者のパラメータが徐々に増加する。 さらに、分類器は歴史的に到達した全てのクラスを含んでいるため、記憶の特定のサイズは、分類器バイアスと破滅的な忘れを緩和するためにリハーサルデータを格納する必要がある。 本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。 具体的には、AttriCLIPは事前訓練されたビジュアル言語モデルCLIP上に構築されている。 画像エンコーダとテキストエンコーダは、画像とテキストの両方から特徴を抽出するために固定されている。 テキストはカテゴリ名と,設計した属性単語バンクから選択され,属性として機能する,一定の数の学習可能なパラメータから構成される。 分類のための視覚的およびテキスト的類似性を計算すると、AttriCLIPは非インクリメンタル学習者となる。 属性プロンプトは、分類に有用な共通知識を符号化し、破滅的な忘れを効果的に軽減し、リプレイメモリの構築を避けることができる。 我々はAttriCLIPを評価し,CLIPをベースとした従来の最先端の連続学習手法と比較した。 その結果,本手法は従来の最先端技術に対して良好に機能することがわかった。 実装コードはhttps://github.com/bhrqw/AttriCLIPで入手できる。

Continual learning aims to enable a model to incrementally learn knowledge from sequentially arrived data. Previous works adopt the conventional classification architecture, which consists of a feature extractor and a classifier. The feature extractor is shared across sequentially arrived tasks or classes, but one specific group of weights of the classifier corresponding to one new class should be incrementally expanded. Consequently, the parameters of a continual learner gradually increase. Moreover, as the classifier contains all historical arrived classes, a certain size of the memory is usually required to store rehearsal data to mitigate classifier bias and catastrophic forgetting. In this paper, we propose a non-incremental learner, named AttriCLIP, to incrementally extract knowledge of new classes or tasks. Specifically, AttriCLIP is built upon the pre-trained visual-language model CLIP. Its image encoder and text encoder are fixed to extract features from both images and text. Text consists of a category name and a fixed number of learnable parameters which are selected from our designed attribute word bank and serve as attributes. As we compute the visual and textual similarity for classification, AttriCLIP is a non-incremental learner. The attribute prompts, which encode the common knowledge useful for classification, can effectively mitigate the catastrophic forgetting and avoid constructing a replay memory. We evaluate our AttriCLIP and compare it with CLIP-based and previous state-of-the-art continual learning methods in realistic settings with domain-shift and long-sequence learning. The results show that our method performs favorably against previous state-of-the-arts. The implementation code can be available at https://github.com/bhrqw/AttriCLIP.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# PaD: プログラムによる蒸留は、微調整よりも小さなモデルを学べる

PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning ( http://arxiv.org/abs/2305.13888v2 )

ライセンス: Link先を確認
Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xinwei Long, Zhouhan Lin, Bowen Zhou, (参考訳) 大きな言語モデル(LLM)は、様々な自然言語処理タスクに優れていますが、その大きなサイズとパラメータのアクセシビリティは、実践的なデプロイメントの課題を示します。 従来の研究では、データ合成とチェーン・オブ・シークレット(CoT)ファインチューニングを用いて、LLMからより小さなモデルにタスク固有の能力を抽出しようと試みていた。 しかし, 合成CoTデータには, 蒸留品質の低下, 特に推理能力の低下などが生じている。 本研究では, 蒸留データの誤りを抑えるための推論プログラムを導入するプログラム支援蒸留(PaD)を提案する。 PaDでは、この推論プログラムを用いてCoTを置換し、合成データの自動エラーチェックを可能にする。 さらに, 誤り注入および更なる訓練により, 小さな蒸留モデルにより, 推論を反復的に自己再定義することが可能となった。 さらに、より正確な推論チェーンを取得するために、ステップバイステップ検証によりステップワイズビームサーチを行う。 算術的推論,記号的推論,一般能力に基づいてPaDを評価する。 実験結果から, PaD を用いた小型モデルは, LLMs~(e g , LLaMA-1 13B) よりも優れるだけでなく, パラメータやデータのスケールが大幅に小さく, ベースラインよりも強力な改善が達成できることが示された。 ソースコードはhttps://github.com/Xuekai-Zhu/padで公開されている。

While large language models (LLMs) excel in various natural language processing tasks, their huge size and the inaccessibility of parameters present challenges for practical deployment. Previous studies try to distill task-specific ability from LLMs to smaller models, using data synthesis and chain-of-thought (CoT) fine-tuning. However, synthetic CoT data often contains faulty reasoning, which deteriorates the quality of distillation, especially in reasoning capabilities. In this work, we propose Program-aided Distillation (PaD), which introduces reasoning programs to suppress the errors in distilled data, and thus achieves better distillation quality for reasoning tasks. In PaD, we utilize the reasoning program to substitute the CoT, allowing automated error checking of synthetic data. Further, through error injecting and further training, the small distilling model could iteratively self-refine the reasoning. Moreover, we conduct a step-wise beam search by step-by-step verifying to acquire more exact reasoning chains. We evaluate PaD on arithmetic reasoning, symbolic reasoning, and general ability. Experimental results demonstrate that smaller models using PaD can not only outperform certain LLMs~(e.g., LLaMA-1 13B) but also achieve strong improvement over baselines with a significantly smaller scale of parameters and data. The source code is publicly available at https://github.com/Xuekai-Zhu/pad.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# 養蜂後にビールを摂取する : 大規模言語モデルにおける文化的バイアスの測定

Having Beer after Prayer? Measuring Cultural Bias in Large Language Models ( http://arxiv.org/abs/2305.14456v4 )

ライセンス: Link先を確認
Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu, (参考訳) 大規模言語モデル(LM)が世界規模で普及するにつれ、多様な文化的文脈に適応する能力が重要となる。 多言語能力の進歩にもかかわらず、モデルは適切な文化的ニュアンスで設計されていない。 本稿では、多言語とアラビア語のモノリンガルなLMが西洋文化に関連する実体に偏りを示すことを示す。 アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。 CAMeLは、外因性評価と内因性評価の両方を通じて、LMの文化的バイアスを測定する基盤を提供する。 CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、アラビア語の16種類の異なるLMの異文化間パフォーマンスについて検討し、ステレオタイピングや文化的不公平の事例について考察した。 さらに、アラブ文化の文脈に適切な適応ができないことを明らかにする。 最後に、6つのアラビア事前学習コーパスを分析し、もし調整なしで使用すれば、ウィキペディアのような一般的なソースは、文化的に認識されたLMを構築するのに適さないかもしれないことを発見した。 CAMeL を https://github.com/tareknaous/camel で公開します。

As the reach of large language models (LMs) expands globally, their ability to cater to diverse cultural contexts becomes crucial. Despite advancements in multilingual capabilities, models are not designed with appropriate cultural nuances. In this paper, we show that multilingual and Arabic monolingual LMs exhibit bias towards entities associated with Western culture. We introduce CAMeL, a novel resource of 628 naturally-occurring prompts and 20,368 entities spanning eight types that contrast Arab and Western cultures. CAMeL provides a foundation for measuring cultural biases in LMs through both extrinsic and intrinsic evaluations. Using CAMeL, we examine the cross-cultural performance in Arabic of 16 different LMs on tasks such as story generation, NER, and sentiment analysis, where we find concerning cases of stereotyping and cultural unfairness. We further test their text-infilling performance, revealing the incapability of appropriate adaptation to Arab cultural contexts. Finally, we analyze 6 Arabic pre-training corpora and find that commonly used sources such as Wikipedia may not be best suited to build culturally aware LMs, if used as they are without adjustment. We will make CAMeL publicly available at: https://github.com/tareknaous/camel
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# StyleHumanCLIP:StyleGAN-Human用テキストガイドガーメントマニピュレーション

StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human ( http://arxiv.org/abs/2305.16759v4 )

ライセンス: Link先を確認
Takato Yoshikawa, Yuki Endo, Yoshihiro Kanamori, (参考訳) 本論文は、フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。 既存のスタイルGANベースの手法は、衣服や体型、ポーズの多様さに悩まされている。 本稿では,注意に基づく潜在コードマッパーを用いたテキスト誘導フルボディ画像合成のためのフレームワークを提案する。 我々の潜在コードマッパーは、テキストガイダンスの下で異なるスタイルGAN層上の個々の潜時コードを適応的に操作するアテンションメカニズムを採用している。 また,テキスト入力による不要な変化を避けるため,推定時に特徴空間マスキングを導入する。 定量的および定性的な評価により,既存の手法よりもテキストに忠実に生成した画像を制御できることが明らかになった。

This paper tackles text-guided control of StyleGAN for editing garments in full-body human images. Existing StyleGAN-based methods suffer from handling the rich diversity of garments and body shapes and poses. We propose a framework for text-guided full-body human image synthesis via an attention-based latent code mapper, which enables more disentangled control of StyleGAN than existing mappers. Our latent code mapper adopts an attention mechanism that adaptively manipulates individual latent codes on different StyleGAN layers under text guidance. In addition, we introduce feature-space masking at inference time to avoid unwanted changes caused by text inputs. Our quantitative and qualitative evaluations reveal that our method can control generated images more faithfully to given texts than existing methods.
翻訳日:2024-03-21 23:07:03 公開日:2024-03-20
# 距離空間と長田次元における$k$-NN則の普遍的整合性 II

Universal consistency of the $k$-NN rule in metric spaces and Nagata dimension. II ( http://arxiv.org/abs/2305.17282v5 )

ライセンス: Link先を確認
Sushma Kumari, Vladimir G. Pestov, (参考訳) 完全可分距離空間における近辺(k$-NN)学習規則を引き続き検討する。 C\'erou and Guyader (2006) と Preiss (1983) の結果により、この規則は長田の意味においてシグマ有限次元であるすべての計量空間において普遍的に整合であることが知られている。 ここでは、この規則が関係の欠如においてそのような空間において強く普遍的に整合であることを示す。 Devroyeが適用したタイブレーキング戦略では、Gy\"{o}rfi, Krzy\。 ユークリッド集合における {z}ak, and Lugosi (1994) は、非アーキメディア計量空間(すなわち、長田次元 0 の空間)において強い普遍的整合性を示す。 C\'erou と Guyader の定理と Assouad と Quentin de Gromard (2006) の結果を組み合わせると、$k$-NN 則はデ・グルートの意味で有限次元の計量空間において普遍的に一貫したものであると推測される。 特に、$k$-NN 則は、Kor\'anyi and Reimann (1995) と Sawyer and Wheeden (1992) によって独立に構築された例から、長田の意味ではシグマ有限次元ではないハイゼンベルク群において普遍的に一貫したものである。

We continue to investigate the $k$ nearest neighbour ($k$-NN) learning rule in complete separable metric spaces. Thanks to the results of C\'erou and Guyader (2006) and Preiss (1983), this rule is known to be universally consistent in every such metric space that is sigma-finite dimensional in the sense of Nagata. Here we show that the rule is strongly universally consistent in such spaces in the absence of ties. Under the tie-breaking strategy applied by Devroye, Gy\"{o}rfi, Krzy\.{z}ak, and Lugosi (1994) in the Euclidean setting, we manage to show the strong universal consistency in non-Archimedian metric spaces (that is, those of Nagata dimension zero). Combining the theorem of C\'erou and Guyader with results of Assouad and Quentin de Gromard (2006), one deduces that the $k$-NN rule is universally consistent in metric spaces having finite dimension in the sense of de Groot. In particular, the $k$-NN rule is universally consistent in the Heisenberg group which is not sigma-finite dimensional in the sense of Nagata as follows from an example independently constructed by Kor\'anyi and Reimann (1995) and Sawyer and Wheeden (1992).
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# 言語モデルは、いつ参照を幻覚しているかを知っていますか?

Do Language Models Know When They're Hallucinating References? ( http://arxiv.org/abs/2305.18248v3 )

ライセンス: Link先を確認
Ayush Agrawal, Mirac Suzgun, Lester Mackey, Adam Tauman Kalai, (参考訳) State-of-the-art Language Model (LM) は、幻覚情報を生成するのに非常に敏感である。 このような不正確な出力は、これらのモデルの信頼性を損なうだけでなく、それらの使用を制限し、誤情報やプロパガンダに対する深刻な懸念を引き起こす。 本研究は, 言語モデル幻覚研究の「モデル生物」として, 頻繁で分かりやすい性質から, 幻覚書や記事参照に焦点をあてたものである。 言語モデルがその出力に特定の参照を引用するならば、著者やコンテンツに関する十分な情報を理想的に保持すべきである、と仮定する。 この基本的な知見を用いて、言語モデルに参照について直接または間接的なクエリのセットを問い合わせることにより、外部リソースに相談することなく、幻覚的参照を識別できることを示す。 これらのクエリは、"一貫性チェック"と見なすことができる。 以上の結果から, GPT-4を含むLMは, 幻覚的参照に対して不整合な著者リストを生成することが多いが, 実参照の作者を正確に思い出す場合が多いことが示唆された。 この意味で、LMは幻覚的参照であるときに「知る」と言える。 さらに, これらの知見は, 幻覚参照を解離して自然光を放つ方法を示している。 レプリケーションコードと結果はhttps://github.com/microsoft/hallucinated-referencesで見ることができる。

State-of-the-art language models (LMs) are notoriously susceptible to generating hallucinated information. Such inaccurate outputs not only undermine the reliability of these models but also limit their use and raise serious concerns about misinformation and propaganda. In this work, we focus on hallucinated book and article references and present them as the "model organism" of language model hallucination research, due to their frequent and easy-to-discern nature. We posit that if a language model cites a particular reference in its output, then it should ideally possess sufficient information about its authors and content, among other relevant details. Using this basic insight, we illustrate that one can identify hallucinated references without ever consulting any external resources, by asking a set of direct or indirect queries to the language model about the references. These queries can be considered as "consistency checks." Our findings highlight that while LMs, including GPT-4, often produce inconsistent author lists for hallucinated references, they also often accurately recall the authors of real references. In this sense, the LM can be said to "know" when it is hallucinating references. Furthermore, these findings show how hallucinated references can be dissected to shed light on their nature. Replication code and results can be found at https://github.com/microsoft/hallucinated-references.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# Pythonプログラムにおけるフォールトローカライゼーションに関する実証的研究

An Empirical Study of Fault Localization in Python Programs ( http://arxiv.org/abs/2305.19834v3 )

ライセンス: Link先を確認
Mohammad Rezaalipour, Carlo A. Furia, (参考訳) プログラミング言語としては非常に人気があるが、特にデータサイエンスプログラムのような新しい領域では、Pythonをターゲットにしたフォールトローカライゼーションについてはほとんど研究されていない。 C/C++やJava(フォールトローカライゼーション研究の最も一般的な選択である)のようなプログラミング言語に関するいくつかの発見が、Pythonの動的性質と実際に言語がどのように使われているかが、古典的なフォールトローカライゼーションアプローチの能力に影響を与えているかどうか、他の言語に続いていることは確実である。 本稿では,実環境におけるPythonプログラムと障害の局所化に関するマルチファミリー大規模実証的研究である。 本稿では,BugsInPyが収集した13のオープンソースPythonプロジェクトの135の障害に基づいて,Zou et alのJavaにおける障害局所化に関する最近の大規模な実証研究を用いて,既知の7つの障害局所化技術(スペクトルベース,突然変異ベース,述語スイッチング,スタックトレース)の有効性(ローカライズ精度,実行時性能など)と,他の機能(エンティティの粒度など)を検討した。 結果は、PythonのJavaに関するいくつかの成果を再現し、Pythonの特異性が障害ローカライゼーションの能力に影響を及ぼすかどうかを明かした。 この論文に付随するレプリケーションパッケージには、我々の実験に関する詳細なデータと、調査を実施するために実装したFauxPyツールが含まれています。

Despite its massive popularity as a programming language, especially in novel domains like data science programs, there is comparatively little research about fault localization that targets Python. Even though it is plausible that several findings about programming languages like C/C++ and Java -- the most common choices for fault localization research -- carry over to other languages, whether the dynamic nature of Python and how the language is used in practice affect the capabilities of classic fault localization approaches remain open questions to investigate. This paper is the first multi-family large-scale empirical study of fault localization on real-world Python programs and faults. Using Zou et al.'s recent large-scale empirical study of fault localization in Java as the basis of our study, we investigated the effectiveness (i.e., localization accuracy), efficiency (i.e., runtime performance), and other features (e.g., different entity granularities) of seven well-known fault-localization techniques in four families (spectrum-based, mutation-based, predicate switching, and stack-trace based) on 135 faults from 13 open-source Python projects from the BugsInPy curated collection. The results replicate for Python several results known about Java, and shed light on whether Python's peculiarities affect the capabilities of fault localization. The replication package that accompanies this paper includes detailed data about our experiments, as well as the tool FauxPy that we implemented to conduct the study.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# 疾患のセマンティック情報を探る:中国病の正規化のための簡易データ拡張技術

Exploring semantic information in disease: Simple Data Augmentation Techniques for Chinese Disease Normalization ( http://arxiv.org/abs/2306.01931v2 )

ライセンス: Link先を確認
Wenqian Cui, Xiangling Fu, Shaohui Liu, Mingjun Gu, Xien Liu, Ji Wu, Irwin King, (参考訳) 病名正規化は医療分野において重要な課題である。 様々なフォーマットで書かれた疾患名を標準化された名前に分類し、さまざまな疾患関連機能のためのスマートヘルスケアシステムの基本コンポーネントとして機能する。 それでも、既存の病名正規化システムにとって最も重要な障害は、トレーニングデータの不足である。 データ拡張はデータ不足に対処するための強力なアプローチであるが、従来のデータ拡張技術は、主に疾患名の多軸および多粒性の性質のために、タスクパフォーマンスを阻害することが多い。 そこで本研究では,病名固有の意味情報を活用するために,カスタマイズしたデータ拡張手法を提案する。 これらの手法は、疾患名の意味的複雑さと分類構造に対するモデルの理解を高めることを目的としている。 広汎な実験を通して,提案手法は一般的なデータ拡張技術を超えるだけでなく,様々なベースラインモデルやトレーニング目標,特に限られたトレーニングデータを持つシナリオにおいて,大幅な性能向上を示すことを示す。 このことは、医療言語処理タスクに広く応用される可能性を示している。

Disease name normalization is an important task in the medical domain. It classifies disease names written in various formats into standardized names, serving as a fundamental component in smart healthcare systems for various disease-related functions. Nevertheless, the most significant obstacle to existing disease name normalization systems is the severe shortage of training data. While data augmentation is a powerful approach for addressing data scarcity, our findings reveal that conventional data augmentation techniques often impede task performance, primarily due to the multi-axis and multi-granularity nature of disease names. Consequently, we introduce a set of customized data augmentation techniques designed to leverage the semantic information inherent in disease names. These techniques aim to enhance the model's understanding of the semantic intricacies and classification structure of disease names. Through extensive experimentation, we illustrate that our proposed plug-and-play methods not only surpass general data augmentation techniques but also exhibit significant performance improvements across various baseline models and training objectives, particularly in scenarios with limited training data. This underscores its potential for widespread application in medical language processing tasks.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# 機械学習を用いた解析的物理問題に対する正確な解析解の探索

Using machine learning to find exact analytic solutions to analytically posed physics problems ( http://arxiv.org/abs/2306.02528v2 )

ライセンス: Link先を確認
Sahel Ashhab, (参考訳) 理論物理学における解析問題に対する機械学習の利用について検討する。 特に、記号回帰(SR)は、全体形が事前に分かっていない関数を用いてデータを適合させるツールとして、近年急速に進歩している。 解析的に仮定される数学的問題、例えば ~スルー方程式を仮定するが、任意の入力変数値の任意の集合に対する解の数値的な評価が容易であると仮定すると、SRを用いてデータを記述する閉形式関数を同定し、そのような関数が存在すると仮定することができる。 問題の解を簡潔に表現する方法を提供することに加え、得られた関数は洞察を与える上で重要な役割を担い、研究された現象の直感的な説明を見つけることができる。 我々は、最先端のSRパッケージを使用して、正確な解を見つける方法を実証し、未解決の物理学問題を解こうとする。 ランダウ・ツェナー問題とその一般化のいくつかを例に、我々のアプローチを動機付け、問題の難しさを増すにつれて計算がますます複雑になることを示す。 その結果,現在利用可能なSRパッケージの機能と限界が強調され,それらのパッケージを改良して,適切な近似ではなく正確な解を求めるのに適したものにすることを示唆している。 また,理論物理学における解析的問題に機械学習が取り組む可能性を示した。

We investigate the use of machine learning for solving analytic problems in theoretical physics. In particular, symbolic regression (SR) is making rapid progress in recent years as a tool to fit data using functions whose overall form is not known in advance. Assuming that we have a mathematical problem that is posed analytically, e.g.~through equations, but allows easy numerical evaluation of the solution for any given set of input variable values, one can generate data numerically and then use SR to identify the closed-form function that describes the data, assuming that such a function exists. In addition to providing a concise way to represent the solution of the problem, such an obtained function can play a key role in providing insight and allow us to find an intuitive explanation for the studied phenomenon. We use a state-of-the-art SR package to demonstrate how an exact solution can be found and make an attempt at solving an unsolved physics problem. We use the Landau-Zener problem and a few of its generalizations as examples to motivate our approach and illustrate how the calculations become increasingly complicated with increasing problem difficulty. Our results highlight the capabilities and limitations of the presently available SR packages, and they point to possible modifications of these packages to make them better suited for the purpose of finding exact solutions as opposed to good approximations. Our results also demonstrate the potential for machine learning to tackle analytically posed problems in theoretical physics.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# ロボットマニピュレーションのための世界モデルによるプログレッシブ推論

Surfer: Progressive Reasoning with World Models for Robotic Manipulation ( http://arxiv.org/abs/2306.11335v4 )

ライセンス: Link先を確認
Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen, Fengda Zhu, Mas Ma, Xiaodan Liang, (参考訳) ロボット操作において,自然言語の指示を正確に理解し,世界的知識と整合した行動を実行する方法を考えることが重要な課題である。 これには、主に人間のファジィな指示推論と、身体的知識の次のものが含まれる。 したがって、具体的インテリジェンスエージェントは、トレーニングデータから世界知識をモデル化する能力を持つ必要がある。 しかし、既存の視覚・言語ロボット操作手法のほとんどは、現実的でないシミュレータや言語設定で動作し、世界知識の明示的なモデリングを欠いている。 このギャップを埋めるために、Surferと呼ばれる新しいシンプルなロボット操作フレームワークを導入する。 これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。 そして,複数モーダル情報におけるアクションの明示的モデリングとシーン予測により,新たな命令やシーンに対するモデルの一般化能力を向上させる。 このフレームワークに加えて、MuJoCo物理エンジンに基づく完全な物理実行をサポートするロボット操作シミュレータも構築した。 デモトレーニングデータとテストデータを自動的に生成し、労働コストを効果的に削減することができる。 言語理解と物理実行の観点からロボット操作モデルの包括的かつ体系的な評価を行うため,シーウェーブと呼ばれる進行的推論タスクを備えたロボット操作ベンチマークも作成した。 4段階のプログレッシブ推論タスクを含み、マルチモーダル環境で組み込みAIエージェントのための標準化されたテストプラットフォームを提供する。 平均して、サーファーは定義された4レベルの操作タスクで54.74%の成功率に達し、47.64%のベースライン性能を上回った。

Considering how to make the model accurately understand and follow natural language instructions and perform actions consistent with world knowledge is a key challenge in robot manipulation. This mainly includes human fuzzy instruction reasoning and the following of physical knowledge. Therefore, the embodied intelligence agent must have the ability to model world knowledge from training data. However, most existing vision and language robot manipulation methods mainly operate in less realistic simulator and language settings and lack explicit modeling of world knowledge. To bridge this gap, we introduce a novel and simple robot manipulation framework, called Surfer. It is based on the world model, treats robot manipulation as a state transfer of the visual scene, and decouples it into two parts: action and scene. Then, the generalization ability of the model on new instructions and new scenes is enhanced by explicit modeling of the action and scene prediction in multi-modal information. In addition to the framework, we also built a robot manipulation simulator that supports full physics execution based on the MuJoCo physics engine. It can automatically generate demonstration training data and test data, effectively reducing labor costs. To conduct a comprehensive and systematic evaluation of the robot manipulation model in terms of language understanding and physical execution, we also created a robotic manipulation benchmark with progressive reasoning tasks, called SeaWave. It contains 4 levels of progressive reasoning tasks and can provide a standardized testing platform for embedded AI agents in multi-modal environments. On average, Surfer achieved a success rate of 54.74% on the defined four levels of manipulation tasks, exceeding the best baseline performance of 47.64%.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# エンティティリンクのためのRetriever-Reader Paradigmの双方向エンドツーエンド学習

Bidirectional End-to-End Learning of Retriever-Reader Paradigm for Entity Linking ( http://arxiv.org/abs/2306.12245v4 )

ライセンス: Link先を確認
Yinghui Li, Yong Jiang, Yangning Li, Xingyu Lu, Pengjun Xie, Ying Shen, Hai-Tao Zheng, (参考訳) エンティティリンク(EL)は、情報抽出および知識グラフの基本的なタスクである。 ELの一般的な形式(すなわち、エンドツーエンドのEL)は、まず与えられた入力文書に言及を見つけ、次に特定の知識ベースで対応するエンティティにその言及をリンクすることを目的としている。 近年,高密度エンティティ検索と機械読解の利点を生かして,エンド・ツー・エンド・エンドELの進展を促進するレトリバー・リーダーのパラダイムが注目されている。 しかし,既存の研究では,レトリバーとリーダをパイプライン方式で個別に学習するのみであり,レトリバーとリーダのインタラクションがタスクにもたらすメリットを無視している。 RetrieverとReaderのための双方向エンドツーエンドトレーニングフレームワークであるBEER$^2$を提案する。 設計した双方向のエンドツーエンドトレーニングを通じて、BEER$^2$は、レトリバーとリーダーをガイドし、互いに学習し、前進し、最終的にEL性能を向上させる。 複数のドメインのベンチマークに関する大規模な実験は、提案したBEER$^2$の有効性を示す。

Entity Linking (EL) is a fundamental task for Information Extraction and Knowledge Graphs. The general form of EL (i.e., end-to-end EL) aims to first find mentions in the given input document and then link the mentions to corresponding entities in a specific knowledge base. Recently, the paradigm of retriever-reader promotes the progress of end-to-end EL, benefiting from the advantages of dense entity retrieval and machine reading comprehension. However, the existing study only trains the retriever and the reader separately in a pipeline manner, which ignores the benefit that the interaction between the retriever and the reader can bring to the task. To advance the retriever-reader paradigm to perform more perfectly on end-to-end EL, we propose BEER$^2$, a Bidirectional End-to-End training framework for Retriever and Reader. Through our designed bidirectional end-to-end training, BEER$^2$ guides the retriever and the reader to learn from each other, make progress together, and ultimately improve EL performance. Extensive experiments on benchmarks of multiple domains demonstrate the effectiveness of our proposed BEER$^2$.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# 正しい人間:中国語テキスト誤り訂正のためのプログレッシブラーニングフレームワーク

Correct Like Humans: Progressive Learning Framework for Chinese Text Error Correction ( http://arxiv.org/abs/2306.17447v3 )

ライセンス: Link先を確認
Yinghui Li, Shirong Ma, Shaoshen Chen, Haojing Huang, Shulin Huang, Yangning Li, Hai-Tao Zheng, Ying Shen, (参考訳) 中国語テキスト誤り訂正(CTEC)は,入力テキスト中の誤りを検出し,訂正することを目的としている。 最近のアプローチではCTECの解決にPLM(Pre-trained Language Models)を主に採用している。 PLMはCTECで顕著に成功したが、これまでの研究は人間の思考パターンの重要性を軽視していた。 人間の日常的誤り訂正行動にインスパイアされたCTEC用PLMの開発を促進するため,PLMをベースとしたCTECモデルを案内するProTECという,新しいモデルに依存しないプログレッシブラーニングフレームワークを提案する。 トレーニングプロセス中、ProTECは、これらのサブタスクをプログレッシブパラダイムに組み込むことで、テキストエラー訂正を学ぶためのモデルをガイドする。 推論プロセスの間、モデルはこれらのサブタスクを順番に完了し、修正結果を生成する。 提案したモデルに依存しないProTECフレームワークの有効性と有効性を示す実験と詳細な分析を行った。

Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC. Although PLMs have achieved remarkable success in CTEC, we argue that previous studies still overlook the importance of human thinking patterns. To enhance the development of PLMs for CTEC, inspired by humans' daily error-correcting behavior, we propose a novel model-agnostic progressive learning framework, named ProTEC, which guides PLMs-based CTEC models to learn to correct like humans. During the training process, ProTEC guides the model to learn text error correction by incorporating these sub-tasks into a progressive paradigm. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses demonstrate the effectiveness and efficiency of our proposed model-agnostic ProTEC framework.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# Bounce: 組合せ空間と混合空間の信頼性の高い高次元ベイズ最適化

Bounce: Reliable High-Dimensional Bayesian Optimization for Combinatorial and Mixed Spaces ( http://arxiv.org/abs/2307.00618v2 )

ライセンス: Link先を確認
Leonard Papenmeier, Luigi Nardi, Matthias Poloczek, (参考訳) 材料発見、ハードウェア設計、ニューラルアーキテクチャ探索、ポートフォリオ最適化といった影響のあるアプリケーションでは、混合入力空間と組合せ入力空間で高次元のブラックボックス関数を最適化する必要がある。 ベイズ最適化は近年,そのような問題を解く上で大きな進歩を遂げている。 それらの性能は、関数の未知の最適度が特定の構造を持っていない場合に著しく低下する。 組合せ空間と混合空間に対する信頼性のあるアルゴリズムの必要性を補うために,様々な変数型の新しい写像を次元が増大する入れ子埋め込みに頼ったバウンスを提案する。 総合的な実験により、バウンスは様々な高次元問題に対する最先端の性能を確実に達成し、しばしば改善することを示した。

Impactful applications such as materials discovery, hardware design, neural architecture search, or portfolio optimization require optimizing high-dimensional black-box functions with mixed and combinatorial input spaces. While Bayesian optimization has recently made significant progress in solving such problems, an in-depth analysis reveals that the current state-of-the-art methods are not reliable. Their performances degrade substantially when the unknown optima of the function do not have a certain structure. To fill the need for a reliable algorithm for combinatorial and mixed spaces, this paper proposes Bounce that relies on a novel map of various variable types into nested embeddings of increasing dimensionality. Comprehensive experiments show that Bounce reliably achieves and often even improves upon state-of-the-art performance on a variety of high-dimensional problems.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# パノ拡散:360度パノラマ露光

PanoDiffusion: 360-degree Panorama Outpainting via Diffusion ( http://arxiv.org/abs/2307.03177v6 )

ライセンス: Link先を確認
Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham, (参考訳) 狭視野画像から完全な360度パノラマを生成することは、全方位RGBデータが容易に利用できないため、現在研究が進められている。 既存のGANベースのアプローチは、高品質な出力を実現するための障壁に直面し、異なるマスクタイプに対する一般化性能が劣る。 本稿では,PanoDiffusionと呼ばれる潜在拡散モデル(LDM)を用いた室内RGB-Dパノラマ露光モデルを提案する。 トレーニング中にRGBと深度パノラマデータの両方を利用する新しいバイモーダル潜時拡散構造を導入する。 さらに,各拡散復調段階におけるプログレッシブカメラ回転の導入手法を提案する。 以上の結果から,RGB-Dパノラマにおけるパノ拡散法は,様々な種類のマスクに対して多種多様な構造を持つ結果が得られるだけでなく,高品質のパノラマを合成し,リアルな3次元室内モデルを提供することによって,最先端のパノラマ法よりも優れていたことが示唆された。

Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB-D panorama outpainting model using latent diffusion models (LDM), called PanoDiffusion. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, which works surprisingly well to outpaint depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our PanoDiffusion not only significantly outperforms state-of-the-art methods on RGB-D panorama outpainting by producing diverse well-structured results for different types of masks, but can also synthesize high-quality depth panoramas to provide realistic 3D indoor models.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# 組み合わせる:大規模言語モデルの検出スキル評価のためのベンチマーク

Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models ( http://arxiv.org/abs/2307.05113v3 )

ライセンス: Link先を確認
Zhouhong Gu, Lin Zhang, Jiangjie Chen, Haoning Ye, Xiaoxuan Zhu, Zihan Li, Zheyu Ye, Yan Gao, Yao Hu, Yanghua Xiao, Hongwei Feng, (参考訳) 検出者は、様々なケース、特に大量の情報に直面する場合において、情報検出と推論を同時に行う。 大規模言語モデル~(LLM)の急速な発展に伴い、これらのモデルがどのように重要な情報を特定し、疑問を解決する理由を特定するかを評価することがますます重要になっている。 我々は,複雑で暗黙的な情報に直面した場合に,重要な情報検出とマルチホップ推論において,モデルが協調的に機能する能力を評価するために設計された読解理解データセットであるTectBenchを紹介した。 DetectBenchは3,928の質問で構成され、それぞれに190のトークンを平均でペアリングする。 モデルの刑事能力を高めるために,検出思考フレームワークを提案する。 これらの手法は、推論の前にコンテキスト内のすべての可能な手がかりを特定することをモデルに推奨する。 実験の結果,既存モデルは情報検出とマルチホップ推論の両方において性能が劣っていることがわかった。 しかし、Dective Thinking Frameworkアプローチはこの問題を軽減する。

Detectives frequently engage in information detection and reasoning simultaneously when making decisions across various cases, especially when confronted with a vast amount of information. With the rapid development of large language models~(LLMs), evaluating how these models identify key information and reason to solve questions becomes increasingly relevant. We introduces the DetectBench, a reading comprehension dataset designed to assess a model's ability to jointly ability in key information detection and multi-hop reasoning when facing complex and implicit information. The DetectBench comprises 3,928 questions, each paired with a paragraph averaging 190 tokens in length. To enhance model's detective skills, we propose the Detective Thinking Framework. These methods encourage models to identify all possible clues within the context before reasoning. Our experiments reveal that existing models perform poorly in both information detection and multi-hop reasoning. However, the Detective Thinking Framework approach alleviates this issue.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# オンデマンド都市間ライドポーリングサービスの車両分散とルーティング:マルチエージェント階層型強化学習アプローチ

Vehicle Dispatching and Routing of On-Demand Intercity Ride-Pooling Services: A Multi-Agent Hierarchical Reinforcement Learning Approach ( http://arxiv.org/abs/2307.06742v2 )

ライセンス: Link先を確認
Jinhua Si, Fang He, Xi Lin, Xindi Tang, (参考訳) 都市クラスターの統合開発により、都市間旅行への需要が高まっている。 都市間配車サービスは、需要に応答する拡張を実装することで、従来の都市間バスサービスをアップグレードする大きな可能性を秘めている。 それでも、そのオンラインオペレーションは、都市間の車両資源配分とプールドライド車両ルーティングの結合により、固有の複雑さに悩まされている。 これらの課題に対処するため,本研究では,オンラインフリート管理を容易にするために設計された2段階のフレームワークを提案する。 具体的には, アイドルカーを異なる都市間路線に協調的に割り当てるための, フレームワークの上層部において, 適応的な大近傍探索ヒューリスティックを用いて車両の経路を更新する, 新規なマルチエージェント型封建的強化学習モデルを提案する。 中国におけるXiamenとその周辺都市の現実的なデータセットに基づく数値研究は、提案手法が供給と需要の不均衡を効果的に軽減し、平均的な日次システム利益と注文充足率の両方において大幅な改善を達成していることを示している。

The integrated development of city clusters has given rise to an increasing demand for intercity travel. Intercity ride-pooling service exhibits considerable potential in upgrading traditional intercity bus services by implementing demand-responsive enhancements. Nevertheless, its online operations suffer the inherent complexities due to the coupling of vehicle resource allocation among cities and pooled-ride vehicle routing. To tackle these challenges, this study proposes a two-level framework designed to facilitate online fleet management. Specifically, a novel multi-agent feudal reinforcement learning model is proposed at the upper level of the framework to cooperatively assign idle vehicles to different intercity lines, while the lower level updates the routes of vehicles using an adaptive large neighborhood search heuristic. Numerical studies based on the realistic dataset of Xiamen and its surrounding cities in China show that the proposed framework effectively mitigates the supply and demand imbalances, and achieves significant improvement in both the average daily system profit and order fulfillment ratio.
翻訳日:2024-03-21 22:57:10 公開日:2024-03-20
# 擬似剛体ネットワーク:部分観測から解釈可能な変形可能な物体力学を学習する

Pseudo-rigid body networks: learning interpretable deformable object dynamics from partial observations ( http://arxiv.org/abs/2307.07975v3 )

ライセンス: Link先を確認
Shamil Mamedov, A. René Geist, Jan Swevers, Sebastian Trimpe, (参考訳) 変形可能な線形オブジェクト(DLO)の正確な予測は、手作業で人間の解釈が可能であるが計算的に高速なモデルを必要とする場合、困難である。 本研究では、擬似剛体法(PRB)からインスピレーションを得て、動的ネットワークによって内部状態が経時的にアンロールされる剛体の直列鎖としてDLOをモデル化する。 このダイナミクスネットワークは、観測された運動変数をDLOの隠れ状態にマッピングする物理インフォームドエンコーダと共同で訓練されている。 状態が物理的に意味のある表現を取得することを奨励するために、PRBモデルの前方運動学をデコーダとして活用する。 ロボット実験において,提案したDLO力学モデルは,予測精度に関するブラックボックスモデルと同等でありながら,部分的な観測から物理的に解釈可能な予測を提供することを示した。 プロジェクトのコードは、http://tinyurl.com/prb-networks.comで公開されている。

Accurate prediction of deformable linear object (DLO) dynamics is challenging if the task at hand requires a human-interpretable yet computationally fast model. In this work, we draw inspiration from the pseudo-rigid body method (PRB) and model a DLO as a serial chain of rigid bodies whose internal state is unrolled through time by a dynamics network. This dynamics network is trained jointly with a physics-informed encoder which maps observed motion variables to the DLO's hidden state. To encourage that the state acquires a physically meaningful representation, we leverage the forward kinematics of the PRB model as decoder. We demonstrate in robot experiments that the proposed DLO dynamics model provides physically interpretable predictions from partial observations while being on par with black-box models regarding prediction accuracy. The project code is available at: http://tinyurl.com/prb-networks
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# LogPrécis: 自動シェルログ分析のための言語モデル公開

LogPrécis: Unleashing Language Models for Automated Shell Log Analysis ( http://arxiv.org/abs/2307.08309v2 )

ライセンス: Link先を確認
Matteo Boffa, Rodolfo Vieira Valentim, Luca Vassio, Danilo Giordano, Idilio Drago, Marco Mellia, Zied Ben Houidi, (参考訳) セキュリティ関連のログの収集は、攻撃行動を理解し、脆弱性を診断する鍵を持っている。 それでも、彼らの分析はいまだに困難な課題だ。 近年,自然言語やプログラミング言語の理解において,言語モデル (LM) が未適合の可能性を実証している。 この問題は、LMが本質的に混同され難解な情報を含んでいるため、セキュリティの専門家にとってどのように役立つのかという問題である。 本稿では,テキストのようなUnixシェル攻撃ログを自動的に解析するために,LMの最先端技術によるメリットを体系的に研究する。 われわれはLogPr\'ecisに繋がる徹底した設計方法論を提示する。 入力された生のシェルセッションとして受信し、攻撃者の戦術を自動的に識別し、セッションの各部分に割り当てる。 約40,000のUnixシェル攻撃を含む2つの大きなデータセットの分析をサポートするLogPr\'ecis機能を示す。 LogPr\'ecisはそれらを約3,000の指紋に減らし、それぞれが同じ戦術でセッションをグループ化する。 この抽象化によって、アナリストは攻撃をよりよく理解し、指紋を識別し、新奇性を検知し、類似の攻撃をリンクし、家族や突然変異を追跡することができる。 全体として、LogPr\'ecisはオープンソースとしてリリースされ、サイバー攻撃に対するより良い、よりレスポンシブな防御の道を開いた。

The collection of security-related logs holds the key to understanding attack behaviors and diagnosing vulnerabilities. Still, their analysis remains a daunting challenge. Recently, Language Models (LMs) have demonstrated unmatched potential in understanding natural and programming languages. The question arises whether and how LMs could be also useful for security experts since their logs contain intrinsically confused and obfuscated information. In this paper, we systematically study how to benefit from the state-of-the-art in LM to automatically analyze text-like Unix shell attack logs. We present a thorough design methodology that leads to LogPr\'ecis. It receives as input raw shell sessions and automatically identifies and assigns the attacker tactic to each portion of the session, i.e., unveiling the sequence of the attacker's goals. We demonstrate LogPr\'ecis capability to support the analysis of two large datasets containing about 400,000 unique Unix shell attacks. LogPr\'ecis reduces them into about 3,000 fingerprints, each grouping sessions with the same sequence of tactics. The abstraction it provides lets the analyst better understand attacks, identify fingerprints, detect novelty, link similar attacks, and track families and mutations. Overall, LogPr\'ecis, released as open source, paves the way for better and more responsive defense against cyberattacks.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# 可変トランスモンを用いた長コヒーレンスデュアルレール消去量子ビットの実証

Demonstrating a long-coherence dual-rail erasure qubit using tunable transmons ( http://arxiv.org/abs/2307.08737v3 )

ライセンス: Link先を確認
Harry Levine, Arbel Haim, Jimmy S. C. Hung, Nasser Alidoust, Mahmoud Kalaee, Laura DeLorenzo, E. Alex Wollack, Patricio Arrangoiz-Arriola, Amirhossein Khalajhedayati, Rohan Sanil, Hesam Moradinejad, Yotam Vaknin, Aleksander Kubica, David Hover, Shahriar Aghaeimeibodi, Joshua Ari Alcid, Christopher Baek, James Barnett, Kaustubh Bawdekar, Przemyslaw Bienias, Hugh Carson, Cliff Chen, Li Chen, Harut Chinkezian, Eric M. Chisholm, Andrew Clifford, R. Cosmic, Nicole Crisosto, Alexander M. Dalzell, Erik Davis, J. Mitch D'Ewart, Sandra Diez, Nathan D'Souza, Philipp T. Dumitrescu, Essam Elkhouly, Michael Fang, Yawen Fang, Steven T. Flammia, Matthew J. Fling, Gabriel Garcia, M. Kabeer Gharzai, Alexey V. Gorshkov, Mason J. Gray, Sebastian Grimberg, Arne L. Grimsmo, Connor T. Hann, Yuan He, Steven Heidel, Sean Howell, Matthew Hunt, Joseph K. Iverson, Ignace Jarrige, Liang Jiang, William M. Jones, Rassul Karabalin, Peter J. Karalekas, Andrew J. Keller, Davide Lasi, Menyoung Lee, Victor Ly, Gregory S. MacCabe, Neha Mahuli, Guillaume Marcaud, Matthew H. Matheny, Sam McArdle, Gavin McCabe, Gabe Merton, Cody Miles, Ashley Milsted, Anurag Mishra, Lorenzo Moncelsi, Mahdi Naghiloo, Kyungjoo Noh, Eric Oblepias, Gerson Ortuno, John Clai Owens, Jason Pagdilao, Ashley Panduro, J. -P. Paquette, Rishi N. Patel, Gregory A. Peairs, David J. Perello, Eric C. Peterson, Sophia Ponte, Harald Putterman, Gil Refael, Philip Reinhold, Rachel Resnick, Omar A. Reyna, Roberto Rodriguez, Jefferson Rose, Alex H. Rubin, Marc Runyan, Colm A. Ryan, Abdulrahman Sahmoud, Thomas Scaffidi, Bhavik Shah, Salome Siavoshi, Prasahnt Sivarajah, Trenton Skogland, Chun-Ju Su, Loren J. Swenson, Jared Sylvia, Stephanie M. Teo, Astrid Tomada, Giacomo Torlai, Mark Wistrom, Kailing Zhang, Ido Zuk, Aashish A. Clerk, Fernando G. S. L. Brandão, Alex Retzker, Oskar Painter, (参考訳) 消去量子ビットによる量子誤差補正は、消去誤差に有利なしきい値のため、標準誤差補正よりも大きな利点を期待できる。 この利点を実現するには、ほとんど全てのエラーが消去エラーであるキュービットと、そのキュービットを軽視することなく消去エラーをチェックする能力が必要である。 共振結合された一対のトランモンからなる「デュアルレールキュービット」は、高いコヒーレントな消去キュービットを形成し、そこではトランモン$T_1$エラーが消去エラーに変換され、残留劣化が強く抑制され、キュービット部分空間内でミリ秒スケールのコヒーレンスをもたらすことを示した。 単一キュービットゲートは、主に消去誤差によって制限され、消去確率は$p_\text{erasure} = 2.19(2)\times 10^{-3}$ であり、残差は$\sim 40$ 以下である。 さらに、チェック毎に$< 0.1\%$ dephasingエラーを導入しながら、消去エラーの中間回路検出を実証する。 最後に、トランスモンノイズの抑制により、広帯域の可変動作域における高コヒーレンスを保ち、周波数衝突を回避する能力の向上が期待できることを示す。 この研究は、ハードウェア効率の量子誤り訂正のための魅力的なビルディングブロックとして、トランスモンベースのデュアルレールキュービットを確立する。

Quantum error correction with erasure qubits promises significant advantages over standard error correction due to favorable thresholds for erasure errors. To realize this advantage in practice requires a qubit for which nearly all errors are such erasure errors, and the ability to check for erasure errors without dephasing the qubit. We demonstrate that a "dual-rail qubit" consisting of a pair of resonantly coupled transmons can form a highly coherent erasure qubit, where transmon $T_1$ errors are converted into erasure errors and residual dephasing is strongly suppressed, leading to millisecond-scale coherence within the qubit subspace. We show that single-qubit gates are limited primarily by erasure errors, with erasure probability $p_\text{erasure} = 2.19(2)\times 10^{-3}$ per gate while the residual errors are $\sim 40$ times lower. We further demonstrate mid-circuit detection of erasure errors while introducing $< 0.1\%$ dephasing error per check. Finally, we show that the suppression of transmon noise allows this dual-rail qubit to preserve high coherence over a broad tunable operating range, offering an improved capacity to avoid frequency collisions. This work establishes transmon-based dual-rail qubits as an attractive building block for hardware-efficient quantum error correction.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# 共役DPM:拡散確率モデルの勾配バックプロパゲーションのための随伴感度法

AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models ( http://arxiv.org/abs/2307.10711v3 )

ライセンス: Link先を確認
Jiachun Pan, Jun Hao Liew, Vincent Y. F. Tan, Jiashi Feng, Hanshu Yan, (参考訳) 既存のカスタマイズ方法は、事前訓練された拡散確率モデル(DPM)をユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。 本稿では、DPMカスタマイズの課題として、生成したコンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。 DPMのサンプリング手順は、デノイングUNetに対する再帰的な呼び出しを含むため、na\\" 勾配のバックプロパゲーションは全てのイテレーションの中間状態を格納する必要があるため、メモリ消費は極めて高い。 そこで本研究では,まず拡散モデルから,対応する確率フローODEを解き,新しいサンプルを生成する手法であるAdjointDPMを提案する。 次に、随伴感度法を用いて、別の拡張ODEを解くことで、損失の勾配をモデルのパラメータ(条件信号、ネットワーク重み、初期雑音を含む)に戻す。 さらに, 指数積分を用いて, 確率フローODEと拡張ODEを単純な非剛性ODEとして再パラメータ化する。 最後に、視覚効果を識別テキストの埋め込みに変換すること、特定のスタイル化のためのDPMを微調整すること、セキュリティ監査のための反対サンプルを生成するために初期ノイズを最適化すること、の3つの興味深い課題に対するAdjointDPMの有効性を実証する。

Existing customization methods require access to multiple reference examples to align pre-trained diffusion probabilistic models (DPMs) with user-provided concepts. This paper aims to address the challenge of DPM customization when the only available supervision is a differentiable metric defined on the generated contents. Since the sampling procedure of DPMs involves recursive calls to the denoising UNet, na\"ive gradient backpropagation requires storing the intermediate states of all iterations, resulting in extremely high memory consumption. To overcome this issue, we propose a novel method AdjointDPM, which first generates new samples from diffusion models by solving the corresponding probability-flow ODEs. It then uses the adjoint sensitivity method to backpropagate the gradients of the loss to the models' parameters (including conditioning signals, network weights, and initial noises) by solving another augmented ODE. To reduce numerical errors in both the forward generation and gradient backpropagation processes, we further reparameterize the probability-flow ODE and augmented ODE as simple non-stiff ODEs using exponential integration. Finally, we demonstrate the effectiveness of AdjointDPM on three interesting tasks: converting visual effects into identification text embeddings, finetuning DPMs for specific types of stylization, and optimizing initial noise to generate adversarial samples for security auditing.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# アルカリスピン偏光励起スペクトルにおける超狭ピーク--スピンダイナミクスの非断熱的場合

Super narrow peaks in excitation spectrum of alkali spin polarization: non-adiabatic case of spin dynamics ( http://arxiv.org/abs/2307.12647v2 )

ライセンス: Link先を確認
E. N. Popov, A. A. Gaidash, A. V. Kozubov, S. P. Voskoboynikov, (参考訳) 強磁場とポンプ光の存在下でアルカリ蒸気で満たされたガスセルで発生する非断熱スピンダイナミクスの現象を理論的に記述する。 スピン偏極のステップ増加は、磁場の周波数が一定の値に等しい場合に起こる。 しかし、観測可能な効果は、同じ振幅と異なる周波数の高調波によって定義される2つの垂直成分からなる周期場に依存する。 スピン効果を考えることは共鳴では説明できないが、磁場の定数成分を伴わずにスピン沈降のラーモア周波数が欠如している。 さらに、スピン偏光の励起スペクトルにははっきりと見えるピークがあり、緩和速度と比較して非常に狭い。 提案された量子モデルによる詳細な分析は、原子スピンの非断熱力学の定性的性質による効果の推論をもたらす。

We theoretically describe the phenomenon of non-adiabatic spin dynamics, which occurs in a gas cell filled by alkali vapor in presence of a strong alternating magnetic field and pump light. Steep increase of the spin polarization occurs if frequency of the magnetic field is equal to the certain value. Although, the observable effect relies on the periodic field that consists of two perpendicular components defined by harmonics with the same amplitudes and different frequencies. Considered spin effect cannot be explained by a resonance, because the own Larmor frequency of spin precession is absent without a constant component of magnetic field. Moreover, there are some clearly visible peaks in the excitation spectrum of spin polarization, and they are super narrow in comparison to relaxation rate. Detailed analysis according to proposed quantum model results in the reasoning of the effect via qualitative properties of non-adiabatic dynamics of atomic spin.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# カーネルスペクトルの修正による広帯域ニューラルネットワークの誘導バイアス制御

Controlling the Inductive Bias of Wide Neural Networks by Modifying the Kernel's Spectrum ( http://arxiv.org/abs/2307.14531v2 )

ライセンス: Link先を確認
Amnon Geifman, Daniel Barzilai, Ronen Basri, Meirav Galun, (参考訳) 広範ニューラルネットワークは特定の関数の学習に偏りがあり、勾配降下(GD)の収束率と、有限の訓練時間でGDに到達可能な関数の両方に影響を与える。 そのため、手元にあるタスクに応じて、このバイアスを修正できるメソッドがとても必要になります。 この目的のために、我々は、閉じた形が知られていない所望の固有値を持つカーネルを近似するために使用できる、構築されたカーネルの新しいファミリーであるModified Spectrum Kernels (MSKs)を導入する。 広帯域ニューラルネットワークとニューラルタンジェントカーネルの双対性を活用し,GDの軌道を変化させる事前条件付き勾配降下法を提案する。 結果として、多項式と、場合によっては最終解を変更することなく指数的トレーニングのスピードアップが可能になる。 私たちの手法は計算効率が良く、実装も簡単です。

Wide neural networks are biased towards learning certain functions, influencing both the rate of convergence of gradient descent (GD) and the functions that are reachable with GD in finite training time. As such, there is a great need for methods that can modify this bias according to the task at hand. To that end, we introduce Modified Spectrum Kernels (MSKs), a novel family of constructed kernels that can be used to approximate kernels with desired eigenvalues for which no closed form is known. We leverage the duality between wide neural networks and Neural Tangent Kernels and propose a preconditioned gradient descent method, which alters the trajectory of GD. As a result, this allows for a polynomial and, in some cases, exponential training speedup without changing the final solution. Our method is both computationally efficient and simple to implement.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# 識別を超えた拡張:大規模言語モデルのためのマルチビット透かし

Advancing Beyond Identification: Multi-bit Watermark for Large Language Models ( http://arxiv.org/abs/2308.00221v3 )

ライセンス: Link先を確認
KiYoon Yoo, Wonhyuk Ahn, Nojun Kwak, (参考訳) 機械生成テキストの識別を超えて,大規模言語モデルの誤用に対処する可能性を示す。 既存のゼロビット透かし方式は検出のみに焦点が当てられているが、悪意のある誤用によっては、敵のユーザを追跡して対策を行う必要がある。 そこで本研究では,言語モデル生成中にトレーサブルなマルチビット情報を埋め込み,位置割当によるマルチビット透かしを提案する。 メッセージの異なる部分にトークンを割り当てることで、レイテンシを追加せずに、高い汚職設定に長いメッセージを埋め込むことができます。 メッセージのサブユニットを独立に埋め込むことで、提案手法は、ロバスト性とレイテンシの観点から既存の作業より優れている。 提案手法は,ゼロビット透かしの利点を生かして,モデルアクセスを必要とせず,長いメッセージ($32-bit)の埋め込みと抽出を微調整なしで行うことができ,テキストの品質を維持しつつ,ゼロビット検出を同時に行うことができる。 https://github.com/bangawayoo/mb-lm-watermarking

We show the viability of tackling misuses of large language models beyond the identification of machine-generated text. While existing zero-bit watermark methods focus on detection only, some malicious misuses demand tracing the adversary user for counteracting them. To address this, we propose Multi-bit Watermark via Position Allocation, embedding traceable multi-bit information during language model generation. Through allocating tokens onto different parts of the messages, we embed longer messages in high corruption settings without added latency. By independently embedding sub-units of messages, the proposed method outperforms the existing works in terms of robustness and latency. Leveraging the benefits of zero-bit watermarking, our method enables robust extraction of the watermark without any model access, embedding and extraction of long messages ($\geq$ 32-bit) without finetuning, and maintaining text quality, while allowing zero-bit detection all at the same time. Code is released here: https://github.com/bangawayoo/mb-lm-watermarking
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# 新規3次元焦点変調UNetを用いた頭蓋内大動脈瘤の弱制御セグメンテーション

Weakly supervised segmentation of intracranial aneurysms using a novel 3D focal modulation UNet ( http://arxiv.org/abs/2308.03001v2 )

ライセンス: Link先を確認
Amirhossein Rasoulian, Arash Harirpoush, Soorena Salari, Yiming Xiao, (参考訳) 脳血管障害のリスク評価と治療には,未破裂脳動脈瘤(UIAs)の正確な同定と定量化が重要である。 3次元磁気共鳴血管造影(MRA)の2次元手技による評価は、最適であり、時間を要する。 さらに、医用画像のセグメンテーションにおける大きな問題は、高額な大量の注釈付きデータを必要とすることである。 粗いラベルを用いた弱教師付き学習など、この要件を緩和する技術は非常に望ましい。 本稿では,新しい3次元焦点変調UNetであるFocalSegNetを提案する。このFocalSegNetは,飛行時間MRA画像パッチから,大脳動脈瘤を検出し,その初期的,粗いセグメンテーションを提供し,さらに高密度条件付きランダムフィールド(CRF)後処理層で改良して最終セグメンテーションマップを生成する。 UIA検出では偽陽性率は0.21で感度は0.80であった。 Voxel-wise aneurysm segmentationではDiceスコアが0.68、Hausdorff距離が95%であった。 我々は、最先端の3D Residual-UNetとSwin-UNETRに対してアルゴリズムを評価し、提案したFocalSegNetの優れた性能を示し、このタスクに焦点変調を用いることの利点を強調した。

Accurate identification and quantification of unruptured intracranial aneurysms (UIAs) is crucial for the risk assessment and treatment of this cerebrovascular disorder. Current 2D manual assessment on 3D magnetic resonance angiography (MRA) is suboptimal and time-consuming. In addition, one major issue in medical image segmentation is the need for large well-annotated data, which can be expensive to obtain. Techniques that mitigate this requirement, such as weakly supervised learning with coarse labels are highly desirable. In the paper, we propose FocalSegNet, a novel 3D focal modulation UNet, to detect an aneurysm and offer an initial, coarse segmentation of it from time-of-flight MRA image patches, which is further refined with a dense conditional random field (CRF) post-processing layer to produce a final segmentation map. We trained and evaluated our model on a public dataset, and in terms of UIA detection, our model showed a low false-positive rate of 0.21 and a high sensitivity of 0.80. For voxel-wise aneurysm segmentation, we achieved a Dice score of 0.68 and a 95% Hausdorff distance of ~0.95 mm, demonstrating its strong performance. We evaluated our algorithms against the state-of-the-art 3D Residual-UNet and Swin-UNETR, and illustrated the superior performance of our proposed FocalSegNet, highlighting the advantages of employing focal modulation for this task.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# 移動中の視線:長めのビデオにおける効率的なビデオ認識

View while Moving: Efficient Video Recognition in Long-untrimmed Videos ( http://arxiv.org/abs/2308.04834v2 )

ライセンス: Link先を確認
Ye Tian, Mengyu Yang, Lanshan Zhang, Zhizhen Zhang, Yang Liu, Xiaohui Xie, Xirong Que, Wendong Wang, (参考訳) 近年の効率的なビデオ認識のための適応的手法は、主に「プレビュー・then-recognition」という2段階のパラダイムに従っており、複数のビデオベンチマークで大きな成功を収めている。 しかし、この2段階のパラダイムは、推論中に粗粒度から細粒度まで(並列化はできない)2段階の生フレームを訪問することを含み、捕獲された時空間的特徴は第2段階(粒度の変化による)では再利用できないため、効率や計算の最適化には適さない。 この目的のために,人間の認識に触発されて,より効率的な長めの映像認識のための「移動中のビュー」という新しい認識パラダイムを提案する。 2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。 粗粒度サンプリングと微粒化認識の2つのフェーズを統合時空間モデリングに組み合わせ、優れた性能を示す。 さらに,ビデオ中のセマンティックな単位の性質について検討し,長めの動画における単位レベルとビデオレベルの時間的意味論を効率的に把握し,推論する階層的なメカニズムを提案する。 提案手法は高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精・高精・高精・高精・高精・高精

Recent adaptive methods for efficient video recognition mostly follow the two-stage paradigm of "preview-then-recognition" and have achieved great success on multiple video benchmarks. However, this two-stage paradigm involves two visits of raw frames from coarse-grained to fine-grained during inference (cannot be parallelized), and the captured spatiotemporal features cannot be reused in the second stage (due to varying granularity), being not friendly to efficiency and computation optimization. To this end, inspired by human cognition, we propose a novel recognition paradigm of "View while Moving" for efficient long-untrimmed video recognition. In contrast to the two-stage paradigm, our paradigm only needs to access the raw frame once. The two phases of coarse-grained sampling and fine-grained recognition are combined into unified spatiotemporal modeling, showing great performance. Moreover, we investigate the properties of semantic units in video and propose a hierarchical mechanism to efficiently capture and reason about the unit-level and video-level temporal semantics in long-untrimmed videos respectively. Extensive experiments on both long-untrimmed and short-trimmed videos demonstrate that our approach outperforms state-of-the-art methods in terms of accuracy as well as efficiency, yielding new efficiency and accuracy trade-offs for video spatiotemporal modeling.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# QKDの適用性:TerraQuantumがNSAの懐疑論を語る

Applicability of QKD: TerraQuantum view on the NSA's scepticism ( http://arxiv.org/abs/2308.07082v2 )

ライセンス: Link先を確認
D. Sych, A. Kodukhov, V. Pastushenko, N. Kirsanov, D. Kronberg, M. Pflitsch, (参考訳) 量子通信は古典的なアナログを持たないユニークな特徴を提供し、特に証明可能なセキュアな量子鍵分布(QKD)を可能にする。 量子通信の利点は科学界でよく理解されているが、実際的な実装は懐疑論や抵抗に遭遇することもある。 最近の発表[1]で、NSAはQKDは「量子耐性」暗号より劣っており、使用を推奨していないと主張している。 ここでは、量子セキュリティの評価に対するこのような懐疑的なアプローチが、十分に正当化されていないことを示す。 この問題を明確にするために、私たちの議論が役に立つことを願っています。

Quantum communication offers unique features that have no classical analog, in particular, it enables provably secure quantum key distribution (QKD). Despite the benefits of quantum communication are well understood within the scientific community, the practical implementations sometimes meet with scepticism or even resistance. In a recent publication [1], NSA claims that QKD is inferior to "quantum-resistant" cryptography and does not recommend it for use. Here we show that such a sceptical approach to evaluation of quantum security is not well justified. We hope that our arguments will be helpful to clarify the issue.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# フレーズ抽出のためのインフォメーション・ボトルネックガイドテキスト拡散プロセスによるフレーズ表現の強化

Enhancing Phrase Representation by Information Bottleneck Guided Text Diffusion Process for Keyphrase Extraction ( http://arxiv.org/abs/2308.08739v2 )

ライセンス: Link先を確認
Yuanzhen Luo, Qingyu Zhou, Feng Zhou, (参考訳) キーフレーズ抽出(KPE)は多くのシナリオにおいて自然言語処理において重要なタスクであり、ある文書に存在するキーフレーズを抽出することを目的としている。 多くの既存の教師付き手法は、KPEをシーケンシャルラベリング、スパンレベル分類、または生成タスクとして扱う。 しかし、これらの手法はキーフレーズ情報を利用する能力に欠けており、結果としてバイアスが生じる可能性がある。 本研究では、教師付き変分情報ボトルネック(VIB)を利用して、拡張キーフレーズ表現を生成するためのテキスト拡散過程を導出するDiff-KPEを提案する。 Diff-KPEはまず、文書全体に条件付された所望のキーフレーズ埋め込みを生成し、その後、生成されたキーフレーズ埋め込みを各フレーズ表現に注入する。 ランキングネットワークとVIBは、それぞれランク損失と分類損失とを合わせて最適化される。 このDiff-KPEの設計により、キーフレーズの情報と文書の両方を利用して、各候補句をランク付けできる。 実験により、Diff-KPEは、大規模なオープンドメインキーフレーズ抽出ベンチマーク、OpenKP、科学ドメインデータセットKP20Kにおいて、既存のKPEメソッドよりも優れていることが示された。

Keyphrase extraction (KPE) is an important task in Natural Language Processing for many scenarios, which aims to extract keyphrases that are present in a given document. Many existing supervised methods treat KPE as sequential labeling, span-level classification, or generative tasks. However, these methods lack the ability to utilize keyphrase information, which may result in biased results. In this study, we propose Diff-KPE, which leverages the supervised Variational Information Bottleneck (VIB) to guide the text diffusion process for generating enhanced keyphrase representations. Diff-KPE first generates the desired keyphrase embeddings conditioned on the entire document and then injects the generated keyphrase embeddings into each phrase representation. A ranking network and VIB are then optimized together with rank loss and classification loss, respectively. This design of Diff-KPE allows us to rank each candidate phrase by utilizing both the information of keyphrases and the document. Experiments show that Diff-KPE outperforms existing KPE methods on a large open domain keyphrase extraction benchmark, OpenKP, and a scientific domain dataset, KP20K.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# ランダム森林における予測誤差の推定

Prediction Error Estimation in Random Forests ( http://arxiv.org/abs/2309.00736v2 )

ライセンス: Link先を確認
Ian Krupkin, Johanna Hardin, (参考訳) 本稿では,ランダムフォレスト分類の誤差推定を定量的に評価する。 Bates et al (2023) によって構築された最初の理論的枠組みに基づき、ランダムフォレストに共通する様々な誤差推定手法の文脈において、真の誤り率と予測誤差率を理論的および実証的に研究する。 分類の場合、予測誤差のランダムフォレストの推定値は、平均誤差ではなく真の誤差率に近いことが示される。 これは、ロジスティック回帰のために与えられる Bates et al (2023) の発見とは逆である。 さらに、我々の結果は、クロスバリデーション、バッグング、データ分割など、さまざまなエラー推定戦略にまたがっていることを示す。

In this paper, error estimates of classification Random Forests are quantitatively assessed. Based on the initial theoretical framework built by Bates et al. (2023), the true error rate and expected error rate are theoretically and empirically investigated in the context of a variety of error estimation methods common to Random Forests. We show that in the classification case, Random Forests' estimates of prediction error is closer on average to the true error rate instead of the average prediction error. This is opposite the findings of Bates et al. (2023) which are given for logistic regression. We further show that our result holds across different error estimation strategies such as cross-validation, bagging, and data splitting.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# HAE-RAE Bench: 言語モデルにおける韓国語知識の評価

HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models ( http://arxiv.org/abs/2309.02706v5 )

ライセンス: Link先を確認
Guijin Son, Hanwool Lee, Suwan Kim, Huiseo Kim, Jaecheol Lee, Je Won Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim, (参考訳) 大規模なコーパスで訓練された大規模言語モデル(LLM)は、幅広いタスクにおいて印象的な能力を示している。 これらのモデルを英語以外の言語に適応する努力が進行中であるが、評価手法への注目は限定的である。 現在の多言語ベンチマークは、しばしば英語のテストの翻訳や再実装に依存し、独自の文化的・言語的なニュアンスを捉える能力を制限する。 韓国語のこのギャップを埋めるために,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットであるHAE-RAE Benchを導入する。 このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。 トークンとシーケンスの分類や数学的および論理的推論に焦点を当てた従来の評価スイートとは異なり、HAE-RAEベンチは韓国固有の知識と文化の文脈を思い出すためのモデルの適性を強調している。 以前の韓国のベンチマークとの比較分析では、HAE-RAEベンチは、英語から学んだ能力や知識を移譲することで、非韓国のモデルにより大きな課題をもたらすことが示されている。

Large language models (LLMs) trained on massive corpora demonstrate impressive capabilities in a wide range of tasks. While there are ongoing efforts to adapt these models to languages beyond English, the attention given to their evaluation methodologies remains limited. Current multilingual benchmarks often rely on back translations or re-implementations of English tests, limiting their capacity to capture unique cultural and linguistic nuances. To bridge this gap for the Korean language, we introduce the HAE-RAE Bench, a dataset curated to challenge models lacking Korean cultural and contextual depth. The dataset encompasses six downstream tasks across four domains: vocabulary, history, general knowledge, and reading comprehension. Unlike traditional evaluation suites focused on token and sequence classification or mathematical and logical reasoning, the HAE-RAE Bench emphasizes a model's aptitude for recalling Korean-specific knowledge and cultural contexts. Comparative analysis with prior Korean benchmarks indicates that the HAE-RAE Bench presents a greater challenge to non-Korean models by disturbing abilities and knowledge learned from English being transferred.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# CoNeS:マルチシーケンスMRI翻訳のためのシフト変調を用いた条件付きニューラルネットワーク

CoNeS: Conditional neural fields with shift modulation for multi-sequence MRI translation ( http://arxiv.org/abs/2309.03320v3 )

ライセンス: Link先を確認
Yunjie Chen, Marius Staring, Olaf M. Neve, Stephan R. Romeijn, Erik F. Hensen, Berit M. Verbist, Jelmer M. Wolterink, Qian Tao, (参考訳) マルチシーケンスMRI(Multi-sequence magnetic resonance imaging)は、現代の臨床研究とディープラーニング研究の両方に広く応用されている。 しかし、臨床実践では、画像取得プロトコルやコントラスト剤による患者の禁忌により、MRIの1つ以上の配列が欠落し、マルチシーケンスデータに基づいて訓練された深層学習モデルの利用が制限されることがしばしば起こる。 1つの有望なアプローチは、生成モデルを利用して欠落したシーケンスを合成することであり、これはサロゲート獲得の役割を果たす。 この問題に対処する最先端の手法は、通常はスペクトルバイアスに悩まされる畳み込みニューラルネットワーク(CNN)に基づいている。 本稿では、ボクセル座標を入力として取り込んだモデルであるシフト変調付き条件付きニューラルネットワーク(CoNeS)を提案し、マルチシーケンスMRI変換のための対象画像の表現を学習する。 提案モデルでは,CNNの代わりに多層パーセプトロン(MLP)を用いて画素間マッピングを行う。 これにより、各ターゲット画像は、学習された潜時符号によるシフト変調により、ソース画像に条件付けされたニューラルネットワークとして表現される。 BraTS 2018および前庭神経癌患者の社内臨床データセットを用いた実験により、提案法は、視覚的および定量的に多系列MRI翻訳のための最先端の方法よりも優れた性能を示した。 さらに,従来のCNNモデルに共通するスペクトルバイアス問題を克服し,スペクトル分析を行った。 臨床下流作業における合成画像の利用を更に評価するために,合成画像を用いたセグメンテーションネットワークを推論でテストした。

Multi-sequence magnetic resonance imaging (MRI) has found wide applications in both modern clinical studies and deep learning research. However, in clinical practice, it frequently occurs that one or more of the MRI sequences are missing due to different image acquisition protocols or contrast agent contraindications of patients, limiting the utilization of deep learning models trained on multi-sequence data. One promising approach is to leverage generative models to synthesize the missing sequences, which can serve as a surrogate acquisition. State-of-the-art methods tackling this problem are based on convolutional neural networks (CNN) which usually suffer from spectral biases, resulting in poor reconstruction of high-frequency fine details. In this paper, we propose Conditional Neural fields with Shift modulation (CoNeS), a model that takes voxel coordinates as input and learns a representation of the target images for multi-sequence MRI translation. The proposed model uses a multi-layer perceptron (MLP) instead of a CNN as the decoder for pixel-to-pixel mapping. Hence, each target image is represented as a neural field that is conditioned on the source image via shift modulation with a learned latent code. Experiments on BraTS 2018 and an in-house clinical dataset of vestibular schwannoma patients showed that the proposed method outperformed state-of-the-art methods for multi-sequence MRI translation both visually and quantitatively. Moreover, we conducted spectral analysis, showing that CoNeS was able to overcome the spectral bias issue common in conventional CNN models. To further evaluate the usage of synthesized images in clinical downstream tasks, we tested a segmentation network using the synthesized images at inference.
翻訳日:2024-03-21 22:47:21 公開日:2024-03-20
# ShaDocFormer: ドキュメントシャドウ除去のためのカスケード融合精錬器を備えたシャドウ検出用閾値検出器

ShaDocFormer: A Shadow-Attentive Threshold Detector With Cascaded Fusion Refiner for Document Shadow Removal ( http://arxiv.org/abs/2309.06670v3 )

ライセンス: Link先を確認
Weiwen Chen, Yingtie Lei, Shenghong Luo, Xuhang Chen, Ziyang Zhou, Mingxian Li, Chi-Man Pun, (参考訳) ドキュメントシャドーは、モバイルデバイスを使用してドキュメントをキャプチャするときに発生する一般的な問題であり、可読性に大きな影響を及ぼす。 現在の手法では、シャドーマスクの不正確な検出や照明推定など、様々な課題に直面している。 本稿では,文書陰影除去問題に対処するために,従来の手法とディープラーニング技術を統合するトランスフォーマーベースのアーキテクチャであるShaDocFormerを提案する。 ShaDocFormerアーキテクチャは、Shadow-attentive Threshold Detector (STD)とCascaded Fusion Refiner (CFR)の2つのコンポーネントで構成されている。 STDモジュールは従来のしきい値設定技術を採用し、Transformerのアテンション機構を利用してグローバル情報を収集し、シャドーマスクの正確な検出を可能にする。 CFRモジュールのカスケード及び凝集構造は、画像全体の粗大な復元プロセスを容易にする。 その結果、ShaDocFormerは、シャドウと照明の両方のバリエーションを正確に検出およびキャプチャし、効果的にシャドウを削除することができる。 大規模な実験により、ShaDocFormerは定性測定と定量的測定の両方で現在の最先端の手法より優れていることが示された。

Document shadow is a common issue that arises when capturing documents using mobile devices, which significantly impacts readability. Current methods encounter various challenges, including inaccurate detection of shadow masks and estimation of illumination. In this paper, we propose ShaDocFormer, a Transformer-based architecture that integrates traditional methodologies and deep learning techniques to tackle the problem of document shadow removal. The ShaDocFormer architecture comprises two components: the Shadow-attentive Threshold Detector (STD) and the Cascaded Fusion Refiner (CFR). The STD module employs a traditional thresholding technique and leverages the attention mechanism of the Transformer to gather global information, thereby enabling precise detection of shadow masks. The cascaded and aggregative structure of the CFR module facilitates a coarse-to-fine restoration process for the entire image. As a result, ShaDocFormer excels in accurately detecting and capturing variations in both shadow and illumination, thereby enabling effective removal of shadows. Extensive experiments demonstrate that ShaDocFormer outperforms current state-of-the-art methods in both qualitative and quantitative measurements.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# Whisperは音声によるインコンテキスト学習を実行できるか?

Can Whisper perform speech-based in-context learning? ( http://arxiv.org/abs/2309.07081v2 )

ライセンス: Link先を確認
Siyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang, (参考訳) 本稿では,OpenAIがリリースしたWhisper自動音声認識(ASR)モデルのコンテキスト内学習能力について検討する。 単語誤り率 (WER) を, 勾配下降を伴わない少数のラベル付き音声サンプルで削減できる, テスト時間適応のための新しい音声ベースインコンテキストラーニング (SICL) 手法を提案する。 中国語の方言を用いた言語レベルの適応実験では、SICLを孤立した単語ASRに適用する場合、平均32.3%のWhisperモデルを用いて、一貫した相対的なWER削減を実現することができた。 k-nearest-neighbours-based in-context example selection techniqueを適用すれば、SICLの効率をさらに向上することができ、平均相対的なWER低減を36.4%に向上させることができる。 これらの結果は話者適応や連続音声認識タスクを用いて検証され、両者ともかなり相対的なWER削減を実現した。 詳細な定量的分析も提供され、SICLの音韻的変化や方言固有の語彙への適応性に光を当てている。

This paper investigates the in-context learning abilities of the Whisper automatic speech recognition (ASR) models released by OpenAI. A novel speech-based in-context learning (SICL) approach is proposed for test-time adaptation, which can reduce the word error rates (WERs) with only a small number of labelled speech samples without gradient descent. Language-level adaptation experiments using Chinese dialects showed that when applying SICL to isolated word ASR, consistent and considerable relative WER reductions can be achieved using Whisper models of any size on two dialects, which is on average 32.3%. A k-nearest-neighbours-based in-context example selection technique can be applied to further improve the efficiency of SICL, which can increase the average relative WER reduction to 36.4%. The findings are verified using speaker adaptation or continuous speech recognition tasks, and both achieved considerable relative WER reductions. Detailed quantitative analyses are also provided to shed light on SICL's adaptability to phonological variances and dialect-specific lexical nuances.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# MMICL:マルチモーダルインコンテキスト学習による視覚言語モデルの構築

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning ( http://arxiv.org/abs/2309.07915v3 )

ライセンス: Link先を確認
Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang, (参考訳) ディープラーニングの復活以来,大規模言語モデル (LLM) によって強化された視覚言語モデル (VLM) が急速に普及してきた。 しかし、LLMは背景知識やタスク情報をコンテキスト内学習に利用できるが、多くのVLMは複雑なマルチモーダルプロンプトを複数の画像で理解することに苦慮しているため、VLMは下流の視覚言語タスクでは効果が低い。 本稿では,上述の限界に対処する。 1)Multi-Modal In-Context Learning(MMICL)を用いた視覚言語モデルの導入。 2) VLMの文脈内学習能力を高めるための新しい文脈スキームの提案 3)Multi-modal In-Context Learning (MIC)データセットの構築。 実験の結果,MME や MMBench などの複雑なベンチマークにおいて,多種多様な視覚言語タスクにおいて,MMICL が新たなゼロショット性能を実現することを確認した。 解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に取り組み,印象的なICL能力を実現していることがわかった。 さらに,MMICL が VLM の言語バイアスを軽減することに成功していることも確認した。 私たちのコード、データセット、データセットツール、モデルはhttps://github.com/PKUnlp-icler/MICで利用可能です。

Since the resurgence of deep learning, vision-language models (VLMs) enhanced by large language models (LLMs) have grown exponentially in popularity. However, while LLMs can utilize extensive background knowledge and task information with in-context learning, most VLMs still struggle with understanding complex multi-modal prompts with multiple images, making VLMs less effective in downstream vision-language tasks. In this paper, we address the limitation above by 1) introducing vision-language Model with Multi-Modal In-Context Learning(MMICL), a new approach to allow the VLM to deal with multi-modal inputs efficiently; 2) proposing a novel context scheme to augment the in-context learning ability of the VLM; 3) constructing the Multi-modal In-Context Learning (MIC) dataset, designed to enhance the VLM's ability to understand complex multi-modal prompts. Our experiments confirm that MMICL achieves new state-of-the-art zero-shot performance on a wide range of general vision-language tasks, especially for complex benchmarks, including MME and MMBench. Our analysis demonstrates that MMICL effectively tackles the challenge of complex multi-modal prompt understanding and emerges the impressive ICL ability. Furthermore, we observe that MMICL successfully alleviates language bias in VLMs, a common issue for VLMs that often leads to hallucination when faced with extensive textual context. Our code, dataset, dataset tool, and model are available at https://github.com/PKUnlp-icler/MIC
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# CTCに基づく音声認識のための一様アグリゲーション

Unimodal Aggregation for CTC-based Speech Recognition ( http://arxiv.org/abs/2309.08150v2 )

ライセンス: Link先を確認
Ying Fang, Xiaofei Li, (参考訳) 本稿では,非自己回帰型自動音声認識について述べる。 ユニモーダルアグリゲーション(UMA)は、同じテキストトークンに属する特徴フレームをセグメント化し統合し、テキストトークンのより良い特徴表現を学習するために提案される。 フレームワイドの特徴と重みはどちらもエンコーダから派生している。 そして、単調重みを持つ特徴フレームをデコーダで統合し、さらに処理する。 訓練にはコネクショニスト時間分類(CTC)の損失が適用される。 通常のCTCと比較して,提案手法はより優れた特徴表現を学習し,シーケンス長を短縮し,認識誤差と計算複雑性を低減させる。 3つのマンダリンデータセットの実験では、UMAは自己条件のCTCのような他の高度な非自己回帰的手法よりも優れているか同等のパフォーマンスを示している。 さらに、自己条件付きCTCを提案フレームワークに統合することにより、パフォーマンスをさらに向上させることができる。

This paper works on non-autoregressive automatic speech recognition. A unimodal aggregation (UMA) is proposed to segment and integrate the feature frames that belong to the same text token, and thus to learn better feature representations for text tokens. The frame-wise features and weights are both derived from an encoder. Then, the feature frames with unimodal weights are integrated and further processed by a decoder. Connectionist temporal classification (CTC) loss is applied for training. Compared to the regular CTC, the proposed method learns better feature representations and shortens the sequence length, resulting in lower recognition error and computational complexity. Experiments on three Mandarin datasets show that UMA demonstrates superior or comparable performance to other advanced non-autoregressive methods, such as self-conditioned CTC. Moreover, by integrating self-conditioned CTC into the proposed framework, the performance can be further noticeably improved.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# 議会手続における感性識別のための多言語学習データセット

The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings ( http://arxiv.org/abs/2309.09783v2 )

ライセンス: Link先を確認
Michal Mochtak, Peter Rupnik, Nikola Ljubešić, (参考訳) 本論文は,7言語による文のトレーニングデータセットを手動でアノテートし,議会手続のための堅牢な感情識別子のトレーニングに焦点をあてた一連の実験で使用した。 さらに、27の欧州議会の議事録から72億語を事前訓練した、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介した。 本稿では,議会データに付加的な事前学習を施すことによって,議会手続における感情識別のダウンストリーム性能を著しく向上させる実験を行った。 さらに、我々の多言語モデルは、微調整中に見られない言語で非常によく機能し、他の言語から追加された微調整データにより、目的とする議会の結果が大幅に改善されることを示す。 本論文は,社会科学における複数の分野に重要な貢献を行い,それらを計算機科学と計算言語学で橋渡しする。 最後に、結果として得られる微調整された言語モデルにより、言語間での政治的テキストの感情分析に対するより堅牢なアプローチが確立され、学者は標準化されたツールや技術を用いて比較的な視点から政治的感情を研究することができる。

The paper presents a new training dataset of sentences in 7 languages, manually annotated for sentiment, which are used in a series of experiments focused on training a robust sentiment identifier for parliamentary proceedings. The paper additionally introduces the first domain-specific multilingual transformer language model for political science applications, which was additionally pre-trained on 1.72 billion words from parliamentary proceedings of 27 European parliaments. We present experiments demonstrating how the additional pre-training on parliamentary data can significantly improve the model downstream performance, in our case, sentiment identification in parliamentary proceedings. We further show that our multilingual model performs very well on languages not seen during fine-tuning, and that additional fine-tuning data from other languages significantly improves the target parliament's results. The paper makes an important contribution to multiple disciplines inside the social sciences, and bridges them with computer science and computational linguistics. Lastly, the resulting fine-tuned language model sets up a more robust approach to sentiment analysis of political texts across languages, which allows scholars to study political sentiment from a comparative perspective using standardized tools and techniques.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# イベントとフレームを用いたエンドツーエンド学習型ビジュアルオドメトリー

End-to-end Learned Visual Odometry with Events and Frames ( http://arxiv.org/abs/2309.09947v2 )

ライセンス: Link先を確認
Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj, Olivier Dubois-Matra, Massimo Casasco, Davide Scaramuzza, (参考訳) ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。 堅牢性を改善するため、最近のモデルベースVOシステムは標準カメラとイベントベースカメラの組み合わせを開始している。 イベントカメラは低照度と高速の動作で優れており、標準カメラは低テクスチャエリアでも、密集したトラックに簡単に対応できる。 しかし、画像とイベントベースのVOの分野は依然としてモデルベースの手法に依存しており、エンドツーエンドの学習ベースのアーキテクチャを活用する最近の画像のみの進歩を完全には統合していない。 ひとつは非同期で、もうひとつはそうで、より効果的なイメージとイベントベースのVOの可能性を制限する。 本稿では,最初のエンドツーエンドの学習画像とイベントベースのVOシステムであるRAMP-VOを紹介する。 新たなRecurrent、Asynchronous、Massively Parallel(RAMP)エンコーダを利用して、画像データと非同期イベントを融合し、既存のソリューションよりも8倍高速な推論と33%正確な予測を提供する。 シミュレーションのみのトレーニングにもかかわらず、RAMP-VOは従来の実世界のベンチマークと新しく導入されたApolloとMalapertのランディングシーケンスで、イメージベースのメソッドとイベントベースのメソッドをそれぞれ46%、イベントベースのメソッドを60%上回り、宇宙での堅牢なVOと非同期VOの道を開いた。

Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. To improve robustness, recent model-based VO systems have begun combining standard and event-based cameras. Event cameras excel in low-light and high-speed motion, while standard cameras provide dense and easier-to-track features, even in low-textured areas. However, the field of image- and event-based VO still predominantly relies on model-based methods and is yet to fully integrate recent image-only advancements leveraging end-to-end learning-based architectures. Seamlessly integrating the two modalities remains challenging due to their different nature, one asynchronous, the other not, limiting the potential for a more effective image- and event-based VO. We introduce RAMP-VO, the first end-to-end learned image- and event-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders capable of fusing asynchronous events with image data, providing 8x faster inference and 33% more accurate predictions than existing solutions. Despite being trained only in simulation, RAMP-VO outperforms image- and event-based methods by 46% and 60%, respectively, on traditional, real-world benchmarks as well as newly introduced Apollo and Malapert landing sequences, paving the way for robust and asynchronous VO in space.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# ChEDDAR:EFL書記教育における学生チャットGPT対話

ChEDDAR: Student-ChatGPT Dialogue in EFL Writing Education ( http://arxiv.org/abs/2309.13243v2 )

ライセンス: Link先を確認
Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Tak Yeon Lee, So-Yeon Ahn, Alice Oh, (参考訳) 教育における生成的AIの統合は拡大しているが、学生とAIシステムの間の大規模な実世界の相互作用に関する実証分析は依然として限られている。 本研究では,ChEDDAR,ChatGPT & EFL Learner's Dialogue Dataset As Revisingというエッセイについて紹介する。 学生たちはChatGPTとの対話を通じてエッセイの改訂を依頼された。 ChEDDARには、会話ログ、発話レベルのエッセイ編集履歴、自己評価された満足度、学生の意図に加えて、彼らの目的と全体的な経験を文書化するセッションレベルの事前調査が含まれている。 学生の意図と満足度に関して、生成的AIに関する利用パターンと認識を分析した。 基礎的なステップとして、意図の検出と満足度推定という2つのタスク指向対話システムにおける2つの重要なタスクのベースライン結果を確立する。 我々は最終的に、ChEDDARを利用した潜在的なシナリオを概説し、生成的AIを教育環境に統合するためのさらなる研究を提案する。 ChEDDARはhttps://github.com/zeunie/ChEDDARで公開されている。

The integration of generative AI in education is expanding, yet empirical analyses of large-scale, real-world interactions between students and AI systems still remain limited. In this study, we present ChEDDAR, ChatGPT & EFL Learner's Dialogue Dataset As Revising an essay, which is collected from a semester-long longitudinal experiment involving 212 college students enrolled in English as Foreign Langauge (EFL) writing courses. The students were asked to revise their essays through dialogues with ChatGPT. ChEDDAR includes a conversation log, utterance-level essay edit history, self-rated satisfaction, and students' intent, in addition to session-level pre-and-post surveys documenting their objectives and overall experiences. We analyze students' usage patterns and perceptions regarding generative AI with respect to their intent and satisfaction. As a foundational step, we establish baseline results for two pivotal tasks in task-oriented dialogue systems within educational contexts: intent detection and satisfaction estimation. We finally suggest further research to refine the integration of generative AI into education settings, outlining potential scenarios utilizing ChEDDAR. ChEDDAR is publicly available at https://github.com/zeunie/ChEDDAR.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# ABScribe:大規模言語モデルを用いた人間とAIの共筆作業における複数筆記変異の迅速探索と整理

ABScribe: Rapid Exploration & Organization of Multiple Writing Variations in Human-AI Co-Writing Tasks using Large Language Models ( http://arxiv.org/abs/2310.00117v3 )

ライセンス: Link先を確認
Mohi Reza, Nathan Laundry, Ilya Musabirov, Peter Dushniku, Zhi Yuan "Michael" Yu, Kashish Mittal, Tovi Grossman, Michael Liut, Anastasia Kuzminykh, Joseph Jay Williams, (参考訳) テキストの書き直しによる代替アイデアの探索は、記述プロセスに不可欠である。 State-of-the-art Large Language Models (LLMs) は、変更文の生成を簡単にする。 テキストを上書きせずに新しいバリエーションを作成することは困難であり、それらを逐次貼り付けることは文書を散らかすことができ、作業負荷を増大させ、ライターのフローを乱す。 ABScribeは、人間とAIの共筆タスクにおいて、迅速かつ視覚的に構造化された、書込みのバリエーションを探索し、組織化するためのインタフェースである。 ABScribeでは、再利用可能なボタンに自動変換されるLSMプロンプトを使用して、変更を迅速に修正することができる。 変化はテキストフィールドに隣接して格納され、ポップアップツールバー上のマウスオーバーインタラクションを用いた高速なインプレース比較を行う。 12名のライターによるユーザスタディでは、ABScribeはタスクの負荷(d = 1.20, p < 0.001)を著しく低減し、リビジョンプロセス(d = 2.41, p < 0.001)のユーザ認識を一般的なベースラインワークフローと比較して向上させ、LLMを用いたバリエーションの探索方法に関する洞察を提供する。

Exploring alternative ideas by rewriting text is integral to the writing process. State-of-the-art Large Language Models (LLMs) can simplify writing variation generation. However, current interfaces pose challenges for simultaneous consideration of multiple variations: creating new variations without overwriting text can be difficult, and pasting them sequentially can clutter documents, increasing workload and disrupting writers' flow. To tackle this, we present ABScribe, an interface that supports rapid, yet visually structured, exploration and organization of writing variations in human-AI co-writing tasks. With ABScribe, users can swiftly modify variations using LLM prompts, which are auto-converted into reusable buttons. Variations are stored adjacently within text fields for rapid in-place comparisons using mouse-over interactions on a popup toolbar. Our user study with 12 writers shows that ABScribe significantly reduces task workload (d = 1.20, p < 0.001), enhances user perceptions of the revision process (d = 2.41, p < 0.001) compared to a popular baseline workflow, and provides insights into how writers explore variations using LLMs.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# れんがから橋へ - 不変性の産物から遅延空間通信の促進

From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication ( http://arxiv.org/abs/2310.01211v2 )

ライセンス: Link先を確認
Irene Cannistraci, Luca Moschella, Marco Fumero, Valentino Maiorca, Emanuele Rodolà, (参考訳) 異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。 幾何学的な観点からは、変換のクラスとこれらの表現を接続する関連する不変性を特定することは、マージ、縫合、異なるニューラルモジュールの再利用など、アプリケーションのアンロックに不可欠である。 しかしながら、タスク固有の変換を推定することは、いくつかの要因(例えば、ウェイトの初期化、ハイパーパラメータのトレーニング、データモダリティ)のために困難でコストがかかる可能性がある。 そこで本研究では, 不変成分の積空間を, 最適不変量に関する事前の知識を必要とせず, 不変成分の積空間を構築することで, 不変成分の集合を直接表現に組み込む多元的手法を提案する。 我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。 実験分析は、3つのモード(ビジョン、テキスト、グラフ)、12の事前訓練された基礎モデル、9つのベンチマーク、およびスクラッチからトレーニングされたいくつかのアーキテクチャで構成されている。

It has been observed that representations learned by distinct neural networks conceal structural similarities when the models are trained under similar inductive biases. From a geometric perspective, identifying the classes of transformations and the related invariances that connect these representations is fundamental to unlocking applications, such as merging, stitching, and reusing different neural modules. However, estimating task-specific transformations a priori can be challenging and expensive due to several factors (e.g., weights initialization, training hyperparameters, or data modality). To this end, we introduce a versatile method to directly incorporate a set of invariances into the representations, constructing a product space of invariant components on top of the latent representations without requiring prior knowledge about the optimal invariance to infuse. We validate our solution on classification and reconstruction tasks, observing consistent latent similarity and downstream performance improvements in a zero-shot stitching setting. The experimental analysis comprises three modalities (vision, text, and graphs), twelve pretrained foundational models, nine benchmarks, and several architectures trained from scratch.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# 回路QED実験における測定パワーが状態の判別とダイナミクスに及ぼす影響

Effects of the measurement power on states discrimination and dynamics in a circuit-QED experiment ( http://arxiv.org/abs/2310.04556v3 )

ライセンス: Link先を確認
L. Tosi, I. Lobato, M. F. Goffman, C. Metzger, C. Urbina, H. Pothier, (参考訳) 超伝導弱リンクにおける<matter-like'部分のAndreevレベルに対応する回路QED実験において,キャビティを大きな光子数で駆動する効果について検討した。 弱結合の3つの多体状態は、アンドレフ準粒子の0、1、または2つの準粒子の占有に対応し、キャビティ周波数のシフトを引き起こす。 キャビティによって継承される非線形性は,その結合から弱いリンクへの結合が,状態判別と光子数校正にどのように影響するかを示す。 どちらの効果も、分散限界を超えて駆動システムの進化を治療する必要がある。 さらに, 回路状態(量子とパリティジャンプ)間の遷移速度がマイクロ波パワーに与える影響を観察し, キャビティによるAndreev状態の 'dressing'' を考慮した理論との比較を行った。

We explore the effects of driving a cavity at a large photon number in a circuit-QED experiment where the ``matter-like'' part corresponds to an unique Andreev level in a superconducting weak link. The three many-body states of the weak link, corresponding to the occupation of the Andreev level by 0, 1 or 2 quasiparticles, lead to different cavity frequency shifts. We show how the non-linearity inherited by the cavity from its coupling to the weak link affects the state discrimination and the photon number calibration. Both effects require treating the evolution of the driven system beyond the dispersive limit. In addition, we observe how transition rates between the circuit states (quantum and parity jumps) are affected by the microwave power, and compare the measurements with a theory accounting for the ``dressing'' of the Andreev states by the cavity.
翻訳日:2024-03-21 22:37:29 公開日:2024-03-20
# SAM-OCTA:OCTA画像セグメンテーションのためのセグメンテーション

SAM-OCTA: Prompting Segment-Anything for OCTA Image Segmentation ( http://arxiv.org/abs/2310.07183v2 )

ライセンス: Link先を確認
Xinrun Chen, Chengliang Wang, Haojian Ning, Shiying Li, Mei Shen, (参考訳) 光コヒーレンス・トモグラフィ・アンギオグラフィー(OCTA)画像の解析には,特定のターゲットやバイオマーカーのセグメンテーションが必要である。 以前の方法は、通常、網膜血管(RV)のようなOCTAサンプルの全てのターゲットを分割する。 これらの手法は精度と精度が良いが、OCTA分析では、達成されていない画像内の局所的な情報に焦点を当てることが多い。 本稿では,OCTA画像の局所分割のためのSAM-OCTAという手法を提案する。 この方法は、ローランク適応(LoRA)を用いて事前訓練されたセグメンテーションモデル(SAM)を微調整し、OCTA内の局所RV、動脈、静脈セグメンテーションのプロンプトポイントを利用する。 そこで我々は,プロンプトポイントの効果とメカニズムを探るため,ランダム選択と特別なアノテーションという2つのプロンプトポイント生成戦略を用いたグローバルおよびローカルセグメンテーションモードを構築した。 実用性を考慮して, モデルスケールの異なる拡張実験を行い, 汎用セグメンテーションタスクの他, 微調整前後のモデル性能を解析した。 OCTA-500データセットを用いた総合的な実験結果から,本手法はRVおよびFAZに関連する共通OCTAセグメンテーションタスクにおいて最先端の性能を達成し,動脈静脈および局所血管の正確なセグメンテーションを行う。 コードはhttps://github.com/ShellRedia/SAM-OCTA-extendで公開されている。

Segmenting specific targets or biomarkers is necessary to analyze optical coherence tomography angiography (OCTA) images. Previous methods typically segment all the targets in an OCTA sample, such as retinal vessels (RVs). Although these methods perform well in accuracy and precision, OCTA analyses often focusing local information within the images which has not been fulfilled. In this paper, we propose a method called SAM-OCTA for local segmentation in OCTA images. The method fine-tunes a pre-trained segment anything model (SAM) using low-rank adaptation (LoRA) and utilizes prompt points for local RVs, arteries, and veins segmentation in OCTA. To explore the effect and mechanism of prompt points, we set up global and local segmentation modes with two prompt point generation strategies, namely random selection and special annotation. Considering practical usage, we conducted extended experiments with different model scales and analyzed the model performance before and after fine-tuning besides the general segmentation task. From comprehensive experimental results with the OCTA-500 dataset, our SAM-OCTA method has achieved state-of-the-art performance in common OCTA segmentation tasks related to RV and FAZ, and it also performs accurate segmentation of artery-vein and local vessels. The code is available at https://github.com/ShellRedia/SAM-OCTA-extend.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# 思考の連鎖を持つ変圧器の表現力

The Expressive Power of Transformers with Chain of Thought ( http://arxiv.org/abs/2310.07923v4 )

ライセンス: Link先を確認
William Merrill, Ashish Sabharwal, (参考訳) 最近の理論的研究は、グラフ内の2つのノードが接続されているか、あるいは有限状態マシンをシミュレートしているかどうかなど、驚くほど単純な推論問題を特定している。 しかし、実際には、トランスフォーマーの推論は「思考の連鎖」または「スクラッチパッド」、すなわち答えの前に中間トークン列の生成と条件を使用することによって改善することができる。 このような中間世代はデコーダのみの変換器の計算力を根本的に拡張するのか? 答えはYESであるが、増加量は中間生成量に大きく依存する。 例えば、対数的な数の復号ステップ(w.r.t. 入力長)を持つ復号器デコーダが標準変圧器の限界をわずかに押し上げるのに対して、線形な復号器デコーダは標準ノルムへのわずかな一般化を仮定して、明確な新しい能力(標準複雑性予想の下で)を加え、全ての正規言語を認識する。 また、線形ステップはコンテクストに敏感な言語内にトランスフォーマーデコーダを置き、一般化されたプレノルムを持つ多項式ステップは多項式時間解決可能問題のクラスを正確に認識する。 本研究の結果は, トランスフォーマーの思考列の長さが, 思考列の長さやスクラッチパッドの長さが, その推論能力に与える影響を理解するための, 微妙な枠組みを提供する。

Recent theoretical work has identified surprisingly simple reasoning problems, such as checking if two nodes in a graph are connected or simulating finite-state machines, that are provably unsolvable by standard transformers that answer immediately after reading their input. However, in practice, transformers' reasoning can be improved by allowing them to use a "chain of thought" or "scratchpad", i.e., generate and condition on a sequence of intermediate tokens before answering. Motivated by this, we ask: Does such intermediate generation fundamentally extend the computational power of a decoder-only transformer? We show that the answer is yes, but the amount of increase depends crucially on the amount of intermediate generation. For instance, we find that transformer decoders with a logarithmic number of decoding steps (w.r.t. the input length) push the limits of standard transformers only slightly, while a linear number of decoding steps, assuming a slight generalization to standard pre-norm, adds a clear new ability (under standard complexity conjectures): recognizing all regular languages. Our results also imply that linear steps keep transformer decoders within context-sensitive languages, and polynomial steps with generalized pre-norm make them recognize exactly the class of polynomial-time solvable problems -- the first exact characterization of a type of transformers in terms of standard complexity classes. Together, our results provide a nuanced framework for understanding how the length of a transformer's chain of thought or scratchpad impacts its reasoning power.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# ラベルの分布から学ぶ:信念の伝播を通したブースストラッピング指導者

Learning from Label Proportions: Bootstrapping Supervised Learners via Belief Propagation ( http://arxiv.org/abs/2310.08056v4 )

ライセンス: Link先を確認
Shreyas Havaldar, Navodita Sharma, Shubhi Sareen, Karthikeyan Shanmugam, Aravindan Raghuveer, (参考訳) Label Proportions(LLP)からの学習(Learning from Label Proportions)は、トレーニング中のバッグと呼ばれるインスタンスのグループに対して、アグリゲートレベルのラベルしか利用できない学習問題である。 この設定は、プライバシー上の配慮から、広告や医療などの領域で発生する。 本稿では,この問題に対して,反復的に2つの主要なステップを実行する新しいアルゴリズムフレームワークを提案する。 イテレーション毎に最初のステップ(Pseudo Labeling)として、バイナリインスタンスラベルを組み込んだGibbsディストリビューションを定義します。 a) 類似の共変量を持つインスタンスが類似のラベルを持つべきであるという制約による共変量情報 b) バッグレベル集計ラベル 次に,Belief Propagation (BP) を用いてギブス分布を疎外し,擬似ラベルを得る。 2番目のステップ(埋め込みリファインメント)では、擬似ラベルを使用して、より優れた埋め込みをもたらす学習者の監督を行います。 さらに、2番目のステップの埋め込みを次のイテレーションの新たな共変体として使用することで、2つのステップを繰り返す。 最後のイテレーションでは、擬似ラベルを使用して分類器を訓練する。 本アルゴリズムは,表型および画像型を用いたLLPバイナリ分類問題に対して,複数のSOTAベースライン(最大15%)に対して強い利得を示す。 我々は,100万個のサンプルであっても,Belief Propagationによる標準的な教師あり学習よりも計算オーバーヘッドが最小限に抑えられたこれらの改善を実現する。

Learning from Label Proportions (LLP) is a learning problem where only aggregate level labels are available for groups of instances, called bags, during training, and the aim is to get the best performance at the instance-level on the test data. This setting arises in domains like advertising and medicine due to privacy considerations. We propose a novel algorithmic framework for this problem that iteratively performs two main steps. For the first step (Pseudo Labeling) in every iteration, we define a Gibbs distribution over binary instance labels that incorporates a) covariate information through the constraint that instances with similar covariates should have similar labels and b) the bag level aggregated label. We then use Belief Propagation (BP) to marginalize the Gibbs distribution to obtain pseudo labels. In the second step (Embedding Refinement), we use the pseudo labels to provide supervision for a learner that yields a better embedding. Further, we iterate on the two steps again by using the second step's embeddings as new covariates for the next iteration. In the final iteration, a classifier is trained using the pseudo labels. Our algorithm displays strong gains against several SOTA baselines (up to 15%) for the LLP Binary Classification problem on various dataset types - tabular and Image. We achieve these improvements with minimal computational overhead above standard supervised learning due to Belief Propagation, for large bag sizes, even for a million samples.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# 時系列分類のためのデータ拡張:広範囲にわたる実証研究と包括的調査

Data Augmentation for Time-Series Classification: An Extensive Empirical Study and Comprehensive Survey ( http://arxiv.org/abs/2310.10060v3 )

ライセンス: Link先を確認
Zijun Gao, Lingbo Li, (参考訳) データ拡張(DA)は、主にトレーニングサンプルを増幅し、モデルロバスト性を強化し、データセットを多様化し、過剰適合を緩和する能力のために、時系列分類(TSC)において必須の戦略として現れてきた。 しかし、TSCにおけるDAの現在の状況は、断片化された文献レビュー、曖昧な方法論の分類、不適切な評価基準、アクセス可能なユーザ指向ツールの不足に悩まされている。 これらの課題を踏まえて,本研究では,TSC領域内におけるDA方法論の徹底的な解離について検討する。 最初のアプローチでは10年間にわたる広範な文献レビューを行い、現代の調査では、TSCのDAの進歩の幅がほとんどなく、100以上の学術論文を慎重に分析し、60以上のDAテクニックを蒸留することに成功した。 この厳密な分析は、TSCにおけるDAの複雑化のために構築された新しい分類学の定式化を先導し、テクニックを変換ベース、パターンベース、生成ベース、分解ベース、自動データ拡張の5つの主要なエキロンに分類した。 我々の分類学は、学者にとって堅牢なナビゲーション支援として機能し、方法選択の明確さと方向性を提供すると約束している。 その結果,8つのUCR時系列データセットに対して15以上のDA戦略が精査され,ResNetと,精度,手法ランク付け,残留分析を含む多面評価パラダイムが採用され,88.94 +-11.83%のベンチマーク精度が得られた。 我々の調査は,DA技術が不整合性であることを示すものである。

Data Augmentation (DA) has emerged as an indispensable strategy in Time Series Classification (TSC), primarily due to its capacity to amplify training samples, thereby bolstering model robustness, diversifying datasets, and curtailing overfitting. However, the current landscape of DA in TSC is plagued with fragmented literature reviews, nebulous methodological taxonomies, inadequate evaluative measures, and a dearth of accessible, user-oriented tools. In light of these challenges, this study embarks on an exhaustive dissection of DA methodologies within the TSC realm. Our initial approach involved an extensive literature review spanning a decade, revealing that contemporary surveys scarcely capture the breadth of advancements in DA for TSC, prompting us to meticulously analyze over 100 scholarly articles to distill more than 60 unique DA techniques. This rigorous analysis precipitated the formulation of a novel taxonomy, purpose-built for the intricacies of DA in TSC, categorizing techniques into five principal echelons: Transformation-Based, Pattern-Based, Generative, Decomposition-Based, and Automated Data Augmentation. Our taxonomy promises to serve as a robust navigational aid for scholars, offering clarity and direction in method selection. Addressing the conspicuous absence of holistic evaluations for prevalent DA techniques, we executed an all-encompassing empirical assessment, wherein upwards of 15 DA strategies were subjected to scrutiny across 8 UCR time-series datasets, employing ResNet and a multi-faceted evaluation paradigm encompassing Accuracy, Method Ranking, and Residual Analysis, yielding a benchmark accuracy of 88.94 +- 11.83%. Our investigation underscored the inconsistent efficacies of DA techniques, with...
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# Real-Fake:分散マッチングによる効果的なトレーニングデータ合成

Real-Fake: Effective Training Data Synthesis Through Distribution Matching ( http://arxiv.org/abs/2310.10402v2 )

ライセンス: Link先を確認
Jianhao Yuan, Jie Zhang, Shuyang Sun, Philip Torr, Bo Zhao, (参考訳) 合成トレーニングデータは、データセットの強化、一般化評価、プライバシ保護といった利点を提供する、多くの学習タスクやシナリオで注目を集めている。 これらの利点にもかかわらず、現在の手法によって生成された合成データの効率は、高度な深層モデルのみを訓練する際にも劣るままであり、実用性は制限されている。 この課題に対処するために、教師付き学習のためのトレーニングデータ合成の基礎となる原則を分析し、合成効果を規定するメカニズムを解明する分布マッチングの観点から、原理的理論的枠組みを解明する。 広範にわたる実験を通じて、実際のデータセットへの置換や拡張といった多様な画像分類タスクにまたがる合成データの有効性を実証するとともに、アウト・オブ・ディストリビューションの一般化、プライバシ保護、スケーラビリティといったメリットも示す。 具体的には、画像Net1Kの70.9%のトップ1分類精度を、1Xに相当する合成データのみでトレーニングすると、元の実データサイズが76.0%になる。

Synthetic training data has gained prominence in numerous learning tasks and scenarios, offering advantages such as dataset augmentation, generalization evaluation, and privacy preservation. Despite these benefits, the efficiency of synthetic data generated by current methodologies remains inferior when training advanced deep models exclusively, limiting its practical utility. To address this challenge, we analyze the principles underlying training data synthesis for supervised learning and elucidate a principled theoretical framework from the distribution-matching perspective that explicates the mechanisms governing synthesis efficacy. Through extensive experiments, we demonstrate the effectiveness of our synthetic data across diverse image classification tasks, both as a replacement for and augmentation to real datasets, while also benefits such as out-of-distribution generalization, privacy preservation, and scalability. Specifically, we achieve 70.9% top1 classification accuracy on ImageNet1K when training solely with synthetic data equivalent to 1 X the original real data size, which increases to 76.0% when scaling up to 10 X synthetic data.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# ウェーハにおける機械学習による欠陥分類の観察と実験的考察

Observational and Experimental Insights into Machine Learning-Based Defect Classification in Wafers ( http://arxiv.org/abs/2310.10705v4 )

ライセンス: Link先を確認
Kamal Taha, (参考訳) 本稿では,半導体製造におけるウエハ欠陥の同定に機械学習(ML)分類技術を用いた方法論の総合的なレビューを行う。 ウエハ欠陥同定におけるMLの有効性を実証する研究機関が増えているが、この主題に関する包括的なレビューは明らかにされていない。 この調査は、利用可能な文献を要約し、ウェハ欠陥検出の領域における様々なML分類アルゴリズムの利点、限界、および潜在的な応用の詳細な分析を提供することによって、この空白を埋めようとしている。 提案する方法論の革新的な分類法は、より洗練されたカテゴリと技法にアルゴリズムの詳細な分類を提供する。 この分類法は、幅広い方法論のカテゴリから始まり、特定のテクニックで終わる3層構造に従っている。 異なるアルゴリズムとそれらの技術の間の複雑な関係を理解するのに役立ちます。 我々は、これらの様々なテクニックをランク付けするために、厳密な観察的および実験的評価を採用する。 観測評価では,4つの基準のセットに基づいて評価を行う。 実験的な評価では、アルゴリズムが同じテクニック、サブカテゴリ、カテゴリを用いてランク付けされている。 また, ウェハ欠陥同定のためのML分類技術の将来展望を照らし, さらなる研究の機会と可能性について述べる。

This survey paper offers a comprehensive review of methodologies utilizing machine learning (ML) classification techniques for identifying wafer defects in semiconductor manufacturing. Despite the growing body of research demonstrating the effectiveness of ML in wafer defect identification, there is a noticeable absence of comprehensive reviews on this subject. This survey attempts to fill this void by amalgamating available literature and providing an in-depth analysis of the advantages, limitations, and potential applications of various ML classification algorithms in the realm of wafer defect detection. An innovative taxonomy of methodologies that we present provides a detailed classification of algorithms into more refined categories and techniques. This taxonomy follows a three-tier structure, starting from broad methodology categories and ending with specific techniques. It aids researchers in comprehending the complex relationships between different algorithms and their techniques. We employ a rigorous Observational and experimental evaluation to rank these varying techniques. For the Observational evaluation, we assess techniques based on a set of four criteria. The experimental evaluation ranks the algorithms employing the same techniques, sub-categories, and categories. Also the paper illuminates the future prospects of ML classification techniques for wafer defect identification, underscoring potential advancements and opportunities for further research in this field
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# AutoMix: 自動混合言語モデル

AutoMix: Automatically Mixing Language Models ( http://arxiv.org/abs/2310.12963v3 )

ライセンス: Link先を確認
Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui, (参考訳) 大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。 この多様性は幅広い選択肢を提供するが、計算コストと性能を最適化するオプションを効果的に活用することは依然として困難である。 本稿では,より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングするAutoMixを提案する。 Central to AutoMixは、トレーニングを必要とせずに出力の信頼性を見積もる、数発の自己検証メカニズムである。 検証がノイズになりうることを考慮し、これらの評価の精度を向上するためにAutoMixのメタ検証を用いる。 LLAMA2-13B と GPT-4 を用いた5つの文脈基底推論データセットによる実験により,AutoMix が確立されたベースラインを越え,コストあたりの漸進的利益を最大 86% 向上することを示した。 私たちのコードとデータはhttps://github.com/automix-llm/automix.comで公開されています。

Large language models (LLMs) are now available from cloud API providers in various sizes and configurations. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta-verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13B and GPT-4, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 86%. Our code and data are available at https://github.com/automix-llm/automix.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# 反射型マルチハザードのための流れに基づく深部ベイズネットワークの正規化とInSAR画像による影響推定

Normalizing flow-based deep variational Bayesian network for seismic multi-hazards and impacts estimation from InSAR imagery ( http://arxiv.org/abs/2310.13805v2 )

ライセンス: Link先を確認
Xuechun Li, Paula M. Burgi, Wei Ma, Hae Young Noh, David J. Wald, Susu Xu, (参考訳) 地震のような現場の災害は、地すべりやインフラの損傷などのカスケードの危険や影響を引き起こし、破滅的な損失をもたらす。 インターフェロメトリ合成開口レーダ(InSAR)のデータは、迅速なハザード推定のために高解像度のオンサイト情報を提供する上で重要である。 InSAR画像信号を用いた最近の手法は、単一種類のハザードを予測し、しばしば共配置のハザード、影響、および無関係な環境変化(例えば、植生の変化、人間活動)によって引き起こされるノイズや複雑な信号によって、低い精度を損なう。 InSAR画像のノイズによる影響と、複数の観測不能な障害の連続的後部からの正規化フローによる新しい確率的変動推論を導入する。

Onsite disasters like earthquakes can trigger cascading hazards and impacts, such as landslides and infrastructure damage, leading to catastrophic losses; thus, rapid and accurate estimates are crucial for timely and effective post-disaster responses. Interferometric Synthetic aperture radar (InSAR) data is important in providing high-resolution onsite information for rapid hazard estimation. Most recent methods using InSAR imagery signals predict a single type of hazard and thus often suffer low accuracy due to noisy and complex signals induced by co-located hazards, impacts, and irrelevant environmental changes (e.g., vegetation changes, human activities). We introduce a novel stochastic variational inference with normalizing flows derived to jointly approximate posteriors of multiple unobserved hazards and impacts from noisy InSAR imagery.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# ウェーブレットをベースとしたラムゼイ磁力計によるダイヤモンド中の単一NV中心の増強

Wavelet-based Ramsey magnetometry enhancement of a single NV center in diamond ( http://arxiv.org/abs/2310.18959v2 )

ライセンス: Link先を確認
Ekrem Taha Güldeste, Ceyhun Bulutay, (参考訳) ダイヤモンド中の窒素空孔(NV)中心は固体ナノセンシングパラダイムを構成する。 特に高精度磁気計測では、ラムゼイ干渉法(ラムゼイ干渉法、Ramsey interferometry)は、時間分解されたスピン状態依存光発光(PL)データからセンシング信号を抽出する一般的な選択法である。 感度は最終的に光子ショットノイズによって制限され、平均や周波数フィルタリングでは十分に除去できない。 本稿では、光子ショットノイズの抑制に特化したウェーブレットデノケーション方式により強化された単一NV中心のラムゼー直流磁力計を提案する。 単に、収集されたPL時系列に適用された古典的な後処理として動作する。 我々の実装は、周波数だけでなく時間依存の分極を可能にするテンプレート・マージン・しきい値法という手法に基づいている。 我々は、その直流磁界検出信号-雑音比改善を、PLデータよりも桁違いに計算的にベンチマークした。

Nitrogen-vacancy (NV) centers in diamond constitute a solid-state nanosensing paradigm. Specifically for high-precision magnetometry, the so-called Ramsey interferometry is the prevalent choice where the sensing signal is extracted from time-resolved spin-state-dependent photoluminescence (PL) data. Its sensitivity is ultimately limited by the photon shot noise, which cannot be sufficiently removed by averaging or frequency filtering. Here, we propose Ramsey DC magnetometry of a single NV center enhanced by a wavelet-denoising scheme specifically tailored to suppress photon shot noise. It simply operates as a classical post-processing applied on a collected PL time series. Our implementation is based on a method that we named template margin thresholding which enables not only frequency but also time-dependent denoising. We computationally benchmark its DC magnetic field sensing signal-to-noise-ratio improvement over the raw PL data around an order of magnitude.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# 近時無期限履歴を用いた汎用検索型医療予測モデル

General-Purpose Retrieval-Enhanced Medical Prediction Model Using Near-Infinite History ( http://arxiv.org/abs/2310.20204v3 )

ライセンス: Link先を確認
Junu Kim, Chaeeun Shim, Bosco Seong Kyu Yang, Chami Im, Sung Yoon Lim, Han-Gil Jeong, Edward Choi, (参考訳) 電子健康記録(EHR)に基づく臨床予測モデル(例えば死亡予測)の開発は、通常、特徴の選択や観察窓の大きさの調整に専門家の意見に依存する。 これにより、専門家が負担になり、開発プロセスにボトルネックが発生します。 このような課題に対処するために、検索型医療予測モデル(REMed)を提案する。 REMedは基本的に、無制限の臨床イベントを評価し、関連するイベントを選択し、予測する。 このアプローチは,手動による特徴選択の必要性を効果的に排除し,無制限な観察窓を実現する。 我々はこれらの特性を27の臨床的タスクと2つの独立したEHRデータセットを用いて検証し、REMedは可能な限り多くのイベントを扱うことを目的とした他の現代のアーキテクチャよりも優れていた。 特に,REMedの嗜好が医療専門家の嗜好と密接に一致していることが判明した。 我々は,手作業による介入の必要性を最小限に抑えて,EHR予測モデルの開発を著しく促進するアプローチを期待する。

Developing clinical prediction models (e.g., mortality prediction) based on electronic health records (EHRs) typically relies on expert opinion for feature selection and adjusting observation window size. This burdens experts and creates a bottleneck in the development process. We propose Retrieval-Enhanced Medical prediction model (REMed) to address such challenges. REMed can essentially evaluate an unlimited number of clinical events, select the relevant ones, and make predictions. This approach effectively eliminates the need for manual feature selection and enables an unrestricted observation window. We verified these properties through experiments on 27 clinical tasks and two independent cohorts from publicly available EHR datasets, where REMed outperformed other contemporary architectures that aim to handle as many events as possible. Notably, we found that the preferences of REMed align closely with those of medical experts. We expect our approach to significantly expedite the development of EHR prediction models by minimizing clinicians' need for manual involvement.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# UWFormer:半監督型マルチスケール変圧器による水中画像強調

UWFormer: Underwater Image Enhancement via a Semi-Supervised Multi-Scale Transformer ( http://arxiv.org/abs/2310.20210v2 )

ライセンス: Link先を確認
Yingtie Lei, Weiwen Chen, Shenghong Luo, Ziyang Zhou, Mingxian Li, Chi-Man Pun, (参考訳) 水中画像は、光、水、物体の複雑な複雑な相互作用のため、品質が悪く、色バランスが歪んだり、コントラストが低かったりすることが多い。 従来の水中強化技術には大きな貢献があったが、さらなる改善を求める問題がいくつかある。 (i)現在のディープラーニング手法は、マルチスケールの強化を欠いた畳み込みニューラルネットワーク(CNN)に依存しており、グローバルな知覚場も制限されている。 (II)実世界の水中データセットの不足は大きな課題となり、合成画像ペアの利用が過度に適合する可能性がある。 上記の問題に対処するため, 半教師付き学習による複数周波数画像の強調を行うUWFormerと呼ばれるマルチスケールトランスフォーマーネットワークを導入し, 低周波数強調のための非線形周波数認識アテンション機構とマルチスケールフュージョンフィードフォワードネットワークを提案する。 さらに,水中における半教師付き訓練戦略を導入し,疑似ラベルを生成するためのサブアキュースパーセプティカルロス関数を提案する。 完全参照型および非参照型水中ベンチマークを用いた実験により,本手法は,量および視覚的品質の両面で最先端の手法より優れていることが示された。

Underwater images often exhibit poor quality, distorted color balance and low contrast due to the complex and intricate interplay of light, water, and objects. Despite the significant contributions of previous underwater enhancement techniques, there exist several problems that demand further improvement: (i) The current deep learning methods rely on Convolutional Neural Networks (CNNs) that lack the multi-scale enhancement, and global perception field is also limited. (ii) The scarcity of paired real-world underwater datasets poses a significant challenge, and the utilization of synthetic image pairs could lead to overfitting. To address the aforementioned problems, this paper introduces a Multi-scale Transformer-based Network called UWFormer for enhancing images at multiple frequencies via semi-supervised learning, in which we propose a Nonlinear Frequency-aware Attention mechanism and a Multi-Scale Fusion Feed-forward Network for low-frequency enhancement. Besides, we introduce a special underwater semi-supervised training strategy, where we propose a Subaqueous Perceptual Loss function to generate reliable pseudo labels. Experiments using full-reference and non-reference underwater benchmarks demonstrate that our method outperforms state-of-the-art methods in terms of both quantity and visual quality.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# ニューラルネットワークを用いた相互作用力学系における潜場発見

Latent Field Discovery In Interacting Dynamical Systems With Neural Fields ( http://arxiv.org/abs/2310.20679v2 )

ライセンス: Link先を確認
Miltiadis Kofinas, Erik J. Bekkers, Naveen Shankar Nagaraja, Efstratios Gavves, (参考訳) 相互作用する物体のシステムは、その力学を支配する場効果の影響の下でしばしば進化するが、以前の研究はそのような効果から切り離され、系は真空の中で進化すると考えられている。 本研究では,これらの分野の発見に焦点をあて,直接観察することなく,観測された力学からのみ推論する。 我々は、潜伏力場の存在を理論化し、それらを学ぶためにニューラルネットワークを提案する。 観測されたダイナミクスは、局所的なオブジェクト相互作用と大域的なフィールド効果のネット効果を構成するため、最近普及した同変ネットワークは、グローバル情報を捕捉できないため、適用できない。 これを解決するために、我々は、絶対状態に依存する外部のグローバル場効果から、$\mathrm{SE}(n)$同変で、相対状態に依存する局所的なオブジェクト相互作用を解き放つことを提案する。 我々は、同変グラフネットワークとの相互作用をモデル化し、場力を統合する新しいグラフネットワークにおいて、それらをニューラルネットワークと組み合わせる。 実験の結果,荷電粒子の設定,交通シーン,重力n体問題などの基礎となる領域を正確に把握し,システム学習や将来の軌道予測に有効に活用できることが判明した。

Systems of interacting objects often evolve under the influence of field effects that govern their dynamics, yet previous works have abstracted away from such effects, and assume that systems evolve in a vacuum. In this work, we focus on discovering these fields, and infer them from the observed dynamics alone, without directly observing them. We theorize the presence of latent force fields, and propose neural fields to learn them. Since the observed dynamics constitute the net effect of local object interactions and global field effects, recently popularized equivariant networks are inapplicable, as they fail to capture global information. To address this, we propose to disentangle local object interactions -- which are $\mathrm{SE}(n)$ equivariant and depend on relative states -- from external global field effects -- which depend on absolute states. We model interactions with equivariant graph networks, and combine them with neural fields in a novel graph network that integrates field forces. Our experiments show that we can accurately discover the underlying fields in charged particles settings, traffic scenes, and gravitational n-body problems, and effectively use them to learn the system and forecast future trajectories.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# LISNeRFマッピング:大規模3次元シーンのための意味的ニューラルネットワークによるLiDARに基づくインシシットマッピング

LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes ( http://arxiv.org/abs/2311.02313v2 )

ライセンス: Link先を確認
Jianyuan Zhang, Zhiliu Yang, Meng Zhang, (参考訳) 大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。 本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。 まず,暗黙的特徴を格納するためにオクツリーをベースとした階層構造を利用し,その暗黙的特徴を浅層パーセプトロン(MLP)を介して意味情報と符号付き距離値にデコードする。 我々は、ポイントクラウドのセマンティックラベルとインスタンスIDを予測するために、オフザシェルフアルゴリズムを採用する。 次に,特徴埋め込みとMDPパラメータを,点雲幾何学の自己超越パラダイムと意味的および汎光学的ラベルの擬超越パラダイムと組み合わせて最適化する。 その後、新規点のカテゴリや幾何学構造を回帰させ、マーチングキューブを利用して推論段階のシーンを分割、視覚化する。 メモリ制約のあるシナリオに対しては、サブマップを完全なマップにマージするマップステッチ戦略も開発されている。 実世界の2つのデータセットであるSemanticKITTIとSemanticPOSSの実験は、現在の最先端3D LiDARマッピング法と比較して、我々のフレームワークのセグメンテーション効率とマッピング効率が優れていることを示した。

Large-scale semantic mapping is crucial for outdoor autonomous agents to fulfill high-level tasks such as planning and navigation. This paper proposes a novel method for large-scale 3D semantic reconstruction through implicit representations from posed LiDAR measurements alone. We first leverage an octree-based and hierarchical structure to store implicit features, then these implicit features are decoded to semantic information and signed distance value through shallow Multilayer Perceptrons (MLPs). We adopt off-the-shelf algorithms to predict the semantic labels and instance IDs of point clouds. We then jointly optimize the feature embeddings and MLPs parameters with a self-supervision paradigm for point cloud geometry and a pseudo-supervision paradigm for semantic and panoptic labels. Subsequently, categories and geometric structures for novel points are regressed, and marching cubes are exploited to subdivide and visualize the scenes in the inferring stage. For scenarios with memory constraints, a map stitching strategy is also developed to merge sub-maps into a complete map. Experiments on two real-world datasets, SemanticKITTI and SemanticPOSS, demonstrate the superior segmentation efficiency and mapping effectiveness of our framework compared to current state-of-the-art 3D LiDAR mapping methods.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# 任意の複合系に対する量子安定化器形式

Quantum stabilizer formalism for any composite system ( http://arxiv.org/abs/2311.04255v3 )

ライセンス: Link先を確認
Zhelin Tian, (参考訳) 量子安定化器形式は、もともと量子エラー訂正符号をより便利に記述するために導入され、現在では量子コンピューティングや量子基礎など、多くの分野で重要な役割を担っている。 この論文では、まず関連する背景と必要な基礎知識を紹介し、量子安定化器の定義とその量子系の進化と測定への応用を紹介する。 最後に、量子安定化器の定式化を、以前に定義されていない量子ビット量子と量子ビット量子に拡張し、任意の合成系の量子安定化器をさらに定義しようと試みる。

The quantum stabilizer formalism was originally introduced to describe quantum error correction codes more conveniently and now are also playing an important role in many other fields, e.g., quantum computing and quantum foundation. In this dissertation, we first introduce relevant background and necessary basic knowledge, then introduce the definition of quantum stabilizer and its application in quantum system evolution and measurement. Finally, we try to extend the quantum stabilizer formalism to qubit-qutrit and qubit-ququart systems which not defined before, and further define quantum stabilizers of arbitrary composite systems.
翻訳日:2024-03-21 22:27:37 公開日:2024-03-20
# 情報ボトルネックを用いたカオス力学系の機械学習最適化計測

Machine-learning optimized measurements of chaotic dynamical systems via the information bottleneck ( http://arxiv.org/abs/2311.04896v2 )

ライセンス: Link先を確認
Kieran A. Murphy, Dani S. Bassett, (参考訳) 決定論的カオス(Deterministic chaos)は、「完璧な測定」という正確な概念を許し、繰り返し得られると、システムの進化によって生成された全ての情報を最小の冗長性でキャプチャする。 最適な測定方法を見つけることは困難であり、一般的には、実行された少数のケースにおいて、ダイナミクスの詳細な知識を必要とする。 完全測定と情報ボトルネックの変種との等価性を確立する。 その結果、軌道データから効率的に情報を抽出する計測プロセスの最適化に機械学習を用いることができる。 我々は,複数のカオスマップに対してほぼ最適な測定値を求め,一般時系列からの効率的な情報抽出に必要な基礎を定めている。

Deterministic chaos permits a precise notion of a "perfect measurement" as one that, when obtained repeatedly, captures all of the information created by the system's evolution with minimal redundancy. Finding an optimal measurement is challenging, and has generally required intimate knowledge of the dynamics in the few cases where it has been done. We establish an equivalence between a perfect measurement and a variant of the information bottleneck. As a consequence, we can employ machine learning to optimize measurement processes that efficiently extract information from trajectory data. We obtain approximately optimal measurements for multiple chaotic maps and lay the necessary groundwork for efficient information extraction from general time series.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# LLatrieval: 検証可能な生成のためのLLM検証検索

LLatrieval: LLM-Verified Retrieval for Verifiable Generation ( http://arxiv.org/abs/2311.07838v2 )

ライセンス: Link先を確認
Xiaonan Li, Changtai Zhu, Linyang Li, Zhangyue Yin, Tianxiang Sun, Xipeng Qiu, (参考訳) 検証可能な生成は、大きな言語モデル(LLM)が文書をサポートするテキストを生成することを目的としており、ユーザが柔軟に回答を検証し、LLMの出力をより信頼性の高いものにすることを目的としている。 検索は、検証可能な世代において重要な役割を果たす。 具体的には、検索した文書は、LCMが正しい回答を生成するのを助けるために知識を補うだけでなく、LCMの出力を検証するための支援証拠としても機能する。 しかし、広く使われているレトリバーはパイプライン全体のボトルネックとなり、全体的なパフォーマンスを制限します。 通常、LLMは大きな言語モデルよりもパラメータがはるかに少ないため、LLMよりも劣る。 検索者がサポートされた文書を正しく見つけられなかった場合、LLMは正しい検証可能な回答を生成できず、LLMの顕著な能力は覆い隠される。 これらの制約に対処するため,LLMは検索結果を更新し,検索した文書が十分な回答を支持できることを確認した。 これにより、LLMは、検索に対するフィードバックを反復的に提供し、検索結果を容易にして、検証可能な生成を完全に支援することができる。 実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。

Verifiable generation aims to let the large language model (LLM) generate text with supporting documents, which enables the user to flexibly verify the answer and makes the LLM's output more reliable. Retrieval plays a crucial role in verifiable generation. Specifically, the retrieved documents not only supplement knowledge to help the LLM generate correct answers, but also serve as supporting evidence for the user to verify the LLM's output. However, the widely used retrievers become the bottleneck of the entire pipeline and limit the overall performance. Their capabilities are usually inferior to LLMs since they often have much fewer parameters than the large language model and have not been demonstrated to scale well to the size of LLMs. If the retriever does not correctly find the supporting documents, the LLM can not generate the correct and verifiable answer, which overshadows the LLM's remarkable abilities. To address these limitations, we propose \LLatrieval (Large Language Model Verified Retrieval), where the LLM updates the retrieval result until it verifies that the retrieved documents can sufficiently support answering the question. Thus, the LLM can iteratively provide feedback to retrieval and facilitate the retrieval result to fully support verifiable generation. Experiments show that LLatrieval significantly outperforms extensive baselines and achieves state-of-the-art results.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 分散学習のためのプライバシ・エネルギー消費トレードオフの探索

Exploring the Privacy-Energy Consumption Tradeoff for Split Federated Learning ( http://arxiv.org/abs/2311.09441v3 )

ライセンス: Link先を確認
Joohyung Lee, Mohamed Seif, Jungchan Cho, H. Vincent Poor, (参考訳) Split Federated Learning (SFL)は、最近、フェデレーションとスプリットラーニングの両方の長所を活用する、有望な分散学習技術として登場した。 プライバシーの懸念に対処しながら、迅速な収束の利点を強調している。 その結果、この革新は産業と学術の両方から大きな注目を集めている。 しかし、SFLのクライアント側モデルとサーバ側モデルの両方に、カット層と呼ばれる特定の層で分割されるため、SFLにおけるカット層の選択は、クライアントのエネルギー消費とプライバシに大きく影響し、クライアント側のモデルのトレーニング負荷と出力に影響を与える可能性がある。 本稿では、SFLプロセスの概要を概観し、エネルギー消費とプライバシーを徹底的に分析する。 この分析は、カット層選択戦略における様々なシステムパラメータの影響を考察する。 また,要求されるエネルギー予算内でのエネルギー消費を抑えつつ,クライアントの生データをサーバで再構築するリスクを最小限に抑えるため,カット層選択の図示的な例を示す。 最後に、この分野におけるオープンな課題に対処する。 これらの方向は将来の研究開発に期待できる道のりを表している。

Split Federated Learning (SFL) has recently emerged as a promising distributed learning technology, leveraging the strengths of both federated and split learning. It emphasizes the advantages of rapid convergence while addressing privacy concerns. As a result, this innovation has received significant attention from both industry and academia. However, since the model is split at a specific layer, known as a cut layer, into both client-side and server-side models for the SFL, the choice of the cut layer in SFL can have a substantial impact on the energy consumption of clients and their privacy, as it influences the training burden and the output of the client-side models. In this article, we provide a comprehensive overview of the SFL process and thoroughly analyze energy consumption and privacy. This analysis considers the influence of various system parameters on the cut layer selection strategy. Additionally, we provide an illustrative example of the cut layer selection, aiming to minimize clients' risk of reconstructing the raw data at the server while sustaining energy consumption within the required energy budget, which involves trade-offs. Finally, we address open challenges in this field. These directions represent promising avenues for future research and development.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 強化学習におけるリワードシェイピングによる制御要件の保証

Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning ( http://arxiv.org/abs/2311.10026v2 )

ライセンス: Link先を確認
Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi, Mario di Bernardo, (参考訳) 規制や強化学習による追跡といった制御問題に対処するためには, 取得したポリシが, 所望の着地時間や定常状態のエラーなど, 本質的な性能と安定性の基準を満たすことを保証することが求められる。 この必要性に感銘を受けて、我々は一連の結果と体系的な報酬形成手順を提示する。 i) 最適方針が所定の規制要件に適合する軌道を生成することを保証すること。 (二)任意の政策が満足するかどうかを評価することができる。 提案手法は,OpenAI Gymの2つの代表的な環境(逆振り子の振上げ問題)とLunar Lander(Lunar Lander)の総合的な数値実験により検証する。 本研究は,表層・深部強化学習の両手法を用いて,提案手法の有効性を常に確認し,所定の規制要件の遵守を確保する上での有効性を強調した。

In addressing control problems such as regulation and tracking through reinforcement learning, it is often required to guarantee that the acquired policy meets essential performance and stability criteria such as a desired settling time and steady-state error prior to deployment. Motivated by this necessity, we present a set of results and a systematic reward shaping procedure that (i) ensures the optimal policy generates trajectories that align with specified control requirements and (ii) allows to assess whether any given policy satisfies them. We validate our approach through comprehensive numerical experiments conducted in two representative environments from OpenAI Gym: the Inverted Pendulum swing-up problem and the Lunar Lander. Utilizing both tabular and deep reinforcement learning methods, our experiments consistently affirm the efficacy of our proposed framework, highlighting its effectiveness in ensuring policy adherence to the prescribed control requirements.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 乳がんスライドにおける良性上皮細胞, in situ 病変および浸潤上皮細胞の分画誘導に関する免疫組織化学的研究

Immunohistochemistry guided segmentation of benign epithelial cells, in situ lesions, and invasive epithelial cells in breast cancer slides ( http://arxiv.org/abs/2311.13261v2 )

ライセンス: Link先を確認
Maren Høibø, André Pedersen, Vibeke Grotnes Dale, Sissel Marie Berget, Borgny Ytterhus, Cecilia Lindskog, Elisabeth Wik, Lars A. Akslen, Ingerid Reinertsen, Erik Smistad, Marit Valla, (参考訳) デジタル病理学は、人工知能(AI)を用いた病理領域の自動解析を可能にする。 自動評価は診断効率を向上し、形態学的特徴と臨床結果の関連を見つけるのに役立つ。 このような予測モデルの開発には、浸潤上皮細胞を同定し、良性上皮細胞とin situ病変を分離することが第一歩となる。 本研究では,乳がん領域における上皮細胞のセグメンテーションのためのAIモデルを開発することを目的とした。 細胞ケラチン (CK) AE1/AE3 によるヘマトキシリンおよびエオシン (HE) 切断を保存し, 病理医のアノテーションにより上皮性基底真偽マスクを作製した。 HE/CKイメージペアは畳み込みニューラルネットワークのトレーニングに使用され、データ拡張はモデルをより堅牢にするために使用された。 839例の組織マイクロアレイ(TMA)と2例のスライド画像を用いてモデルのトレーニングと評価を行った。 切除部位は乳がん患者の4つのコホートから得られた。 第5コホートから21例のTMAを第2テストセットとして使用した。 定量的評価では,浸潤上皮細胞,良性上皮細胞,in situ病変に対する平均Diceスコア0.70,0.79,0.75が得られた。 病理学者による定性スコア(0-5)では,全上皮および浸潤上皮に最も適しており,スコアは4.7と4.4であった。 良性上皮およびin situ病変のスコアは3.7,2.0。 本モデルでは, HE染色乳癌における上皮細胞分画が良好に観察できるが, クラス間での正確な分画にはさらなる作業が必要である。 免疫組織化学は病理学者の注釈とともに、正確な基底真理の創造を可能にした。 このモデルはFastPathologyで無料で利用可能であり、コードはhttps://github.com/AICAN-Research/breast-epithelium-segmentationで入手できる。

Digital pathology enables automatic analysis of histopathological sections using artificial intelligence (AI). Automatic evaluation could improve diagnostic efficiency and help find associations between morphological features and clinical outcome. For development of such prediction models, identifying invasive epithelial cells, and separating these from benign epithelial cells and in situ lesions would be the first step. In this study, we aimed to develop an AI model for segmentation of epithelial cells in sections from breast cancer. We generated epithelial ground truth masks by restaining hematoxylin and eosin (HE) sections with cytokeratin (CK) AE1/AE3, and by pathologists' annotations. HE/CK image pairs were used to train a convolutional neural network, and data augmentation was used to make the model more robust. Tissue microarrays (TMAs) from 839 patients, and whole slide images from two patients were used for training and evaluation of the models. The sections were derived from four cohorts of breast cancer patients. TMAs from 21 patients from a fifth cohort was used as a second test set. In quantitative evaluation, a mean Dice score of 0.70, 0.79, and 0.75 for invasive epithelial cells, benign epithelial cells, and in situ lesions, respectively, were achieved. In qualitative scoring (0-5) by pathologists, results were best for all epithelium and invasive epithelium, with scores of 4.7 and 4.4. Scores for benign epithelium and in situ lesions were 3.7 and 2.0. The proposed model segmented epithelial cells in HE stained breast cancer slides well, but further work is needed for accurate division between the classes. Immunohistochemistry, together with pathologists' annotations, enabled the creation of accurate ground truths. The model is made freely available in FastPathology and the code is available at https://github.com/AICAN-Research/breast-epithelium-segmentation
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# GNN訓練システムの総合的評価:データ管理の観点から

Comprehensive Evaluation of GNN Training Systems: A Data Management Perspective ( http://arxiv.org/abs/2311.13279v2 )

ライセンス: Link先を確認
Hao Yuan, Yajiong Liu, Yanfeng Zhang, Xin Ai, Qiange Wang, Chaoyi Chen, Yu Gu, Ge Yu, (参考訳) 多くのグラフニューラルネットワーク(GNN)トレーニングシステムが最近、効率的なGNNトレーニングをサポートするために登場した。 GNNは、トレーニングサンプル間の複雑なデータ依存関係を具現化しているため、データパーティショニング、ミニバッチトレーニングのためのバッチ準備、CPUとGPU間のデータ転送など、データ管理におけるDNNトレーニングとは異なる課題に対処する必要がある。 これらの要因は、トレーニング時間の大部分を占めるため、GNNトレーニングにおけるデータ管理がより重要になります。 本稿では,データ管理の観点からGNNトレーニングをレビューし,代表的アプローチの総合的な分析と評価を行う。 様々なベンチマークデータセットに関する広範な実験を行い、多くの興味深い、価値のある結果を示します。 また、これらの実験から得られた実践的なヒントも提供し、将来GNNトレーニングシステムの設計に役立ちます。

Many Graph Neural Network (GNN) training systems have emerged recently to support efficient GNN training. Since GNNs embody complex data dependencies between training samples, the training of GNNs should address distinct challenges different from DNN training in data management, such as data partitioning, batch preparation for mini-batch training, and data transferring between CPUs and GPUs. These factors, which take up a large proportion of training time, make data management in GNN training more significant. This paper reviews GNN training from a data management perspective and provides a comprehensive analysis and evaluation of the representative approaches. We conduct extensive experiments on various benchmark datasets and show many interesting and valuable results. We also provide some practical tips learned from these experiments, which are helpful for designing GNN training systems in the future.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# REDS:動的資源制約のための資源効率の良いディープサブネットワーク

REDS: Resource-Efficient Deep Subnetworks for Dynamic Resource Constraints ( http://arxiv.org/abs/2311.13349v2 )

ライセンス: Link先を確認
Francesco Corti, Balz Maag, Joachim Schauer, Ulrich Pferschy, Olga Saukh, (参考訳) エッジデバイスにデプロイされるディープモデルは、しばしばリソースの変動に遭遇する。これは、変動するエネルギーレベル、タイミング制約、システム内の他の重要なタスクの優先順位付けから生じる。 最先端の機械学習パイプラインは、実行時に適応できないリソースに依存しないモデルを生成する。 本研究では,資源効率の高いDeep Subnetworks (REDS) を導入し,変動資源へのモデル適応に取り組む。 最先端とは対照的に、REDSは、ハードウェア固有の最適化を可能にするニューロンの置換不変性を利用して構成的に構造化されたスパーシリティを使用する。 具体的には、(1)新しい反復的なknapsackオプティマイザによって識別される逐次計算ブロックをスキップし、(2)単純な数学を活用して、REDS計算グラフの演算順序を再アレンジし、データキャッシュを利用する。 REDSは、エッジに頻繁にデプロイされる従来のディープネットワークをサポートし、小さくて単純なネットワークに対しても計算上の利点を提供する。 我々は、Visual Wake Words、Google Speech Commands、Fashion-MNIST、CIFAR10データセットでトレーニングされた7つのベンチマークアーキテクチャ上でREDSを評価し、市販のモバイルおよび組み込みハードウェアプラットフォームでテストする。 Arduino Nano 33 BLE上の2層完全接続ネットワークを用いて,サブモデルテストセットの精度でREDSの優れた性能を示す理論的結果と実証的証拠を提供し,40$\mu$s以下の動的リソース制約に対応する適応時間を示す。

Deep models deployed on edge devices frequently encounter resource variability, which arises from fluctuating energy levels, timing constraints, or prioritization of other critical tasks within the system. State-of-the-art machine learning pipelines generate resource-agnostic models, not capable to adapt at runtime. In this work we introduce Resource-Efficient Deep Subnetworks (REDS) to tackle model adaptation to variable resources. In contrast to the state-of-the-art, REDS use structured sparsity constructively by exploiting permutation invariance of neurons, which allows for hardware-specific optimizations. Specifically, REDS achieve computational efficiency by (1) skipping sequential computational blocks identified by a novel iterative knapsack optimizer, and (2) leveraging simple math to re-arrange the order of operations in REDS computational graph to take advantage of the data cache. REDS support conventional deep networks frequently deployed on the edge and provide computational benefits even for small and simple networks. We evaluate REDS on seven benchmark architectures trained on the Visual Wake Words, Google Speech Commands, Fashion-MNIST and CIFAR10 datasets, and test on four off-the-shelf mobile and embedded hardware platforms. We provide a theoretical result and empirical evidence for REDS outstanding performance in terms of submodels' test set accuracy, and demonstrate an adaptation time in response to dynamic resource constraints of under 40$\mu$s, utilizing a 2-layer fully-connected network on Arduino Nano 33 BLE.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 後部蒸留サンプリング

Posterior Distillation Sampling ( http://arxiv.org/abs/2311.13831v2 )

ライセンス: Link先を確認
Juil Koo, Chanho Park, Minhyuk Sung, (参考訳) 本稿では,拡散モデルに基づくパラメトリック画像編集のための新しい最適化手法であるPosterior Distillation Sampling (PDS)を紹介する。 様々なパラメトリック画像の処理に拡散モデルの強力な2次元前処理を利用する既存の最適化手法は,主に生成に重点を置いている。 生成とは異なり、編集にはターゲット属性への準拠とソースコンテンツのアイデンティティの保存のバランスが必要である。 近年の2次元画像編集法は,拡散モデルの生成過程に符号化された確率的潜伏を利用して,このバランスを達成している。 画素空間で示される拡散モデルのパラメータ空間への編集能力を拡張するため、2次元画像編集法をPDSという最適化形式に再構成する。 PDSはソースとターゲットの確率的潜在値と一致し、ソースのアイデンティティを維持しながら、望ましい属性と整合する多様なパラメータ空間におけるターゲットのサンプリングを可能にする。 この最適化は, 生成過程と対象属性との類似性を示すが, 生成過程の軌跡との整合性を示す。 Neural Radiance Fields と Scalable Vector Graphics representations の広範囲な編集結果は、PDS が上記のパラメータ空間間のバランスを満たすためにターゲットをサンプリングできることを示している。

We introduce Posterior Distillation Sampling (PDS), a novel optimization method for parametric image editing based on diffusion models. Existing optimization-based methods, which leverage the powerful 2D prior of diffusion models to handle various parametric images, have mainly focused on generation. Unlike generation, editing requires a balance between conforming to the target attribute and preserving the identity of the source content. Recent 2D image editing methods have achieved this balance by leveraging the stochastic latent encoded in the generative process of diffusion models. To extend the editing capabilities of diffusion models shown in pixel space to parameter space, we reformulate the 2D image editing method into an optimization form named PDS. PDS matches the stochastic latents of the source and the target, enabling the sampling of targets in diverse parameter spaces that align with a desired attribute while maintaining the source's identity. We demonstrate that this optimization resembles running a generative process with the target attribute, but aligning this process with the trajectory of the source's generative process. Extensive editing results in Neural Radiance Fields and Scalable Vector Graphics representations demonstrate that PDS is capable of sampling targets to fulfill the aforementioned balance across various parameter spaces.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 校正された言語モデルには幻覚が必要だ

Calibrated Language Models Must Hallucinate ( http://arxiv.org/abs/2311.14648v3 )

ライセンス: Link先を確認
Adam Tauman Kalai, Santosh S. Vempala, (参考訳) 最近の言語モデルでは、驚くほどの頻度で、偽のもっとも可聴なテキストを生成する。 このような「幻覚」は、言語ベースのAIシステムのユーザビリティの障害であり、アウトプットに依存している人々を傷つける可能性がある。 この研究は、事前訓練された言語モデルがある種の事実を幻覚させ、トランスフォーマーLMアーキテクチャやデータ品質とは無関係な速度で統計的に低いバウンドが存在することを示している。 トレーニングデータから真偽を判断できない「任意」事実に対しては、生成言語モデルに適した統計的校正条件を満たす言語モデルに対して、幻覚が一定の速度で発生しなければならないことを示す。 具体的には、任意の事象の最大確率が有界であれば、幻覚を発生させる確率はトレーニングデータ(「Good-Turing」推定)で正確に1回発生する事象のごく一部に近く、たとえエラーのない理想的なトレーニングデータと仮定してもよいことを示す。 1つの結論は、十分に優れた予測子(すなわち校正された)として事前訓練されたモデルは、訓練セットに一度現れる傾向にある任意の事実のタイプに対する幻覚を緩和するために後トレーニングを必要とする可能性があるということである。 しかし,本研究では,事前学習が学習データに1回以上現れる傾向にある事実(特に顕著かつ問題のある記事や書籍などの出版物への参照など)や,体系的な事実(算術計算など)に幻覚をもたらすという統計的理由も示していない。 したがって、異なるアーキテクチャや学習アルゴリズムは、これらの後期の幻覚を緩和する可能性がある。

Recent language models generate false but plausible-sounding text with surprising frequency. Such "hallucinations" are an obstacle to the usability of language-based AI systems and can harm people who rely upon their outputs. This work shows that there is an inherent statistical lower-bound on the rate that pretrained language models hallucinate certain types of facts, having nothing to do with the transformer LM architecture or data quality. For "arbitrary" facts whose veracity cannot be determined from the training data, we show that hallucinations must occur at a certain rate for language models that satisfy a statistical calibration condition appropriate for generative language models. Specifically, if the maximum probability of any fact is bounded, we show that the probability of generating a hallucination is close to the fraction of facts that occur exactly once in the training data (a "Good-Turing" estimate), even assuming ideal training data without errors. One conclusion is that models pretrained to be sufficiently good predictors (i.e., calibrated) may require post-training to mitigate hallucinations on the type of arbitrary facts that tend to appear once in the training set. However, our analysis also suggests that there is no statistical reason that pretraining will lead to hallucination on facts that tend to appear more than once in the training data (like references to publications such as articles and books, whose hallucinations have been particularly notable and problematic) or on systematic facts (like arithmetic calculations). Therefore, different architectures and learning algorithms may mitigate these latter types of hallucinations.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# GeoScaler: 3Dメッシュテクスチャの幾何学とレンダリングによるダウンサンプリング

GeoScaler: Geometry and Rendering-Aware Downsampling of 3D Mesh Textures ( http://arxiv.org/abs/2311.16581v2 )

ライセンス: Link先を確認
Sai Karthikey Pentapati, Anshul Rai, Arkady Ten, Chaitanya Atluru, Alan Bovik, (参考訳) 高解像度テクスチャマップは、3Dメッシュで現実世界のオブジェクトを正確に表現するために必要である。 テクスチャの大きなサイズは、計算予算が低くメモリが限られているデバイス上で、高品質な仮想3Dシーンのリアルタイムレンダリングをボトルネックにすることができる。 テクスチャマップのダウンサンプリングは、視覚的忠実さを犠牲にしながらも、問題に直接対処する。 伝統的に、テクスチャマップのダウンサンプリングは、バイコビック補間やLanczosアルゴリズムなどの手法を用いて行われる。 これらの手法はメッシュの幾何学的レイアウトとUVパラメトリゼーションを無視し、また、ユーザが経験する最終的な視覚化を得るために使用されるレンダリングプロセスも考慮していない。 これらのギャップを埋めるために,幾何学的手がかりを取り入れつつ3次元メッシュのテクスチャマップをダウンサンプリングする方法であるGeoScalerを導入し,テクスチャメッシュの描画ビューの視覚的忠実度を最大化する。 そこで,GeoScalerが生成したテクスチャは,従来のダウンサンプリング手法に比べて,画質の高いレンダリング画像を提供することを示す。

High-resolution texture maps are necessary for representing real-world objects accurately with 3D meshes. The large sizes of textures can bottleneck the real-time rendering of high-quality virtual 3D scenes on devices having low computational budgets and limited memory. Downsampling the texture maps directly addresses the issue, albeit at the cost of visual fidelity. Traditionally, downsampling of texture maps is performed using methods like bicubic interpolation and the Lanczos algorithm. These methods ignore the geometric layout of the mesh and its UV parametrization and also do not account for the rendering process used to obtain the final visualization that the users will experience. Towards filling these gaps, we introduce GeoScaler, which is a method of downsampling texture maps of 3D meshes while incorporating geometric cues, and by maximizing the visual fidelity of the rendered views of the textured meshes. We show that the textures generated by GeoScaler deliver significantly better quality rendered images compared to those generated by traditional downsampling methods
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 大域的スピン回転と微分スピン回転の量子化メロロジーのための捕捉されたイオン結晶の非古典運動の爆発

Exploiting nonclassical motion of a trapped ion crystal for quantum-enhanced metrology of global and differential spin rotations ( http://arxiv.org/abs/2311.17275v3 )

ライセンス: Link先を確認
R. J. Lewis-Swan, J. C. Zuñiga Castro, D. Barberena, A. M. Rey, (参考訳) イオンの集合運動の圧縮状態に結合することで、捕捉されたイオン配列における非古典的スピン状態の生成の可能性について理論的に検討する。 生成したスピン状態の相関は、イオンアレイの特定の振動モードで動作することにより、スピンのサブアンサンブルの大域的あるいは微分的回転を量子的に検出するために調整することができる。 生成した状態を利用するための一対のプロトコルを提案し、有限サイズ効果、スピンと運動自由度と技術的ノイズの間の不均一結合の影響を判定する。 我々の研究は、スピンボソン系における量子化メロロジーのための調整された相関を持つ多体状態を作る新しい機会を示唆している。

We theoretically investigate prospects for the creation of nonclassical spin states in trapped ion arrays by coupling to a squeezed state of the collective motion of the ions. The correlations of the generated spin states can be tailored for quantum-enhanced sensing of global or differential rotations of sub-ensembles of the spins by working with specific vibrational modes of the ion array. We propose a pair of protocols to utilize the generated states and determine the impact of finite size effects, inhomogeneous couplings between the spin and motional degrees of freedom and technical noise. Our work suggests new opportunities for the preparation of many-body states with tailored correlations for quantum-enhanced metrology in spin-boson systems.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# アンサンブルは常に改善されているか?

Are Ensembles Getting Better all the Time? ( http://arxiv.org/abs/2311.17885v2 )

ライセンス: Link先を確認
Pierre-Alexandre Mattei, Damien Garreau, (参考訳) アンサンブル法は、いくつかのベースモデルの予測を組み合わせる。 より多くのモデルを含む場合、平均性能が常に向上するかどうかを調査する。 この問題は、検討されたアンサンブルの種類と、選択された予測計量に依存する。 我々は,アンサンブルのすべてのメンバーが,ランダムな森林や深層アンサンブルといったいくつかの一般的な手法の場合において,先駆的な演奏を期待する状況に焦点をあてる。 この設定では、検討された損失関数が凸である場合にのみ、アンサンブルが常に良くなっていることを示す。 より正確には、アンサンブルの平均損失はモデルの数を減少させる関数である。 損失関数が非凸である場合、良いモデルのアンサンブルは良くなり、悪いモデルのアンサンブルは悪化し続けます。 この目的のために、独立な興味を持つ可能性のある尾確率の単調性に関する新しい結果が証明される。 本稿では,医療予測問題(ニューラルネットを用いたメラノーマ診断)と「群衆の知恵」実験(今後の映画の評価)について概説する。

Ensemble methods combine the predictions of several base models. We study whether or not including more models always improves their average performance. This question depends on the kind of ensemble considered, as well as the predictive metric chosen. We focus on situations where all members of the ensemble are a priori expected to perform as well, which is the case of several popular methods such as random forests or deep ensembles. In this setting, we show that ensembles are getting better all the time if, and only if, the considered loss function is convex. More precisely, in that case, the average loss of the ensemble is a decreasing function of the number of models. When the loss function is nonconvex, we show a series of results that can be summarised as: ensembles of good models keep getting better, and ensembles of bad models keep getting worse. To this end, we prove a new result on the monotonicity of tail probabilities that may be of independent interest. We illustrate our results on a medical prediction problem (diagnosing melanomas using neural nets) and a "wisdom of crowds" experiment (guessing the ratings of upcoming movies).
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 周期振動ガウス:動的都市景観復元とリアルタイムレンダリング

Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering ( http://arxiv.org/abs/2311.18561v2 )

ライセンス: Link先を確認
Yurui Chen, Chun Gu, Junzhe Jiang, Xiatian Zhu, Li Zhang, (参考訳) 大規模都市景観のモデリングは、高度に複雑な幾何学的構造と、空間と時間の両方における制約のないダイナミクスのために困難である。 従来の手法では、静的要素と動的要素を分離して、高レベルのアーキテクチャの先行をしばしば採用しており、それによって相乗的相互作用を最適以下に捉えている。 この課題に対処するために,周期振動ガウス (PVG) と呼ばれる統一表現モデルを提案する。 PVGは、周期振動に基づく時間力学を導入することで、当初静的なシーン表現のために設計された効率的な3次元ガウススプラッティング技術に基づいている。 この革新によりPVGは、動的な都市景観における様々な物体や要素の特徴を優雅かつ均一に表現することができる。 スパーストレーニングデータによる時間的コヒーレントおよび大規模シーン表現学習を強化するため,新しい時間的平滑化機構と位置認識適応制御戦略を導入する。 Waymo Open DatasetとKITTIベンチマークの大規模な実験は、PVGが動的および静的の両方のシーンにおいて、再構築と新しいビュー合成の両方において最先端の代替品を上回ることを実証している。 特にPVGは、手動でラベル付けされたオブジェクト境界ボックスや高価な光フロー推定に頼ることなく、これを実現する。 さらにPVGは、最良の代替品よりも900倍のレンダリング速度を示す。

Modeling dynamic, large-scale urban scenes is challenging due to their highly intricate geometric structures and unconstrained dynamics in both space and time. Prior methods often employ high-level architectural priors, separating static and dynamic elements, resulting in suboptimal capture of their synergistic interactions. To address this challenge, we present a unified representation model, called Periodic Vibration Gaussian (PVG). PVG builds upon the efficient 3D Gaussian splatting technique, originally designed for static scene representation, by introducing periodic vibration-based temporal dynamics. This innovation enables PVG to elegantly and uniformly represent the characteristics of various objects and elements in dynamic urban scenes. To enhance temporally coherent and large scene representation learning with sparse training data, we introduce a novel temporal smoothing mechanism and a position-aware adaptive control strategy respectively. Extensive experiments on Waymo Open Dataset and KITTI benchmarks demonstrate that PVG surpasses state-of-the-art alternatives in both reconstruction and novel view synthesis for both dynamic and static scenes. Notably, PVG achieves this without relying on manually labeled object bounding boxes or expensive optical flow estimation. Moreover, PVG exhibits 900-fold acceleration in rendering over the best alternative.
翻訳日:2024-03-21 22:17:48 公開日:2024-03-20
# 簡素なセマンティック支援Few-Shot学習

Simple Semantic-Aided Few-Shot Learning ( http://arxiv.org/abs/2311.18649v2 )

ライセンス: Link先を確認
Hai Zhang, Junzhe Xu, Shanlin Jiang, Zhenan He, (参考訳) 限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題として際立っている。 セマンティクスを利用して複雑なセマンティクス融合機構を設計し、制限されたデータ内の稀な代表的特徴を補う。 しかし、クラス名のような素直な意味論に依存すると、その簡潔さによってバイアスが発生し、一方で外部知識から広範な意味論を取得するには膨大な時間と労力を要する。 この制限は、数ショット学習における意味論の可能性を大幅に制限する。 本稿では,セマンティック進化(Semantic Evolution)と呼ばれる,高品質な意味論を生成する自動手法を設計する。 高品質なセマンティックスの導入により、以前の研究で使われた複雑なネットワーク構造や学習アルゴリズムの必要性が軽減される。 そこで,セマンティックアライメントネットワークと呼ばれる単純な2層ネットワークを用いて,セマンティック・アライメント・ネットワークを用いて,セマンティックスと視覚的特徴を多種多様な識別的特徴を持つ頑健なクラスプロトタイプに変換する。 実験の結果,フレームワークは6つのベンチマークで過去の手法よりも優れており,高品質なセマンティクスを持つ単純なネットワークが,数ショットの分類タスクで複雑なマルチモーダルモジュールに勝ることを示した。 コードはhttps://github.com/zhangdoudou123/SemFewで入手できる。

Learning from a limited amount of data, namely Few-Shot Learning, stands out as a challenging computer vision task. Several works exploit semantics and design complicated semantic fusion mechanisms to compensate for rare representative features within restricted data. However, relying on naive semantics such as class names introduces biases due to their brevity, while acquiring extensive semantics from external knowledge takes a huge time and effort. This limitation severely constrains the potential of semantics in few-shot learning. In this paper, we design an automatic way called Semantic Evolution to generate high-quality semantics. The incorporation of high-quality semantics alleviates the need for complex network structures and learning algorithms used in previous works. Hence, we employ a simple two-layer network termed Semantic Alignment Network to transform semantics and visual features into robust class prototypes with rich discriminative features for few-shot classification. The experimental results show our framework outperforms all previous methods on six benchmarks, demonstrating a simple network with high-quality semantics can beat intricate multi-modal modules on few-shot classification tasks. Code is available at https://github.com/zhangdoudou123/SemFew.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# 周期型XYZ鎖におけるバクスターのアンザッツへの歩行者の道

A Pedestrian's Way to Baxter's Bethe Ansatz for the Periodic XYZ Chain ( http://arxiv.org/abs/2312.00161v2 )

ライセンス: Link先を確認
Xin Zhang, Andreas Klümper, Vladislav Popkov, (参考訳) 周期的XYZ鎖を研究するために, キラル座標Betheアンザッツ法を開発した。 固定数のキンクを持つキラルベクトルの集合を構築する。 すべてのベクトルは分解され、単純な構造を持つ。 ユニタリ条件の根の下では、ヒルベルト空間は不変部分空間を持ち、我々のベクトルはこの部分空間の基底を形成する。 本稿では,ハミルトニアンのカイラルベクトルに対する作用のみに基づくBetheアンザッツを提案する。 これにより、膨張係数をパラメタライズし、解が正確なエネルギーと固有状態を与える同質なベーテ・アンザッツ方程式を導出することができる。 我々の分析結果は、バクスターによる以前のアプローチと一致し、数値計算によって支持される。

A chiral coordinate Bethe ansatz method is developed to study the periodic XYZ chain. We construct a set of chiral vectors with fixed number of kinks. All vectors are factorized and have simple structures. Under roots of unity conditions, the Hilbert space has an invariant subspace and our vectors form a basis of this subspace. We propose a Bethe ansatz solely based on the action of the Hamiltonian on the chiral vectors, avoiding the use of transfer matrix techniques. This allows to parameterize the expansion coefficients and derive the homogeneous Bethe ansatz equations whose solutions give the exact energies and eigenstates. Our analytic results agree with earlier approaches, notably by Baxter, and are supported by numerical calculations.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# 物理系の解釈型メタラーニング

Interpretable Meta-Learning of Physical Systems ( http://arxiv.org/abs/2312.00477v2 )

ライセンス: Link先を確認
Matthieu Blanke, Marc Lelarge, (参考訳) 機械学習の手法は、科学的なプロセスにおいて貴重な助けになるが、不均一な実験条件からデータが得られた困難な状況に直面する必要がある。 最近のメタラーニング手法はマルチタスク学習において大きな進歩を遂げているが、ブラックボックスニューラルネットワークに依存しており、計算コストが高く、解釈可能性も限られている。 学習課題の構造を活用することで、学習課題に関してアフィン構造を持つより単純な学習モデルを用いて、マルチ環境の一般化を実現することができると論じる。 重要なことは、このアーキテクチャがシステムの物理的パラメータを識別し、解釈可能な学習を可能にすることを証明している。 本手法の競争一般化性能と計算コストの低さを,玩具モデルから複雑で非解析的なシステムまで,物理系の最先端アルゴリズムと比較することにより実証する。 本手法の解釈性は,物理パラメータによる適応と適応制御への応用に応用されている。

Machine learning methods can be a valuable aid in the scientific process, but they need to face challenging settings where data come from inhomogeneous experimental conditions. Recent meta-learning methods have made significant progress in multi-task learning, but they rely on black-box neural networks, resulting in high computational costs and limited interpretability. Leveraging the structure of the learning problem, we argue that multi-environment generalization can be achieved using a simpler learning model, with an affine structure with respect to the learning task. Crucially, we prove that this architecture can identify the physical parameters of the system, enabling interpreable learning. We demonstrate the competitive generalization performance and the low computational cost of our method by comparing it to state-of-the-art algorithms on physical systems, ranging from toy models to complex, non-analytical systems. The interpretability of our method is illustrated with original applications to physical-parameter-induced adaptation and to adaptive control.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# トラック拡散:拡散モデルによるトラックレットによるビデオ生成

TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models ( http://arxiv.org/abs/2312.00651v2 )

ライセンス: Link先を確認
Pengxiang Li, Kai Chen, Zhili Liu, Ruiyuan Gao, Lanqing Hong, Guo Zhou, Hua Yao, Dit-Yan Yeung, Huchuan Lu, Xu Jia, (参考訳) ビデオ合成における顕著な成果にもかかわらず、複数の相互作用する物体間のニュアンス運動のような複雑なダイナミクスのきめ細かい制御を達成することは、外見と消失を管理する必要性、劇的なスケール変化、フレーム間のインスタンスの整合性の確保など、動的世界モデリングにとって重要なハードルとなる。 これらの課題は、現実世界の複雑さを忠実に模倣できるビデオ生成の開発を妨げ、高度なシーンシミュレーションや知覚システムの訓練を含む、ハイレベルなリアリズムと制御性を必要とするアプリケーションのためのユーティリティを制限している。 そこで本研究では,物体の軌跡と相互作用の精密な操作を容易にする拡散モデルによる微粒な軌跡条件制御を実現する新しいビデオ生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 さらに,トラック拡散によって生成された映像シーケンスを視覚知覚モデルのトレーニングデータとして利用できることを示す。 我々の知る限り、これはトラックレット条件付きビデオ拡散モデルを適用し、生成したフレームがオブジェクトトラッカーの性能向上に有用であることを示す最初の試みである。

Despite remarkable achievements in video synthesis, achieving granular control over complex dynamics, such as nuanced movement among multiple interacting objects, still presents a significant hurdle for dynamic world modeling, compounded by the necessity to manage appearance and disappearance, drastic scale changes, and ensure consistency for instances across frames. These challenges hinder the development of video generation that can faithfully mimic real-world complexity, limiting utility for applications requiring high-level realism and controllability, including advanced scene simulation and training of perception systems. To address that, we propose TrackDiffusion, a novel video generation framework affording fine-grained trajectory-conditioned motion control via diffusion models, which facilitates the precise manipulation of the object trajectories and interactions, overcoming the prevalent limitation of scale and continuity disruptions. A pivotal component of TrackDiffusion is the instance enhancer, which explicitly ensures inter-frame consistency of multiple objects, a critical factor overlooked in the current literature. Moreover, we demonstrate that generated video sequences by our TrackDiffusion can be used as training data for visual perception models. To the best of our knowledge, this is the first work to apply video diffusion models with tracklet conditions and demonstrate that generated frames can be beneficial for improving the performance of object trackers.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# LDM-ISP:潜時拡散モデルによる低光に対するニューラルISPの強化

LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models ( http://arxiv.org/abs/2312.01027v3 )

ライセンス: Link先を確認
Qiang Wen, Yazhou Xing, Zhefan Rao, Qifeng Chen, (参考訳) 低照度RAW画像をよく露出したクリーンなsRGB画像に拡張することは、現代のデジタルカメラにとって重要な課題である。 従来の手法では, SNR に近いため, 極めて低照度環境下でのシーンの細部や色を再現することが困難であった。 一方,拡散モデルは一般領域画像生成に大きく進展している。 本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。 具体的には、RAWドメイン上で動作するための事前学習された潜伏拡散モデルを調整するために、RAW情報をUNetの中間特性を変調して拡散復調プロセスに注入する軽量なテーミングモジュールのセットを訓練する。 遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。 代表的データセットに関する広範な実験を通じて、定量的評価において最先端の性能を達成するだけでなく、非常に低照度環境下でのニューラルISPの強力な生成先行効果を示す強力なベースラインよりも視覚的比較において大きな優位性を示す。 プロジェクトページはhttps://csqiangwen.github.io/projects/ldm-isp/で公開されている。

Enhancing a low-light noisy RAW image into a well-exposed and clean sRGB image is a significant challenge for modern digital cameras. Prior approaches have difficulties in recovering fine-grained details and true colors of the scene under extremely low-light environments due to near-to-zero SNR. Meanwhile, diffusion models have shown significant progress towards general domain image generation. In this paper, we propose to leverage the pre-trained latent diffusion model to perform the neural ISP for enhancing extremely low-light images. Specifically, to tailor the pre-trained latent diffusion model to operate on the RAW domain, we train a set of lightweight taming modules to inject the RAW information into the diffusion denoising process via modulating the intermediate features of UNet. We further observe different roles of UNet denoising and decoder reconstruction in the latent diffusion model, which inspires us to decompose the low-light image enhancement task into latent-space low-frequency content generation and decoding-phase high-frequency detail maintenance. Through extensive experiments on representative datasets, we demonstrate our simple design not only achieves state-of-the-art performance in quantitative evaluations but also shows significant superiority in visual comparisons over strong baselines, which highlight the effectiveness of powerful generative priors for neural ISP under extremely low-light environments. The project page is available at https://csqiangwen.github.io/projects/ldm-isp/
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# 拡散モデルのトレーニングダイナミクスの解析と改善

Analyzing and Improving the Training Dynamics of Diffusion Models ( http://arxiv.org/abs/2312.02696v2 )

ライセンス: Link先を確認
Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine, (参考訳) 拡散モデルは現在、大規模なデータセットへの非並列スケーリングによって、データ駆動型画像合成の分野を支配している。 本稿では, ADM拡散モデルアーキテクチャにおいて, 高次構造を変化させることなく, 不均一かつ非効率なトレーニングの要因を特定し, 修正する。 トレーニング中のネットワークのアクティベーションとウェイトの両方において、制御不能な大きさの変化と不均衡を観測し、期待値のアクティベーション、ウェイト、更新のマグニチュードを維持するために、ネットワーク層を再設計する。 この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。 我々は、画像Net-512合成における2.41のFIDを1.81に改善し、高速な決定論的サンプリングを行った。 独立なコントリビューションとして,指数移動平均(EMA)パラメータをポストホック,すなわちトレーニング実行終了後に設定する方法を提案する。 これにより、複数のトレーニング実行を実行するコストを伴わずにEMAの長さを正確にチューニングすることができ、ネットワークアーキテクチャやトレーニング時間、ガイダンスとの驚くべき相互作用を明らかにすることができる。

Diffusion models currently dominate the field of data-driven image synthesis with their unparalleled scaling to large datasets. In this paper, we identify and rectify several causes for uneven and ineffective training in the popular ADM diffusion model architecture, without altering its high-level structure. Observing uncontrolled magnitude changes and imbalances in both the network activations and weights over the course of training, we redesign the network layers to preserve activation, weight, and update magnitudes on expectation. We find that systematic application of this philosophy eliminates the observed drifts and imbalances, resulting in considerably better networks at equal computational complexity. Our modifications improve the previous record FID of 2.41 in ImageNet-512 synthesis to 1.81, achieved using fast deterministic sampling. As an independent contribution, we present a method for setting the exponential moving average (EMA) parameters post-hoc, i.e., after completing the training run. This allows precise tuning of EMA length without the cost of performing several training runs, and reveals its surprising interactions with network architecture, training time, and guidance.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# マルチモーダル・プロンプト知覚器:オールインワン画像復元のための適応性、一般化性、忠実性

Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration ( http://arxiv.org/abs/2312.02918v2 )

ライセンス: Link先を確認
Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, Ran He, (参考訳) 大幅に進歩したにもかかわらず、オールインワン画像復元(IR)は複雑な現実世界の劣化に対処する上で永続的な課題を抱えている。 本稿では, 適応性, 一般化性, 忠実性を向上するために, 安定拡散(SD)に先立つ新しいマルチモーダル・プロンプト学習手法であるMPerceiverを紹介する。 具体的には,2種類のSDプロンプトをマスタするデュアルブランチモジュールを開発する。 どちらのプロンプトもCLIP画像エンコーダの劣化予測によって動的に調整され、様々な未知の劣化に対する適応応答が可能である。 さらに、プラグインディテールリファインメントモジュールは、直接エンコーダからデコーダへの情報変換による復元精度を向上させる。 提案手法を評価するため,MPerceiver は all-in-one IR の 9 つのタスクを訓練し,ほとんどのタスクにおいて最先端のタスク固有手法より優れる。 マルチタスクの事前トレーニング後、MPerceiverは低レベルの視覚において一般化された表現を獲得し、目に見えないタスクにおいて顕著なゼロショットと少数ショットの能力を示す。 16のIRタスクに関する大規模な実験は、適応性、一般化性、忠実性の点でMPerceiverの優位性を示している。

Despite substantial progress, all-in-one image restoration (IR) grapples with persistent challenges in handling intricate real-world degradations. This paper introduces MPerceiver: a novel multimodal prompt learning approach that harnesses Stable Diffusion (SD) priors to enhance adaptiveness, generalizability and fidelity for all-in-one image restoration. Specifically, we develop a dual-branch module to master two types of SD prompts: textual for holistic representation and visual for multiscale detail representation. Both prompts are dynamically adjusted by degradation predictions from the CLIP image encoder, enabling adaptive responses to diverse unknown degradations. Moreover, a plug-in detail refinement module improves restoration fidelity via direct encoder-to-decoder information transformation. To assess our method, MPerceiver is trained on 9 tasks for all-in-one IR and outperforms state-of-the-art task-specific methods across most tasks. Post multitask pre-training, MPerceiver attains a generalized representation in low-level vision, exhibiting remarkable zero-shot and few-shot capabilities in unseen tasks. Extensive experiments on 16 IR tasks underscore the superiority of MPerceiver in terms of adaptiveness, generalizability and fidelity.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# ドープ反強磁性モット絶縁体における中間子の散乱理論:マルチチャネル視点とフェシュバッハ共鳴

Scattering theory of mesons in doped antiferromagnetic Mott insulators: Multichannel perspective and Feshbach resonance ( http://arxiv.org/abs/2312.02978v2 )

ライセンス: Link先を確認
Lukas Homeier, Pit Bermes, Fabian Grusdt, (参考訳) 強相関電子における荷電担体の基礎となるペアリング機構のモデル化は、顕微鏡理論から始まり、凝縮物質物理学における中心的な課題である。 ここで重要な課題は、反強磁性(AFM)モット絶縁体をドーピングするホールにおいて、比較的高温での超伝導の出現の原因を理解することである。 近年, 強結合と低ドーピングでは, 磁気ポーラロンと双極子対という, 基本的な1ホールと2ホールの中間子型成分が, 電荷担体間の相互作用がほぼ共鳴的に$d_{x^2-y^2}のフェシュバッハ共鳴を生じさせる可能性が示唆されている。 ここでは,提案手法を用いて,オープンおよびクローズドな中間子散乱チャネルを$t$-$t'$-$J$モデルで記述することにより,提案手法の詳細な計算を行う。 双極性対からなる閉じたチャネルを統合すると、オープンチャネル磁気ポーラロン間の魅力的な相互作用が$d_{x^2-y^2}$となる。 導出相互作用の閉形式は共鳴対の相互作用を解析し、我々のモデルでホール(電子)ドーピングの強化された(抑制された)アトラクションを見つける。 私たちが導入した形式主義は、例えば、BEC-BCSクロスオーバーの文脈におけるフェシュバッハシナリオの意味を分析するためのフレームワークを提供し、ドープ反強磁性体において提案されたフェシュバッハペアリング機構の定量的側面をテストするための基盤を確立する。

Modeling the underlying pairing mechanism of charge carriers in strongly correlated electrons, starting from a microscopic theory, is among the central challenges of condensed-matter physics. Hereby, the key task is to understand what causes the appearance of superconductivity at comparatively high temperatures upon hole doping an antiferromagnetic (AFM) Mott insulator. Recently, it has been proposed that at strong coupling and low doping, the fundamental one- and two-hole meson-type constituents -- magnetic polarons and bipolaronic pairs -- likely realize an emergent Feshbach resonance producing near-resonant $d_{x^2-y^2}$ interactions between charge carriers. Here, we provide detailed calculations of the proposed scenario by describing the open and closed meson scattering channels in the $t$-$t'$-$J$ model using a truncated basis method. After integrating out the closed channel constituted by bipolaronic pairs, we find $d_{x^2-y^2}$ attractive interactions between open channel magnetic polarons. The closed form of the derived interactions allows us analyze the resonant pairing interactions and we find enhanced (suppressed) attraction for hole (electron) doping in our model. The formalism we introduce provides a framework to analyze the implications of a possible Feshbach scenario, e.g. in the context of BEC-BCS crossover, and establishes a foundation to test quantitative aspects of the proposed Feshbach pairing mechanisms in doped antiferromagnets.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# 量子誤り訂正性能のための超電導プロセッサ設計最適化

Superconducting processor design optimization for quantum error correction performance ( http://arxiv.org/abs/2312.04186v2 )

ライセンス: Link先を確認
Xiaotong Ni, Ziang Wang, Rui Chao, Jianxin Chen, (参考訳) 超伝導プロセッサを用いたフォールトトレラント量子計算の探求において、正確な性能評価と継続的な設計最適化が最前線に立つ。 精密なシミュレーションと合理化された設計最適化の両方を容易にするため,ハミルトンおよび量子誤り訂正レベルにまたがるマルチレベルシミュレーションフレームワークを導入し,グラデーションを効率的に計算する機能を備えている。 このツールセットは、量子メモリパフォーマンスなどの特定の目的に合わせて設計最適化を支援する。 フレームワーク内では、しばしば無視される空間的相関なユニタリエラーを調査し、論理的エラー率に顕著な影響を浮き彫りにした。 我々はフラキソニウム量子ビットの多経路結合スキームによるアプローチを実証する。

In the quest for fault-tolerant quantum computation using superconducting processors, accurate performance assessment and continuous design optimization stands at the forefront. To facilitate both meticulous simulation and streamlined design optimization, we introduce a multi-level simulation framework that spans both Hamiltonian and quantum error correction levels, and is equipped with the capability to compute gradients efficiently. This toolset aids in design optimization, tailored to specific objectives like quantum memory performance. Within our framework, we investigate the often-neglected spatially correlated unitary errors, highlighting their significant impact on logical error rates. We exemplify our approach through the multi-path coupling scheme of fluxonium qubits.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# PsyChat:メンタルヘルス支援のためのクライアント中心対話システム

PsyChat: A Client-Centric Dialogue System for Mental Health Support ( http://arxiv.org/abs/2312.04262v2 )

ライセンス: Link先を確認
Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan, (参考訳) 対話システムは、クライアントが探索し、洞察を得、行動し、最終的に自分自身を癒すのを助けるために、メンタルヘルスサポートにますます統合されている。 実用的でユーザフレンドリな対話システムは、クライアントの振る舞いに焦点をあてて、クライアント中心であるべきです。 しかし、メンタルヘルス支援のために公開されている既存の対話システムは、クライアントが表現する行動ではなく、カウンセラーの戦略にのみ焦点を絞っていることが多い。 これは、不適切または不適切なカウンセリング戦略と、対話システムによって生成された対応する応答につながる可能性がある。 この問題に対処するために,オンラインチャットによる心理的サポートを提供するクライアント中心の対話システムであるPsyChatを提案する。 クライアント中心対話システムは、クライアント行動認識、カウンセラー戦略選択、入力パッカー、応答生成装置、応答選択の5つのモジュールからなる。 自動評価と人的評価は,実生活におけるメンタルヘルス支援のための対話システムの有効性と実用性を示すものである。 さらに,対話システムはクライアントの行動を予測し,適切なカウンセラー戦略を選択し,正確かつ適切な応答を生成することができることを示す。

Dialogue systems are increasingly integrated into mental health support to help clients facilitate exploration, gain insight, take action, and ultimately heal themselves. A practical and user-friendly dialogue system should be client-centric, focusing on the client's behaviors. However, existing dialogue systems publicly available for mental health support often concentrate solely on the counselor's strategies rather than the behaviors expressed by clients. This can lead to unreasonable or inappropriate counseling strategies and corresponding responses generated by the dialogue system. To address this issue, we propose PsyChat, a client-centric dialogue system that provides psychological support through online chat. The client-centric dialogue system comprises five modules: client behavior recognition, counselor strategy selection, input packer, response generator, and response selection. Both automatic and human evaluations demonstrate the effectiveness and practicality of our proposed dialogue system for real-life mental health support. Furthermore, the case study demonstrates that the dialogue system can predict the client's behaviors, select appropriate counselor strategies, and generate accurate and suitable responses.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# カメラの高度は変化しない: 平均単眼道路深度推定のための教師なしトレーニング

Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation ( http://arxiv.org/abs/2312.04530v2 )

ライセンス: Link先を確認
Genki Kinoshita, Ko Nishino, (参考訳) 本稿では,単眼深度ネットワークに絶対規模を学習させる新たなトレーニング手法を提案する。 このトレーニングフレームワークをStableCamHと呼ぶ。 鍵となるアイデアは、道路で見つかった車をスケールの監督源として活用するだけでなく、トレーニングにしっかりと組み込むことだ。 StableCamHはフレーム内の車の大きさを検出して推定し、そこから抽出したスケール情報をカメラの高さ推定に集約する。 これは、スケールを意識するだけでなく、補助センサーや余分な監視を必要とせず、メートル法的にも正確になるように、いかなる大規模な単眼深度ネットワークの堅牢な教師なしのトレーニングを実現する。 KITTIとCityscapesデータセットの大規模な実験は、StableCamHの有効性と、関連する方法と比較して最先端の精度を示している。 また、StableCamHは、異なるカメラ高さの混合データセットのトレーニングを可能にし、より大規模にトレーニングし、より高い一般化をもたらすことを示す。 StableCamHは、任意のモデルをメートル法深度推定器としてトレーニングする方法を確立することで、その展開を民主化します。

In this paper, we introduce a novel training method for making any monocular depth network learn absolute scale and estimate metric road-scene depth just from regular training data, i.e., driving videos. We refer to this training framework as StableCamH. The key idea is to leverage cars found on the road as sources of scale supervision but to incorporate them in the training robustly. StableCamH detects and estimates the sizes of cars in the frame and aggregates scale information extracted from them into a camera height estimate whose consistency across the entire video sequence is enforced as scale supervision. This realizes robust unsupervised training of any, otherwise scale-oblivious, monocular depth network to become not only scale-aware but also metric-accurate without the need for auxiliary sensors and extra supervision. Extensive experiments on the KITTI and Cityscapes datasets show the effectiveness of StableCamH and its state-of-the-art accuracy compared with related methods. We also show that StableCamH enables training on mixed datasets of different camera heights, which leads to larger-scale training and thus higher generalization. Metric depth reconstruction is essential in any road-scene visual modeling, and StableCamH democratizes its deployment by establishing the means to train any model as a metric depth estimator.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# 自動語彙セマンティックセマンティックセグメンテーション

Auto-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2312.04539v2 )

ライセンス: Link先を確認
Osman Ülger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald, (参考訳) オープンエンドの画像理解タスクは、特にビジョン・ランゲージ・モデルの出現によって、研究コミュニティから大きな注目を集めた。 Open-Vocabulary Segmentation (OVS)メソッドは、固定語彙に頼ることなくセマンティックセグメンテーションを実行することができる。 しかし、OVSメソッドは通常、ユーザが手元にあるタスクやデータセットに基づいて語彙を指定する必要がある。 本稿では, セグメンテーションのための対象カテゴリを事前に定義する必要性を排除し, オープンエンド画像理解を推進すべく, AVS(textit{Auto-Vocabulary Semantic Segmentation)を導入する。 提案手法は,拡張BLIP埋め込みを用いて関連クラス名を自律的に識別し,セグメンテーションに利用するためのフレームワークである。 オープンな対象カテゴリーの予測が固定された真実と直接比較できないことを考慮し、自動生成されたクラス名とその対応するセグメントを効率的に評価するLarge Language Model-based Auto-Vocabulary Evaluator (LAVE) を開発した。 提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定し,特定のクラス名を必要とするOVSメソッドと競合する性能を示す。

Open-ended image understanding tasks gained significant attention from the research community, particularly with the emergence of Vision-Language Models. Open-Vocabulary Segmentation (OVS) methods are capable of performing semantic segmentation without relying on a fixed vocabulary, and in some cases, they operate without the need for training or fine-tuning. However, OVS methods typically require users to specify the vocabulary based on the task or dataset at hand. In this paper, we introduce \textit{Auto-Vocabulary Semantic Segmentation (AVS)}, advancing open-ended image understanding by eliminating the necessity to predefine object categories for segmentation. Our approach, \ours, presents a framework that autonomously identifies relevant class names using enhanced BLIP embeddings, which are utilized for segmentation afterwards. Given that open-ended object category predictions cannot be directly compared with a fixed ground truth, we develop a Large Language Model-based Auto-Vocabulary Evaluator (LAVE) to efficiently evaluate the automatically generated class names and their corresponding segments. Our method sets new benchmarks on datasets such as PASCAL VOC and Context, ADE20K, and Cityscapes for AVS and showcases competitive performance to OVS methods that require specified class names.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# 時空間ビデオ拡散による降水ダウンスケーリング

Precipitation Downscaling with Spatiotemporal Video Diffusion ( http://arxiv.org/abs/2312.06071v2 )

ライセンス: Link先を確認
Prakhar Srivastava, Ruihan Yang, Gavin Kerrigan, Gideon Dresdner, Jeremy McGibbon, Christopher Bretherton, Stephan Mandt, (参考訳) 気候科学と気象学において、高解像度の局地降水(雨と降雪)予測はシミュレーションに基づく手法の計算コストによって制限される。 統計的ダウンスケーリング(英: Statistical downscaling)または超解像(英: super- resolution)は、統計的アプローチを用いて低解像度の予測が改善される一般的な回避策である。 従来のコンピュータビジョンのタスクとは異なり、天候や気候のアプリケーションは、高解像度の高解像度パターンの正確な条件分布を把握し、信頼性の高いアンサンブル平均と、大雨などの極端な事象の非偏りの見積もりを保証する必要がある。 この研究は、最近のビデオ拡散モデルを拡張して、決定論的ダウンスケーラを使用し、時間条件付き拡散モデルを用いて、ノイズ特性と高周波パターンをキャプチャする。 本稿では,FV3GFSの大規模大気モデルであるFV3GFSの出力実験を行い,これを5つの最先端ベースラインと比較する。 我々の分析では, CRPS, MSE, 降水分布, カリフォルニアとヒマラヤを例に, データドリブン降水ダウンスケーリングの新たな標準として確立した。

In climate science and meteorology, high-resolution local precipitation (rain and snowfall) predictions are limited by the computational costs of simulation-based methods. Statistical downscaling, or super-resolution, is a common workaround where a low-resolution prediction is improved using statistical approaches. Unlike traditional computer vision tasks, weather and climate applications require capturing the accurate conditional distribution of high-resolution given low-resolution patterns to assure reliable ensemble averages and unbiased estimates of extreme events, such as heavy rain. This work extends recent video diffusion models to precipitation super-resolution, employing a deterministic downscaler followed by a temporally-conditioned diffusion model to capture noise characteristics and high-frequency patterns. We test our approach on FV3GFS output, an established large-scale global atmosphere model, and compare it against five state-of-the-art baselines. Our analysis, capturing CRPS, MSE, precipitation distributions, and qualitative aspects using California and the Himalayas as examples, establishes our method as a new standard for data-driven precipitation downscaling.
翻訳日:2024-03-21 22:08:02 公開日:2024-03-20
# AnyHome: 構造とテクスチャを備えた3Dホームのオープン語彙生成

AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes ( http://arxiv.org/abs/2312.06644v2 )

ライセンス: Link先を確認
Rao Fu, Zehao Wen, Zichen Liu, Srinath Sridhar, (参考訳) 認知理論にインスパイアされたAnyHomeは、どんなテキストでもよく構造化され、テクスチャ化された屋内シーンに家庭規模で翻訳するフレームワークである。 提案手法は,大規模言語モデル (LLM) を設計テンプレートで促進することにより,提案した文章をアモーダルな構造化表現に変換する。 これらの表現は、定義された制約の中で幾何メッシュの合成を指示することにより、一貫した空間的レイアウトと現実的な空間的レイアウトを保証する。 次に、スコア蒸留サンプリングプロセスを使用して幾何学を洗練させ、それにライフスタイルのテクスチャを付加するエゴセントリックな塗布プロセスが続く。 AnyHomeは、編集性、カスタマイズ性、多様性、リアリズムで際立っている。 シーンの構造化された表現は、様々なレベルの粒度で広範な編集を可能にする。 単純なラベルから詳細な物語まで、テキストを解釈できるため、AnyHomeは詳細なジオメトリーとテクスチャを生成し、定量化と定性的化の両方で既存の手法より優れている。

Inspired by cognitive theories, we introduce AnyHome, a framework that translates any text into well-structured and textured indoor scenes at a house-scale. By prompting Large Language Models (LLMs) with designed templates, our approach converts provided textual narratives into amodal structured representations. These representations guarantee consistent and realistic spatial layouts by directing the synthesis of a geometry mesh within defined constraints. A Score Distillation Sampling process is then employed to refine the geometry, followed by an egocentric inpainting process that adds lifelike textures to it. AnyHome stands out with its editability, customizability, diversity, and realism. The structured representations for scenes allow for extensive editing at varying levels of granularity. Capable of interpreting texts ranging from simple labels to detailed narratives, AnyHome generates detailed geometries and textures that outperform existing methods in both quantitative and qualitative measures.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# ドライビングガウシアン:動的自律運転シーンを囲む複合ガウシアンスプレイティング

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes ( http://arxiv.org/abs/2312.07920v3 )

ライセンス: Link先を確認
Xiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang, (参考訳) 我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。 移動物体を持つ複雑なシーンでは、まずシーン全体の静的背景をインクリメンタルな静的な3Dガウスアンで逐次、段階的にモデル化する。 次に、複合動的ガウスグラフを利用して複数の移動物体を扱い、各物体を個別に再構成し、シーン内の正確な位置と閉塞関係を復元する。 我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。 ドライビングガウシアンは動的シーン再構成における既存の手法よりも優れており、高忠実でマルチカメラの整合性を持った光実写サラウンドビュー合成を可能にする。 プロジェクトページは、https://github.com/VDIGPKU/DrivingGaussian.comです。

We present DrivingGaussian, an efficient and effective framework for surrounding dynamic autonomous driving scenes. For complex scenes with moving objects, we first sequentially and progressively model the static background of the entire scene with incremental static 3D Gaussians. We then leverage a composite dynamic Gaussian graph to handle multiple moving objects, individually reconstructing each object and restoring their accurate positions and occlusion relationships within the scene. We further use a LiDAR prior for Gaussian Splatting to reconstruct scenes with greater details and maintain panoramic consistency. DrivingGaussian outperforms existing methods in dynamic driving scene reconstruction and enables photorealistic surround-view synthesis with high-fidelity and multi-camera consistency. Our project page is at: https://github.com/VDIGPKU/DrivingGaussian.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# 拡散におけるスタイル注入:大規模拡散モデルに適応する訓練不要アプローチ

Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer ( http://arxiv.org/abs/2312.09008v2 )

ライセンス: Link先を確認
Jiwoo Chung, Sangeek Hyun, Jae-Pil Heo, (参考訳) 拡散モデルの顕著な生成能力にもかかわらず、既存の拡散モデルに基づくスタイル転送法では、時間を要する推論段階の最適化(例えば、微調整やスタイルのテキスト逆転)が必要であり、大規模な拡散モデルの生成能力の活用に失敗する。 これらの課題に対処するために,事前学習された大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。 具体的には, 自己注意層の特徴を相互注意機構の働き方として操作し, 生成過程において, 映像のキーと値の置換を行う。 このアプローチは、スタイル転送を含むいくつかの望ましい特徴を提供する。 1)類似のスタイルを類似のイメージパッチに転送し,内容の保存 2) 局所的なテクスチャ(egエッジ)の類似性に基づいて, コンテンツとスタイルイメージ間のスタイルの転送を行う。 さらに、クエリ保存と注意温度のスケーリングを導入して、オリジナルコンテンツの破壊の問題を緩和し、不調和な色(スタイルの色を転送できない)を扱うために、初期遅延適応インスタンス正規化(AdaIN)を導入します。 実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。

Despite the impressive generative capabilities of diffusion models, existing diffusion model-based style transfer methods require inference-stage optimization (e.g. fine-tuning or textual inversion of style) which is time-consuming, or fails to leverage the generative ability of large-scale diffusion models. To address these issues, we introduce a novel artistic style transfer method based on a pre-trained large-scale diffusion model without any optimization. Specifically, we manipulate the features of self-attention layers as the way the cross-attention mechanism works; in the generation process, substituting the key and value of content with those of style image. This approach provides several desirable characteristics for style transfer including 1) preservation of content by transferring similar styles into similar image patches and 2) transfer of style based on similarity of local texture (e.g. edge) between content and style images. Furthermore, we introduce query preservation and attention temperature scaling to mitigate the issue of disruption of original content, and initial latent Adaptive Instance Normalization (AdaIN) to deal with the disharmonious color (failure to transfer the colors of style). Our experimental results demonstrate that our proposed method surpasses state-of-the-art methods in both conventional and diffusion-based style transfer baselines.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# iComMa: 比較とマッチングによるカメラポーズ推定のための3Dガウススプレイティングの反転

iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching ( http://arxiv.org/abs/2312.09031v2 )

ライセンス: Link先を確認
Yuan Sun, Xuan Wang, Yunfan Zhang, Jie Zhang, Caigui Jiang, Yu Guo, Fei Wang, (参考訳) コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。 従来のポーズ推定手法は、通常、ターゲットのCADモデルに依存するか、特定のオブジェクトクラスに合わせた特定のネットワークトレーニングを必要とする。 既存の手法では、Neural Radiance Fields (NeRF) を反転させることにより、メッシュフリーなオブジェクトとシーンポーズの推定において有望な結果を得た。 しかし、大きな回転や翻訳のような悪い初期化に苦戦している。 この問題に対処するために,3次元ガウススプラッティング(3DGS)を反転させることにより,高精度なカメラポーズ推定法を提案する。 特に、勾配に基づく微分可能なフレームワークは、クエリ画像とレンダリング画像の間の残差を最小限に抑え、トレーニングを必要とせず、カメラのポーズを最適化する。 エンド・ツー・エンドのマッチングモジュールは、適切なポーズ推定においてピクセルレベルのロスエイズを最小限に抑えながら、悪い初期化に対するモデルの堅牢性を高めるように設計されている。 合成および複雑な実世界のデータに対する実験結果は、課題条件における提案手法の有効性と、カメラポーズ推定の精度を示す。

We present a method named iComMa to address the 6D camera pose estimation problem in computer vision. Conventional pose estimation methods typically rely on the target's CAD model or necessitate specific network training tailored to particular object classes. Some existing methods have achieved promising results in mesh-free object and scene pose estimation by inverting the Neural Radiance Fields (NeRF). However, they still struggle with adverse initializations such as large rotations and translations. To address this issue, we propose an efficient method for accurate camera pose estimation by inverting 3D Gaussian Splatting (3DGS). Specifically, a gradient-based differentiable framework optimizes camera pose by minimizing the residual between the query image and the rendered image, requiring no training. An end-to-end matching module is designed to enhance the model's robustness against adverse initializations, while minimizing pixel-level comparing loss aids in precise pose estimation. Experimental results on synthetic and complex real-world data demonstrate the effectiveness of the proposed approach in challenging conditions and the accuracy of camera pose estimation.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# CAGE:コントロール可能なアーティキュレーション・ジェネレーション

CAGE: Controllable Articulation GEneration ( http://arxiv.org/abs/2312.09570v2 )

ライセンス: Link先を確認
Jiayi Liu, Hou In Ivan Tam, Ali Mahdavi-Amiri, Manolis Savva, (参考訳) 制御可能な方法で3次元音声オブジェクトを生成するという課題に対処する。 現在、3Dオブジェクトのモデリングは、精巧な手作業によるオーサリングや、事前の作業で直接スケールや制御が難しいメソッドを使用することで実現されている。 部品の形状, 接続性, 動きの相互作用を, 部品の属性間の相関関係を抽出するアテンションモジュールを用いたディノライズ拡散法を用いて活用する。 本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。 生成されたオブジェクトは、オブジェクトカテゴリ、部分形状、部分記述に関するユーザ指定の制約に準拠します。 実験の結果,本手法は,より現実的なオブジェクトを生成するとともに,ユーザの制約に順応しながら,最先端のオブジェクト生成に優れることがわかった。 ビデオ概要: http://youtu.be/cH_rbKbyTpE

We address the challenge of generating 3D articulated objects in a controllable fashion. Currently, modeling articulated 3D objects is either achieved through laborious manual authoring, or using methods from prior work that are hard to scale and control directly. We leverage the interplay between part shape, connectivity, and motion using a denoising diffusion-based method with attention modules designed to extract correlations between part attributes. Our method takes an object category label and a part connectivity graph as input and generates an object's geometry and motion parameters. The generated objects conform to user-specified constraints on the object category, part shape, and part articulation. Our experiments show that our method outperforms the state-of-the-art in articulated object generation, producing more realistic objects while conforming better to user constraints. Video Summary at: http://youtu.be/cH_rbKbyTpE
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# 量子拡大型補助場量子モンテカルロの測定戦略の古典的および量子的コスト

Classical and quantum cost of measurement strategies for quantum-enhanced auxiliary field Quantum Monte Carlo ( http://arxiv.org/abs/2312.09872v2 )

ライセンス: Link先を確認
Matthew Kiser, Anna Schroeder, Gian-Luca R. Anselmetti, Chandan Kumar, Nikolaj Moll, Michael Streif, Davide Vodola, (参考訳) 量子強化補助場量子モンテカルロ(QC-AFQMC)は、量子コンピュータからの出力を使用して、古典的な量子場の精度を高める。 このアルゴリズムは、ウォーカー状態と量子コンピュータ上に作成された試行波動関数の重なりを推定する必要がある。 本稿では,このアルゴリズムの適用性について,量子コンピュータから要求される測定数と,これらの測定を後処理する古典的コストの観点から検討する。 古典的シャドーを用いた最先端計測方式の古典的後処理コストを比較して、オーバーラップを判定し、オーバーラップ推定から生じる全体的な後処理コストは、アルゴリズム全体を通して$\mathcal{O}(N^9)$のようにスケールすると主張した。 さらに数値シミュレーションにより,異なるアンサンブル,例えばクリフォード,および(粒子数が制限された)マッチゲートをランダム化する場合の古典的影の分散挙動を比較し,異なる時間ステップにおけるAFQMC歩行者の重なり推定間の共分散の存在を明らかにする。 さらに,重畳推定における誤差がAFQMCエネルギーにどのように伝播するかを解析し,システムサイズを増大させる際のスケーリングについて議論する。

Quantum-enhanced auxiliary field quantum Monte Carlo (QC-AFQMC) uses output from a quantum computer to increase the accuracy of its classical counterpart. The algorithm requires the estimation of overlaps between walker states and a trial wavefunction prepared on the quantum computer. We study the applicability of this algorithm in terms of the number of measurements required from the quantum computer and the classical costs of post-processing those measurements. We compare the classical post-processing costs of state-of-the-art measurement schemes using classical shadows to determine the overlaps and argue that the overall post-processing cost stemming from overlap estimations scales like $\mathcal{O}(N^9)$ per walker throughout the algorithm. With further numerical simulations, we compare the variance behavior of the classical shadows when randomizing over different ensembles, e.g., Cliffords and (particle-number restricted) matchgates beyond their respective bounds, and uncover the existence of covariances between overlap estimations of the AFQMC walkers at different imaginary time steps. Moreover, we include analyses of how the error in the overlap estimation propagates into the AFQMC energy and discuss its scaling when increasing the system size.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# 周波数規則化による画像再構成のためのアーキテクチャ非依存ネットワーク優先

Towards Architecture-Agnostic Untrained Network Priors for Image Reconstruction with Frequency Regularization ( http://arxiv.org/abs/2312.09988v2 )

ライセンス: Link先を確認
Yilin Liu, Yunkui Pang, Jiang Li, Yong Chen, Pew-Thian Yap, (参考訳) ディープイメージにインスパイアされた未学習のネットワークは、トレーニングデータを必要とせず、ノイズや部分的な測定から高品質なイメージを復元する有望な能力を示している。 彼らの成功は、適切なネットワークアーキテクチャによって引き起こされる暗黙の正則化として働くスペクトルバイアスに大きく影響されている。 しかし、そのようなネットワークベースの事前の応用は、しばしば過剰なアーキテクチャ上の決定、過度に適合するリスク、そして遅い最適化を伴い、それらすべてが実用性を妨げている。 本研究では,より直接周波数制御を行うための効率的なアーキテクチャに依存しない手法を提案する。 1)ホワイトノイズ入力の帯域幅を制限すること。 2【補間型アップサンプラーの帯域幅の制御】 3) 層のリプシッツ定数の正則化。 たった1行の余分なコードであっても、パフォーマンスの低いアーキテクチャにおける過度な問題は軽減され、パフォーマンスの高いアーキテクチャとパフォーマンスのギャップは、異なる構成にもかかわらず、ほとんど閉じられ、アーキテクチャチューニングの必要性を軽減できることが示されています。 これにより、よりコンパクトなモデルを使用して、より効率のよい大型モデルと類似または優れた性能を実現することができる。 当社の正規化ネットワークプリエントは,MRI再建および画像インパイン化作業における現在の教師付きおよび自己監督的手法と好意的に比較し,より強力なゼロショットベースラインコンストラクタとして機能する。 私たちのコードは公開されます。

Untrained networks inspired by deep image prior have shown promising capabilities in recovering a high-quality image from noisy or partial measurements, without requiring training data. Their success has been widely attributed to the spectral bias acting as an implicit regularization induced by suitable network architectures. However, applications of such network-based priors often entail superfluous architectural decisions, overfitting risks, and slow optimization, all of which hinder their practicality. In this work, we propose efficient, architecture-agnostic methods for a more direct frequency control over the network priors: 1) constraining the bandwidth of the white-noise input, 2) controlling the bandwidth of the interpolation-based upsamplers, and 3) regularizing the Lipschitz constants of the layers. We show that even with just one extra line of code, the overfitting issues in underperforming architectures can be alleviated such that their performance gaps with the high-performing counterparts can be largely closed despite their distinct configurations, mitigating the need for architecture tuning. This then makes it possible to employ a more compact model to achieve similar or superior performance to larger models with greater efficiency. Our regularized network priors compare favorably with current supervised and self-supervised methods on MRI reconstruction and image inpainting tasks, serving as a stronger zero-shot baseline reconstructor. Our code will be made publicly available.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# 編集可能か? コード編集命令をフォローする大規模言語モデルの能力を評価する

Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions ( http://arxiv.org/abs/2312.12450v5 )

ライセンス: Link先を確認
Federico Cassano, Luisa Li, Akul Sethi, Noah Shinn, Abby Brennan-Jones, Jacob Ginesin, Edward Berman, George Chakhnashvili, Anton Lozhkov, Carolyn Jane Anderson, Arjun Guha, (参考訳) 様々なコード合成タスクのための大規模言語モデルの開発と評価に、かなりの量の研究が焦点が当てられている。 これには、自然言語からのコード合成、コードからのテストの合成、コードの説明の合成が含まれる。 対照的に、LLMを用いた命令コード編集の動作について検討する。 これらは、モデルのコードブロックとコードを修正する命令が提供されるタスクである。 編集命令は、追加または削除すべき機能を要求したり、バグを記述したり、修正を求めたり、別の種類のソリューションを求めたりすることができる。 コード編集タスクのベンチマークを慎重に作成し、それをいくつかの最先端LCMの評価に利用する。 我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。 例えば、GPT-3.5-Turboでさえ、コード編集タスクにおいて最高のオープンモデルよりも優れている。 また、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットも導入する。 このトレーニングデータセットを使用して、オープンなコードLLMを微調整して、コード編集機能を大幅に改善し、オープンなモデルとクローズドなモデルのギャップを埋めることができることを示す。 すべてのコード、データ、モデルはhttps://github.com/nuprl/CanItEditで入手できる。

A significant amount of research is focused on developing and evaluating large language models for a variety of code synthesis tasks. These include synthesizing code from natural language, synthesizing tests from code, and synthesizing explanations of code. In contrast, the behavior of instructional code editing with LLMs is understudied. These are tasks in which the model is provided a block of code and an instruction to modify the code. The editing instruction may ask for a feature to be added or removed, describe a bug and ask for a fix, or ask for a different kind of solution. We introduce a carefully crafted benchmark of code editing tasks and use it to evaluate several cutting edge LLMs. Our evaluation exposes a significant gap between the capabilities of state-of-the-art open and closed models. For example, even GPT-3.5-Turbo is better than the best open model at code editing tasks. We also introduce a new, carefully curated, permissively licensed training dataset of code editing tasks coupled with natural language instructions. Using this training dataset, we show that we can fine-tune open Code LLMs to significantly improve their code editing capabilities, closing the gap between open and closed models. All code, data, and models are available at https://github.com/nuprl/CanItEdit.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# LingoQA: 自動運転のためのビデオ質問回答

LingoQA: Video Question Answering for Autonomous Driving ( http://arxiv.org/abs/2312.14115v2 )

ライセンス: Link先を確認
Ana-Maria Marcu, Long Chen, Jan Hünermann, Alice Karnsund, Benoit Hanotte, Prajwal Chidananda, Saurabh Nair, Vijay Badrinarayanan, Alex Kendall, Jamie Shotton, Elahe Arani, Oleg Sinavski, (参考訳) 自律運転は意思決定プロセスにおける説明可能性の欠如により、長い間、公衆の受け入れで課題に直面してきた。 自然言語によるビデオ質問回答(QA)は、このギャップを埋める機会を提供する。 それでも、包括的なベンチマークがないため、ビデオQAモデルの性能評価は特に難しいことが判明した。 このギャップを埋めるために、自律走行ビデオQAに特化したベンチマークであるLingoQAを紹介する。 LingoQAのトレーニング可能な計量は、人間の評価と0.95のスピアマン相関係数を示す。 本稿では,ロンドン中心部の419kサンプルからなるビデオQAデータセットについて紹介する。 ベースライン視覚言語モデルを構築し、その性能を理解するために広範囲にわたるアブレーション研究を行う。

Autonomous driving has long faced a challenge with public acceptance due to the lack of explainability in the decision-making process. Video question-answering (QA) in natural language provides the opportunity for bridging this gap. Nonetheless, evaluating the performance of Video QA models has proved particularly tough due to the absence of comprehensive benchmarks. To fill this gap, we introduce LingoQA, a benchmark specifically for autonomous driving Video QA. The LingoQA trainable metric demonstrates a 0.95 Spearman correlation coefficient with human evaluations. We introduce a Video QA dataset of central London consisting of 419k samples that we release with the paper. We establish a baseline vision-language model and run extensive ablation studies to understand its performance.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# Modality-missing RGBT Tracking: Invertible Prompt Learningと高品質ベンチマーク

Modality-missing RGBT Tracking: Invertible Prompt Learning and High-quality Benchmarks ( http://arxiv.org/abs/2312.16244v3 )

ライセンス: Link先を確認
Andong Lu, Jiacong Zhao, Chenglong Li, Jin Tang, Bin Luo, (参考訳) 現在のRGBT追跡研究は、完全なマルチモーダル入力に依存しているが、熱センサーの自己校正やデータ伝送エラーなどの要因により、モーダル情報は失われる可能性がある。 この課題に対処するために,コンテンツ保存プロンプトをよく訓練されたトラッキングモデルに統合して,RGBTの堅牢なトラッキングを実現する,新しい非可逆的プロンプト学習手法を提案する。 そこで本研究では,RGBT追跡モデルに適応するために,モダリティを欠落したモダリティのプロンプトを生成するために利用可能なモダリティを利用する手法を提案する。 しかしながら、利用可能なモダリティと欠落したモダリティの間の相互モダリティギャップは、通常、即時生成において意味的歪みと情報損失を引き起こす。 この問題に対処するために、入力可能モードの完全な再構成を生成プロンプトから組み込むことにより、可逆プロンプトを設計する。 総合的な評価プラットフォームとして,実世界の課題をシミュレートするために,様々なモダリティを欠くシナリオを考慮した,高品質なベンチマークデータセットを構築した。 3つのModality-missingベンチマークデータセットの大規模な実験により,本手法は最先端の手法と比較して,大幅な性能向上を実現していることが示された。 コードとシミュレーションデータセットは以下の通りである。 \href{https://github.com/Alexadlu/Modality-missing-RGBT-Tracking.git}{https://github.com/Alexadlu/Modality-missing-RGBT-Tracking.git}。

Current RGBT tracking research relies on the complete multi-modal input, but modal information might miss due to some factors such as thermal sensor self-calibration and data transmission error, called modality-missing challenge in this work. To address this challenge, we propose a novel invertible prompt learning approach, which integrates the content-preserving prompts into a well-trained tracking model to adapt to various modality-missing scenarios, for robust RGBT tracking. Given one modality-missing scenario, we propose to utilize the available modality to generate the prompt of the missing modality to adapt to RGBT tracking model. However, the cross-modality gap between available and missing modalities usually causes semantic distortion and information loss in prompt generation. To handle this issue, we design the invertible prompter by incorporating the full reconstruction of the input available modality from the generated prompt. To provide a comprehensive evaluation platform, we construct several high-quality benchmark datasets, in which various modality-missing scenarios are considered to simulate real-world challenges. Extensive experiments on three modality-missing benchmark datasets show that our method achieves significant performance improvements compared with state-of-the-art methods. We have released the code and simulation datasets at: \href{https://github.com/Alexadlu/Modality-missing-RGBT-Tracking.git}{https://github.com/Alexadlu/Modality-missing-RGBT-Tracking.git}.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# Adaptive Message Passing: オーバースムーシング、オーバースキャッシング、アンダーレッシングを緩和するための一般的なフレームワーク

Adaptive Message Passing: A General Framework to Mitigate Oversmoothing, Oversquashing, and Underreaching ( http://arxiv.org/abs/2312.16560v2 )

ライセンス: Link先を確認
Federico Errica, Henrik Christiansen, Viktor Zaverkin, Takashi Maruyama, Mathias Niepert, Francesco Alesiani, (参考訳) 長距離相互作用は、多くの科学分野における複雑なシステムの正しい記述に不可欠である。 しかし、計算にそれらを含める費用は、全体的な計算コストの劇的な増加である。 近年、ディープグラフネットワークは、グラフとして表される複雑なシステムの特性を予測するための効率的なデータ駆動サロゲートモデルとして採用されている。 これらのモデルは、局所的かつ反復的なメッセージパッシング戦略に依存しており、原則として、対応するインタラクションを明示的にモデル化することなく、長距離情報をキャプチャすべきである。 実際には、ほとんどのディープグラフネットワークは、(同期)メッセージパッシングの固有の制限、すなわちオーバースムーシング、オーバースキャッシング、アンダーレッシングのために、実際には長距離依存をモデル化することはできない。 この研究は、これらの制限を緩和するために学習する一般的なフレームワークを提案する: 変分推論フレームワークでは、メッセージパッシングアーキテクチャに、その深さを自由に適応させ、その途中でメッセージをフィルタリングする能力を与えます。 理論的および実証的な議論から、この単純な戦略は、この問題に適した5つのノードおよびグラフ予測データセットの最先端を超越することで、長距離相互作用をよりよく捉えていることが示される。 我々のアプローチは、これらのタスクでテストされたベースラインのパフォーマンスを一貫して改善します。 我々は、フレームワークの内部動作をより深く理解するために、定性的な分析とアブレーションで展示を補完する。

Long-range interactions are essential for the correct description of complex systems in many scientific fields. The price to pay for including them in the calculations, however, is a dramatic increase in the overall computational costs. Recently, deep graph networks have been employed as efficient, data-driven surrogate models for predicting properties of complex systems represented as graphs. These models rely on a local and iterative message passing strategy that should, in principle, capture long-range information without explicitly modeling the corresponding interactions. In practice, most deep graph networks cannot really model long-range dependencies due to the intrinsic limitations of (synchronous) message passing, namely oversmoothing, oversquashing, and underreaching. This work proposes a general framework that learns to mitigate these limitations: within a variational inference framework, we endow message passing architectures with the ability to freely adapt their depth and filter messages along the way. With theoretical and empirical arguments, we show that this simple strategy better captures long-range interactions, by surpassing the state of the art on five node and graph prediction datasets suited for this problem. Our approach consistently improves the performances of the baselines tested on these tasks. We complement the exposition with qualitative analyses and ablations to get a deeper understanding of the framework's inner workings.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# CharPoet:token-free LLMに基づく中国の古典詩生成システム

CharPoet: A Chinese Classical Poetry Generation System Based on Token-free LLM ( http://arxiv.org/abs/2401.03512v3 )

ライセンス: Link先を確認
Chengyue Yu, Lei Zang, Jiaotuan Wang, Chenyi Zhuang, Jinjie Gu, (参考訳) 漢詩の自動生成は研究の関心を惹きつけてきたが、形式や内容の効果的な制御を同時に達成することは依然として困難である。 伝統的なシステムは、通常、キーワードをユーザー入力として受け入れ、コンテンツの制御が制限される。 大規模言語モデル(LLM)は、制限のないユーザ命令を許容することで、コンテンツ制御を改善するが、トークン・バイ・トークン生成プロセスは、しばしばフォーマットエラーを発生させる。 そこで我々は,トークンフリーLLMに基づく漢詩生成システムCharPoetを提案する。 トークンフリーアーキテクチャは文字単位のキャラクタ方式で生成し,文字数を正確に制御する。 既存のトークンベースの LLM から切り離され、CharPoet はその事前訓練された能力を継承し、「母の誕生日に詩を書きなさい」といった指示に従って詩を生成することができる。 CharPoetは、Juge-GPT-2 (0.91) と GPT-4 (0.38) を上回り、0.96以上のフォーマット精度を達成する。 コンテンツ品質の面では、CharPoetはJugeを含む従来のシステムを超え、他のLLMに匹敵する。 私たちのシステムはオープンソースで、https://modelscope.cn/models/CharPoet/CharPoetで利用可能です。 CharPoetのデモビデオはhttps://youtu.be/voZ25qEp3Dcで公開されている。

Automatic Chinese classical poetry generation has attracted much research interest, but achieving effective control over format and content simultaneously remains challenging. Traditional systems usually accept keywords as user inputs, resulting in limited control over content. Large language models (LLMs) improve content control by allowing unrestricted user instructions, but the token-by-token generation process frequently makes format errors. Motivated by this, we propose CharPoet, a Chinese classical poetry generation system based on token-free LLM, which provides effective control over both format and content. Our token-free architecture generates in a character-by-character manner, enabling precise control over the number of characters. Pruned from existing token-based LLMs, CharPoet inherits their pretrained capabilities and can generate poetry following instructions like "Write me a poem for my mother's birthday." CharPoet achieves format accuracy above 0.96, outperforming Jiuge-GPT-2 (0.91) and GPT-4 (0.38). In terms of content quality, CharPoet surpasses traditional systems including Jiuge, and is comparable to other LLMs. Our system is open source and available at https://modelscope.cn/models/CharPoet/CharPoet. A video demonstration of CharPoet is available at https://youtu.be/voZ25qEp3Dc.
翻訳日:2024-03-21 21:58:15 公開日:2024-03-20
# 深層学習フレームワーク開発における推定量の自動同定に関する探索的研究

An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks ( http://arxiv.org/abs/2401.03653v3 )

ライセンス: Link先を確認
Chen Yang, Peng Liang, Zinan Ma, (参考訳) ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。 これらの仮定は、さまざまな種類のソフトウェアアーティファクト(要件、設計決定、技術的負債など)に関連しており、結果として無効になり、システム障害につながる可能性がある。 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。 しかし、仮定はDLフレームワークの開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に散在しており、手動で仮定を特定することは、コストが高い(例えば、時間とリソース)。 DLフレームワーク開発における仮定を手動で特定する問題を克服するため、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、従来の機械学習モデル(例えば、サポートベクトルマシン、分類と回帰ツリー)、人気のあるDLモデル(ALBERT)、AssuEvalデータセットの仮定を特定する大きな言語モデル(すなわち、ChatGPT)のパフォーマンスを調査した。 ALBERTは、他のモデルよりもはるかに優れたAssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する(第2の最良のf1スコアは、ChatGPTによって達成された0.6211)。 ChatGPTは最もポピュラーな大規模言語モデルですが、タスクの性能が低いため、DLフレームワーク開発における仮定を特定するために使うのは推奨しません。 仮定識別のための微調整ChatGPTは、性能を向上する可能性がある。 この研究は、さらなる研究(例えば、仮定分類、評価、推論)のための仮定の最大のデータセットを提供し、実践者が仮定をよりよく理解し、プロジェクト内でそれらをどのように管理するかを手助けする。

Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, pull requests, and issues) of DL framework development, and manually identifying assumptions has high costs (e.g., time and resources). To overcome the issues of manually identifying assumptions in DL framework development, we constructed a new and largest dataset (i.e., AssuEval) of assumptions collected from the TensorFlow and Keras repositories on GitHub; explored the performance of seven traditional machine learning models (e.g., Support Vector Machine, Classification and Regression Trees), a popular DL model (i.e., ALBERT), and a large language model (i.e., ChatGPT) of identifying assumptions on the AssuEval dataset. The experiment results show that: ALBERT achieves the best performance (f1-score: 0.9584) of identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.6211, achieved by ChatGPT). Though ChatGPT is the most popular large language model, we do not recommend using it to identify assumptions in DL framework development because of its low performance on the task. Fine-tuning ChatGPT specifically for assumption identification could improve the performance. This study provides researchers with the largest dataset of assumptions for further research (e.g., assumption classification, evaluation, and reasoning) and helps practitioners better understand assumptions and how to manage them in their projects.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法

AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models ( http://arxiv.org/abs/2401.09002v3 )

ライセンス: Link先を確認
Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong Zhang, Yongfeng Zhang, (参考訳) 本研究では,GPT-4やLLaMa2のような大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価する新しい手法を考案し,従来のロバスト性に着目したバイナリ評価から逸脱した。 本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。 それぞれのフレームワークはスコアが0から1の範囲で、ユニークな視点を提供し、より包括的でニュアンスな攻撃効果の評価を可能にし、アタッカーにより深い理解で攻撃プロンプトを洗練させる。 さらに,Jailbreakタスクに適した総合的真実データセットを開発した。 このデータセットは、現在の研究にとって重要なベンチマークとして機能するだけでなく、将来の研究の基盤となるリソースも確立し、この進化する分野における一貫性と比較分析を可能にします。 従来の評価手法と微妙に比較した結果,評価はベースラインの傾向と一致し,より深く詳細な評価が得られた。 Jailbreakタスクにおける攻撃プロンプトの有効性を正確に評価することで、当社の作業は、プロンプトインジェクションの領域において、より広い範囲の類似またはさらに複雑なタスクを評価するための確固たる基盤を築き、この分野に革命をもたらす可能性があると考えている。

In our research, we pioneer a novel approach to evaluate the effectiveness of jailbreak attacks on Large Language Models (LLMs), such as GPT-4 and LLaMa2, diverging from traditional robustness-focused binary evaluations. Our study introduces two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework, using a scoring range from 0 to 1, offers a unique perspective, enabling a more comprehensive and nuanced evaluation of attack effectiveness and empowering attackers to refine their attack prompts with greater understanding. Furthermore, we have developed a comprehensive ground truth dataset specifically tailored for jailbreak tasks. This dataset not only serves as a crucial benchmark for our current study but also establishes a foundational resource for future research, enabling consistent and comparative analyses in this evolving field. Upon meticulous comparison with traditional evaluation methods, we discovered that our evaluation aligns with the baseline's trend while offering a more profound and detailed assessment. We believe that by accurately evaluating the effectiveness of attack prompts in the Jailbreak task, our work lays a solid foundation for assessing a wider array of similar or even more complex tasks in the realm of prompt injection, potentially revolutionizing this field.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 機械学習による反復測度からの動的状態の検出

Machine learning approach to detect dynamical states from recurrence measures ( http://arxiv.org/abs/2401.10298v2 )

ライセンス: Link先を確認
Dheeraja Thakur, Athul Mohan, G. Ambika, Chandrakala Meena, (参考訳) 本研究では,非線形時系列解析と機械学習アプローチを統合し,時系列から生じる様々な動的状態の分類に再帰的対策を特に活用する。 本研究では,この研究のために,ロジスティック回帰,ランダムフォレスト,サポートベクトルマシンの3つの機械学習アルゴリズムを実装した。 入力特徴は非線形時系列の繰り返し量子化と対応する繰り返しネットワークの特性測定から導かれる。 トレーニングとテストのために、標準的な非線形力学系から合成データを生成し、時系列を周期的、カオス的、過カオス的、ノイズの多いカテゴリに分類する機械学習アルゴリズムの効率と性能を評価する。 さらに,分類手法における入力特徴の重要性について検討し,再帰点の密度を定量化する特徴が最も重要であることを示す。 さらに、トレーニングされたアルゴリズムは、光曲線のデータから2つの変光星 SX Her と AC Her の動的状態を予測することに成功した。

We integrate machine learning approaches with nonlinear time series analysis, specifically utilizing recurrence measures to classify various dynamical states emerging from time series. We implement three machine learning algorithms Logistic Regression, Random Forest, and Support Vector Machine for this study. The input features are derived from the recurrence quantification of nonlinear time series and characteristic measures of the corresponding recurrence networks. For training and testing we generate synthetic data from standard nonlinear dynamical systems and evaluate the efficiency and performance of the machine learning algorithms in classifying time series into periodic, chaotic, hyper-chaotic, or noisy categories. Additionally, we explore the significance of input features in the classification scheme and find that the features quantifying the density of recurrence points are the most relevant. Furthermore, we illustrate how the trained algorithms can successfully predict the dynamical states of two variable stars, SX Her and AC Her from the data of their light curves.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 大規模言語モデルの過剰推論と冗長計算

Over-Reasoning and Redundant Calculation of Large Language Models ( http://arxiv.org/abs/2401.11467v2 )

ライセンス: Link先を確認
Cheng-Han Chiang, Hung-yi Lee, (参考訳) 大規模言語モデル(LLM)は、問題を段階的に解決することができる。 このチェーン・オブ・シンクレット(CoT)推論はLLMのパフォーマンスを高めるが、LLMs \textit{know}がいつCoTを使うか、そしてそれらのCoTが常に質問に答える必要があるかどうかは不明である。 本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。 GSM8K-Zeroは、質問を計算せずに答えられるように構成されているが、Llama-2モデルやClaude-2を含むLLMは、質問に答えるために長く不必要な計算を生成する傾向がある。 また、LLMが冗長な計算や推論を生成する理由を説明する実験も行います。 GSM8K-Zeroはhttps://github.com/d223302/Over-Reasoning-of-LLMsとhttps://huggingface.co/datasets/dcml0714/GSM8K-Zeroで公開されている。

Large language models (LLMs) can solve problems step-by-step. While this chain-of-thought (CoT) reasoning boosts LLMs' performance, it is unclear if LLMs \textit{know} when to use CoT and whether those CoT are always necessary to answer the question. This paper shows that LLMs tend to generate redundant calculations and reasoning on a manually constructed math QA dataset, GSM8K-Zero. GSM8K-Zero is constructed such that the questions can be answered without any calculations, but LLMs, including Llama-2 models and Claude-2, tend to generate lengthy and unnecessary calculations to answer the questions. We also conduct experiments to explain why LLMs generate redundant calculations and reasonings. GSM8K-Zero is publicly available at https://github.com/d223302/Over-Reasoning-of-LLMs and https://huggingface.co/datasets/dcml0714/GSM8K-Zero.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# DDMI:高次命令型ニューラル表現の合成のためのドメイン非依存遅延拡散モデル

DDMI: Domain-Agnostic Latent Diffusion Models for Synthesizing High-Quality Implicit Neural Representations ( http://arxiv.org/abs/2401.12517v2 )

ライセンス: Link先を確認
Dogyun Park, Sihyeon Kim, Sojin Lee, Hyunwoo J. Kim, (参考訳) 近年の研究では、暗黙的神経表現(INR)を合成するための新しい生成モデルを導入し、様々な領域における任意の連続的な信号を捕捉している。 これらのモデルはドメインに依存しない生成モデルの扉を開いたが、しばしば高品質な生成を達成できなかった。 InRのパラメータ化と固定位置埋め込み(PE)によるネットワーク評価のために,既存の手法がニューラルネットワークの重みを生成することを観察した。 おそらく、このアーキテクチャは生成モデルの表現力を制限し、低品質のINR生成をもたらす。 この制限に対処するために、ニューラルネットワークの重みの代わりに適応的な位置埋め込みを生成するINR(DDMI)のためのドメインに依存しない潜在拡散モデルを提案する。 具体的には、離散データと共有潜在空間内の連続信号関数をシームレスに接続する離散連続空間変分自動エンコーダ(D2C-VAE)を開発する。 さらに,INRを階層的に分解したPEを用いて評価し,表現力を高めるための新しい条件付け機構を導入する。 例えば、2D画像、3D形状、ニューラルレーダランスフィールド、ビデオの4つのモードにわたる大規模な実験は、7つのベンチマークデータセットを用いて、既存のINR生成モデルと比較してDDMIの汎用性と優れたパフォーマンスを実証している。

Recent studies have introduced a new class of generative models for synthesizing implicit neural representations (INRs) that capture arbitrary continuous signals in various domains. These models opened the door for domain-agnostic generative models, but they often fail to achieve high-quality generation. We observed that the existing methods generate the weights of neural networks to parameterize INRs and evaluate the network with fixed positional embeddings (PEs). Arguably, this architecture limits the expressive power of generative models and results in low-quality INR generation. To address this limitation, we propose Domain-agnostic Latent Diffusion Model for INRs (DDMI) that generates adaptive positional embeddings instead of neural networks' weights. Specifically, we develop a Discrete-to-continuous space Variational AutoEncoder (D2C-VAE), which seamlessly connects discrete data and the continuous signal functions in the shared latent space. Additionally, we introduce a novel conditioning mechanism for evaluating INRs with the hierarchically decomposed PEs to further enhance expressive power. Extensive experiments across four modalities, e.g., 2D images, 3D shapes, Neural Radiance Fields, and videos, with seven benchmark datasets, demonstrate the versatility of DDMI and its superior performance compared to the existing INR generative models.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# BayesPrompt: Debiased Domain AbstractionによるFew-shot推論に基づく大規模事前学習言語モデルの提案

BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction ( http://arxiv.org/abs/2401.14166v3 )

ライセンス: Link先を確認
Jiangmeng Li, Fei Song, Yifan Jin, Wenwen Qiang, Changwen Zheng, Fuchun Sun, Hui Xiong, (参考訳) 大規模事前学習言語モデル(PLM)に基づく新規かつ効果的な微調整パラダイムとして、プロンプトチューニングは下流タスクと事前学習対象とのギャップを減らすことを目的としている。 プロンプトチューニングは様々なタスクにおいて継続的な進歩をもたらすが、そのようなアプローチは依然として持続的な欠陥であり、プロンプトチューニングメソッドは特定のショットパターンに一般化できない。 分布分析の観点から、本現象の背後にある本質的な問題は、PLMに含まれる過度な概念的知識と、ターゲット下流領域に対する橋渡しされた知識であり、その結果、PLMは、普遍的な知識埋め込み空間において、対象ドメインに対応する知識分布を誤って配置する。 この目的のために、直感的に下流タスクの未解決なターゲットドメインを偏りなく近似し、そのようなドメインを抽象化して差別的なプロンプトを生成し、PLMの非曖昧なガイダンスを提供する。 このような直感に導かれ、ドメイン非関連知識からの干渉に対するドメイン識別情報を含むプロンプトを学習するために、ベイズプロンプト(BayesPrompt)という、シンプルで効果的なアプローチを提案する。 BayesPromptは、既知の分布を原始的に利用して、対象領域の偏った事実分布を近似し、さらに近似された分布から特定の代表的特徴を均一にサンプリングし、PLMの究極のプロンプトを生成する。 ドメイン適応に関する理論的知見を提供する。 提案手法は,ベンチマーク上での最先端性能を実証的に達成する。

As a novel and effective fine-tuning paradigm based on large-scale pre-trained language models (PLMs), prompt-tuning aims to reduce the gap between downstream tasks and pre-training objectives. While prompt-tuning has yielded continuous advancements in various tasks, such an approach still remains a persistent defect: prompt-tuning methods fail to generalize to specific few-shot patterns. From the perspective of distribution analyses, we disclose that the intrinsic issues behind the phenomenon are the over-multitudinous conceptual knowledge contained in PLMs and the abridged knowledge for target downstream domains, which jointly result in that PLMs mis-locate the knowledge distributions corresponding to the target domains in the universal knowledge embedding space. To this end, we intuitively explore to approximate the unabridged target domains of downstream tasks in a debiased manner, and then abstract such domains to generate discriminative prompts, thereby providing the de-ambiguous guidance for PLMs. Guided by such an intuition, we propose a simple yet effective approach, namely BayesPrompt, to learn prompts that contain the domain discriminative information against the interference from domain-irrelevant knowledge. BayesPrompt primitively leverages known distributions to approximate the debiased factual distributions of target domains and further uniformly samples certain representative features from the approximated distributions to generate the ultimate prompts for PLMs. We provide theoretical insights with the connection to domain adaptation. Empirically, our method achieves state-of-the-art performance on benchmarks.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# PathMMU: 病理の理解と推論のための大規模マルチモーダルエキスパートレベルベンチマーク

PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology ( http://arxiv.org/abs/2401.16355v3 )

ライセンス: Link先を確認
Yuxuan Sun, Hao Wu, Chenglu Zhu, Sunyi Zheng, Qizi Chen, Kai Zhang, Yunlong Zhang, Dan Wan, Xiaoxiao Lan, Mengyue Zheng, Jingxiong Li, Xinheng Lyu, Tao Lin, Lin Yang, (参考訳) 大規模なマルチモーダルモデルの出現は、AI、特に病理学において顕著な可能性を解き放っている。 しかし、専門的で高品質なベンチマークが欠如していることは、その開発と正確な評価を妨げた。 そこで我々は,LMM(Large Multimodal Models)のための,最大かつ高品質なエキスパート検証型病理診断ベンチマークPathMMUを紹介する。 様々なソースから33,428のマルチモーダルなマルチチョイス質問と24,067のイメージで構成され、それぞれに正しい回答の説明が添えられている。 PathMMUの構築はGPT-4Vの高度な機能を活用し、3万以上の画像キャプチャペアを使用してキャプションを強化し、カスケードプロセスで対応するQ&Aを生成する。 PathMMUの権威を最大限にするために、我々は7人の病理学者にPathMMUの検証とテストセットの厳格な基準の下で各質問を精査し、同時にPathMMUのエキスパートレベルのパフォーマンスベンチマークを設定します。 14のオープンソースと4のクローズドソースのLMMのゼロショット評価や,画像の破損に対する堅牢性など,幅広い評価を行っている。 また、PathMMUへの適応性を評価するために、代表LMMを微調整する。 実験の結果、先進的なLMMは挑戦的なPathMMUベンチマークに苦戦し、トップパフォーマンスのLMMであるGPT-4Vは、わずか49.8%のゼロショットのパフォーマンスしか達成せず、ヒトの病理学者による71.8%よりも大幅に低い結果となった。 微調整の後、かなり小さなオープンソースLMMはGPT-4Vより優れているが、病理学者が示した専門知識には劣っている。 私たちは、PathMMUが貴重な洞察を提供し、より専門的で次世代のLMMの開発を促進することを期待しています。

The emergence of large multimodal models has unlocked remarkable potential in AI, particularly in pathology. However, the lack of specialized, high-quality benchmark impeded their development and precise evaluation. To address this, we introduce PathMMU, the largest and highest-quality expert-validated pathology benchmark for Large Multimodal Models (LMMs). It comprises 33,428 multimodal multi-choice questions and 24,067 images from various sources, each accompanied by an explanation for the correct answer. The construction of PathMMU harnesses GPT-4V's advanced capabilities, utilizing over 30,000 image-caption pairs to enrich captions and generate corresponding Q&As in a cascading process. Significantly, to maximize PathMMU's authority, we invite seven pathologists to scrutinize each question under strict standards in PathMMU's validation and test sets, while simultaneously setting an expert-level performance benchmark for PathMMU. We conduct extensive evaluations, including zero-shot assessments of 14 open-sourced and 4 closed-sourced LMMs and their robustness to image corruption. We also fine-tune representative LMMs to assess their adaptability to PathMMU. The empirical findings indicate that advanced LMMs struggle with the challenging PathMMU benchmark, with the top-performing LMM, GPT-4V, achieving only a 49.8% zero-shot performance, significantly lower than the 71.8% demonstrated by human pathologists. After fine-tuning, significantly smaller open-sourced LMMs can outperform GPT-4V but still fall short of the expertise shown by pathologists. We hope that the PathMMU will offer valuable insights and foster the development of more specialized, next-generation LMMs for pathology.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 光量子センサネットワークを用いた最適関数推定

Optimal function estimation with photonic quantum sensor networks ( http://arxiv.org/abs/2401.16472v2 )

ライセンス: Link先を確認
Jacob Bringewatt, Adam Ehrenberg, Tarushii Goel, Alexey V. Gorshkov, (参考訳) 量子ビットセンサにそれぞれ線形に結合した未知の局所パラメータの解析関数を最適に測定する問題は、電場補間からノイズ評価まで幅広い用途でよく理解されている。 ここでは、このフレームワークをマッハ・ツェンダー干渉計や二次変位検出に拡張する際に生じる多くのオープンな問題を解決する。 特に、局所位相シフトまたは二次変位の線形関数を推定する際に、達成可能な平均二乗誤差の下位境界を導出する。 局所位相シフトの場合、これらの結果はProctor et al [arXiv:1702.04271 (2017)] による予想を証明し、やや一般化する。 二次変位に対しては、下界の証明を任意の線型函数の場合に拡張する。 我々は、これらの境界を小さい(多重)定数まで達成する最適なプロトコルを提供し、新しい最適プロトコルを導出するための代数的アプローチを記述する。 このアプローチを用いて,局所位相と変位検出の両方に最適なプロトコルに必要な絡み合いの量を示す。

The problem of optimally measuring an analytic function of unknown local parameters each linearly coupled to a qubit sensor is well understood, with applications ranging from field interpolation to noise characterization. Here, we resolve a number of open questions that arise when extending this framework to Mach-Zehnder interferometers and quadrature displacement sensing. In particular, we derive lower bounds on the achievable mean square error in estimating a linear function of either local phase shifts or quadrature displacements. In the case of local phase shifts, these results prove, and somewhat generalize, a conjecture by Proctor et al. [arXiv:1702.04271 (2017)]. For quadrature displacements, we extend proofs of lower bounds to the case of arbitrary linear functions. We provide optimal protocols achieving these bounds up to small (multiplicative) constants and describe an algebraic approach to deriving new optimal protocols, possibly subject to additional constraints. Using this approach, we prove necessary conditions for the amount of entanglement needed for any optimal protocol for both local phase and displacement sensing.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 格子状メタマテリアルの弾性に対するエネルギー保存同変GNN

Energy-conserving equivariant GNN for elasticity of lattice architected metamaterials ( http://arxiv.org/abs/2401.16914v2 )

ライセンス: Link先を確認
Ivan Grega, Ilyes Batatia, Gábor Csányi, Sri Karlapati, Vikram S. Deshpande, (参考訳) 格子は構造的メタマテリアルであり、その性質は幾何学的設計に強く依存している。 格子とグラフの類似により、有限要素モデリングのような従来の手法に比べて高速な代理モデルとしてグラフニューラルネットワーク(GNN)が利用できる。 本研究では, ストラット型格子に対する構造固有性関係の大規模データセットを生成する。 このデータセットはコミュニティで利用でき、4階テンソルのフィッティングのための物理原理で固定されたメソッドの開発を促進することができる。 さらに、このデータセットに基づいて訓練された高次GNNモデルを提案する。 モデルの主な特徴は (i)SE(3)同値、及び (II)エネルギーの保存の熱力学則との整合性。 モデルと非同変モデルを比較し、予測性能とトレーニング要件の低減の観点から、その利点を実証する。 最後に,設計した材料設計タスクへのモデルの適用例を示す。 私たちが開発した手法は、圧電光学テンソルなどの弾性を超える4階テンソルに適用できる。

Lattices are architected metamaterials whose properties strongly depend on their geometrical design. The analogy between lattices and graphs enables the use of graph neural networks (GNNs) as a faster surrogate model compared to traditional methods such as finite element modelling. In this work, we generate a big dataset of structure-property relationships for strut-based lattices. The dataset is made available to the community which can fuel the development of methods anchored in physical principles for the fitting of fourth-order tensors. In addition, we present a higher-order GNN model trained on this dataset. The key features of the model are (i) SE(3) equivariance, and (ii) consistency with the thermodynamic law of conservation of energy. We compare the model to non-equivariant models based on a number of error metrics and demonstrate its benefits in terms of predictive performance and reduced training requirements. Finally, we demonstrate an example application of the model to an architected material design task. The methods which we developed are applicable to fourth-order tensors beyond elasticity such as piezo-optical tensor etc.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 非エルミートキタエフ鎖における絡み合い相転移

Entanglement phase transitions in non-Hermitian Kitaev chains ( http://arxiv.org/abs/2402.03001v2 )

ライセンス: Link先を確認
Longwen Zhou, (参考訳) ユニタリ進化と射影測定の間の複雑な相互作用は、量子多粒子系の非平衡力学における絡み合い相転移を引き起こす可能性がある。 本研究では,非エルミートトポロジカル超伝導体における損失誘起の絡み合い遷移を明らかにする。 局所的な粒子損失と様々なホッピングとペアリング範囲を持つ原始型北エフ鎖では, 定常状態の両部エンタングルメントエントロピーは, 位相的に非自明な相の系サイズに対して対数的にスケールし, 自明な相の系サイズとは独立であることがわかった。 特に、対数法則の絡み合った位相のスケーリング係数は、基底系が異なる位相相にあるときに区別可能である。 システムが異なる位相相を切り替え、トポロジカルに非自明な位相から自明な位相に移動するときに、対数法則と対数法則の対数法則の対数法則と面積法則の対数法則の相転移を更に同定する。 これらの知見は, 非エルミート的トポロジカル超伝導体群におけるスペクトル, トポロジカル, エンタングルメント特性の関連性を確立するだけでなく, それらのトポロジカルな特徴を動的に明らかにする効率的な手段を提供する。

The intricate interplay between unitary evolution and projective measurements could induce entanglement phase transitions in the nonequilibrium dynamics of quantum many-particle systems. In this work, we uncover loss-induced entanglement transitions in non-Hermitian topological superconductors. In prototypical Kitaev chains with local particle losses and varying hopping and pairing ranges, the bipartite entanglement entropy of steady states is found to scale logarithmically versus the system size in topologically nontrivial phases and become independent of the system size in the trivial phase. Notably, the scaling coefficients of log-law entangled phases are distinguishable when the underlying system resides in different topological phases. Log-law to log-law and log-law to area-law entanglement phase transitions are further identified when the system switches between different topological phases and goes from a topologically nontrivial to a trivial phase, respectively. These findings not only establish the relationships among spectral, topological and entanglement properties in a class of non-Hermitian topological superconductors, but also provide an efficient means to dynamically reveal their distinctive topological features.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 難解なギブズサンプリング

Diffusive Gibbs Sampling ( http://arxiv.org/abs/2402.03008v2 )

ライセンス: Link先を確認
Wenlin Chen, Mingtian Zhang, Brooks Paige, José Miguel Hernández-Lobato, David Barber, (参考訳) 従来のマルコフ・チェイン・モンテカルロ法(MCMC)のマルチモーダル分布に対する不適切な混合は、ベイズ推論や分子動力学のような実践的応用において重要な課題である。 そこで本稿では,ディフューシブギブズサンプリング(Diffusive Gibbs Sampling, DiGS)を提案する。 DiGSは拡散モデルにおける最近の発展を統合し、ガウスの畳み込みを利用して元の空間の孤立モードをブリッジする補助ノイズ分布を作成し、ギブスサンプリングを用いて両方の空間からサンプルを交互に描画する。 提案手法は, 並列テンパリングなどの最先端手法よりも, マルチモーダル分布のサンプリングに優れた混合特性を示す。 我々は, ガウス, ベイズニューラルネットワーク, 分子動力学の混合など, 様々なタスクにおいて, サンプルが大幅に改善されることを実証した。

The inadequate mixing of conventional Markov Chain Monte Carlo (MCMC) methods for multi-modal distributions presents a significant challenge in practical applications such as Bayesian inference and molecular dynamics. Addressing this, we propose Diffusive Gibbs Sampling (DiGS), an innovative family of sampling methods designed for effective sampling from distributions characterized by distant and disconnected modes. DiGS integrates recent developments in diffusion models, leveraging Gaussian convolution to create an auxiliary noisy distribution that bridges isolated modes in the original space and applying Gibbs sampling to alternately draw samples from both spaces. Our approach exhibits a better mixing property for sampling multi-modal distributions than state-of-the-art methods such as parallel tempering. We demonstrate that our sampler attains substantially improved results across various tasks, including mixtures of Gaussians, Bayesian neural networks and molecular dynamics.
翻訳日:2024-03-21 21:48:20 公開日:2024-03-20
# 単層グラフ畳み込みネットワークの漸近一般化誤差

Asymptotic generalization error of a single-layer graph convolutional network ( http://arxiv.org/abs/2402.03818v2 )

ライセンス: Link先を確認
O. Duranthon, L. Zdeborová, (参考訳) グラフ畳み込みネットワークは、非常に実用的な可能性を示しているが、それらの一般化特性を、教師付き完全連結ニューラルネットワークのより広範に研究されている場合と比較して、標本数の関数としての理論的理解はまだ初期段階にある。 本稿では,一層グラフ畳み込みネットワーク(GCN)の性能を,属性付き確率ブロックモデル(SBM)が高次元限界で生成したデータに基づいて予測する。 従来,SBM(文脈的SBM)の隆起回帰はShi et al 2022においてのみ検討されており,CSBMの任意の凸損失と正規化に対して解析を一般化し,他のデータモデルであるニューラルプライアSBMに解析を加える。 また,高信号対雑音比の限界について検討し,GCNの収束率を詳細に検討し,一貫性はあるものの,いずれの場合においてもベイズ最適値に達しないことを示す。

While graph convolutional networks show great practical promises, the theoretical understanding of their generalization properties as a function of the number of samples is still in its infancy compared to the more broadly studied case of supervised fully connected neural networks. In this article, we predict the performances of a single-layer graph convolutional network (GCN) trained on data produced by attributed stochastic block models (SBMs) in the high-dimensional limit. Previously, only ridge regression on contextual-SBM (CSBM) has been considered in Shi et al. 2022; we generalize the analysis to arbitrary convex loss and regularization for the CSBM and add the analysis for another data model, the neural-prior SBM. We also study the high signal-to-noise ratio limit, detail the convergence rates of the GCN and show that, while consistent, it does not reach the Bayes-optimal rate for any of the considered cases.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# S$Ω$I:スコアベースのO-インフォーメーション推定

S$Ω$I: Score-based O-INFORMATION Estimation ( http://arxiv.org/abs/2402.05667v2 )

ライセンス: Link先を確認
Mustapha Bounoua, Giulio Franzese, Pietro Michiardi, (参考訳) 科学データと複雑な多変量系の分析は、複数の確率変数間の関係を捉える情報量を必要とする。 近年,相互情報など,対の相互作用を考慮に入れない古典的情報の欠点を克服するために,新たな情報理論手法が開発されている。 その中でも,情報シナジーと冗長性の概念は,変数間の高次依存関係を理解する上で重要である。 この概念に基づく最も顕著で多用途な尺度の1つはO情報であり、多変量系におけるシナジー/冗長バランスを定量化する明確でスケーラブルな方法である。 しかし、実用用途は簡易ケースに限られている。 本稿では,システムに関する制約的な仮定を伴わずに,初めてO情報を計算するS$\Omega$Iを紹介する。 実世界のユースケースにおけるS$\Omega$Iの有効性を実証した。

The analysis of scientific data and complex multivariate systems requires information quantities that capture relationships among multiple random variables. Recently, new information-theoretic measures have been developed to overcome the shortcomings of classical ones, such as mutual information, that are restricted to considering pairwise interactions. Among them, the concept of information synergy and redundancy is crucial for understanding the high-order dependencies between variables. One of the most prominent and versatile measures based on this concept is O-information, which provides a clear and scalable way to quantify the synergy-redundancy balance in multivariate systems. However, its practical application is limited to simplified cases. In this work, we introduce S$\Omega$I, which allows for the first time to compute O-information without restrictive assumptions about the system. Our experiments validate our approach on synthetic data, and demonstrate the effectiveness of S$\Omega$I in the context of a real-world use case.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# Mamba-ND:多次元データのための選択状態空間モデリング

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data ( http://arxiv.org/abs/2402.05892v4 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover, (参考訳) 近年、トランスフォーマーはテキストや画像やビデオなどの多次元データを用いたシーケンスモデリングのためのデファクトアーキテクチャとなっている。 しかし、Transformerにおける自己アテンション層の使用は、シーケンス長の4次スケールの計算とメモリの複雑さを禁止している。 状態空間モデルに基づく最近のアーキテクチャであるMambaは、シーケンス長と線形にスケーリングしながら、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。 本研究では,マンバアーキテクチャを任意の多次元データに拡張した汎用設計であるマンバ-NDを提案する。 我々の設計では、行長の順序に従って異なる次元の入力データを抽出する。 我々は,2方向LSTMやS4NDといった先行的多次元拡張に基づいて,Mamba-NDを他の代替品と体系的に比較する。 実験により,Mamba-NDは,ImageNet-1K分類,HMDB-51行動認識,ERA5天気予報など,多次元のベンチマークにおいて,最先端技術との競合性を実証した。

In recent years, Transformers have become the de-facto architecture for sequence modeling on text and a variety of multi-dimensional data, such as images and video. However, the use of self-attention layers in a Transformer incurs prohibitive compute and memory complexity that scales quadratically w.r.t. the sequence length. A recent architecture, Mamba, based on state space models has been shown to achieve comparable performance for modeling text sequences, while scaling linearly with the sequence length. In this work, we present Mamba-ND, a generalized design extending the Mamba architecture to arbitrary multi-dimensional data. Our design alternatively unravels the input data across different dimensions following row-major orderings. We provide a systematic comparison of Mamba-ND with several other alternatives, based on prior multi-dimensional extensions such as Bi-directional LSTMs and S4ND. Empirically, we show that Mamba-ND demonstrates performance competitive with the state-of-the-art on a variety of multi-dimensional benchmarks, including ImageNet-1K classification, HMDB-51 action recognition, and ERA5 weather forecasting.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# NetInfoF Framework: 使用可能なネットワーク情報の計測とエクスプロイト

NetInfoF Framework: Measuring and Exploiting Network Usable Information ( http://arxiv.org/abs/2402.07999v3 )

ライセンス: Link先を確認
Meng-Chieh Lee, Haiyang Yu, Jian Zhang, Vassilis N. Ioannidis, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos, (参考訳) ノード分散グラフとグラフタスク(リンク予測やノード分類)が与えられたら、グラフニューラルネットワーク(GNN)がうまく機能するかどうかを判断できますか? より具体的に言うと、グラフ構造とノード機能は、タスクに十分な有用な情報を持っているか? 目的は,(1)グラフ構造やノード機能にどの程度の情報があるかを測定するための高速ツールを開発すること,(2)タスクが十分であればその情報を活用すること,である。 我々はNetInfoF_ProbeとNetInfoF_Actを含むNetInfoFを提案する。 グラフデータがあると、NetInfoF_ProbeはモデルトレーニングなしでNUIを測定し、NetInfoF_Actはリンク予測とノード分類を解決し、2つのモジュールは同じバックボーンを共有します。 要約すると、NetInfoFは次のような顕著なアドバンテージを持っている。 (a) 一般に、リンク予測とノード分類の両方を扱います。 b) 原理的,理論的保証及び閉形式の解決 (c) ノード類似性に対する調整の提案により、有効である。 (d) スケーラブルで、入力サイズと線形にスケーリングする。 慎重に設計された合成データセットにおいて、NetInfoFはNUIの基礎的真実を正しく識別し、全てのグラフシナリオに対して堅牢である唯一の方法である。 実世界のデータセットに適用されるNetInfoFは、一般的なGNNベースラインと比較して、リンク予測で12回中11回勝利している。

Given a node-attributed graph, and a graph task (link prediction or node classification), can we tell if a graph neural network (GNN) will perform well? More specifically, do the graph structure and the node features carry enough usable information for the task? Our goals are (1) to develop a fast tool to measure how much information is in the graph structure and in the node features, and (2) to exploit the information to solve the task, if there is enough. We propose NetInfoF, a framework including NetInfoF_Probe and NetInfoF_Act, for the measurement and the exploitation of network usable information (NUI), respectively. Given a graph data, NetInfoF_Probe measures NUI without any model training, and NetInfoF_Act solves link prediction and node classification, while two modules share the same backbone. In summary, NetInfoF has following notable advantages: (a) General, handling both link prediction and node classification; (b) Principled, with theoretical guarantee and closed-form solution; (c) Effective, thanks to the proposed adjustment to node similarity; (d) Scalable, scaling linearly with the input size. In our carefully designed synthetic datasets, NetInfoF correctly identifies the ground truth of NUI and is the only method being robust to all graph scenarios. Applied on real-world datasets, NetInfoF wins in 11 out of 12 times on link prediction compared to general GNN baselines.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# Walia-LLM:タスク特化および生成データセットの統合によるAmharic-LLaMAの強化

Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets ( http://arxiv.org/abs/2402.08015v2 )

ライセンス: Link先を確認
Israel Abebe Azime, Atnafu Lambebo Tonja, Tadesse Destaw Belay, Mitiku Yohannes Fuge, Aman Kassahun Wassie, Eyasu Shiferaw Jada, Yonas Chanie, Walelign Tewabe Sewunetie, Seid Muhie Yimam, (参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) 研究において、人間の言語を理解・生成する上での卓越した性能のため、多くの注目を集めている。 しかし、リソースが利用できないため、低リソースの言語は残されたままである。 本研究では,Amharicの言語モデル性能を向上させるために,タスク固有および生成データセットを統合することで,LLaMA-2-Amharicモデルの強化に焦点をあてる。 我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。 微調整されたモデルは、異なるNLPタスクで有望な結果を示す。 我々は、これらのモデルに関する言語固有の研究を促進するために、データセット作成パイプライン、命令データセット、訓練済みモデル、評価アウトプットをオープンソース化した。

Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# 視覚的ローカライゼーションのためのセミディエンス対応の学習

Learning to Produce Semi-dense Correspondences for Visual Localization ( http://arxiv.org/abs/2402.08359v2 )

ライセンス: Link先を確認
Khang Truong Giang, Soohwan Song, Sungho Jo, (参考訳) 本研究は,夜間シナリオ,悪天候,季節変化などの要求条件下で視覚的局所化を行うことの課題に対処する。 多くの先行研究は画像間の信頼性の高いキーポイントマッチングを容易にするために画像マッチング性能の改善に重点を置いているが、既存の手法は再構成された3Dモデルにおける事前定義された特徴点に大きく依存することが多い。 その結果、マッチングプロセス中に観測されていないキーポイントを見落としてしまう傾向にある。 したがって、密度の高いキーポイントマッチは十分に活用されていないため、特にノイズの多いシーンでは、精度が顕著に低下する。 そこで本研究では,高密度なキーポイントマッチングに基づいて,信頼性の高い半高密度2D-3Dマッチングポイントを抽出する新たなローカライズ手法を提案する。 このアプローチでは、点推論ネットワークを用いて、セミセンス2Dキーポイントを3次元シーン座標に回帰する。 ネットワークは幾何学的および視覚的な手がかりを用いて、観測されたキーポイントから観測されていないキーポイントの3D座標を効果的に推測する。 マッチング情報の豊富さは、ノイズやスパース3Dモデルを含むシナリオにおいても、カメラポーズ推定の精度を大幅に向上させる。 包括的評価により,提案手法は難易度において他の手法よりも優れており,大規模な視覚的ローカライゼーションベンチマークにおいて競合する結果が得られた。 コードは利用可能です。

This study addresses the challenge of performing visual localization in demanding conditions such as night-time scenarios, adverse weather, and seasonal changes. While many prior studies have focused on improving image-matching performance to facilitate reliable dense keypoint matching between images, existing methods often heavily rely on predefined feature points on a reconstructed 3D model. Consequently, they tend to overlook unobserved keypoints during the matching process. Therefore, dense keypoint matches are not fully exploited, leading to a notable reduction in accuracy, particularly in noisy scenes. To tackle this issue, we propose a novel localization method that extracts reliable semi-dense 2D-3D matching points based on dense keypoint matches. This approach involves regressing semi-dense 2D keypoints into 3D scene coordinates using a point inference network. The network utilizes both geometric and visual cues to effectively infer 3D coordinates for unobserved keypoints from the observed ones. The abundance of matching information significantly enhances the accuracy of camera pose estimation, even in scenarios involving noisy or sparse 3D models. Comprehensive evaluations demonstrate that the proposed method outperforms other methods in challenging scenes and achieves competitive results in large-scale visual localization benchmarks. The code will be available.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# Magic-Me: アイデンティティに特化したビデオカスタマイズ拡散

Magic-Me: Identity-Specific Video Customized Diffusion ( http://arxiv.org/abs/2402.09368v2 )

ライセンス: Link先を確認
Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng, (参考訳) 特定アイデンティティ(ID)によるコンテンツ作成は、生成モデル分野において大きな関心を集めている。 テキスト・ツー・イメージ生成(T2I)の分野では、参照画像によって制御されるアイデンティティによって、主観的生成は大きな進歩を遂げている。 しかし、ビデオ生成への拡張は十分に検討されていない。 本稿では,VCD(Video Custom Diffusion)と呼ばれる,シンプルながら効果的に個人識別を制御可能なビデオ生成フレームワークを提案する。 少数の画像で定義された特定IDを用いて、VCDはアイデンティティ特性を強化し、安定したビデオ出力のために初期化段階でフレームワイズ相関を注入する。 これを実現するために,高品質なアイデンティティ保存と安定したビデオ生成に不可欠な3つの新しいコンポーネントを提案する。 1) フレーム間安定性向上に先立つ3次元ガウス雑音による雑音初期化手法 2) 背景からID情報をアンタングルするために、収穫されたIDで訓練された拡張テクスチュアル・インバージョンに基づくIDモジュール 3) 顔のVCDモジュールとTiled VCDモジュールは、顔の強化と映像の高解像度化を図り、アイデンティティの特徴を保ちながら映像の高解像度化を実現している。 我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。 さらに、IDモジュール内のエンコードされたアイデンティティの転送性により、VCDはパーソナライズされたテキスト・ツー・イメージ・モデルも公開している。 コードはhttps://github.com/Zhen-Dong/Magic-Me.comで公開されている。

Creating content with specified identities (ID) has attracted significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven creation has achieved great progress with the identity controlled via reference images. However, its extension to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified identity defined by a few images, VCD reinforces the identity characteristics and injects frame-wise correlation at the initialization stage for stable video outputs. To achieve this, we propose three novel components that are essential for high-quality identity preservation and stable video generation: 1) a noise initialization method with 3D Gaussian Noise Prior for better inter-frame stability; 2) an ID module based on extended Textual Inversion trained with the cropped identity to disentangle the ID information from the background 3) Face VCD and Tiled VCD modules to reinforce faces and upscale the video to higher resolution while preserving the identity's features. We conducted extensive experiments to verify that VCD is able to generate stable videos with better ID over the baselines. Besides, with the transferability of the encoded identity in the ID module, VCD is also working well with personalized text-to-image models available publicly. The codes are available at https://github.com/Zhen-Dong/Magic-Me.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# MC-DBN: モダリティ補完のためのディープリーフネットワークベースモデル

MC-DBN: A Deep Belief Network-Based Model for Modality Completion ( http://arxiv.org/abs/2402.09782v3 )

ライセンス: Link先を確認
Zihong Luo, Zheng Tao, Yuxuan Huang, Kexin He, Chengzhi Liu, (参考訳) マルチモーダル人工知能(AI)の最近の進歩は、株式市場の予測と心拍モニタリングの分野に革命をもたらした。 多様なデータソースを使用することで、予測精度が大幅に向上する。 それでも、追加データは常に元のデータセットと一致しない場合がある。 補間法はモダルデータの欠落した値を扱うために一般的に用いられるが、スパース情報の文脈において制限を示すこともある。 この課題に対処するため,我々はMC-DBN(Modality Completion Deep Belief Network Based Model)を提案する。 このアプローチは、完全なデータの暗黙的な特徴を利用して、それ自体と追加の不完全なデータの間のギャップを補う。 拡張されたマルチモーダルデータは、実世界のダイナミックな性質と密接に一致し、モデルの有効性を高める。 我々は,MC-DBNモデルの評価を,市場予測領域と心拍モニタリング領域の2つのデータセットで実施する。 総合的な実験では、マルチモーダルデータに存在するセマンティックディビジョンをブリッジするモデルの能力を示し、その後、その性能を向上する。 ソースコードは、https://github.com/logan-0623/DBN-generate.comで入手できる。

Recent advancements in multi-modal artificial intelligence (AI) have revolutionized the fields of stock market forecasting and heart rate monitoring. Utilizing diverse data sources can substantially improve prediction accuracy. Nonetheless, additional data may not always align with the original dataset. Interpolation methods are commonly utilized for handling missing values in modal data, though they may exhibit limitations in the context of sparse information. Addressing this challenge, we propose a Modality Completion Deep Belief Network-Based Model (MC-DBN). This approach utilizes implicit features of complete data to compensate for gaps between itself and additional incomplete data. It ensures that the enhanced multi-modal data closely aligns with the dynamic nature of the real world to enhance the effectiveness of the model. We conduct evaluations of the MC-DBN model in two datasets from the stock market forecasting and heart rate monitoring domains. Comprehensive experiments showcase the model's capacity to bridge the semantic divide present in multi-modal data, subsequently enhancing its performance. The source code is available at: https://github.com/logan-0623/DBN-generate
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# 決定論的ひずみ工学によるWSe$_2$量子エミッタの安定化

Tailoring Polarization in WSe$_2$ Quantum Emitters through Deterministic Strain Engineering ( http://arxiv.org/abs/2402.11075v2 )

ライセンス: Link先を確認
Athanasios Paralikis, Claudia Piccinini, Abdulmalik A. Madigawa, Pietro Metuh, Luca Vannucci, Niels Gregersen, Battulga Munkhbat, (参考訳) 遷移金属ジアルコゲナイド(TMD)の量子エミッタは、光量子情報処理のための単一の光子を生成するための有望なプラットフォームとして最近登場した。 本研究では, タングステンジセレナイド (WSe$_2$) 単層膜における生成量子エミッタの分極を決定論的に制御するためのアプローチを提案する。 単層膜における制御方向ひずみを誘導するために, 長手および鋭い先端を持つ新規ナノピラージオメトリを用い, 高い偏光率(99\pm 4 \%)$と高い純度(g^{(2)}(0) = 0.030 \pm 0.025$)の単一光子を作製したWSe$_2$エミッタを報告した。 我々の研究は、将来のフォトニック量子技術のためのMDベースの量子エミッタの決定論的統合の道を開くものである。

Quantum emitters in transition metal dichalcogenides (TMDs) have recently emerged as a promising platform for generating single photons for optical quantum information processing. In this work, we present an approach for deterministically controlling the polarization of fabricated quantum emitters in a tungsten diselenide (WSe$_2$) monolayer. We employ novel nanopillar geometries with long and sharp tips to induce a controlled directional strain in the monolayer, and we report on fabricated WSe$_2$ emitters producing single photons with a high degree of polarization $(99\pm 4 \%)$ and high purity ($g^{(2)}(0) = 0.030 \pm 0.025$). Our work paves the way for the deterministic integration of TMD-based quantum emitters for future photonic quantum technologies.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# 散逸を伴う準断熱状態転移に対する最小作用の原理

Principle of least action for quasi-adiabatic state transfers with dissipation ( http://arxiv.org/abs/2402.12807v2 )

ライセンス: Link先を確認
Si Luo, Yinan Fang, Yingdan Wang, Stefano Chesi, (参考訳) 準アディバティックな状態遷移プロトコルを最適化するための一般的な定式化について論じる。そこでは、支配的な散逸チャネルから保護された暗い部分空間でシステムを維持することにより、高い忠実性を実現する。 我々は、時間依存制御パラメータが座標として作用する古典的な作用の形で、散逸と非断熱遷移の組み合わせによって引き起こされる残留忠実度損失をキャストした。 これにより、最小の作用原理を適用でき、忠実度上限と対応する最適移動時間が得られる。 応用として、強い散逸性量子バスを介して相互作用する2つの量子ビットの弱緩和とデファス化の系を解析する。 この場合、我々の形式主義は、最適状態遷移忠実度をフルに特徴づけるものである。

We discuss a general formalism to optimize quasi-adiabatic state-transfer protocols, where high fidelity is achieved by maintaining the system in a dark subspace protected from the dominant dissipative channels. We cast the residual fidelity loss, induced by a combination of dissipation and non-adiabatic transitions, in the form of a classical action where the time-dependent control parameters act as coordinates. This allows us to apply the least action principle, yielding the fidelity upper-bound and the corresponding optimal transfer time. As an application, we analyze a system of two qubits subject to weak relaxation and dephasing, interacting through a strongly dissipative quantum bus. In this case, our formalism, we obtain a full characterization of the optimal state-transfer fidelity.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# 法執行システムにおける人種バイアス評価のための因果的枠組み

A Causal Framework to Evaluate Racial Bias in Law Enforcement Systems ( http://arxiv.org/abs/2402.14959v2 )

ライセンス: Link先を確認
Jessy Xinyi Han, Andrew Miller, S. Craig Watkins, Christopher Winship, Fotini Christia, Devavrat Shah, (参考訳) 我々は、法執行機関における人種による偏見を評価するためのデータ駆動手法の開発に興味がある。 最近の研究は、警察と市民の相互作用の文脈で警察の停留データを用いてこの問題に対処しているが、それらには2つの重要な制限がある。 第一に、バイアスは人種に加えて真の犯罪が考慮されている場合にのみ適切に定量化できるが、以前の作品では欠落している。 第2に、法執行機関は多段階であるため、単に最終結果にフォーカスするのではなく、真のバイアス源を「相互作用の因果連鎖」の中に分離することが重要である。 本研究では,犯罪を包含した多段階因果関係を提示することにより,これらの課題に対処する。 理論的特徴付けと関連するデータ駆動による評価法を提案する。 a)いかなる人種的偏見の存在,及び (b)もしそうであれば、人種や犯罪の点でそのような偏見の源泉となる。 この枠組みは,(1)空港のセキュリティにおいて,人種に対する監視バイアスの主な原因は,人種の無実に対する法執行機関の偏見である可能性が高い,(2)AIを活用した監視は,人種の犯罪者に対する法執行機関の偏見である,(3)警察と市民の相互作用は,人種に対する監視バイアスの主な原因は,人種に対する法執行機関の偏見である,という3つの特徴を持つ。 警察と市民の相互作用データと911の通話データを用いた広範な実証研究により、このような直感的現象の事例が見つかる。ニューオーリンズでは、観察された偏見は多数派に反し、その原因は一般大衆による少数派人種に関する事件の過度に報告されている(via 911)。

We are interested in developing a data-driven method to evaluate race-induced biases in law enforcement systems. While the recent works have addressed this question in the context of police-civilian interactions using police stop data, they have two key limitations. First, bias can only be properly quantified if true criminality is accounted for in addition to race, but it is absent in prior works. Second, law enforcement systems are multi-stage and hence it is important to isolate the true source of bias within the "causal chain of interactions" rather than simply focusing on the end outcome; this can help guide reforms. In this work, we address these challenges by presenting a multi-stage causal framework incorporating criminality. We provide a theoretical characterization and an associated data-driven method to evaluate (a) the presence of any form of racial bias, and (b) if so, the primary source of such a bias in terms of race and criminality. Our framework identifies three canonical scenarios with distinct characteristics: in settings like (1) airport security, the primary source of observed bias against a race is likely to be bias in law enforcement against innocents of that race; (2) AI-empowered policing, the primary source of observed bias against a race is likely to be bias in law enforcement against criminals of that race; and (3) police-civilian interaction, the primary source of observed bias against a race could be bias in law enforcement against that race or bias from the general public in reporting against the other race. Through an extensive empirical study using police-civilian interaction data and 911 call data, we find an instance of such a counter-intuitive phenomenon: in New Orleans, the observed bias is against the majority race and the likely reason for it is the over-reporting (via 911 calls) of incidents involving the minority race by the general public.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# fNIRSにおけるディープラーニング分類モデルの校正

Calibration of Deep Learning Classification Models in fNIRS ( http://arxiv.org/abs/2402.15266v2 )

ライセンス: Link先を確認
Zhihao Cao, Zizhou Luo, (参考訳) 機能近赤外分光法(FNIRS)は脳活動を監視する貴重な非侵襲的ツールである。 意識活動に関連するfNIRSデータの分類は、脳の理解を深め、脳-コンピュータインターフェース(BCI)の開発を促進する上で重要である。 多くの研究者は、その強い一般化と堅牢性のために、fNIRSデータに固有の分類問題に取り組むために、ディープラーニングに目を向けている。 fNIRSの適用においては、信頼性が非常に重要であり、信頼性の信頼性の数学的定式化はキャリブレーションである。 しかし、多くの研究者は校正の重要な問題を見落としている。 このギャップに対処するため、fNIRSフィールドにキャリブレーションを統合することを提案し、既存のモデルの信頼性を評価する。 意外なことに,提案モデルではキャリブレーション性能が低かった。 fNIRS分野におけるキャリブレーション開発を進めるために、我々は3つの実用的なヒントを要約する。 本稿では,fNIRS研究における校正の重要な役割を強調し,fNIRS分類タスクにおける深層学習に基づく予測の信頼性向上を論じる。 実験プロセスのすべてのデータは、GitHubで公開されています。

Functional near-infrared spectroscopy (fNIRS) is a valuable non-invasive tool for monitoring brain activity. The classification of fNIRS data in relation to conscious activity holds significance for advancing our understanding of the brain and facilitating the development of brain-computer interfaces (BCI). Many researchers have turned to deep learning to tackle the classification challenges inherent in fNIRS data due to its strong generalization and robustness. In the application of fNIRS, reliability is really important, and one mathematical formulation of the reliability of confidence is calibration. However, many researchers overlook the important issue of calibration. To address this gap, we propose integrating calibration into fNIRS field and assess the reliability of existing models. Surprisingly, our results indicate poor calibration performance in many proposed models. To advance calibration development in the fNIRS field, we summarize three practical tips. Through this letter, we hope to emphasize the critical role of calibration in fNIRS research and argue for enhancing the reliability of deep learning-based predictions in fNIRS classification tasks. All data from our experimental process are openly available on GitHub.
翻訳日:2024-03-21 21:38:31 公開日:2024-03-20
# AgentOhana: 効果的なエージェント学習のための統一データとトレーニングパイプライン

AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning ( http://arxiv.org/abs/2402.15506v3 )

ライセンス: Link先を確認
Jianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong, (参考訳) 大規模言語モデル(LLM)を利用した自律エージェントは、重要な研究の注目を集めている。 しかし、エージェントベースのタスクにLLMの可能性を十分に活用することは、マルチターン軌道を特徴とする多種多様なデータソースの不均一性に起因する固有の課題をもたらす。 本稿では,これらの課題に対処するための包括的ソリューションとして,textbf{AgentOhana}を紹介する。 \textit{AgentOhana}は、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 エージェントトレーニングに最適化されたジェネリックデータローダの作成を合理化して、これらのトラジェクトリを一貫したフォーマットに慎重に標準化し、統一する。 データ統合を活用することで、トレーニングパイプラインは、さまざまなデータソース間の平衡を維持し、データセットのパーティショニングとモデルトレーニングの間、デバイス間で独立したランダム性を保ちます。 さらに、AIエージェント用に調整された大規模なアクションモデルである‘textbf{xLAM-v0.1} を提示し、様々なベンチマークで例外的な性能を示す。 調査は \url{https://github.com/SalesforceAIResearch/xLAM} で行います。

Autonomous agents powered by large language models (LLMs) have garnered significant research attention. However, fully harnessing the potential of LLMs for agent-based tasks presents inherent challenges due to the heterogeneous nature of diverse data sources featuring multi-turn trajectories. In this paper, we introduce \textbf{AgentOhana} as a comprehensive solution to address these challenges. \textit{AgentOhana} aggregates agent trajectories from distinct environments, spanning a wide array of scenarios. It meticulously standardizes and unifies these trajectories into a consistent format, streamlining the creation of a generic data loader optimized for agent training. Leveraging the data unification, our training pipeline maintains equilibrium across different data sources and preserves independent randomness across devices during dataset partitioning and model training. Additionally, we present \textbf{xLAM-v0.1}, a large action model tailored for AI agents, which demonstrates exceptional performance across various benchmarks. Begin the exploration at \url{https://github.com/SalesforceAIResearch/xLAM}.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# メムリスタ対応確率論理を用いた軽量・耐エラーエッジ検出

Lightweight, error-tolerant edge detection using memristor-enabled stochastic logics ( http://arxiv.org/abs/2402.16908v2 )

ライセンス: Link先を確認
Lekai Song, Pengyu Liu, Jingfang Pei, Yang Liu, Songwei Liu, Shengbo Wang, Leonard W. T. Ng, Tawfique Hasan, Kong-Pang Pun, Shuo Gao, Guohua Hu, (参考訳) 効率的なエッジビジョンの需要は、画像処理タスクを実行するための確率計算手法の開発への関心を喚起した。 固有確率性を持つメムリスタは、容易に確率を計算に導入し、確率的画像処理計算を可能にする。 本稿では,基本的な画像処理技術であるエッジ検出のための確率計算手法を提案する。 具体的には、メムリスタを論理回路に統合し、メムリスタからの確率性を利用して、確率数符号化と処理のためのコンパクトな確率論理を実現する。 確率数は、よく制御された確率と相関を示し、統計確率で論理演算を行うことができる。 これにより、高レベルのノイズエラーを特徴とするエッジ視覚シナリオに対する軽量な確率的エッジ検出が容易となる。 実演として,確率論理を用いたハードウェア確率的ロバーツクロス演算系を実装し,その例外的エッジ検出性能を顕著に証明し,50%ビットフリップ誤差に耐えながら計算コストを95%削減した。 この結果は、軽量でエラー耐性のあるエッジビジョンハードウェアと、自動運転、バーチャル/拡張現実、医療画像診断、産業自動化などのためのシステムを開発する上で、我々の確率的エッジ検出アプローチの大きな可能性を浮き彫りにした。

The demand for efficient edge vision has spurred the interest in developing stochastic computing approaches for performing image processing tasks. Memristors with inherent stochasticity readily introduce probability into the computations and thus enable stochastic image processing computations. Here, we present a stochastic computing approach for edge detection, a fundamental image processing technique, facilitated with memristor-enabled stochastic logics. Specifically, we integrate the memristors with logic circuits and harness the stochasticity from the memristors to realize compact stochastic logics for stochastic number encoding and processing. The stochastic numbers, exhibiting well-regulated probabilities and correlations, can be processed to perform logic operations with statistical probabilities. This can facilitate lightweight stochastic edge detection for edge visual scenarios characterized with high-level noise errors. As a practical demonstration, we implement a hardware stochastic Roberts cross operator using the stochastic logics, and prove its exceptional edge detection performance, remarkably, with 95% less computational cost while withstanding 50% bit-flip errors. The results underscore the great potential of our stochastic edge detection approach in developing lightweight, error-tolerant edge vision hardware and systems for autonomous driving, virtual/augmented reality, medical imaging diagnosis, industrial automation, and beyond.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# OSCaR:オブジェクト状態のキャプションと状態変化の表現

OSCaR: Object State Captioning and State Change Representation ( http://arxiv.org/abs/2402.17128v3 )

ライセンス: Link先を確認
Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli, Chenliang Xu, (参考訳) 物体の状態の変化を外挿し、理解するインテリジェントなモデルの能力は、AI研究の重要な側面であり、特に現実世界における人間のインタラクションのレンズを通してである。 このタスクは、複雑な視覚環境を記述し、アクティブなオブジェクトを識別し、言語を通して伝達される変化を解釈する。 オブジェクトキャプションと状態変化検出を分離する従来の方法は、動的環境の限られたビューを提供する。 さらに、変化を表すために記号的な単語の小さなセットに頼ることは、言語の表現性を制限している。 本稿では,これらの課題に対処するため,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。 マルチモーダルな大規模言語モデル(MLLM)を評価するための新しいテストベッドを設定する。 我々の実験では、MLLMはある程度のスキルを示しながら、オブジェクトの状態の変化を十分に理解していないことが示されています。 ベンチマークには、初期機能にもかかわらず、これらの変更を効果的に理解するために、精度と一般化能力を著しく改善する必要がある微調整モデルが含まれている。 私たちのコードとデータセットはhttps://github.com/nguyennm1024/OSCaR.orgで公開されています。

The capability of intelligent models to extrapolate and comprehend changes in object states is a crucial yet demanding aspect of AI research, particularly through the lens of human interaction in real-world settings. This task involves describing complex visual environments, identifying active objects, and interpreting their changes as conveyed through language. Traditional methods, which isolate object captioning and state change detection, offer a limited view of dynamic environments. Moreover, relying on a small set of symbolic words to represent changes has restricted the expressiveness of the language. To address these challenges, in this paper, we introduce the Object State Captioning and State Change Representation (OSCaR) dataset and benchmark. OSCaR consists of 14,084 annotated video segments with nearly 1,000 unique objects from various egocentric video collections. It sets a new testbed for evaluating multimodal large language models (MLLMs). Our experiments demonstrate that while MLLMs show some skill, they lack a full understanding of object state changes. The benchmark includes a fine-tuned model that, despite initial capabilities, requires significant improvements in accuracy and generalization ability for effective understanding of these changes. Our code and dataset are available at https://github.com/nguyennm1024/OSCaR.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 単純だが効果的:fNIRSにおける深層学習による異常入力の排除能力の再考

Simple But Effective: Rethinking the Ability of Deep Learning in fNIRS to Exclude Abnormal Input ( http://arxiv.org/abs/2402.18112v2 )

ライセンス: Link先を確認
Zhihao Cao, (参考訳) 機能近赤外分光法(FNIRS)は、脳活動を監視する非侵襲的手法である。 脳をよりよく理解するために、研究者は深層学習を用いてfNIRSデータの分類課題に対処する。 本研究は、fNIRSの現在のネットワークは、トレーニング分布内での予測に極めて正確であるが、分布外である異常データを識別・排除し、信頼性に影響を与えることを示唆している。 本稿では,fNIRS研究にメトリクス学習と教師あり手法を組み込むことにより,アウト・オブ・ディストリビューション・アウトレイラを識別・排除するネットワーク能力を向上させることを提案する。 この方法は単純だが有効である。 実験では,fNIRSにおける各種ネットワークの性能,特にトランスフォーマーベースのネットワークの性能を大幅に向上させ,信頼性の大幅な向上を図った。 実験データをGitHubで公開します。

Functional near-infrared spectroscopy (fNIRS) is a non-invasive technique for monitoring brain activity. To better understand the brain, researchers often use deep learning to address the classification challenges of fNIRS data. Our study shows that while current networks in fNIRS are highly accurate for predictions within their training distribution, they falter at identifying and excluding abnormal data which is out-of-distribution, affecting their reliability. We propose integrating metric learning and supervised methods into fNIRS research to improve networks capability in identifying and excluding out-of-distribution outliers. This method is simple yet effective. In our experiments, it significantly enhances the performance of various networks in fNIRS, particularly transformer-based one, which shows the great improvement in reliability. We will make our experiment data available on GitHub.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 深層強化学習 : 凸最適化アプローチ

Deep Reinforcement Learning: A Convex Optimization Approach ( http://arxiv.org/abs/2402.19212v3 )

ライセンス: Link先を確認
Ather Gattami, (参考訳) 本稿では,連続状態と動作空間を有する非線形システムの強化学習について考察する。 本稿では,各エピソード毎に凸最適化を用いて,最適な$Q$関数の2層ニューラルネットワーク近似を求める。 凸最適化手法は、与えられたサンプル状態と現在のエピソードの動作に関して、各エピソードで計算された重みが最適であることを保証する。 安定な非線形系に対しては、アルゴリズムが収束し、トレーニングされたニューラルネットワークの収束パラメータを最適なニューラルネットワークパラメータに任意に近づけることができることを示す。 特に、正規化パラメータが$\rho$で時間地平線が$T$であれば、トレーニングされたニューラルネットワークのパラメータは$w$に収束し、最適なパラメータ$w^\star$から$w$までの距離は$\mathcal{O}(\rho T^{-1})$に制限される。 すなわち、エピソード数が無限大となると、[\|w-w^\star\| \le C\cdot\frac{\rho}{T} となるような一定の$C$が存在する。 特に,時間的地平線の増加や正規化パラメータの減少に伴い,我々のアルゴリズムは最適なニューラルネットワークパラメータに任意に収束する。

In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use convex optimization to find a two-layer neural network approximation of the optimal $Q$-function. The convex optimization approach guarantees that the weights calculated at each episode are optimal, with respect to the given sampled states and actions of the current episode. For stable nonlinear systems, we show that the algorithm converges and that the converging parameters of the trained neural network can be made arbitrarily close to the optimal neural network parameters. In particular, if the regularization parameter is $\rho$ and the time horizon is $T$, then the parameters of the trained neural network converge to $w$, where the distance between $w$ from the optimal parameters $w^\star$ is bounded by $\mathcal{O}(\rho T^{-1})$. That is, when the number of episodes goes to infinity, there exists a constant $C$ such that \[\|w-w^\star\| \le C\cdot\frac{\rho}{T}.\] In particular, our algorithm converges arbitrarily close to the optimal neural network parameters as the time horizon increases or as the regularization parameter decreases.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 光子損失検出機能を有するハードウェア効率の良いボソニック量子コンピューティング

Hardware-Efficient Bosonic Quantum Computing with Photon-loss Detection Capability ( http://arxiv.org/abs/2403.00291v2 )

ライセンス: Link先を確認
Yuichiro Mori, Yuichiro Matsuzaki, Suguru Endo, Shiro Kawabata, (参考訳) ボソニック量子システムは、無限大のヒルベルト空間を用いてエラー検出/エラー訂正符号をハードウェア効率良く構築する。 しかし、符号化のため、任意のゲートローテーションは通常、マジック状態のテレポーテーションや、アンシラ量子ビットを含む複雑な最適化パルスシーケンスを必要とする。 本稿では,Kerr非線形共振器を用いて任意のX,Z回転と制御位相ゲートを実装可能な,単純でハードウェア効率の良いボソニック02誤り検出符号を提案する。 我々のコードは単一光子損失を検出でき、短期量子コンピューティングにおいて頻繁に使用されるハードウェア効率のアンサッツ量子回路をシミュレートすることにより、重大なエラー抑制を観測する。

Bosonic quantum systems offer the hardware-efficient construction of error detection/error correction codes by using the infinitely large Hilbert space. However, due to the encoding, arbitrary gate rotations usually require magic state teleportation or complicated optimized pulse sequences involving an ancilla qubit. Here, we propose a simple and hardware-efficient bosonic 02 error detection code that allows for the implementation of arbitrary X and Z rotations and a controlled phase gate by using a Kerr nonlinear resonator. Our code can detect a single photon loss, and we observe significant error suppression by simulating the frequently used hardware-efficient ansatz quantum circuit in near-term quantum computing.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 意味認識型置換訓練による大言語モデルの逆曲線の緩和

Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training ( http://arxiv.org/abs/2403.00758v3 )

ライセンス: Link先を確認
Qingyan Guo, Rui Wang, Junliang Guo, Xu Tan, Jiang Bian, Yujiu Yang, (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著なパフォーマンスを達成したが、最近の研究では、因果LLMが「逆の呪い」に苦しむことが示されている。 モデルが「Aの父親はB」を知っているのが典型例であるが、「Bの子はA」と説明できない。 この制限は、モデルが双方向の推論を理解し、適用する能力のギャップを示唆するため、人工知能(AGI)の進歩に挑戦する。 本稿では、まず、逆の呪文の根本原因が、訓練段階と推論段階の異なる単語順序にあること、すなわち、訓練データ内の先行した単語を予測するための因果的言語モデルの貧弱な能力であることを示す。 したがって、トレーニングデータの置換は、先行した単語やトークンを予測できるため、潜在的な解決策と考えられる。 しかし、従来の置換法は完全なフレーズやエンティティを妨害する可能性があり、それによってモデルの理解とトレーニングデータからの学習が困難になる。 この問題に対処するために,SPT (Semantic-Aware Permutation Training) を提案する。これは,学習文をセマンティック単位(エンティティやフレーズなど)に分割し,それらの単位をモデルに入力する前に置換することでこの問題に対処する。 広範囲な実験により,SPTは逆問題のパフォーマンスが前方に近似していることから,逆の呪いを効果的に軽減し,既存の作品の性能を著しく向上させることが示されている。

While large language models (LLMs) have achieved impressive performance across diverse tasks, recent studies showcase that causal LLMs suffer from the "reversal curse". It is a typical example that the model knows "A's father is B", but is unable to reason "B's child is A". This limitation poses a challenge to the advancement of artificial general intelligence (AGI), as it suggests a gap in the models' ability to comprehend and apply bidirectional reasoning. In this paper, we first conduct substantial evaluation and identify that the root cause of the reversal curse lies in the different word order between the training and inference stage, namely, the poor ability of causal language models to predict antecedent words within the training data. Accordingly, permutation on the training data is considered as a potential solution, since this can make the model predict antecedent words or tokens. However, previous permutation methods may disrupt complete phrases or entities, thereby posing challenges for the model to comprehend and learn from training data. To address this issue, we propose Semantic-aware Permutation Training (SPT), which addresses this issue by segmenting the training sentences into semantic units (i.e., entities or phrases) with an assistant language model and permuting these units before feeding into the model. Extensive experiments demonstrate that SPT effectively mitigates the reversal curse since the performance on reversed questions approximates that on the forward ones, and significantly advances the performance of existing works.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# EAGLE: オブジェクト中心の教師なしセマンティックセマンティックセグメンテーションのための固有集約学習

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2403.01482v2 )

ライセンス: Link先を確認
Chanyoung Kim, Woojung Han, Dayun Ju, Seong Jae Hwang, (参考訳) セマンティックセグメンテーションは、本来は広いピクセルレベルの注釈付きデータに依存しており、教師なしの方法論の出現につながっている。 その中では、教師なしセマンティックセグメンテーション(USS)に自己教師付きビジョントランスフォーマーを活用することで、表現力のある深い特徴で着実に進歩している。 しかし、複雑なオブジェクトでイメージをセグメンテーションする際、重要な課題は、パッチレベルの機能に明示的なオブジェクトレベルのセマンティックエンコーディングがないことである。 この技術的な制限は、しばしば多様な構造を持つ複素対象の十分でない部分化につながる。 このギャップに対処するために、教師なしセマンティックセグメンテーションのためのオブジェクト指向表現学習を強調する新しいアプローチであるEAGLEを提案する。 具体的には、深部画像の特徴と色親和性のセマンティック類似性行列から導かれる固有ベイジを通じて、意味的および構造的手がかりを提供するスペクトル技術であるEiCueを紹介する。 さらに,EiCueにオブジェクト中心のコントラスト損失を組み込むことで,画像内および画像間のオブジェクト間整合性でオブジェクトレベルの表現を学習し,セマンティックな精度を向上させる。 COCO-Stuff、Cityscapes、Potsdam-3データセットに関する大規模な実験は、複雑なシーンにわたる正確で一貫したセマンティックセグメンテーションを備えたEAGLEの最先端のUSS結果を示している。

Semantic segmentation has innately relied on extensive pixel-level annotated data, leading to the emergence of unsupervised methodologies. Among them, leveraging self-supervised Vision Transformers for unsupervised semantic segmentation (USS) has been making steady progress with expressive deep features. Yet, for semantically segmenting images with complex objects, a predominant challenge remains: the lack of explicit object-level semantic encoding in patch-level features. This technical limitation often leads to inadequate segmentation of complex objects with diverse structures. To address this gap, we present a novel approach, EAGLE, which emphasizes object-centric representation learning for unsupervised semantic segmentation. Specifically, we introduce EiCue, a spectral technique providing semantic and structural cues through an eigenbasis derived from the semantic similarity matrix of deep image features and color affinity from an image. Further, by incorporating our object-centric contrastive loss with EiCue, we guide our model to learn object-level representations with intra- and inter-image object-feature consistency, thereby enhancing semantic accuracy. Extensive experiments on COCO-Stuff, Cityscapes, and Potsdam-3 datasets demonstrate the state-of-the-art USS results of EAGLE with accurate and consistent semantic segmentation across complex scenes.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# DiffMOT:非線形予測を用いたリアルタイム拡散型多目的トラッカー

DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction ( http://arxiv.org/abs/2403.02075v2 )

ライセンス: Link先を確認
Weiyi Lv, Yuhang Huang, Ning Zhang, Ruei-Sung Lin, Mei Han, Dan Zeng, (参考訳) 多重物体追跡では、物体はしばしば不規則な方向変化を伴う加速度と減速の非線形運動を示す。 カルマンフィルタ動作予測を用いたタッキング・バイ・ディテククション(TBD)トラッカーは,歩行者が支配するシナリオではうまく機能するが,複数の物体が同時に非線形かつ多様な動作を行う場合,複雑な状況では不足する。 複雑な非線形運動に対処するため,DiffMOTと呼ばれるリアルタイム拡散型MOT手法を提案する。 具体的には, 運動予測成分について, D$^2$MP(Decoupled Diffusion-based Motion Predictor)を提案する。 データ全体の様々な動きの分布をモデル化する。 また、個人の過去の動き情報に基づいて、個々の物体の動き条件を予測する。 さらに、より少ないサンプリングステップで拡散過程を最適化する。 MOTトラッカーとして、DiffMOTは22.7FPSでリアルタイムであり、DanceTrackとSportsMOTのデータセットでは、それぞれ62.3\%と76.2\%のHOTA測定値で、最先端のデータセットよりも優れている。 我々の知る限りでは、DiffMOTは初めての拡散確率モデルをMOTに導入し、非線形運動予測に取り組む。

In Multiple Object Tracking, objects often exhibit non-linear motion of acceleration and deceleration, with irregular direction changes. Tacking-by-detection (TBD) trackers with Kalman Filter motion prediction work well in pedestrian-dominant scenarios but fall short in complex situations when multiple objects perform non-linear and diverse motion simultaneously. To tackle the complex non-linear motion, we propose a real-time diffusion-based MOT approach named DiffMOT. Specifically, for the motion predictor component, we propose a novel Decoupled Diffusion-based Motion Predictor (D$^2$MP). It models the entire distribution of various motion presented by the data as a whole. It also predicts an individual object's motion conditioning on an individual's historical motion information. Furthermore, it optimizes the diffusion process with much fewer sampling steps. As a MOT tracker, the DiffMOT is real-time at 22.7FPS, and also outperforms the state-of-the-art on DanceTrack and SportsMOT datasets with $62.3\%$ and $76.2\%$ in HOTA metrics, respectively. To the best of our knowledge, DiffMOT is the first to introduce a diffusion probabilistic model into the MOT to tackle non-linear motion prediction.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# モデリングコラボレータ:LLMツールを用いた最小人力による主観的視覚分類の実現

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use ( http://arxiv.org/abs/2403.02626v2 )

ライセンス: Link先を確認
Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig, (参考訳) コンテンツモデレーションから野生生物保護に至るまで、ニュアンスや主観的な視覚概念を認識するためにモデルを必要とするアプリケーションが増えている。 伝統的に、そのような概念の分類器を開発するには、トレーニングに必要なデータを識別し注釈付けするために、時間、日、あるいは数ヶ月で測定されるかなりの手作業が必要である。 イメージ分類器の迅速なブートストラップを可能にするAgile Modelingテクニックが最近提案されているが、ユーザーは単一の分類器をトレーニングするためにのみ、単調で反復的なデータラベルに30分以上費やす必要がある。 FiskeのCognitive Miser理論に基づいて、人間のラベリングを自然言語の相互作用に置き換え、概念を桁違いに定義するのに要する労力を削減し、2000枚の画像をラベル付けすることから、わずか100枚以上の自然言語の相互作用まで、手作業による作業を軽減する新しいフレームワークを提案する。 我々のフレームワークは、大規模言語モデルと視覚言語モデルの両方の基盤モデルの最近の進歩を活用し、会話や学習データポイントの自動ラベル付けによって概念空間を彫り出す。 最も重要なことは、私たちのフレームワークがクラウドソースのアノテーションを不要にすることです。 さらに、当社のフレームワークは最終的に、コストに敏感なシナリオでデプロイ可能な軽量な分類モデルを生成します。 15の主観的概念と2つのパブリックイメージ分類データセットにまたがって、トレーニングされたモデルは、従来のアジャイルモデリング、ALIGN、CLIP、CuPLといった最先端のゼロショット分類モデル、PaLI-Xのような大規模な視覚的質問応答モデルよりも優れています。

From content moderation to wildlife conservation, the number of applications that require models to recognize nuanced or subjective visual concepts is growing. Traditionally, developing classifiers for such concepts requires substantial manual effort measured in hours, days, or even months to identify and annotate data needed for training. Even with recently proposed Agile Modeling techniques, which enable rapid bootstrapping of image classifiers, users are still required to spend 30 minutes or more of monotonous, repetitive data labeling just to train a single classifier. Drawing on Fiske's Cognitive Miser theory, we propose a new framework that alleviates manual effort by replacing human labeling with natural language interactions, reducing the total effort required to define a concept by an order of magnitude: from labeling 2,000 images to only 100 plus some natural language interactions. Our framework leverages recent advances in foundation models, both large language models and vision-language models, to carve out the concept space through conversation and by automatically labeling training data points. Most importantly, our framework eliminates the need for crowd-sourced annotations. Moreover, our framework ultimately produces lightweight classification models that are deployable in cost-sensitive scenarios. Across 15 subjective concepts and across 2 public image classification datasets, our trained models outperform traditional Agile Modeling as well as state-of-the-art zero-shot classification models like ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 不定因数順序を持つ量子相関に対するツィレルソン境界

Tsirelson bounds for quantum correlations with indefinite causal order ( http://arxiv.org/abs/2403.02749v2 )

ライセンス: Link先を確認
Zixuan Liu, Giulio Chiribella, (参考訳) 量子論は、因果不等式に反する過程(ベルの不等式(ベルの不等式)の類似)と原理的に相容れない。 因果不等式の導入以来、ツイレルソンのベル不等式に対する境界に類似した最大量子違反を決定することは未解決の問題のままである。 ここでは、任意の因果不等式の違反を制限し、任意の局所実験と不定因果順序を持つ任意の量子過程によって達成できる相関の限界を確立するための一般的な方法を提案する。 最大違反は概して代数的最大値よりも小さいことを証明し、最もパラダイム的な例を含む因果不等式のクラスに対して、ツィレルソンのような境界を決定する。 意外なことに、任意の因果不等式の代数的最大化は、情報が実験室内で不確定な時間方向に流れることを可能にする新しいタイプのプロセスによって達成できる。

Quantum theory is in principle compatible with processes that violate causal inequalities, an analogue of Bell inequalities that constrain the correlations observed by a set of parties operating in a definite causal order. Since the introduction of causal inequalities, determining their maximum quantum violation, analogue to Tsirelson's bound for Bell inequalities, has remained an open problem. Here we provide a general method for bounding the violation of arbitrary causal inequalities, establishing limits on the correlations achievable by arbitrary local experiments and by arbitrary quantum processes with indefinite causal order. We prove that the maximum violation is generally smaller than the algebraic maximum, and determine Tsirelson-like bounds for a class of causal inequalities including some of the most paradigmatic examples. Surprisingly, we find that the algebraic maximum of arbitrary causal inequalities can be achieved by a new type of processes that allow for information to flow in an indefinite temporal direction within the parties' laboratories.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 真実の探索:幻覚検出のための干渉的アプローチ

In Search of Truth: An Interrogation Approach to Hallucination Detection ( http://arxiv.org/abs/2403.02889v2 )

ライセンス: Link先を確認
Yakir Yehuda, Itzik Malkiel, Oren Barkan, Jonathan Weill, Royi Ronen, Noam Koenigstein, (参考訳) 大きな言語モデル(LLM)の多くの進歩と前例のない急激な進化にもかかわらず、その影響と日常生活のあらゆる側面への統合は、様々な理由で制限されている。 彼らの普及を妨げる重要な要因の1つは幻覚の発生であり、LLMは現実的に聞こえる答えを発明するが、現実の真実から遠ざかる。 本稿では,大規模言語モデルにおける幻覚を検出する新しい手法を提案する。 Llama-2 を含む複数のデータセットや LLM の広範な評価を通じて,近年の LLM の幻覚レベルについて検討し,その検出方法の有効性を実証した。 特に,Llama-2に対する幻覚の最大62%を特定の実験で観察し,本手法は外部知識に頼らずに87%の平衡精度(B-ACC)を達成する。

Despite the many advances of Large Language Models (LLMs) and their unprecedented rapid evolution, their impact and integration into every facet of our daily lives is limited due to various reasons. One critical factor hindering their widespread adoption is the occurrence of hallucinations, where LLMs invent answers that sound realistic, yet drift away from factual truth. In this paper, we present a novel method for detecting hallucinations in large language models, which tackles a critical issue in the adoption of these models in various real-world scenarios. Through extensive evaluations across multiple datasets and LLMs, including Llama-2, we study the hallucination levels of various recent LLMs and demonstrate the effectiveness of our method to automatically detect them. Notably, we observe up to 62% hallucinations for Llama-2 in a specific experiment, where our method achieves a Balanced Accuracy (B-ACC) of 87%, all without relying on external knowledge.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 確率的硬度制約を用いた対立型MDPの学習

Learning Adversarial MDPs with Stochastic Hard Constraints ( http://arxiv.org/abs/2403.03672v2 )

ライセンス: Link先を確認
Francesco Emanuele Stradi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) 我々は,制約付きマルコフ決定過程(CMDP)におけるオンライン学習問題について,対向的損失と確率的制約を伴う検討を行った。 私たちは2つの異なるシナリオを考えます。 第一に、一般CMDPに対処し、サブリニアな後悔と累積的な正の制約違反を実現するアルゴリズムを設計する。 第2のシナリオでは、制約を厳密に満たし、学習者に知られているポリシーが存在するという軽微な仮定の下で、制約が各エピソードにおいて高い確率で満たされることを保証しながら、サブ線形後悔を実現するアルゴリズムを設計する。 我々の知識を最大限に活用するために、我々の研究は、敵の損失と厳しい制約の両方を含むCMDPを初めて研究する。 実際、以前の研究は、より弱いソフトな制約(ネガティブな制約をキャンセルするポジティブな違反を許容する)に焦点を当てていたり、確率的な損失に制限されたりしていた。 したがって、我々のアルゴリズムは、最先端のアルゴリズムで管理できるものよりもはるかに厳しい要求を受ける一般的な非定常環境に対処することができる。 これにより、自動運転からオンライン広告、レコメンデーターシステムまで、より幅広い現実世界のアプリケーションに採用できるようになる。

We study online learning problems in constrained Markov decision processes (CMDPs) with adversarial losses and stochastic hard constraints. We consider two different scenarios. In the first one, we address general CMDPs, where we design an algorithm that attains sublinear regret and cumulative positive constraints violation. In the second scenario, under the mild assumption that a policy strictly satisfying the constraints exists and is known to the learner, we design an algorithm that achieves sublinear regret while ensuring that the constraints are satisfied at every episode with high probability. To the best of our knowledge, our work is the first to study CMDPs involving both adversarial losses and hard constraints. Indeed, previous works either focus on much weaker soft constraints--allowing for positive violation to cancel out negative ones--or are restricted to stochastic losses. Thus, our algorithms can deal with general non-stationary environments subject to requirements much stricter than those manageable with state-of-the-art algorithms. This enables their adoption in a much wider range of real-world applications, ranging from autonomous driving to online advertising and recommender systems.
翻訳日:2024-03-21 21:28:43 公開日:2024-03-20
# 列列アドレッシングを用いた超伝導量子ビットの多重化制御アーキテクチャ

A multiplexed control architecture for superconducting qubits with row-column addressing ( http://arxiv.org/abs/2403.03717v2 )

ライセンス: Link先を確認
Peng Zhao, (参考訳) 最先端の超伝導量子プロセッサでは、各量子ビットは、室温で発生した制御パルスをミリケルビン温度で動作させる少なくとも1つの制御線によって制御される。 この戦略は数百の量子ビットを制御するためにうまく適用されているが、フォールトトレランス量子コンピューティングに必要な数百万から数十億の量子ビットを制御できるようなスケーラビリティはありそうにない。 主な障害は配線の課題であり、冷却電力、低温系の物理空間、キュービットチップレベルの制御フットプリント領域など、制御ラインの数に制限がある。 ここでは,2種類の共有制御線,行,列の2種類の共有制御線を持つ超伝導量子ビットの多重制御アーキテクチャを導入し,$O(\sqrt{N})$制御線と$O(\sqrt{N})$制御線を並列制御するための効率的なアプローチを提供する。 2種類の共有線路の組み合わせにより、一意の制御パルスが各行列交点のキュービットに供給され、並列なキュービットアドレス化が可能となる。 ここで特に懸念されるのは、従来のゲートスキームとは異なり、シングルビットと2ビットのゲートの両方が制御パルスのペアで実装されていることである。 並列性や制御の制限を考えると、量子コンピューティングシステムへのアーキテクチャの統合は、実行すべき量子回路の特定の特性に対して可能な限り調整されるべきである。 そのため、アーキテクチャは量子誤り訂正回路のような構造化量子回路の実行にスケーラブルである可能性がある。

In state-of-the-art superconducting quantum processors, each qubit is controlled by at least one control line that delivers control pulses generated at room temperature to qubits operating at millikelvin temperatures. While this strategy has been successfully applied to control hundreds of qubits, it is unlikely to be scalable to control thousands of qubits, let alone millions or even billions of qubits needed in fault-tolerance quantum computing. The primary obstacle lies in the wiring challenge, wherein the number of accommodated control lines is limited by factors, such as the cooling power, physical space of the cryogenic system, the control footprint area at the qubit chip level, and so on. Here, we introduce a multiplexed control architecture for superconducting qubits with two types of shared control lines, row and column lines, providing an efficient approach for parallel controlling $N$ qubits with $O(\sqrt{N})$ control lines. With the combination of the two-type shared lines, unique pairs of control pulses are delivered to qubits at each row-column intersection, enabling parallel qubit addressing. Of particular concern here is that, unlike traditional gate schemes, both single- and two-qubit gates are implemented with pairs of control pulses. Considering the inherent parallelism and the control limitations, the integration of the architecture into quantum computing systems should be tailored as much as possible to the specific properties of the quantum circuits to be executed. As such, the architecture could be scalable for executing structured quantum circuits, such as quantum error correction circuits.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# メタバースの相互運用性:デジタル生態系の展望

Interoperability of the Metaverse: A Digital Ecosystem Perspective Review ( http://arxiv.org/abs/2403.05205v2 )

ライセンス: Link先を確認
Liang Yang, Shi-Ting Ni, Yuyang Wang, Ao Yu, Jyh-An Lee, Pan Hui, (参考訳) メタバースは、差し迫ったデジタル革命の先駆者であり、産業やライフスタイルを大きく変える可能性を秘めている。 しかし、2023年、産業と学術の分野に懐疑論が浮上し、興奮が実際の技術進歩を上回るのではないかという懸念が高まった。 インターオペラビリティはメタバースの潜在能力の大きな障壁として認識されており、この議論の中心となっている。 2023年2月のCoinMarketCapのレポートでは、240以上のメタバースイニシアチブが独立して存在し、相互運用性の課題を浮き彫りにした。 その重要な役割について意見が一致しているにもかかわらず、メタバース、重要性、発達範囲への影響を探求する研究のギャップがある。 本研究は,Web of Science (WoS) と Scopus データベースの体系的な文献レビューとコンテンツ分析を通じて,このギャップを埋めるものである。 相互運用性は、さまざまなコンテキストと標準化の欠如によって定義が難しいため、メタバースの中心であり、しばしばデジタルエコシステムと見なされる。 アース・ガッサーのフレームワークは、技術的、データ、人間的、制度的な次元を概説し、相互運用の複雑さに体系的に対処する。 このフレームワークを組み込んで、メタバースの相互運用の概要を包括的に検討する。 本研究は,メタバース相互運用研究の複雑な分野をナビゲートし,学術的発展に寄与する,今後の調査のためのベンチマークを確立することを目的とする。

The Metaverse is at the vanguard of the impending digital revolution, with the potential to significantly transform industries and lifestyles. However, in 2023, skepticism surfaced within industrial and academic spheres, raising concerns that excitement may outpace actual technological progress. Interoperability, recognized as a major barrier to the Metaverse's full potential, is central to this debate. CoinMarketCap's report in February 2023 indicated that of over 240 metaverse initiatives, most existed in isolation, underscoring the interoperability challenge. Despite consensus on its critical role, there is a research gap in exploring the impact on the Metaverse, significance, and developmental extent. Our study bridges this gap via a systematic literature review and content analysis of the Web of Science (WoS) and Scopus databases, yielding 74 publications after a rigorous selection process. Interoperability, difficult to define due to varied contexts and lack of standardization, is central to the Metaverse, often seen as a digital ecosystem. Urs Gasser's framework, outlining technological, data, human, and institutional dimensions, systematically addresses interoperability complexities. Incorporating this framework, we dissect the literature for a comprehensive Metaverse interoperability overview. Our study seeks to establish benchmarks for future inquiries, navigating the complex field of Metaverse interoperability studies and contributing to academic advancement.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# 完全に還元可能な状態の構造について

On the structure of Completely Reducible States ( http://arxiv.org/abs/2403.05449v2 )

ライセンス: Link先を確認
Daniel Cariello, (参考訳) バイパルタイト状態に対する完全可換性は、分離性問題を部分的な転置状態の下で正の正の部分集合に還元し、内部および外部の絡み合い理論のいくつかの定理を証明するのに使われた。 これまでのところ、この性質を持つことが証明されたのは3種類のバイパルタイト状態のみである。 この研究では、この性質を持つ状態を生成するための手順をいくつか提供し、完全に再現可能な状態の名前でこれらの状態を呼び出す。 そのような状態の凸結合は最初の手順であり、完全に還元可能な状態の集合が凸錐であることを示す。 また、この集合の極端光線の完全な記述も提供する。 そして、完全に再現可能な状態のパワー、根および部分的トレースが、同じタイプの状態をもたらすことを示す。 最後に、この性質を保った状態のシャッフルを考える。 このシャッフルにより、この性質を暗示する、現在知られている3つの条件を除いて、完全再現性のある状態を構築することができる。

The complete reducibility property for bipartite states reduced the separability problem to a proper subset of positive under partial transpose states and was used to prove several theorems inside and outside entanglement theory. So far only three types of bipartite states were proved to possess this property. In this work, we provide some procedures to create states with this property, we call these states by the name of completely reducible states. The convex combination of such states is the first procedure, showing that the set of completely reducible states is a convex cone. We also provide a complete description of the extreme rays of this set. Then we show that powers, roots and partial traces of completely reducible states result in states of the same type. Finally, we consider a shuffle of states that preserves this property. This shuffle allows us to construct states with the complete reducibility property avoiding the only three conditions known to date that imply this property.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# MoST: 各種アクションコンテンツ間のモーションスタイル変換器

MoST: Motion Style Transformer between Diverse Action Contents ( http://arxiv.org/abs/2403.06225v2 )

ライセンス: Link先を確認
Boeun Kim, Jungho Kim, Hyung Jin Chang, Jin Young Choi, (参考訳) 既存の動作スタイルの転送手法は同一内容の2つの動作間で有効であるが、異なる内容の動作間での動作スタイルの転送では性能が著しく低下する。 この課題は、動作の内容とスタイルを明確に分離することの欠如にある。 この課題に対処するために,本研究では,コンテンツからスタイルを効果的に切り離し,ソースモーションから転送されたスタイルの可塑性運動を生成する,新しい動作スタイル変換器を提案する。 本研究の目的は,(1)「部分係留型トランスフォーマー」と「スタイルとコンテンツの特徴を別々にエンコードするシームズエンコーダ」を備えた動作スタイルトランスフォーマーの新しいアーキテクチャである。 提案手法は既存の手法より優れており,特に異なる内容のモーションペアにおいて,ヒューリスティックな後処理を必要とせず,極めて高品質であることを示す。 コードはhttps://github.com/Boeun-Kim/MoSTで入手できる。

While existing motion style transfer methods are effective between two motions with identical content, their performance significantly diminishes when transferring style between motions with different contents. This challenge lies in the lack of clear separation between content and style of a motion. To tackle this challenge, we propose a novel motion style transformer that effectively disentangles style from content and generates a plausible motion with transferred style from a source motion. Our distinctive approach to achieving the goal of disentanglement is twofold: (1) a new architecture for motion style transformer with `part-attentive style modulator across body parts' and `Siamese encoders that encode style and content features separately'; (2) style disentanglement loss. Our method outperforms existing methods and demonstrates exceptionally high quality, particularly in motion pairs with different contents, without the need for heuristic post-processing. Codes are available at https://github.com/Boeun-Kim/MoST.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# リモートセンシング検出のためのpoly Kernel Inception Network

Poly Kernel Inception Network for Remote Sensing Detection ( http://arxiv.org/abs/2403.06258v2 )

ライセンス: Link先を確認
Xinhao Cai, Qiuxia Lai, Yuwei Wang, Wenguan Wang, Zeren Sun, Yazhou Yao, (参考訳) リモートセンシング画像(RSI)におけるオブジェクト検出は、オブジェクトスケールの大きな変化や、多様なコンテキストを含む、いくつかの増大する課題に悩まされることが多い。 以前の方法は、大きなカーネルの畳み込みまたは拡張された畳み込みによって、バックボーンの空間受容領域を拡張することで、これらの課題に対処しようとした。 しかしながら、前者は典型的にはかなりのバックグラウンドノイズを発生させ、後者は過度にスパースな特徴表現を発生させるリスクを負う。 本稿では、上記の課題に対処するPoly Kernel Inception Network(PKINet)を紹介する。 PKINetはディレーションなしでマルチスケールの畳み込みカーネルを使用し、様々なスケールのオブジェクトの特徴を抽出し、ローカルコンテキストをキャプチャする。 さらに、コンテキスト・アンカー・アテンション(CAA)モジュールが並列に導入され、長距離のコンテキスト情報をキャプチャする。 これら2つのコンポーネントは、DOTA-v1.0、DOTA-v1.5、HRSC2016、DIOR-Rという4つの挑戦的なリモートセンシング検出ベンチマークでPKINetの性能を向上させるために共同で動作する。

Object detection in remote sensing images (RSIs) often suffers from several increasing challenges, including the large variation in object scales and the diverse-ranging context. Prior methods tried to address these challenges by expanding the spatial receptive field of the backbone, either through large-kernel convolution or dilated convolution. However, the former typically introduces considerable background noise, while the latter risks generating overly sparse feature representations. In this paper, we introduce the Poly Kernel Inception Network (PKINet) to handle the above challenges. PKINet employs multi-scale convolution kernels without dilation to extract object features of varying scales and capture local context. In addition, a Context Anchor Attention (CAA) module is introduced in parallel to capture long-range contextual information. These two components work jointly to advance the performance of PKINet on four challenging remote sensing detection benchmarks, namely DOTA-v1.0, DOTA-v1.5, HRSC2016, and DIOR-R.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# 雑音のパワー:統一型マルチモーダル知識グラフ表現フレームワークを目指して

The Power of Noise: Toward a Unified Multi-modal Knowledge Graph Representation Framework ( http://arxiv.org/abs/2403.06832v2 )

ライセンス: Link先を確認
Zhuo Chen, Yin Fang, Yichi Zhang, Lingbing Guo, Jiaoyan Chen, Huajun Chen, Wen Zhang, (参考訳) マルチモーダル事前学習の進歩は、堅牢なマルチモーダル知識グラフ(MMKG)表現学習フレームワークの必要性を強調している。 このフレームワークは構造化された知識を大規模にマルチモーダルなLarge Language Model(LLM)に統合するために重要であり、知識の誤解やマルチモーダルな幻覚といった問題を緩和することを目的としている。 本研究では,MKGC(Multi-modal Knowledge Graph Completion)とMMEA(Multi-modal Entity Alignment)という,MMKG内にエンティティを正確に埋め込むモデルの能力を評価する。 そこで本研究では,マルチモーダル・エンティティ機能をKGに堅牢に統合するために,モダリティレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。 MKGCとMMEAの両方に特定のトレーニング目標を組み込むことで、MKGCの3つ、MEMAの7つの合計10データセットにわたるSOTA性能を達成し、その堅牢性と汎用性を実証する。 さらに、SNAGはスタンドアロンモデルとして機能するだけでなく、既存のメソッドも強化し、安定したパフォーマンス向上を実現している。 私たちのコードとデータは、https://github.com/zjukg/SNAG.comで公開されています。

The advancement of Multi-modal Pre-training highlights the necessity for a robust Multi-Modal Knowledge Graph (MMKG) representation learning framework. This framework is crucial for integrating structured knowledge into multi-modal Large Language Models (LLMs) at scale, aiming to alleviate issues like knowledge misconceptions and multi-modal hallucinations. In this work, to evaluate models' ability to accurately embed entities within MMKGs, we focus on two widely researched tasks: Multi-modal Knowledge Graph Completion (MKGC) and Multi-modal Entity Alignment (MMEA). Building on this foundation, we propose a novel SNAG method that utilizes a Transformer-based architecture equipped with modality-level noise masking for the robust integration of multi-modal entity features in KGs. By incorporating specific training objectives for both MKGC and MMEA, our approach achieves SOTA performance across a total of ten datasets (three for MKGC and seven for MEMA), demonstrating its robustness and versatility. Besides, SNAG can not only function as a standalone model but also enhance other existing methods, providing stable performance improvements. Our code and data are available at: https://github.com/zjukg/SNAG.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# QUality and Aesthetics Scoring with Advanced Representations

QUASAR: QUality and Aesthetics Scoring with Advanced Representations ( http://arxiv.org/abs/2403.06866v3 )

ライセンス: Link先を確認
Sergey Kastryulin, Denis Prokopenko, Artem Babenko, Dmitry V. Dylov, (参考訳) 本稿では,画像品質と美学評価のためのデータ駆動型非パラメトリック手法を提案する。 データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。 提案手法は,最先端の7つの自己教師型モデルの広範な評価を通じて,様々なデータセットやベンチマークにおいて,優れた性能とロバスト性を示す。 特に、限られたデータであっても人間の評価と高い一致を実現し、データの性質とその前処理パイプラインに高い堅牢性を示す。 私たちのコントリビューションは、視覚情報の知覚に関する洞察を提供しながら、画像評価のための合理化されたソリューションを提供する。

This paper introduces a new data-driven, non-parametric method for image quality and aesthetics assessment, surpassing existing approaches and requiring no prompt engineering or fine-tuning. We eliminate the need for expressive textual embeddings by proposing efficient image anchors in the data. Through extensive evaluations of 7 state-of-the-art self-supervised models, our method demonstrates superior performance and robustness across various datasets and benchmarks. Notably, it achieves high agreement with human assessments even with limited data and shows high robustness to the nature of data and their pre-processing pipeline. Our contributions offer a streamlined solution for assessment of images while providing insights into the perception of visual information.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# ヒューマンファクターから見た情報基盤の安全・最適設計手法の検討

Contemplating Secure and Optimal Design Practices for Information Infrastructure From a Human Factors Perspective ( http://arxiv.org/abs/2403.07018v2 )

ライセンス: Link先を確認
Niroop Sugunaraj, (参考訳) セキュアな情報基盤を設計することは、設計とユーザビリティの関数である。 しかし、システムの開発時にセキュリティが優先されることは滅多にない。 セキュアな設計プラクティスは、最小限の要件とユーザフレンドリさを満たすために、機能(すなわち適切な設計)間でバランスをとるべきである。 ユーザ中心のアプローチ(すなわち、関連する情報のみを包含する)や適切なコンテキスト内の情報を明確かつ魅力的な方法で提示するといったデザインレコメンデーションは、ユーザの反応や経験を改善するために科学的に示されている。

Designing secure information infrastructure is a function of design and usability. However, security is seldom given priority when systems are being developed. Secure design practices should balance between functionality (i.e., proper design) to meet minimum requirements and user-friendliness. Design recommendations such as those with a user-centric approach (i.e., inclusive of only relevant information, user liberty) and presenting information within its proper context in a clear and engaging manner has been scientifically shown to improve user response and experience.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# SemEval-2024 Shared Task 6: SHROOM, Shared-task on Hallucinations and Related Observable Overgeneration misstakes

SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes ( http://arxiv.org/abs/2403.07726v2 )

ライセンス: Link先を確認
Timothee Mickus, Elaine Zosa, Raúl Vázquez, Teemu Vahtola, Jörg Tiedemann, Vincent Segonne, Alessandro Raganato, Marianna Apidianaki, (参考訳) 本稿では, 自然言語生成システム(NLG)から生成した, 流動的で不正確である幻覚の検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。 オーバージェネレーションのケースは、しばしばミッションクリティカルである多くのNLGアプリケーションに危険を及ぼす。 共有タスクは、機械翻訳、パラフレーズ生成、定義モデリングという3つのNLPタスクにまたがる5つのアノテータによってラベル付けされた4000モデル出力のデータセットを新たに構築した。 共有タスクは、42チームでグループ化された58の異なるユーザによって取り組まれ、そのうち27人がシステム記述紙の執筆に選ばれ、合計で、共有タスクの両トラックに300以上の予測セットが提出された。 多くの参加者は少数のモデルに依存しており、しばしば微調整やゼロショットのプロンプト戦略のために合成データに依存しています。 チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。

This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation (NLG) systems that are fluent, yet inaccurate. Such cases of overgeneration put in jeopardy many NLG applications, where correctness is often mission-critical. The shared task was conducted with a newly constructed dataset of 4000 model outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine translation, paraphrase generation and definition modeling. The shared task was tackled by a total of 58 different users grouped in 42 teams, out of which 27 elected to write a system description paper; collectively, they submitted over 300 prediction sets on both tracks of the shared task. We observe a number of key trends in how this approach was tackled -- many participants rely on a handful of model, and often rely either on synthetic data for fine-tuning or zero-shot prompting strategies. While a majority of the teams did outperform our proposed baseline system, the performances of top-scoring systems are still consistent with a random handling of the more challenging items.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# 一般化針問題におけるランダム局所探索の実行

The Runtime of Random Local Search on the Generalized Needle Problem ( http://arxiv.org/abs/2403.08153v2 )

ライセンス: Link先を確認
Benjamin Doerr, Andrew James Kelley, (参考訳) 最近の研究で、C. Doerr と Krejca (2023年) は、一般化されたニードル関数上のランダム化された局所探索ヒューリスティックの予想ランタイム上の上限を証明した。 これらの上限に基づいて、それらは実行時における針半径$k$の劇的な影響を、完全に厳密でない方法で推論する。 この記事では、実行時に$k$のパラメータの影響を決定するのに必要な、不足している低いバウンダリを追加します。 この目的のために、期待されるランタイムの正確な記述を導き、C. Doerr と Krejca によって与えられる上限を大幅に改善する。 また,予測ランタイムの漸近的推定についても述べる。

In their recent work, C. Doerr and Krejca (Transactions on Evolutionary Computation, 2023) proved upper bounds on the expected runtime of the randomized local search heuristic on generalized Needle functions. Based on these upper bounds, they deduce in a not fully rigorous manner a drastic influence of the needle radius $k$ on the runtime. In this short article, we add the missing lower bound necessary to determine the influence of parameter $k$ on the runtime. To this aim, we derive an exact description of the expected runtime, which also significantly improves the upper bound given by C. Doerr and Krejca. We also describe asymptotic estimates of the expected runtime.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# 拡散モデルにおける時間間隔の端点における特異点の対応

Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models ( http://arxiv.org/abs/2403.08381v2 )

ライセンス: Link先を確認
Pengze Zhang, Hubery Yin, Chen Li, Xiaohua Xie, (参考訳) ほとんどの拡散モデルは、逆過程がガウス分布に従属すると仮定する。 しかし、この近似は、特に t=0 と t=1 の特異点において厳密に検証されていない。 このような特異点に不適切な対処は、アプリケーションにおける平均的な明るさ問題を引き起こし、極度の明るさまたは暗さで画像の生成を制限する。 主に、理論的および実践的な観点から特異点に取り組むことに重点を置いています。 まず、逆過程近似の誤差境界を確立し、特異時間ステップでそのガウス特性を示す。 この理論的な洞察に基づき、t = 1 における特異点が条件的に除去可能であるのに対して、t=0 における特異点が固有の性質であることを確認する。 そこで本研究では,初期特異時間ステップサンプリングに対処するプラグイン・アンド・プレイ方式SingDiffusionを提案する。これは,トレーニングを余分に行わずに,広範囲の拡散モデルの平均輝度問題を効果的に解決するだけでなく,FIDスコアの顕著な向上を実現するための生成能力も向上する。

Most diffusion models assume that the reverse process adheres to a Gaussian distribution. However, this approximation has not been rigorously validated, especially at singularities, where t=0 and t=1. Improperly dealing with such singularities leads to an average brightness issue in applications, and limits the generation of images with extreme brightness or darkness. We primarily focus on tackling singularities from both theoretical and practical perspectives. Initially, we establish the error bounds for the reverse process approximation, and showcase its Gaussian characteristics at singularity time steps. Based on this theoretical insight, we confirm the singularity at t=1 is conditionally removable while it at t=0 is an inherent property. Upon these significant conclusions, we propose a novel plug-and-play method SingDiffusion to address the initial singular time step sampling, which not only effectively resolves the average brightness issue for a wide range of diffusion models without extra training efforts, but also enhances their generation capability in achieving notable lower FID scores.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# ステレオ画像圧縮のためのコンテンツ対応マスド画像モデリング変換器

Content-aware Masked Image Modeling Transformer for Stereo Image Compression ( http://arxiv.org/abs/2403.08505v2 )

ライセンス: Link先を確認
Xinjie Zhang, Shenyuan Gao, Zhening Liu, Jiawei Shao, Xingtong Ge, Dailan He, Tongda Xu, Yan Wang, Jun Zhang, (参考訳) 既存の学習ベースステレオ画像コーデックは、単一の画像コーデックから派生した単純なエントロピーモデルを用いて、遅延表現を符号化する。 しかし,これらのエントロピーモデルでは,ステレオ画像に固有の空間差特性を効果的にとらえることに苦慮し,最適速度歪みが生じる。 本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。 CAMSICは、各画像を遅延表現に独立に変換し、新しいコンテンツ対応マスク画像モデリング(MIM)技術を導入し、空間的および不均一な依存関係を捕捉する強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。 我々のコンテンツ対応MIMは、事前情報と推定トークンとの双方向の効率的な対話を容易にするため、トランスフォーマーデコーダの追加は当然不要である。 実験により,我々のステレオ画像コーデックは,2つのステレオ画像データセットであるCityscapesとInStereo2Kの高速符号化と復号速度で,最先端の速度歪み性能を実現することが示された。

Existing learning-based stereo image codec adopt sophisticated transformation with simple entropy models derived from single image codecs to encode latent representations. However, those entropy models struggle to effectively capture the spatial-disparity characteristics inherent in stereo images, which leads to suboptimal rate-distortion results. In this paper, we propose a stereo image compression framework, named CAMSIC. CAMSIC independently transforms each image to latent representation and employs a powerful decoder-free Transformer entropy model to capture both spatial and disparity dependencies, by introducing a novel content-aware masked image modeling (MIM) technique. Our content-aware MIM facilitates efficient bidirectional interaction between prior information and estimated tokens, which naturally obviates the need for an extra Transformer decoder. Experiments show that our stereo image codec achieves state-of-the-art rate-distortion performance on two stereo image datasets Cityscapes and InStereo2K with fast encoding and decoding speed.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# シームズネットワークを用いたモーフィング検出における合成画像の影響

Impact of Synthetic Images on Morphing Attack Detection Using a Siamese Network ( http://arxiv.org/abs/2403.09380v2 )

ライセンス: Link先を確認
Juan Tapia, Christoph Busch, (参考訳) 本稿では,セミハードロス機能を有するシームズネットワークを用いて,合成画像がモーフィング攻撃検出(MAD)に与える影響を評価した。 クロスデータセットを用いて合成画像の一般化能力を測定するために, 内部および交差データセットの評価を行った。 従来のMobileNetV2、MobileNetV3、EfficientNetB0の3種類のネットワークが特徴抽出器として使用された。 この結果から, FERET, FRGCv2, FRLL からEfficientNetB0 をトレーニングしたMAD は SOTA と比較して誤差が低いことがわかった。 逆に、システムが合成画像でのみ訓練された際には、パフォーマンスが悪化した。 混合アプローチ(合成+デジタル)データベースは、MADを改善し、エラー率を低減するのに役立つかもしれない。 この事実は、私たちはまだトレーニングプロセスに合成画像を含める努力を継続する必要があることを示しています。

This paper evaluated the impact of synthetic images on Morphing Attack Detection (MAD) using a Siamese network with a semi-hard-loss function. Intra and cross-dataset evaluations were performed to measure synthetic image generalisation capabilities using a cross-dataset for evaluation. Three different pre-trained networks were used as feature extractors from traditional MobileNetV2, MobileNetV3 and EfficientNetB0. Our results show that MAD trained on EfficientNetB0 from FERET, FRGCv2, and FRLL can reach a lower error rate in comparison with SOTA. Conversely, worse performances were reached when the system was trained only with synthetic images. A mixed approach (synthetic + digital) database may help to improve MAD and reduce the error rate. This fact shows that we still need to keep going with our efforts to include synthetic images in the training process.
翻訳日:2024-03-21 21:18:47 公開日:2024-03-20
# 非最大エンタングル状態によるワイヤ切断

Cutting a Wire with Non-Maximally Entangled States ( http://arxiv.org/abs/2403.09690v2 )

ライセンス: Link先を確認
Marvin Bechtold, Johanna Barzen, Frank Leymann, Alexander Mandl, (参考訳) 分散量子コンピューティングは、複数の量子デバイスの計算能力を組み合わせることで、個々のデバイスの限界を克服する。 回路切断技術は、古典的な通信による量子計算の分配を可能にする。 これらの技術は量子回路をより小さなサブ回路に分割することを含み、それぞれがより少ない量子ビットを含む。 元の回路の結果は、これらのサブ回路を別々のデバイス上で実行し、その結果を組み合わせることで再現できる。 しかし、回路切断による固定結果精度を達成するために必要な回路実行回数は、カット数とともに指数関数的に増加し、かなりのコストがかかる。 対照的に、量子テレポーテーションは、回路の実行を指数的に増加させることなく、量子計算の分配を可能にする。 それでも、各テレポーテーションは量子状態を伝えるために、最大エンタングルド量子ビットの事前共有の対を必要とし、この目的のためには最大エンタングルド量子ビットは使用できない。 そこで本研究では, 回路切断の特定の形態であるワイヤ切断において, 非最大エンタングル量子ビット対を利用することにより, コストの低減を図る。 この切断手順のコストは、事前共有された量子ビット対における絡み合いの度合いの増大とともに減少する。 この文脈で最適なサンプリングオーバーヘッドを導出し、この最適なサンプリングオーバーヘッドを実現するために、純粋な非最大絡み合った状態を用いるワイヤ切断手法を提案する。 したがって、既存のワイヤ切断と量子テレポーテーションの連続性を提供する。

Distributed quantum computing supports combining the computational power of multiple quantum devices to overcome the limitations of individual devices. Circuit cutting techniques enable the distribution of quantum computations via classical communication. These techniques involve partitioning a quantum circuit into smaller subcircuits, each containing fewer qubits. The original circuit's outcome can be replicated by executing these subcircuits on separate devices and combining their results. However, the number of circuit executions required to achieve a fixed result accuracy with circuit cutting grows exponentially with the number of cuts, posing significant costs. In contrast, quantum teleportation allows the distribution of quantum computations without an exponential increase in circuit executions. Nevertheless, each teleportation requires a pre-shared pair of maximally entangled qubits for transmitting a quantum state, and non-maximally entangled qubits cannot be used for this purpose. Addressing this, our work explores utilizing non-maximally entangled qubit pairs in wire cutting, a specific form of circuit cutting, to mitigate the associated costs. The cost of this cutting procedure reduces with the increasing degree of entanglement in the pre-shared qubit pairs. We derive the optimal sampling overhead in this context and present a wire cutting technique employing pure non-maximally entangled states that achieves this optimal sampling overhead. Hence, this offers a continuum between existing wire cutting and quantum teleportation.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-20
# テキスト・画像拡散モデルによる著作権保護のためのデータセットとベンチマーク

A Dataset and Benchmark for Copyright Protection from Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.12052v2 )

ライセンス: Link先を確認
Rui Ma, Qiang Zhou, Bangjun Xiao, Yizhu Jin, Daquan Zhou, Xiuyu Li, Aishani Singh, Yi Qu, Kurt Keutzer, Xiaodong Xie, Jingtong Hu, Zhen Dong, Shanghang Zhang, (参考訳) 著作権は、クリエイティブ作品の再生、配布、利益の独占的な権限をクリエイターに与える法的権利である。 しかし、近年のテキスト・画像生成技術の進歩は、著作権保護に重大な課題をもたらしており、これらの手法は、未許可コンテンツ、芸術作品、肖像画の学習を容易にし、その後、未管理コンテンツの生成・普及に活用されている。 特に,テキスト・ツー・イメージ・ジェネレーションの新たなモデルである安定拡散の利用は,不正な著作権侵害や配布のリスクを増大させる。 現在、安定した拡散によって生成されたコンテンツと著作権保護下のコンテンツとの潜在的な相関を評価する体系的な研究が欠如している。 そのような研究を行うにはいくつかの課題が伴う。 一 テキスト・ツー・イメージ・モデルにおける著作権侵害に関する本質的曖昧性 二 包括的な大規模データセットがないこと。 三 著作権侵害を定義するための基準基準の欠如 この作業は、著作権保護に関する最初の大規模標準化データセットとベンチマークを提供する。 具体的には、CLIP、ChatGPT、拡散モデルを調整するパイプラインを提案し、アンカー画像、対応するプロンプト、およびテキスト・ツー・イメージ・モデルによって生成された画像を含むデータセットを生成し、著作権侵害の可能性を反映する。 さらに,著作権保護手法の有効性を評価するための評価指標について検討する。 提案されているデータセット、ベンチマークライブラリ、評価メトリクスは、将来の研究とアプリケーションを容易にするためにオープンソース化される予定である。 Webサイトとデータセットは、Webサイトデータセットにアクセスすることができる。

Copyright is a legal right that grants creators the exclusive authority to reproduce, distribute, and profit from their creative works. However, the recent advancements in text-to-image generation techniques have posed significant challenges to copyright protection, as these methods have facilitated the learning of unauthorized content, artistic creations, and portraits, which are subsequently utilized to generate and disseminate uncontrolled content. Especially, the use of stable diffusion, an emerging model for text-to-image generation, poses an increased risk of unauthorized copyright infringement and distribution. Currently, there is a lack of systematic studies evaluating the potential correlation between content generated by stable diffusion and those under copyright protection. Conducting such studies faces several challenges, including i) the intrinsic ambiguity related to copyright infringement in text-to-image models, ii) the absence of a comprehensive large-scale dataset, and iii) the lack of standardized metrics for defining copyright infringement. This work provides the first large-scale standardized dataset and benchmark on copyright protection. Specifically, we propose a pipeline to coordinate CLIP, ChatGPT, and diffusion models to generate a dataset that contains anchor images, corresponding prompts, and images generated by text-to-image models, reflecting the potential abuses of copyright. Furthermore, we explore a suite of evaluation metrics to judge the effectiveness of copyright protection methods. The proposed dataset, benchmark library, and evaluation metrics will be open-sourced to facilitate future research and application. The website and dataset can be accessed website dataset.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-20
# 表現的ハームからサービス品質ハームへ:Llama 2の安全保護を事例として

From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards ( http://arxiv.org/abs/2403.13213v1 )

ライセンス: Link先を確認
Khaoula Chehbouni, Megha Roshan, Emmanuel Ma, Futian Andrew Wei, Afaf Taïk, Jackie CK Cheung, Golnoosh Farnadi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域で広く採用されている。 しかし、これらの進歩は安全性のリスクを増し、既に過疎化されている人口に対する有害な影響を懸念している。 安全指向の微調整の監督や、人間のフィードバックからの安全な強化学習の活用など、安全性の保護を開発するための緩和努力が増加しているが、これらのモデルにおける安全性と微妙なバイアスに関する複数の懸念が残っている。 さらに、安全のために最適化されたモデルは、予防措置として特定の要求に対する応答を控える傾向など、過大な安全行動を示すことが多いことを以前の研究は示している。 このように、これらのモデルの有用性と安全性の明確なトレードオフが文献に記録されている。 本稿では,すでに緩和されているバイアスに対するモデル評価による安全対策の有効性について検討する。 Llama 2 の例を用いて、LLM の安全応答が有害な仮定をエンコードする方法を説明している。 そのために、無害なプロンプトの集合を作り、それをLlamaモデルの評価に用いる。 利用者に対するLSMs応答の新たな分類法により、一部の人口集団では、安全と健康のトレードオフがより顕著になり、人口過疎化によるサービス品質の害につながることが観察された。

Recent progress in large language models (LLMs) has led to their widespread adoption in various domains. However, these advancements have also introduced additional safety risks and raised concerns regarding their detrimental impact on already marginalized populations. Despite growing mitigation efforts to develop safety safeguards, such as supervised safety-oriented fine-tuning and leveraging safe reinforcement learning from human feedback, multiple concerns regarding the safety and ingrained biases in these models remain. Furthermore, previous work has demonstrated that models optimized for safety often display exaggerated safety behaviors, such as a tendency to refrain from responding to certain requests as a precautionary measure. As such, a clear trade-off between the helpfulness and safety of these models has been documented in the literature. In this paper, we further investigate the effectiveness of safety measures by evaluating models on already mitigated biases. Using the case of Llama 2 as an example, we illustrate how LLMs' safety responses can still encode harmful assumptions. To do so, we create a set of non-toxic prompts, which we then use to evaluate Llama models. Through our new taxonomy of LLMs responses to users, we observe that the safety/helpfulness trade-offs are more pronounced for certain demographic groups which can lead to quality-of-service harms for marginalized populations.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# Nellie: 2D/3DLive-cell microscopyにおけるオルガネラ分画、追跡、階層的特徴抽出の自動化

Nellie: Automated organelle segmentation, tracking, and hierarchical feature extraction in 2D/3D live-cell microscopy ( http://arxiv.org/abs/2403.13214v1 )

ライセンス: Link先を確認
Austin E. Y. T. Lefebvre, Gabriel Sturm, Ting-Yu Lin, Emily Stoops, Magdalena Preciado Lopez, Benjamin Kaufmann-Malaga, Kayley Hake, (参考訳) 動的オルガネラの分析は、生物学的プロセスを理解する上では重要な課題である。 我々は,様々な細胞内構造のセグメンテーション,追跡,特徴抽出のための,非バイアス自動パイプラインNellieを紹介した。 Nellieはイメージメタデータに適応し、ユーザの入力を排除します。 Nellieの前処理パイプラインは、複数の細胞内スケールの構造コントラストを高め、サブオーガナイザー領域の堅牢な階層的セグメンテーションを可能にする。 内部モーションキャプチャマーカーは、半径適応パターンマッチングスキームを介して生成・追跡され、サブボクセルフロー補間のためのガイドとして使用される。 Nellie氏は、深くカスタマイズ可能な分析のために、複数の階層レベルで多数の特徴を抽出する。 Nellieは、コードを使わない操作と視覚化を可能にするNapariベースのGUIを特徴としている。 特徴に基づく分類とミトコンドリアのマルチメシュグラフ上の教師なしグラフオートエンコーダを訓練し, ヨーノマイシン処理後の潜伏空間埋め込み変化を定量化する。

The analysis of dynamic organelles remains a formidable challenge, though key to understanding biological processes. We introduce Nellie, an automated and unbiased pipeline for segmentation, tracking, and feature extraction of diverse intracellular structures. Nellie adapts to image metadata, eliminating user input. Nellie's preprocessing pipeline enhances structural contrast on multiple intracellular scales allowing for robust hierarchical segmentation of sub-organellar regions. Internal motion capture markers are generated and tracked via a radius-adaptive pattern matching scheme, and used as guides for sub-voxel flow interpolation. Nellie extracts a plethora of features at multiple hierarchical levels for deep and customizable analysis. Nellie features a Napari-based GUI that allows for code-free operation and visualization, while its modular open-source codebase invites customization by experienced users. We demonstrate Nellie's wide variety of use cases with two examples: unmixing multiple organelles from a single channel using feature-based classification and training an unsupervised graph autoencoder on mitochondrial multi-mesh graphs to quantify latent space embedding changes following ionomycin treatment.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# 小世界のネットワークとは何か? ネットワークの堅牢な予測と分類に機械学習を活用する

What makes a small-world network? Leveraging machine learning for the robust prediction and classification of networks ( http://arxiv.org/abs/2403.13215v1 )

ライセンス: Link先を確認
Raima Carol Appaw, Nicholas Fountain-Jones, Michael A. Charleston, (参考訳) 経験的データに基づく現実的なネットワークをシミュレートする能力は、疫学からコンピュータ科学まで、科学分野において重要な課題である。 しばしばシミュレーション手法は、 Erd\"os-R'enyi や small-world のような適切なネットワーク生成モデルを選択することを含む。 しかし、特定の生成モデルが与えられたネットワーク構造や組織を捉えるのに適したかどうかを定量化するツールはほとんどない。 我々は、解釈可能な機械学習の進歩を利用して、主特徴と相互作用の両方を用いて、様々なネットワーク属性に基づいて、生成モデルによってシミュレーションされたネットワークを分類する。 本研究は, 生成モデルの違い, 複雑なネットワーク構造の理解, 実世界のネットワーク形成におけるネットワークの特徴とその相互作用の重要性を明らかにするものである。

The ability to simulate realistic networks based on empirical data is an important task across scientific disciplines, from epidemiology to computer science. Often simulation approaches involve selecting a suitable network generative model such as Erd\"os-R\'enyi or small-world. However, few tools are available to quantify if a particular generative model is suitable for capturing a given network structure or organization. We utilize advances in interpretable machine learning to classify simulated networks by our generative models based on various network attributes, using both primary features and their interactions. Our study underscores the significance of specific network features and their interactions in distinguishing generative models, comprehending complex network structures, and forming real-world networks
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# ベクトルシンボリックアーキテクチャにおける自己注意に基づく意味分解

Self-Attention Based Semantic Decomposition in Vector Symbolic Architectures ( http://arxiv.org/abs/2403.13218v1 )

ライセンス: Link先を確認
Calvin Yeung, Prathyush Poduval, Mohsen Imani, (参考訳) ベクトル記号アーキテクチャ(VSAs)は、意思決定プロセスの推論と説明機能を備えた解釈可能な機械学習アルゴリズムを実現するための新しいフレームワークとして登場した。 基本的な考え方は、高次元のランダムベクトルを通して離散情報を表現することである。 複雑なデータ構造は、データを関連付ける要素単位のベクトル乗算を含む「バインディング」操作のようなベクトル上の操作で構築することができる。 関連する要素を分解する逆タスクは、指数的に大きな探索空間を持つ組合せ的に難しいタスクである。 この探索を行うための主要なアルゴリズムは、ホップフィールドネットワークベースのメモリサーチ操作にインスパイアされた共振器ネットワークである。 本研究では、反復探索問題における自己アテンションに基づく更新規則に基づく共振器ネットワークの新たな変種を導入する。 この更新規則は,log-sum-expエネルギ関数とノルムバウンド状態を持つホップフィールドネットワークに基づいて,コンバージェンスの性能と速度を大幅に向上させることを示す。 その結果,認識に基づくパターン認識,シーン分解,オブジェクト推論など,多くのタスクに応用することが可能となった。 我々はアルゴリズムを徹底的な評価とベースラインとの比較で検証する。

Vector Symbolic Architectures (VSAs) have emerged as a novel framework for enabling interpretable machine learning algorithms equipped with the ability to reason and explain their decision processes. The basic idea is to represent discrete information through high dimensional random vectors. Complex data structures can be built up with operations over vectors such as the "binding" operation involving element-wise vector multiplication, which associates data together. The reverse task of decomposing the associated elements is a combinatorially hard task, with an exponentially large search space. The main algorithm for performing this search is the resonator network, inspired by Hopfield network-based memory search operations. In this work, we introduce a new variant of the resonator network, based on self-attention based update rules in the iterative search problem. This update rule, based on the Hopfield network with log-sum-exp energy function and norm-bounded states, is shown to substantially improve the performance and rate of convergence. As a result, our algorithm enables a larger capacity for associative memory, enabling applications in many tasks like perception based pattern recognition, scene decomposition, and object reasoning. We substantiate our algorithm with a thorough evaluation and comparisons to baselines.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# データ駆動型ブラックボックス最適化のための拡散モデル

Diffusion Model for Data-Driven Black-Box Optimization ( http://arxiv.org/abs/2403.13219v1 )

ライセンス: Link先を確認
Zihao Li, Hui Yuan, Kaixuan Huang, Chengzhuo Ni, Yinyu Ye, Minshuo Chen, Mengdi Wang, (参考訳) ジェネレーティブAIは、人工知能を再定義し、革新的なコンテンツの作成と、ビジネスプラクティスを新たな効率性と創造性の時代へと導くカスタマイズされたソリューションを可能にした。 本稿では、拡散モデル、強力な生成AI技術に着目し、複雑な構造化変数に対するブラックボックス最適化の可能性について検討する。 巨大なラベルのないデータ(設計変数を表す)と小さなラベル付きデータセットに基づいて、高次元空間で構造化された設計を最適化したいという現実的なシナリオを考える。 我々は2つの実用的なラベルについて研究する。 1)実価値報酬関数の雑音測定と評価 2) 対比較に基づく人間の嗜好 目標は、ほぼ最適である新しいデザインを作成し、設計された潜在構造を保存することである。 提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,複雑な分布をモデル化するために拡散モデルのパワーを利用する。 特に、予測された報酬に基づいて最適に近い解をサンプリングするために、混合データに基づいて訓練される報酬指向条件拡散モデルを提案する。 理論的には、生成した設計に対する準最適誤差境界を確立する。 準最適性ギャップは、ブラックボックス最適化のための報酬指向拡散モデルの効率を実証し、政治外の盗賊の最適保証とほぼ一致した。 さらに,データに低次元の潜在部分空間構造が認められると,その潜在構造を密接に尊重する高忠実度設計を効率的に生成する。 意思決定タスクとコンテンツ作成タスクにおけるモデルを検証する実証実験を行った。

Generative AI has redefined artificial intelligence, enabling the creation of innovative content and customized solutions that drive business practices into a new era of efficiency and creativity. In this paper, we focus on diffusion models, a powerful generative AI technology, and investigate their potential for black-box optimization over complex structured variables. Consider the practical scenario where one wants to optimize some structured design in a high-dimensional space, based on massive unlabeled data (representing design variables) and a small labeled dataset. We study two practical types of labels: 1) noisy measurements of a real-valued reward function and 2) human preference based on pairwise comparisons. The goal is to generate new designs that are near-optimal and preserve the designed latent structures. Our proposed method reformulates the design optimization problem into a conditional sampling problem, which allows us to leverage the power of diffusion models for modeling complex distributions. In particular, we propose a reward-directed conditional diffusion model, to be trained on the mixed data, for sampling a near-optimal solution conditioned on high predicted rewards. Theoretically, we establish sub-optimality error bounds for the generated designs. The sub-optimality gap nearly matches the optimal guarantee in off-policy bandits, demonstrating the efficiency of reward-directed diffusion models for black-box optimization. Moreover, when the data admits a low-dimensional latent subspace structure, our model efficiently generates high-fidelity designs that closely respect the latent structure. We provide empirical experiments validating our model in decision-making and content-creation tasks.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# アジャイル環境でのソフトウェア品質を高める: 単体テストにおけるテスト専門家の役割

Elevating Software Quality in Agile Environments: The Role of Testing Professionals in Unit Testing ( http://arxiv.org/abs/2403.13220v1 )

ライセンス: Link先を確認
Lucas Neves, Oscar Campos, Robson Santos, Italo Santos, Cleyton Magalhaes, Ronnie de Souza Santos, (参考訳) テストはソフトウェア開発プロセスにおいて不可欠な品質活動です。 通常、ソフトウェアシステムはいくつかのレベルでテストされます。まず、受け入れテストまでコードの最小部分をチェックする単体テストから始まり、エンドユーザーによる検証に焦点を当てます。 歴史的に、ユニットテストはコードの正確性を保証する責任を負う開発者の領域でした。 しかしながら、アジャイル環境では、テスト専門家は開発サイクル毎に様々な品質改善イニシアチブで重要な役割を果たす。 本稿では, 調査に基づく研究手法を用いて, 産業環境での単体テストへのテストエンジニアの参加について検討する。 我々の研究結果は,テスト専門家が開発者と協力して徹底的なテストケースを構築し,相互学習と協力の文化を育み,最終的にソフトウェアプロジェクトの全体的な品質向上に寄与することで,単体テストを強化する可能性を示唆している。

Testing is an essential quality activity in the software development process. Usually, a software system is tested on several levels, starting with unit testing that checks the smallest parts of the code until acceptance testing, which is focused on the validations with the end-user. Historically, unit testing has been the domain of developers, who are responsible for ensuring the accuracy of their code. However, in agile environments, testing professionals play an integral role in various quality improvement initiatives throughout each development cycle. This paper explores the participation of test engineers in unit testing within an industrial context, employing a survey-based research methodology. Our findings demonstrate that testing professionals have the potential to strengthen unit testing by collaborating with developers to craft thorough test cases and fostering a culture of mutual learning and cooperation, ultimately contributing to increasing the overall quality of software projects.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# エネルギーと速度境界の情報理論による導出

Information-theoretic derivation of energy and speed bounds ( http://arxiv.org/abs/2403.13223v1 )

ライセンス: Link先を確認
Lorenzo Giannelli, Giulio Chiribella, (参考訳) 情報理論的な洞察は、量子物理学の多くの領域で実りがあることが証明されている。 しかし、量子系の基本的なダイナミクスは、ユニタリ進化や自己随伴可観測性のようなヒルベルト空間構造に頼ることなく、純粋に情報理論の原理から導出できるのだろうか? ここでは、力学が情報非平衡状態から生じるモデル、すなわち、同一に準備されたシステムの分野に関連する参照状態から系の状態が逸脱するモデルを提案する。 このアイデアと3つの基本的な情報理論の原理を組み合わせることで、量子論におけるエネルギーの主な特徴を捉えるエネルギーの概念が導かれる:それは観測可能であり、下から有界であり、時間進化の下で不変であり、ダイナミクスの生成元と1対1の対応であり、状態変化の速度に定量的に関係している。 この結果から,マンデルスタム-タム境界を量子進化の速度で再現し,動的概念と情報理論の概念の橋渡しを行うことができた。

Information-theoretic insights have proven fruitful in many areas of quantum physics. But can the fundamental dynamics of quantum systems be derived from purely information-theoretic principles, without resorting to Hilbert space structures such as unitary evolution and self-adjoint observables? Here we provide a model where the dynamics originates from a condition of informational non-equilibrium, the deviation of the system's state from a reference state associated to a field of identically prepared systems. Combining this idea with three basic information-theoretic principles, we derive a notion of energy that captures the main features of energy in quantum theory: it is observable, bounded from below, invariant under time-evolution, in one-to-one correspondence with the generator of the dynamics, and quantitatively related to the speed of state changes. Our results provide an information-theoretic reconstruction of the Mandelstam-Tamm bound on the speed of quantum evolutions, establishing a bridge between dynamical and information-theoretic notions.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# テクニカルレポート:BetterMixtureの競合ソリューション

Technical Report: Competition Solution For BetterMixture ( http://arxiv.org/abs/2403.13233v1 )

ライセンス: Link先を確認
Shuaijiang Zhao, Xiaoquan Fang, (参考訳) 大規模モデルの普及期には、限られた計算資源の制約の中で、大規模で複雑なデータからデータセットを選択し、最適化するという課題が最重要となっている。 本稿では、大規模言語モデルの微調整データ混合に焦点を当てたBetterMixtureチャレンジのソリューションについて詳述する。 3位を確保した当社のアプローチには,データの重複,低レベルかつ高品質なフィルタリング,多様性の選択などが取り入れられている。 私たちのソリューションの基盤は、Data-Juicerの拡張であるKe-Data-Juicerです。

In the era of flourishing large-scale models, the challenge of selecting and optimizing datasets from the vast and complex sea of data, to enhance the performance of large language models within the constraints of limited computational resources, has become paramount. This paper details our solution for the BetterMixture challenge, which focuses on the fine-tuning data mixing for large language models. Our approach, which secured third place, incorporates data deduplication, low-level and high-level quality filtering, and diversity selection. The foundation of our solution is Ke-Data-Juicer, an extension of Data-Juicer, demonstrating its robust capabilities in handling and optimizing data for large language models.
翻訳日:2024-03-21 18:27:31 公開日:2024-03-20
# 配電網における電気自動車充電ステーション管理のための安全意識強化学習

Safety-Aware Reinforcement Learning for Electric Vehicle Charging Station Management in Distribution Network ( http://arxiv.org/abs/2403.13236v1 )

ライセンス: Link先を確認
Jiarong Fan, Ariel Liebman, Hao Wang, (参考訳) 電気自動車(EV)のグリッドへの統合の増大は、調整なしでの配電系統の運用に重大なリスクをもたらす可能性がある。 配電ネットワーク内でのEVの効果的な協調の必要性に応じて,システム制約の満足度を確保しつつ,EV充電ステーションの管理を目的とした安全対応強化学習(RL)アルゴリズムを提案する。 既存の手法とは異なり,提案アルゴリズムは制約違反に対する明示的な罰則に頼らず,ペナルティ係数チューニングの必要性を排除している。 さらに、EV充電ステーションの管理は、特に太陽エネルギーの発生やエネルギー価格の変動など、複数の不確実性によってさらに複雑である。 この課題に対処するために、このような不確実な環境におけるパターンの学習にデータを効率的に活用する、非政治的RLアルゴリズムを開発した。 我々のアルゴリズムは、RLアルゴリズムの探索過程を強化するために、最大エントロピーフレームワークも組み込んでおり、局所最適解への収束を防いでいる。 シミュレーションの結果,本アルゴリズムは配電ネットワークにおけるEV充電の管理において従来のRLアルゴリズムよりも優れていた。

The increasing integration of electric vehicles (EVs) into the grid can pose a significant risk to the distribution system operation in the absence of coordination. In response to the need for effective coordination of EVs within the distribution network, this paper presents a safety-aware reinforcement learning (RL) algorithm designed to manage EV charging stations while ensuring the satisfaction of system constraints. Unlike existing methods, our proposed algorithm does not rely on explicit penalties for constraint violations, eliminating the need for penalty coefficient tuning. Furthermore, managing EV charging stations is further complicated by multiple uncertainties, notably the variability in solar energy generation and energy prices. To address this challenge, we develop an off-policy RL algorithm to efficiently utilize data to learn patterns in such uncertain environments. Our algorithm also incorporates a maximum entropy framework to enhance the RL algorithm's exploratory process, preventing convergence to local optimal solutions. Simulation results demonstrate that our algorithm outperforms traditional RL algorithms in managing EV charging in the distribution network.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# 最適AoIによるグラフアテンションネットワークによるブロック伝播とWeb 3.0における評価

Graph Attention Network-based Block Propagation with Optimal AoI and Reputation in Web 3.0 ( http://arxiv.org/abs/2403.13237v1 )

ライセンス: Link先を確認
Jiana Liao, Jinbo Wen, Jiawen Kang, Changyan Yi, Yang Zhang, Yutao Jiao, Dusit Niyato, Dong In Kim, Shengli Xie, (参考訳) Web 3.0は、中央集権的な権威に頼らずにデータを安全に監視することを可能にする、先駆的なパラダイムとして認識されている。 Web 3.0を実現するための中核技術であるブロックチェーンは、分散化された透過的なデータ管理を容易にする。 それでも、ブロックチェーン対応Web 3.0の進化はまだ初期段階にあり、ブロック伝搬性能を向上させるための効率性と信頼性の確保といった課題に悩まされている。 本稿では,ブロックチェーン対応Web 3.0のためのグラフ注意ネットワーク(GAT)ベースの信頼性ブロック伝搬最適化フレームワークを設計する。 まず、公開ブロックチェーンにおけるブロックの伝搬効率を測定するために、情報年齢と呼ばれるデータ更新性指標を革新的に適用する。 ブロック伝搬の信頼性を実現するため,局所的・推奨的な意見を含む主観的論理モデルに基づく評価機構を導入し,マイナ評価値を算出した。 さらに, GATはグラフ構造化データ処理能力に優れており, GATを強化学習に活用し, 最適なブロック伝搬軌道を得る。 数値計算の結果,提案手法は従来のルーティングアルゴリズムと比較して,ブロックの伝搬効率と信頼性に優れていた。

Web 3.0 is recognized as a pioneering paradigm that empowers users to securely oversee data without reliance on a centralized authority. Blockchains, as a core technology to realize Web 3.0, can facilitate decentralized and transparent data management. Nevertheless, the evolution of blockchain-enabled Web 3.0 is still in its nascent phase, grappling with challenges such as ensuring efficiency and reliability to enhance block propagation performance. In this paper, we design a Graph Attention Network (GAT)-based reliable block propagation optimization framework for blockchain-enabled Web 3.0. We first innovatively apply a data-freshness metric called age of information to measure block propagation efficiency in public blockchains. To achieve the reliability of block propagation, we introduce a reputation mechanism based on the subjective logic model, including the local and recommended opinions to calculate the miner reputation value. Moreover, considering that the GAT possesses the excellent ability to process graph-structured data, we utilize the GAT with reinforcement learning to obtain the optimal block propagation trajectory. Numerical results demonstrate that the proposed scheme exhibits the most outstanding block propagation efficiency and reliability compared with traditional routing algorithms.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# Beyond Skeletons:コヒーレント4Dシーケンス生成のための積分潜在マッピング

Beyond Skeletons: Integrative Latent Mapping for Coherent 4D Sequence Generation ( http://arxiv.org/abs/2403.13238v1 )

ライセンス: Link先を確認
Qitong Yang, Mingtao Feng, Zijie Wu, Shijie Sun, Weisheng Dong, Yaonan Wang, Ajmal Mian, (参考訳) 形状、色、動きを含む4Dコンテンツをモデル化する直接学習は難しい。 既存の方法は骨格に基づく運動制御に依存しており、細部において限定的な連続性を提供する。 そこで本研究では,3次元形状のアニメーションによるコヒーレントな4次元配列を生成するフレームワークを提案する。 まず、各詳細な3次元形状フレームの形状と色情報を符号化するために、積分潜在統一表現を用いる。 提案手法により,低次元空間における拡散モデルを用いて4次元配列の生成を制御できる。 最後に、入力画像やテキストプロンプトに順応して、時間的にコヒーレントな4Dシーケンスを生成する。 ShapeNet, 3DBiCar, DeformingThings4Dデータセットの様々なタスクに対する大規模な実験により、我々の手法が色と4Dメッシュのアニメーションによる高品質な3D形状を効果的に学習し、現在の最先端技術よりも改善していることが証明された。 ソースコードはリリースされます。

Directly learning to model 4D content, including shape, color and motion, is challenging. Existing methods depend on skeleton-based motion control and offer limited continuity in detail. To address this, we propose a novel framework that generates coherent 4D sequences with animation of 3D shapes under given conditions with dynamic evolution of shape and color over time through integrative latent mapping. We first employ an integrative latent unified representation to encode shape and color information of each detailed 3D geometry frame. The proposed skeleton-free latent 4D sequence joint representation allows us to leverage diffusion models in a low-dimensional space to control the generation of 4D sequences. Finally, temporally coherent 4D sequences are generated conforming well to the input images and text prompts. Extensive experiments on the ShapeNet, 3DBiCar and DeformingThings4D datasets for several tasks demonstrate that our method effectively learns to generate quality 3D shapes with color and 4D mesh animations, improving over the current state-of-the-art. Source code will be released.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# SumTra: Few-Shotクロスリンガル要約のための微分可能なパイプライン

SumTra: A Differentiable Pipeline for Few-Shot Cross-Lingual Summarization ( http://arxiv.org/abs/2403.13240v1 )

ライセンス: Link先を確認
Jacob Parnell, Inigo Jauregi Unanue, Massimo Piccardi, (参考訳) 言語間要約(XLS)は、入力された文書(例えば、英語からスペイン語)とは異なる言語で要約を生成し、ターゲット言語の話者がその内容の簡潔なビューを得ることを可能にする。 現在、このタスクの主なアプローチは、実行可能で事前訓練された多言語言語モデル(LM)を採用し、言語ペアのXLSのために微調整することである。 しかし、微調整サンプルの不足がこのアプローチを困難にしているケースもある。 そこで本研究では,要約・翻訳パイプラインを再検討し,要約処理と翻訳処理を連続的に行うことを提案する。 このアプローチは、モノリンガル要約と翻訳のための多くの公開リソースを再利用し、非常に競争力のあるゼロショット性能を得る。 さらに、提案されたパイプラインは、完全に差別化可能なエンドツーエンドであり、利用可能な数ショットの微調整を活用できる。 2つの現代および広く採用されているXLSデータセット(CrossSumとWikiLingua)に対する実験は、提案手法の顕著なゼロショット性能を示し、また、等価な多言語LMベースラインと比較して強力な数ショット性能を示した。

Cross-lingual summarization (XLS) generates summaries in a language different from that of the input documents (e.g., English to Spanish), allowing speakers of the target language to gain a concise view of their content. In the present day, the predominant approach to this task is to take a performing, pretrained multilingual language model (LM) and fine-tune it for XLS on the language pairs of interest. However, the scarcity of fine-tuning samples makes this approach challenging in some cases. For this reason, in this paper we propose revisiting the summarize-and-translate pipeline, where the summarization and translation tasks are performed in a sequence. This approach allows reusing the many, publicly-available resources for monolingual summarization and translation, obtaining a very competitive zero-shot performance. In addition, the proposed pipeline is completely differentiable end-to-end, allowing it to take advantage of few-shot fine-tuning, where available. Experiments over two contemporary and widely adopted XLS datasets (CrossSum and WikiLingua) have shown the remarkable zero-shot performance of the proposed approach, and also its strong few-shot performance compared to an equivalent multilingual LM baseline, that the proposed approach has been able to outperform in many languages with only 10% of the fine-tuning samples.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# ネットワークパラメータ付加分解による雑音ラベルの処理

Tackling Noisy Labels with Network Parameter Additive Decomposition ( http://arxiv.org/abs/2403.13241v1 )

ライセンス: Link先を確認
Jingyi Wang, Xiaobo Xia, Long Lan, Xinghao Wu, Jun Yu, Wenjing Yang, Bo Han, Tongliang Liu, (参考訳) ノイズの多いラベルを持つデータを考えると、過度にパラメータ化されたディープネットワークは、誤ってラベル付けされたデータに過度に適合し、結果として一般化が不十分になる。 ディープネットワークの記憶効果は、ネットワークがすべてのノイズデータを記憶する能力を持っているにもかかわらず、まずクリーンなトレーニングデータを記憶し、次に徐々にラベルのずれたトレーニングデータを記憶することを示している。 ノイズラベルと戦うための暗記効果を利用した簡便で効果的な方法が、早期に停止している。 しかし、早期停止はクリーンデータの記憶と誤ラベルデータの記憶を区別できないため、未ラベルデータの記憶と誤ラベルデータの記憶を分離し、さらに誤ラベルデータの副作用を低減し、ネットワークパラメータに付加的な分解を行う。 すなわち、パラメータ $\mathbf{w}$ は $\mathbf{w}=\bm{\sigma}+\bm{\gamma}$ として分解される。 その後、パラメータ $\bm{\sigma}$ はクリーンなデータを記憶すると考えられ、パラメータ $\bm{\gamma}$ は間違ったラベル付きデータを記憶すると考えられている。 記憶効果から恩恵を受けるために、パラメータの$\bm{\sigma}$の更新は、初期のトレーニングでクリーンなデータを完全に記憶することを奨励し、そして、間違ったラベル付きデータの干渉を減らすために、トレーニングのエポックの増加を阻止する。 パラメータ $\bm{\gamma}$ の更新は反対である。 テストでは、一般化を強化するために$\bm{\sigma}$のパラメータのみが使用される。 シミュレーションと実世界のベンチマークによる大規模な実験により,本手法の優れた性能が確認された。

Given data with noisy labels, over-parameterized deep networks suffer overfitting mislabeled data, resulting in poor generalization. The memorization effect of deep networks shows that although the networks have the ability to memorize all noisy data, they would first memorize clean training data, and then gradually memorize mislabeled training data. A simple and effective method that exploits the memorization effect to combat noisy labels is early stopping. However, early stopping cannot distinguish the memorization of clean data and mislabeled data, resulting in the network still inevitably overfitting mislabeled data in the early training stage.In this paper, to decouple the memorization of clean data and mislabeled data, and further reduce the side effect of mislabeled data, we perform additive decomposition on network parameters. Namely, all parameters are additively decomposed into two groups, i.e., parameters $\mathbf{w}$ are decomposed as $\mathbf{w}=\bm{\sigma}+\bm{\gamma}$. Afterward, the parameters $\bm{\sigma}$ are considered to memorize clean data, while the parameters $\bm{\gamma}$ are considered to memorize mislabeled data. Benefiting from the memorization effect, the updates of the parameters $\bm{\sigma}$ are encouraged to fully memorize clean data in early training, and then discouraged with the increase of training epochs to reduce interference of mislabeled data. The updates of the parameters $\bm{\gamma}$ are the opposite. In testing, only the parameters $\bm{\sigma}$ are employed to enhance generalization. Extensive experiments on both simulated and real-world benchmarks confirm the superior performance of our method.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# 相互作用欠陥のエネルギーを予測する機械学習モデルの比較研究

A Comparative Study of Machine Learning Models Predicting Energetics of Interacting Defects ( http://arxiv.org/abs/2403.13243v1 )

ライセンス: Link先を確認
Hao Yu, (参考訳) 相互作用する欠陥システムは現実的なシナリオの下ではどこにでも存在するが、計算の観点からこれらのシステムの原子レベルでの理解を得ることは困難である。 機械学習技術は材料シミュレーションを加速させる可能性を示しているが、相互作用する欠陥を含むシステムへの応用は比較的稀である。 本研究では, 相互作用欠陥を伴う系の自由エネルギー変化を予測する3つの方法の比較研究を行った。 我々は、密度汎関数理論(DFT)計算からの限られたデータセットを活用し、材料記述子、グラフニューラルネットワーク、クラスタ展開を用いて性能モデルを評価する。 その結果,この限られたデータセットであっても,クラスタ展開モデルによって正確なエネルギー予測が達成できることが示唆された。 さらに,クラスタ拡張モデルからほぼDFTレベルの合成データを生成することにより,相互作用欠陥を特徴とするシステムのためのグラフニューラルネットワークを用いて,正確な予測モデルのトレーニングを行うためのデータの要求量を評価するために,拡張データセットを得た。 最後に各手法の計算コストについて簡単な議論を行う。 本研究では,不完全な表面システムに機械学習を適用した予備評価を行う。

Interacting defect systems are ubiquitous in materials under realistic scenarios, yet gaining an atomic-level understanding of these systems from a computational perspective is challenging - it often demands substantial resources due to the necessity of employing supercell calculations. While machine learning techniques have shown potential in accelerating materials simulations, their application to systems involving interacting defects remains relatively rare. In this work, we present a comparative study of three different methods to predict the free energy change of systems with interacting defects. We leveraging a limited dataset from Density Functional Theory(DFT) calculations to assess the performance models using materials descriptors, graph neural networks and cluster expansion. Our findings indicate that the cluster expansion model can achieve precise energetics predictions even with this limited dataset. Furthermore, with synthetic data generate from cluster expansion model at near-DFT levels, we obtained enlarged dataset to assess the demands on data for training accurate prediction models using graph neural networks for systems featuring interacting defects. A brief discussion of the computational cost for each method is provided at the end. This research provide a preliminary evaluation of applying machine learning techniques in imperfect surface systems.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# 教師学習型大規模言語モデルを用いた命令型マルチ制約分子生成

Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model ( http://arxiv.org/abs/2403.13244v1 )

ライセンス: Link先を確認
Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, Siqi Sun, Jianxin Lin, Longyue Wang, Xiangxiang Zeng, (参考訳) 分子の構造と性質解析のための様々なモデルや計算ツールが提案されているが、全ての所望の構造と性質に適合する分子を生成することは依然として課題である。 本稿では,学生に類似した多制約分子生成大言語モデルであるTSMMGを紹介し,様々な小モデルやツール,すなわち「教師」の知識を取り入れた。 TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、様々なテキストプロンプトを通して記述に適合する新しい分子を生成することによって、大量のテキスト-分子対を構築する。 TSMMGは,2-,3-,4-制約タスクにまたがる複雑な,自然言語で規定された特性を満たす分子の生成において,平均分子効率が99%以上,成功率は88.08%,65.27%,61.44%であった。 モデルはまたゼロショットテストを通じて適応性を示し、遭遇していない性質の組み合わせを満たす分子を生成する。 様々な言語スタイルでテキスト入力を理解でき、実験的な検証によって確認されたように、概要化されたプロンプトの区切りを超えて拡張できる。 さらに、TSMMGの知識蒸留機能は、小さなモデルの継続的な強化に寄与する一方、データセット構築における革新的なアプローチは、データ不足と品質の問題に効果的に対処し、TSMMGを医薬品発見と材料科学の領域における有望なツールとして位置づけている。 コードはhttps://github.com/HHW-zhou/TSMMGで入手できる。

While various models and computational tools have been proposed for structure and property analysis of molecules, generating molecules that conform to all desired structures and properties remains a challenge. Here, we introduce a multi-constraint molecular generation large language model, TSMMG, which, akin to a student, incorporates knowledge from various small models and tools, namely, the 'teachers'. To train TSMMG, we construct a large set of text-molecule pairs by extracting molecular knowledge from these 'teachers', enabling it to generate novel molecules that conform to the descriptions through various text prompts. We experimentally show that TSMMG remarkably performs in generating molecules meeting complex, natural language-described property requirements across two-, three-, and four-constraint tasks, with an average molecular validity of over 99% and success ratio of 88.08%, 65.27%, and 61.44%, respectively. The model also exhibits adaptability through zero-shot testing, creating molecules that satisfy combinations of properties that have not been encountered. It can comprehend text inputs with various language styles, extending beyond the confines of outlined prompts, as confirmed through empirical validation. Additionally, the knowledge distillation feature of TSMMG contributes to the continuous enhancement of small models, while the innovative approach to dataset construction effectively addresses the issues of data scarcity and quality, which positions TSMMG as a promising tool in the domains of drug discovery and materials science. Code is available at https://github.com/HHW-zhou/TSMMG.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# ゼロショット一般化によるロボット運動計画のためのフェデレーション強化学習

Federated reinforcement learning for robot motion planning with zero-shot generalization ( http://arxiv.org/abs/2403.13245v1 )

ライセンス: Link先を確認
Zhenyuan Yuan, Siyuan Xu, Minghui Zhu, (参考訳) 本稿では,ゼロショット一般化によるロボット動作計画の制御ポリシの学習,すなわち学習方針が新しい環境に展開される際には,データ収集やポリシー適応が不要である,という課題について考察する。 我々は,複数の学習者と中央サーバ,すなわちクラウドの協調学習を,生データを共有せずに実現する,連合型強化学習フレームワークを開発した。 各繰り返しにおいて、各学習者はローカル制御ポリシーとそれに対応する正規化到着時刻をクラウドにアップロードし、学習者のグローバルな最適度を計算し、学習者に最適なポリシーをブロードキャストする。 次に各学習者は、ローカルコントロールポリシーとクラウドからのコントロールを次のイテレーションで選択する。 提案するフレームワークは、到着時間と安全に関するゼロショットの一般化を保証する。 ほぼ公理収束、ほぼ一致、パレート改善、最適性ギャップに関する理論的保証も提供される。 モンテカルロシミュレーションにより提案手法の評価を行った。

This paper considers the problem of learning a control policy for robot motion planning with zero-shot generalization, i.e., no data collection and policy adaptation is needed when the learned policy is deployed in new environments. We develop a federated reinforcement learning framework that enables collaborative learning of multiple learners and a central server, i.e., the Cloud, without sharing their raw data. In each iteration, each learner uploads its local control policy and the corresponding estimated normalized arrival time to the Cloud, which then computes the global optimum among the learners and broadcasts the optimal policy to the learners. Each learner then selects between its local control policy and that from the Cloud for next iteration. The proposed framework leverages on the derived zero-shot generalization guarantees on arrival time and safety. Theoretical guarantees on almost-sure convergence, almost consensus, Pareto improvement and optimality gap are also provided. Monte Carlo simulation is conducted to evaluate the proposed framework.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# スマートメータデータを用いた電気自動車充電イベント予測のための分極変換器学習

Divide-Conquer Transformer Learning for Predicting Electric Vehicle Charging Events Using Smart Meter Data ( http://arxiv.org/abs/2403.13246v1 )

ライセンス: Link先を確認
Fucai Ke, Hao Wang, (参考訳) 電気自動車(EV)の充電イベントは、負荷スケジューリングとエネルギー管理に不可欠であり、シームレスな輸送電化と脱炭を促進する。 従来の研究はEV充電需要予測(主に歴史的充電データを用いた公共充電ステーション)に重点を置いてきたが、家庭充電需要予測も同様に重要である。 しかし、既存の予測手法は、家庭の充電データにアクセスできない、あるいは制限されていないため、適していないかもしれない。 本研究は,非侵襲負荷モニタリング(NILM)の概念に触発されて,過去のスマートメーターデータを用いた家庭充電予測手法を開発した。 既に発生したEV充電を検出するNILMとは異なり、本手法は将来のEV充電発生の予測情報を提供し、充電管理の利便性を向上する。 具体的には,<divide-conquer' 戦略を用いて,自己注意機構に基づくトランスフォーマモデルを用いて,過去の計測データを効果的に処理し,充電発生予測のためのEV充電表現を学習する。 本手法では,1分間の時間差で予測が可能となる。 実験の結果,提案手法の有効性が示され,予測時間帯の96.81倍を超える精度が一貫して達成された。 特に,本手法はスマートメータデータのみを用いて高い予測性能を実現し,グリッド演算子に対して実用的かつ適切な解法である。

Predicting electric vehicle (EV) charging events is crucial for load scheduling and energy management, promoting seamless transportation electrification and decarbonization. While prior studies have focused on EV charging demand prediction, primarily for public charging stations using historical charging data, home charging prediction is equally essential. However, existing prediction methods may not be suitable due to the unavailability of or limited access to home charging data. To address this research gap, inspired by the concept of non-intrusive load monitoring (NILM), we develop a home charging prediction method using historical smart meter data. Different from NILM detecting EV charging that has already occurred, our method provides predictive information of future EV charging occurrences, thus enhancing its utility for charging management. Specifically, our method, leverages a self-attention mechanism-based transformer model, employing a ``divide-conquer'' strategy, to process historical meter data to effectively and learn EV charging representation for charging occurrence prediction. Our method enables prediction at one-minute interval hour-ahead. Experimental results demonstrate the effectiveness of our method, achieving consistently high accuracy of over 96.81\% across different prediction time spans. Notably, our method achieves high prediction performance solely using smart meter data, making it a practical and suitable solution for grid operators.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# 分散型フェデレーション学習:不完全な情報共有下でのモデル更新追跡

Decentralized Federated Learning: Model Update Tracking Under Imperfect Information Sharing ( http://arxiv.org/abs/2403.13247v1 )

ライセンス: Link先を確認
Vishnu Pandi Chellapandi, Antesh Upadhyay, Abolfazl Hashemi, Stanislaw H. Żak, (参考訳) 不完全な情報交換を反映したノイズの多い通信チャネルの存在下で効率的に機能する分散型雑音モデル更新追従フェデレートラーニングアルゴリズム(FedNMUT)を提案する。 このアルゴリズムは、通信オーバーヘッドを最小限に抑えながら、データの不均一性の影響を最小限に抑えるために勾配追跡を用いる。 提案アルゴリズムはノイズをパラメータに組み込んでノイズの多い通信チャネルの条件を模倣し,このような困難な環境での通信グラフトポロジを通じてクライアント間のコンセンサスを実現する。 FedNMUTは、分散学習システムのノイズコミュニケーションに対するレジリエンスを高めるために、パラメータ共有とノイズ導入を優先する。 理論的および実証的な検証により、FedNMUTの性能は既存の最先端手法や、不完全な情報共有を扱う従来のパラメータ混合手法よりも優れていることが示された。 このことは、分散学習フレームワークにおける通信雑音の負の効果を抑えるアルゴリズムの能力を証明している。

A novel Decentralized Noisy Model Update Tracking Federated Learning algorithm (FedNMUT) is proposed, which is tailored to function efficiently in the presence of noisy communication channels that reflect imperfect information exchange. This algorithm uses gradient tracking to minimize the impact of data heterogeneity while minimizing communication overhead. The proposed algorithm incorporates noise into its parameters to mimic the conditions of noisy communication channels, thereby enabling consensus among clients through a communication graph topology in such challenging environments. FedNMUT prioritizes parameter sharing and noise incorporation to increase the resilience of decentralized learning systems against noisy communications. Through theoretical and empirical validation, it is demonstrated that the performance of FedNMUT is superior compared to the existing state-of-the-art methods and conventional parameter-mixing approaches in dealing with imperfect information sharing. This proves the capability of the proposed algorithm to counteract the negative effects of communication noise in a decentralized learning framework.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# Mora: マルチエージェントフレームワークによるジェネラリストビデオ生成の実現

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework ( http://arxiv.org/abs/2403.13248v1 )

ライセンス: Link先を確認
Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun, (参考訳) Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。 2024年2月にOpenAIによってローンチされて以来、他のビデオ生成モデルは、Sora}のパフォーマンスや、幅広いビデオ生成タスクをサポートする能力に並列化していない。 さらに、完全に公開されたビデオ生成モデルがいくつかあるだけで、大半はクローズドソースである。 このギャップに対処するために、Soraがデモしたジェネラリストビデオ生成を再現するために、いくつかの高度なビジュアルAIエージェントを組み込んだ新しいマルチエージェントフレームワークであるMoraを提案する。 特に、モラは複数の視覚エージェントを利用し、(1)テキスト・ツー・ビデオ生成、(2)テキスト・コンディショナル・イメージ・トゥ・ビデオ生成、(3)拡張ビデオ、(4)ビデオ・トゥ・ビデオ編集、(5)ビデオ接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、ソラのビデオ生成機能をうまく模倣することができる。 大規模な実験結果から,モラは様々なタスクにおいて,ソラのそれに近い性能を達成できることが示唆された。 しかしながら、私たちの仕事とSoraの間には明らかにパフォーマンスのギャップがあります。 要約すると、このプロジェクトが、協力的なAIエージェントを通じて、ビデオ生成の将来の軌跡を導いてくれることを願っている。

Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# 継続的学習のための統一的で汎用的なフレームワーク

A Unified and General Framework for Continual Learning ( http://arxiv.org/abs/2403.13249v1 )

ライセンス: Link先を確認
Zhenyi Wang, Yan Li, Li Shen, Heng Huang, (参考訳) 継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分散から学ぶことに焦点を当てている。 正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。 しかし、これらの手法には、それらのアプローチを記述するための統一的なフレームワークや共通用語が欠けている。 本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。 特に、この新しいフレームワークは、統一的で汎用的な最適化目標の中に、確立されたCLアプローチを特別なインスタンスとして含むことができる。 興味深い発見は、それらの様々な起源にもかかわらず、これらの手法が共通の数学的構造を共有することである。 この観察は、これらの明らかに異なるテクニックの互換性を強調し、それらの相互接続性を、共通の基礎となる最適化目標を通して明らかにする。 さらに、提案する汎用フレームワークは、CL性能を向上させるために特別に設計された、リフレッシュラーニングと呼ばれる革新的な概念を導入している。 この新しいアプローチは神経科学からインスピレーションを得ており、人間の脳はしばしば時代遅れの情報を流し、重要な知識の保持を改善し、新しい情報の獲得を促進する。 本質的には、リフレッシュラーニングは、最初は現在のデータをアンラーニングし、その後に再ラーニングすることで行われる。 既存のCLメソッドとシームレスに統合する汎用的なプラグインとして機能し、学習プロセスに適応的で効果的な拡張を提供する。 CLベンチマークと理論解析に関する大規模な実験は、提案したリフレッシュラーニングの有効性を実証している。 コードは \url{https://github.com/joey-wang123/CL-refresh-learning} で公開されている。

Continual Learning (CL) focuses on learning from dynamic and changing data distributions while retaining previously acquired knowledge. Various methods have been developed to address the challenge of catastrophic forgetting, including regularization-based, Bayesian-based, and memory-replay-based techniques. However, these methods lack a unified framework and common terminology for describing their approaches. This research aims to bridge this gap by introducing a comprehensive and overarching framework that encompasses and reconciles these existing methodologies. Notably, this new framework is capable of encompassing established CL approaches as special instances within a unified and general optimization objective. An intriguing finding is that despite their diverse origins, these methods share common mathematical structures. This observation highlights the compatibility of these seemingly distinct techniques, revealing their interconnectedness through a shared underlying optimization objective. Moreover, the proposed general framework introduces an innovative concept called refresh learning, specifically designed to enhance the CL performance. This novel approach draws inspiration from neuroscience, where the human brain often sheds outdated information to improve the retention of crucial knowledge and facilitate the acquisition of new information. In essence, refresh learning operates by initially unlearning current data and subsequently relearning it. It serves as a versatile plug-in that seamlessly integrates with existing CL methods, offering an adaptable and effective enhancement to the learning process. Extensive experiments on CL benchmarks and theoretical analysis demonstrate the effectiveness of the proposed refresh learning. Code is available at \url{https://github.com/joey-wang123/CL-refresh-learning}.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# 大規模言語モデルの知識蒸留によるオープンドメイン対話システムのファシリテートポルノテキスト検出

Facilitating Pornographic Text Detection for Open-Domain Dialogue Systems via Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2403.13250v1 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Hongliang He, Anqi Li, Zhenzhong Lan, (参考訳) 人間と機械の対話で発生するポルノコンテンツは、オープンドメインの対話システムにおいて、ユーザに深刻な副作用をもたらす可能性がある。 しかし、人間と機械の対話におけるポルノ言語の検出に関する研究は、あまり研究されていない重要な課題である。 この方向に進むために,対話セッションにポルノコンテンツが含まれているかどうかを検出するための対話監視データセットであるCensorChatを紹介する。 この目的のために,実生活における人間と機械の対話の対話を収集し,チャットボットが話す最後の発話とともに,それらを単一発話と単一ターン対話に分解する。 本稿では,データセットに注釈をつけるために,大規模言語モデルの知識蒸留を活用することを提案する。 具体的には、まず、生のデータセットは4つのオープンソースの大規模言語モデルによって注釈付けされ、大多数がラベルを決定する。 次に、最初のステップから空のラベルを更新するためにChatGPTを使用します。 第3に,検証およびテストセットの品質を確保するため,ラベルキャリブレーションにGPT-4を用いる。 GPT-4が生成したラベルと一致しない場合、自己批判戦略を用いてその正しさを検証する。 最後に,ポルノテキストの検出を容易にするために,擬似ラベル付きデータセットを用いた一連のテキスト分類器を開発する。 詳細なデータ分析は、知識蒸留技術を大規模言語モデルで活用することで、ポルノテキスト検出装置を開発するための実用的で費用対効果の高い方法が提供されることを示している。

Pornographic content occurring in human-machine interaction dialogues can cause severe side effects for users in open-domain dialogue systems. However, research on detecting pornographic language within human-machine interaction dialogues is an important subject that is rarely studied. To advance in this direction, we introduce CensorChat, a dialogue monitoring dataset aimed at detecting whether the dialogue session contains pornographic content. To this end, we collect real-life human-machine interaction dialogues in the wild and break them down into single utterances and single-turn dialogues, with the last utterance spoken by the chatbot. We propose utilizing knowledge distillation of large language models to annotate the dataset. Specifically, first, the raw dataset is annotated by four open-source large language models, with the majority vote determining the label. Second, we use ChatGPT to update the empty label from the first step. Third, to ensure the quality of the validation and test sets, we utilize GPT-4 for label calibration. If the current label does not match the one generated by GPT-4, we employ a self-criticism strategy to verify its correctness. Finally, to facilitate the detection of pornographic text, we develop a series of text classifiers using a pseudo-labeled dataset. Detailed data analysis demonstrates that leveraging knowledge distillation techniques with large language models provides a practical and cost-efficient method for developing pornographic text detectors.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# パース言語構造を用いた文書作成者分類

Document Author Classification Using Parsed Language Structure ( http://arxiv.org/abs/2403.13253v1 )

ライセンス: Link先を確認
Todd K Moon, Jacob H. Gunther, (参考訳) テキストの統計的特性に基づいてテキストのオーサシップを検出することには,長年にわたって関心が寄せられてきた。 以前の研究では、これらのテクニックは例えば、すべての『連邦主義論文』の著者を決定するために使われてきた。 このような手法は、より現代的な時代にフェイクやAIの著者を検出するのに有用かもしれない。 統計的自然言語解析の進歩は、文法構造を用いて著者を検出する可能性をもたらしている。 本稿では,統計的自然言語解析器を用いて抽出した文法構造情報を用いた著者検出の可能性について検討する。 本論文は, 従来の著者検出研究における試験事例である『連邦論論文』と『サンディトン』の集合体上での文法的構造に基づく著者分類を検証し, 概念実証を行う。 統計的自然言語解析装置から抽出したいくつかの特徴は, 任意のレベルからある深さのすべての部分木, 何らかの深さのルート木, 音声の一部, パースツリーの音声部分である。 それらの特徴を低次元空間に投影するのに役立つことが判明した。 これらの文書に関する統計的実験は、統計解析器からの情報によって、実際に著者の区別を助けることができることを示している。

Over the years there has been ongoing interest in detecting authorship of a text based on statistical properties of the text, such as by using occurrence rates of noncontextual words. In previous work, these techniques have been used, for example, to determine authorship of all of \emph{The Federalist Papers}. Such methods may be useful in more modern times to detect fake or AI authorship. Progress in statistical natural language parsers introduces the possibility of using grammatical structure to detect authorship. In this paper we explore a new possibility for detecting authorship using grammatical structural information extracted using a statistical natural language parser. This paper provides a proof of concept, testing author classification based on grammatical structure on a set of "proof texts," The Federalist Papers and Sanditon which have been as test cases in previous authorship detection studies. Several features extracted from the statistical natural language parser were explored: all subtrees of some depth from any level; rooted subtrees of some depth, part of speech, and part of speech by level in the parse tree. It was found to be helpful to project the features into a lower dimensional space. Statistical experiments on these documents demonstrate that information from a statistical parser can, in fact, assist in distinguishing authors.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# ArceeのMergeKit: 大規模言語モデルをマージするためのツールキット

Arcee's MergeKit: A Toolkit for Merging Large Language Models ( http://arxiv.org/abs/2403.13257v1 )

ライセンス: Link先を確認
Charles Goddard, Shamane Siriwardhana, Malikeh Ehghaghi, Luke Meyers, Vlad Karpukhin, Brian Benedict, Mark McQuade, Jacob Solawetz, (参考訳) オープンソースの言語モデルランドスケープの急速な拡張は、これらのモデルチェックポイントの能力を、それらのパラメータを組み合わせることによってマージする機会を提供する。 特定のタスクのための訓練済みモデルを微調整するプロセスであるトランスファーラーニングの進歩は、通常個々のタスクに特化して互いの強みを活用できない、膨大なタスク固有のモデルの開発をもたらした。 モデルマージは、追加のトレーニングを必要とせずにマルチタスクモデルの作成を容易にし、モデルパフォーマンスと汎用性を向上させるための有望な道を提供する。 原モデルの本質的な能力を維持することによって、モデルマージは、破滅的な忘れ込みとマルチタスク学習の困難を含む、AIの複雑な課題に対処する。 この拡大する研究領域をサポートするために,モデルマージ戦略の適用を容易にするために設計された,包括的なオープンソースライブラリであるMergeKitを紹介した。 MergeKitは、任意のハードウェア上でモデルを効率的にマージするための拡張可能なフレームワークを提供する。 これまでのところ、何千ものモデルがオープンソースコミュニティにマージされており、Open LLM Leaderboardが評価しているように、世界で最も強力なオープンソースのモデルチェックポイントが作成されている。 このライブラリはhttps://github.com/arcee-ai/MergeKitでアクセスできる。

The rapid expansion of the open-source language model landscape presents an opportunity to merge the competencies of these model checkpoints by combining their parameters. Advances in transfer learning, the process of fine-tuning pre-trained models for specific tasks, has resulted in the development of vast amounts of task-specific models, typically specialized in individual tasks and unable to utilize each other's strengths. Model merging facilitates the creation of multitask models without the need for additional training, offering a promising avenue for enhancing model performance and versatility. By preserving the intrinsic capabilities of the original models, model merging addresses complex challenges in AI - including the difficulties of catastrophic forgetting and multi-task learning. To support this expanding area of research, we introduce MergeKit, a comprehensive, open-source library designed to facilitate the application of model merging strategies. MergeKit offers an extensible framework to efficiently merge models on any hardware, providing utility to researchers and practitioners. To date, thousands of models have been merged by the open-source community, leading to the creation of some of the worlds most powerful open-source model checkpoints, as assessed by the Open LLM Leaderboard. The library is accessible at https://github.com/arcee-ai/MergeKit.
翻訳日:2024-03-21 18:17:45 公開日:2024-03-20
# SAMCT: 作業不要なタスクインジケータのプロンプトを含む任意のCTをセグメント化

SAMCT: Segment Any CT Allowing Labor-Free Task-Indicator Prompts ( http://arxiv.org/abs/2403.13258v1 )

ライセンス: Link先を確認
Xian Lin, Yangyang Xiang, Zhehao Wang, Kwang-Ting Cheng, Zengqiang Yan, Li Yu, (参考訳) 多様なセグメンテーションタスクにまたがる優れた汎用性と一般化を備えた基盤モデルであるセグメンツ・エバンス・モデル(SAM)は、医用画像において広く注目を集めている。 しかし、SAMは訓練や局所的な特徴符号化の知識が不足しているため、パフォーマンスが著しく低下することが証明されている。 SAMベースのモデルもいくつか提案されているが、まだ特徴抽出が不十分であり、高品質なプロンプトに強く依存している。 本稿では、公開データセットから1.1MのCT画像と5Mのマスクからなる大規模CTデータセットを構築し、労働自由なプロンプトを可能にする強力な基盤モデルSAMCTを提案する。 具体的にはSAMに基づいて、SAMCTはさらにU字型のCNNイメージエンコーダ、クロスブランチインタラクションモジュール、タスクインディケータプロンプトエンコーダを備えている。 U字型CNN画像エンコーダはSAMのViT画像エンコーダと平行して動作し、局所的な特徴を補う。 CNNイメージエンコーダとViTイメージエンコーダの特徴表現能力は,グローバルな認識と局所的な特徴を相互に交換することによって向上する。 タスクインジケータプロンプトエンコーダは、タスク関連インジケータを積極的にエンコードしてプロンプト埋め込みを行うプラグイン・アンド・プレイコンポーネントである。 このように、SAMCTはSAMの半自動対話戦略に加えて、自動的な動作を行うことができる。 各種課題におけるSAMCTの課題特化モデルおよびSAMベース医療基盤モデルに対する優位性を示す。 コード、データ、モデルはhttps://github.com/xianlin7/SAMCTで公開されている。

Segment anything model (SAM), a foundation model with superior versatility and generalization across diverse segmentation tasks, has attracted widespread attention in medical imaging. However, it has been proved that SAM would encounter severe performance degradation due to the lack of medical knowledge in training and local feature encoding. Though several SAM-based models have been proposed for tuning SAM in medical imaging, they still suffer from insufficient feature extraction and highly rely on high-quality prompts. In this paper, we construct a large CT dataset consisting of 1.1M CT images and 5M masks from public datasets and propose a powerful foundation model SAMCT allowing labor-free prompts. Specifically, based on SAM, SAMCT is further equipped with a U-shaped CNN image encoder, a cross-branch interaction module, and a task-indicator prompt encoder. The U-shaped CNN image encoder works in parallel with the ViT image encoder in SAM to supplement local features. Cross-branch interaction enhances the feature expression capability of the CNN image encoder and the ViT image encoder by exchanging global perception and local features from one to the other. The task-indicator prompt encoder is a plug-and-play component to effortlessly encode task-related indicators into prompt embeddings. In this way, SAMCT can work in an automatic manner in addition to the semi-automatic interactive strategy in SAM. Extensive experiments demonstrate the superiority of SAMCT against the state-of-the-art task-specific and SAM-based medical foundation models on various tasks. The code, data, and models are released at https://github.com/xianlin7/SAMCT.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# 創造性と正しい:AIファンデーションモデルからさまざまなコードソリューションを要求する

Creative and Correct: Requesting Diverse Code Solutions from AI Foundation Models ( http://arxiv.org/abs/2403.13259v1 )

ライセンス: Link先を確認
Scott Blyth, Markus Wagner, Christoph Treude, (参考訳) AIファウンデーションモデルは、単一のプロンプトに対する幅広い応答を生成する能力を持っています。 しかし、この利点は多様性と正しさの間に大きなトレードオフをもたらす。 ソフトウェアエンジニアリングのタスクでは、多様性はデザインスペースを探索し、創造性を育む上で重要であるが、これらのソリューションの実践的価値は、その正確性に大きく依存している。 本研究では,HumanEvalタスクを用いた実験,パラメータ設定の探索,戦略の推進などを用いて,このトレードオフを体系的に検討する。 コードクローンコミュニティの類似度指標を用いて、コードソリューションの多様性を評価する。 この研究は、このトレードオフ空間のパレートの正面に位置する多様性と正しさの最適なバランスを打つパラメータと戦略の組み合わせを特定する。 これらの発見は、AIファンデーションモデルを効果的に活用して、多様性と正確性のあるコードソリューションを生成する方法について、ソフトウェアエンジニアに貴重な洞察を与えてくれる。

AI foundation models have the capability to produce a wide array of responses to a single prompt, a feature that is highly beneficial in software engineering to generate diverse code solutions. However, this advantage introduces a significant trade-off between diversity and correctness. In software engineering tasks, diversity is key to exploring design spaces and fostering creativity, but the practical value of these solutions is heavily dependent on their correctness. Our study systematically investigates this trade-off using experiments with HumanEval tasks, exploring various parameter settings and prompting strategies. We assess the diversity of code solutions using similarity metrics from the code clone community. The study identifies combinations of parameters and strategies that strike an optimal balance between diversity and correctness, situated on the Pareto front of this trade-off space. These findings offer valuable insights for software engineers on how to effectively use AI foundation models to generate code solutions that are diverse and accurate.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# 空間的・時間的整合性規則付き自己監督型クラス非依存動作予測

Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations ( http://arxiv.org/abs/2403.13261v1 )

ライセンス: Link先を確認
Kewei Wang, Yizheng Wu, Jun Cen, Zhiyu Pan, Xingyi Li, Zhe Wang, Zhiguo Cao, Guosheng Lin, (参考訳) 動的環境における運動行動の知覚は自律運転システムにおいて重要な意味を持ち、クラスに依存しない運動予測手法は点群全体の運動を直接予測する。 既存のほとんどのメソッドは、完全に教師付き学習に依存しているが、ポイントクラウドデータの手作業によるラベル付けは、手間と時間を要する。 そのため、この課題に対処するために、アノテーション効率のよいいくつかの手法が提案されている。 効果はあるものの、これらの手法は弱いアノテーションや画像のような追加のマルチモーダルデータに依存しており、ポイントクラウドシークエンスに固有の潜在的な利点はまだ探索されていない。 この目的のために、未ラベルのLiDAR点雲のみを用いた自己教師あり動作予測の実現可能性について検討する。 当初、我々は、現在と将来の点雲間の粗い対応を粗い擬似動作ラベルとして確立するために最適な輸送解決器を用いていた。 このような粗いラベルを直接使用したトレーニングモデルは、顕著な空間的および時間的予測の不整合をもたらす。 これらの問題を緩和するために,3つの簡易な空間正規化損失と時間正規化損失を導入し,自己指導型トレーニングプロセスを効果的に実現した。 実験により,最先端の自己管理手法に対するアプローチの有意な優位性を示した。

The perception of motion behavior in a dynamic environment holds significant importance for autonomous driving systems, wherein class-agnostic motion prediction methods directly predict the motion of the entire point cloud. While most existing methods rely on fully-supervised learning, the manual labeling of point cloud data is laborious and time-consuming. Therefore, several annotation-efficient methods have been proposed to address this challenge. Although effective, these methods rely on weak annotations or additional multi-modal data like images, and the potential benefits inherent in the point cloud sequence are still underexplored. To this end, we explore the feasibility of self-supervised motion prediction with only unlabeled LiDAR point clouds. Initially, we employ an optimal transport solver to establish coarse correspondences between current and future point clouds as the coarse pseudo motion labels. Training models directly using such coarse labels leads to noticeable spatial and temporal prediction inconsistencies. To mitigate these issues, we introduce three simple spatial and temporal regularization losses, which facilitate the self-supervised training process effectively. Experimental results demonstrate the significant superiority of our approach over the state-of-the-art self-supervised methods.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# SC-Tune:大規模視覚言語モデルにおける自己整合性参照理解

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models ( http://arxiv.org/abs/2403.13263v1 )

ライセンス: Link先を確認
Tongtian Yue, Jie Cheng, Longteng Guo, Xingyuan Dai, Zijia Zhao, Xingjian He, Gang Xiong, Yisheng Lv, Jing Liu, (参考訳) 大規模視覚言語モデル(LVLM)研究の最近の動向は、より微妙でオブジェクトレベルの参照理解への一般的なイメージ理解を超えて進歩することに注力している。 本稿では,LVLMの自己整合性(自己整合性,自己整合性,自己整合性(自己整合性,自己整合性,自己整合性,自己整合性,自己整合性)について述べる。 この能力は、きめ細かい視覚言語理解の精度と信頼性を著しく反映している。 その結果,既存のLVLMの自己整合性レベルは期待に届かず,実用性や可能性に限界があることが判明した。 このギャップに対処するため、我々は自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。 循環型記述子-ロケータシステムの相乗的学習を特徴とする。 このパラダイムはデータ効率だけでなく、複数のLVLMにまたがる一般化性を示す。 広範な実験を通じて、SC-Tuneはオブジェクトレベルのビジョンベンチマークのスペクトル間で性能を著しく高め、画像レベルのビジョンベンチマークの競合性や改善性能を維持することを実証した。 私たちのモデルとコードは、https://github.com/ivattyue/SC-Tune.comで公開されます。

Recent trends in Large Vision Language Models (LVLMs) research have been increasingly focusing on advancing beyond general image understanding towards more nuanced, object-level referential comprehension. In this paper, we present and delve into the self-consistency capability of LVLMs, a crucial aspect that reflects the models' ability to both generate informative captions for specific objects and subsequently utilize these captions to accurately re-identify the objects in a closed-loop process. This capability significantly mirrors the precision and reliability of fine-grained visual-language understanding. Our findings reveal that the self-consistency level of existing LVLMs falls short of expectations, posing limitations on their practical applicability and potential. To address this gap, we introduce a novel fine-tuning paradigm named Self-Consistency Tuning (SC-Tune). It features the synergistic learning of a cyclic describer-locator system. This paradigm is not only data-efficient but also exhibits generalizability across multiple LVLMs. Through extensive experiments, we demonstrate that SC-Tune significantly elevates performance across a spectrum of object-level vision-language benchmarks and maintains competitive or improved performance on image-level vision-language benchmarks. Both our model and code will be publicly available at https://github.com/ivattyue/SC-Tune.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# Unifews: 効率的なグラフニューラルネットワークのための統一入出力スカラー化

Unifews: Unified Entry-Wise Sparsification for Efficient Graph Neural Network ( http://arxiv.org/abs/2403.13268v1 )

ライセンス: Link先を確認
Ningyi Liao, Zihao Yu, Siqiang Luo, (参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ学習タスクにおいて有望な性能を示すが、リソース集約型計算のコストがかかる。 GNN更新の主なオーバーヘッドは、グラフの伝搬と重み変換に起因している。 従来の研究では、グラフレベルやネットワークレベルのスペーシフィケーション技術を活用して計算予算を削減し、結果としてグラフや重みが小さくなった。 本研究では,個々の行列要素を考慮した2つの操作をエントリワイズに統一するUnifewsを提案する。 Unifewsのエントリワイド設計は、徐々に幅を拡大したGNN層間の適応圧縮を可能にし、オンザフライ操作を単純化した様々なアーキテクチャ設計に適用できる。 理論的には、グラフ最適化プロセスの観点から、スパーシフィケードGNN学習を特徴付ける新しい枠組みを確立し、Unifewsが学習目標を有界誤差で効果的に近似し、計算負荷を低減することを証明する。 多様な設定で提案手法の性能評価を行うため,広範囲な実験を行った。 Unifewsは、エッジとウェイトエントリの90%以上をベースラインモデルに匹敵する精度で、共同で取り除くのに有利である。 このスペーシフィケーションは、10-20倍の行列演算の削減や、数十億のエッジスケールで最大のグラフのグラフ伝播時間における最大100倍の加速を含む、顕著な効率改善を提供する。

Graph Neural Networks (GNNs) have shown promising performance in various graph learning tasks, but at the cost of resource-intensive computations. The primary overhead of GNN update stems from graph propagation and weight transformation, both involving operations on graph-scale matrices. Previous studies attempt to reduce the computational budget by leveraging graph-level or network-level sparsification techniques, resulting in downsized graph or weights. In this work, we propose Unifews, which unifies the two operations in an entry-wise manner considering individual matrix elements, and conducts joint edge-weight sparsification to enhance learning efficiency. The entry-wise design of Unifews enables adaptive compression across GNN layers with progressively increased sparsity, and is applicable to a variety of architectural designs with on-the-fly operation simplification. Theoretically, we establish a novel framework to characterize sparsified GNN learning in view of a graph optimization process, and prove that Unifews effectively approximates the learning objective with bounded error and reduced computational load. We conduct extensive experiments to evaluate the performance of our method in diverse settings. Unifews is advantageous in jointly removing more than 90% of edges and weight entries with comparable or better accuracy than baseline models. The sparsification offers remarkable efficiency improvements including 10-20x matrix operation reduction and up to 100x acceleration in graph propagation time for the largest graph at the billion-edge scale.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# AFLoRA:大規模モデルのパラメータ効率の良い微調整における低ランク適応の適応凍結

AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models ( http://arxiv.org/abs/2403.13269v1 )

ライセンス: Link先を確認
Zeyu Liu, Souvik Kundu, Anni Li, Junrui Wan, Lianghao Jiang, Peter Anthony Beerel, (参考訳) 低ランク適応の適応凍結(AFLoRA)と呼ばれる,パラメータ効率の良いファインチューニング(PEFT)手法を提案する。 具体的には、トレーニング済みの凍結荷重テンソルに対して、トレーニング可能な低ランク行列の平行経路、すなわち下向きの射影行列と上向きの射影行列を加算し、それぞれに特徴変換ベクトルを付加する。 新たな凍結スコアに基づいて、微調整中にこれらのプロジェクション行列を漸進的に凍結し、計算を減らし、過度な適合を緩和する。 実験の結果,平均トレーニング可能なパラメータを最大9.5倍に減らしながら,GLUEベンチマークで評価した値の0.85倍%の平均改善を達成できることが確認された。 ランタイムに関しては比較するが、AFLoRAは類似のPEFT代替品に比べて最大$1.86\times$改善できる。 提案手法の実用性に加えて,異なるモジュールにおけるLORAパスのトレーニング性要件と,異なるプロジェクション行列の凍結スケジュールについて考察する。 コードはリリースされる。

We present a novel Parameter-Efficient Fine-Tuning (PEFT) method, dubbed as Adaptive Freezing of Low Rank Adaptation (AFLoRA). Specifically, for each pre-trained frozen weight tensor, we add a parallel path of trainable low-rank matrices, namely a down-projection and an up-projection matrix, each of which is followed by a feature transformation vector. Based on a novel freezing score, we the incrementally freeze these projection matrices during fine-tuning to reduce the computation and alleviate over-fitting. Our experimental results demonstrate that we can achieve state-of-the-art performance with an average improvement of up to $0.85\%$ as evaluated on GLUE benchmark while yeilding up to $9.5\times$ fewer average trainable parameters. While compared in terms of runtime, AFLoRA can yield up to $1.86\times$ improvement as opposed to similar PEFT alternatives. Besides the practical utility of our approach, we provide insights on the trainability requirements of LoRA paths at different modules and the freezing schedule for the different projection matrices. Code will be released.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# LLMの推論能力を拡張した小型モデルのコード生成性能向上

Enhancing Code Generation Performance of Smaller Models by Distilling the Reasoning Ability of LLMs ( http://arxiv.org/abs/2403.13271v1 )

ライセンス: Link先を確認
Zhihong Sun, Chen Lyu, Bolun Li, Yao Wan, Hongyu Zhang, Ge Li, Zhi Jin, (参考訳) 大規模言語モデル(LLM)は、最近'Chain-of-Thought'プロンプト技術を通じて、コード生成に大きな進歩を遂げた。 この技術は、複雑なプログラミング課題に取り組むために「解決計画」を自律的に考案し、それによってコード生成のパフォーマンスが向上する。 それにもかかわらず、より小さなモデルはこれらの計画の再現にLLMに追随し、コード生成能力に悪影響を与えている。 大量のサイズと関連するデプロイメントコストに加えて、データセキュリティに関する懸念から、多くのチームは、コード生成用の小さなモデルをデプロイすることを選択しています。 結果として、LLMのコード生成推論能力をより小さなモデルに転送する必要性が生じている。 本稿では,LLMの推論能力を蒸留によりより小さなモデルに伝達することを目的としたCodePLANフレームワークを提案する。 我々は、より小さなモデルのコード生成能力を高めるために、コード生成とソリューションプラン生成タスクを共同で行うマルチタスク学習アプローチを採用する。 ソリューションプランの優れた品質を確保するため、我々は、後方推論と計画サンプリング戦略の活用を提唱する。 実験の結果,従来の微調整手法と比較して,より小さなモデルのコード生成性能(pass@1で測定される)を,挑戦的なAPPSベンチマークで130%以上向上することがわかった。

Large Language Models (LLMs) have recently made significant advances in code generation through the 'Chain-of-Thought' prompting technique. This technique empowers the model to autonomously devise "solution plans" to tackle intricate programming challenges, thereby improving its performance in code generation. Nevertheless, smaller models have been struggling to keep up with LLMs in deducing these plans, adversely affecting their code generation capabilities. Given the considerable size and associated deployment costs, along with concerns about data security, many teams opt for deploying smaller models for code generation. Consequently, there arises a compelling need for transferring LLMs' code generation reasoning abilities to the smaller models. In this paper, we propose the CodePLAN framework, which aims to transfer LLMs' reasoning capabilities to smaller models through distillation. We adopt a multi-task learning approach, jointly undertaking code generation and solution plan generation tasks, to enhance the code generation capabilities of the smaller model. To ensure the superior quality of the solution plans, we advocate for the utilization of backward reasoning and plan sampling strategies. Our experiments show that in comparison to the conventional fine-tuning approach, our approach improves the smaller model's code generation performance (measured in pass@1 metric) by over 130% on the challenging APPS benchmark.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# コミュニティニーズとアセット:コミュニティ会話の計算分析

Community Needs and Assets: A Computational Analysis of Community Conversations ( http://arxiv.org/abs/2403.13272v1 )

ライセンス: Link先を確認
Md Towhidul Absar Chowdhury, Naveen Sharma, Ashiqur R. KhudaBukhsh, (参考訳) コミュニティ・アセスメント(Community needs Assessment)とは、非営利団体や政府機関が、コミュニティの強みや課題を定量化し、彼らのリソースをよりよく割り当てるためのツールである。 このようなアプローチは、ソーシャルメディアの会話を活用して、コミュニティやその中にすでに存在している資産のニーズを分析する方向に移行している。 しかし、指数関数的に増大するソーシャルメディアの会話を手動で分析することは困難である。 コミュニティメンバがコミュニティの強みやニーズについてどのように議論するかを計算的に分析する上で、現在の文献にはギャップがある。 このギャップに対処するために、我々は、洗練された自然言語処理手法を用いて、会話データからコミュニティのニーズと資産を特定し、抽出し、分類するタスクを導入する。 この作業を円滑にするために,Redditから3,511件の会話をクラウドソースの作業員にアノテートした,コミュニティのニーズと資産に関する最初のデータセットを紹介した。 このデータセットを用いて、感情分類と一般的な大言語モデル(ゼロショット設定)と比較して、発話レベルの分類モデルを評価する。 さらに、我々の研究を通して、ニーズに関する会話には否定的な感情と感情があり、資産に関する会話は場所と実体に焦点を当てている。 データセットはhttps://github.com/towhidabsar/CommunityNeeds.comで公開されている。

A community needs assessment is a tool used by non-profits and government agencies to quantify the strengths and issues of a community, allowing them to allocate their resources better. Such approaches are transitioning towards leveraging social media conversations to analyze the needs of communities and the assets already present within them. However, manual analysis of exponentially increasing social media conversations is challenging. There is a gap in the present literature in computationally analyzing how community members discuss the strengths and needs of the community. To address this gap, we introduce the task of identifying, extracting, and categorizing community needs and assets from conversational data using sophisticated natural language processing methods. To facilitate this task, we introduce the first dataset about community needs and assets consisting of 3,511 conversations from Reddit, annotated using crowdsourced workers. Using this dataset, we evaluate an utterance-level classification model compared to sentiment classification and a popular large language model (in a zero-shot setting), where we find that our model outperforms both baselines at an F1 score of 94% compared to 49% and 61% respectively. Furthermore, we observe through our study that conversations about needs have negative sentiments and emotions, while conversations about assets focus on location and entities. The dataset is available at https://github.com/towhidabsar/CommunityNeeds.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# オーストラリア上院の失業率調査

Analysing Guarantees in Australian Senate Outcomes ( http://arxiv.org/abs/2403.13275v1 )

ライセンス: Link先を確認
Michelle Blom, (参考訳) STV(Single Transferable Vote)は、6つの州と2つの領域で76議席のオーストラリア上院議員を選出するために使用される。 これらの8つのSTVコンテストは、投票スキャナー、手動データ入力、集計ソフトウェアを組み合わせて数えられる。 選挙の夜には、鋳型投票のいくつかの特性が手で決定される。 これには各党の第一選好の集計が含まれる。 この技術的報告は、個々の候補者の第一選好の集計のように、正確であると仮定すれば、選挙結果の一部を意味するいくつかの特性があるかどうかを考察する。 また、オーストラリア上院で使用されるSTV集計の規則が、時間とともに価値が上昇する投票のような奇妙な行動を許容できることを示す興味深い事例を提示する。

Single Transferable Vote (STV) is used to elect candidates to the 76 seat Australian Senate across six states and two territories. These eight STV contests are counted using a combination of ballot scanners, manual data entry and tabulation software. On election night, some properties of the set of cast ballots are determined by hand. This includes the first preference tallies of each party. This technical report considers whether there are some properties, such as individual candidates' first preference tallies, that, if assumed to be accurate, imply a portion of the election outcome. The paper also presents an interesting example showing that the rules of STV tabulation used for the Australian Senate can allow bizarre behaviour, such as votes increasing in value over time.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# トレーススライシングと述語抽象化によるスマートコントラクトの仕様マイニング

Specification Mining for Smart Contracts with Trace Slicing and Predicate Abstraction ( http://arxiv.org/abs/2403.13279v1 )

ライセンス: Link先を確認
Ye Liu, Yi Li, Cyrille Artho, Yixuan Liu, (参考訳) スマートコントラクトは、分散アプリケーションを実装するためにブロックチェーン上で動作するコンピュータプログラムである。 本研究では,過去の取引履歴から契約仕様を推測するための仕様マイニング手法を提案する。 提案手法は,トランザクション履歴から統計的に推測されるプログラム不変量とともに,関数呼び出しの高レベルな挙動自動化を導出する。 当社のアプローチをツールSmConandとして実装し、よく調査された11のAzureベンチマークスマートコントラクトと6つの人気のある実世界のスマートコントラクトで評価しました。 実験によると、SmConmineはドキュメントのメンテナンスとテストスイートの改善の観点から、DAppの理解と開発を容易にするために使える、合理的に正確な仕様です。

Smart contracts are computer programs running on blockchains to implement Decentralized Applications.The absence of contract specifications hinders routine tasks, such as contract understanding and testing. Inthis work, we propose a specification mining approach to infer contract specifications from past transactionhistories. Our approach derives high-level behavioral automata of function invocations, accompanied byprogram invariants statistically inferred from the transaction histories. We implemented our approach as toolSmConand evaluated it on eleven well-studied Azure benchmark smart contracts and six popular real-worldDApp smart contracts. The experiments show thatSmConmines reasonably accurate specifications that canbe used to facilitate DApp understanding and development in terms of document maintenance and test suite improvement.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# 二重空間における混合状態の対称性保護位相

Symmetry Protected Topological Phases of Mixed States in the Doubled Space ( http://arxiv.org/abs/2403.13280v1 )

ライセンス: Link先を確認
Ruochen Ma, Alex Turzillo, (参考訳) 量子多体混合状態における対称性と位相の相互作用は、最近大きな関心を集めている。 純粋な状態には見られない現象では、混合状態は平均対称性を示すことができる。 本研究では、SREとSPTの一般的な概念とツールが適用されるヒルベルト空間において、スピン系の近距離絡み合い(SRE)混合状態(平均的および正確な対称性の両方によって保護される)の対称性保護位相(SPT)位相を、それらの純粋なチョイ状態を研究することによって体系的に特徴づける。 この二重空間の利点は、余分な対称性と、元の密度行列のハーミティシティと肯定性がSPT不変量をいかに制限するかに関する微妙な関係である。 それでも、二重空間の視点により、混合状態SPT(MSPT)位相の体系的な分類が得られる。 また、対称有限深さ量子チャネルにおけるMSPT不変量のロバスト性、MSPT相のバルクバウンダリ対応、および混合状態の分離性に対するMSPT不変量と対称性保護符号問題の結果についても検討する。 また,MSPT位相に加えて,平均平均SSB現象を含む混合状態の自発対称性破壊(SSB)パターンと,それらを検出する順序パラメータについて検討した。 混合状態 SSB は対称リンドブレディアン力学の応用可能性制約と関連している。

The interplay of symmetry and topology in quantum many-body mixed states has recently garnered significant interest. In a phenomenon not seen in pure states, mixed states can exhibit average symmetries -- symmetries that act on component states while leaving the ensemble invariant. In this work, we systematically characterize symmetry protected topological (SPT) phases of short-range entangled (SRE) mixed states of spin systems -- protected by both average and exact symmetries -- by studying their pure Choi states in a doubled Hilbert space, where the familiar notions and tools for SRE and SPT pure states apply. This advantage of the doubled space comes with a price: extra symmetries as well as subtleties around how hermiticity and positivity of the original density matrix constrain the possible SPT invariants. Nevertheless, the doubled space perspective allows us to obtain a systematic classification of mixed-state SPT (MSPT) phases. We also investigate the robustness of MSPT invariants under symmetric finite-depth quantum channels, the bulk-boundary correspondence for MSPT phases, and the consequences of the MSPT invariants for the separability of mixed states and the symmetry-protected sign problem. In addition to MSPT phases, we study the patterns of spontaneous symmetry breaking (SSB) of mixed states, including the phenomenon of exact-to-average SSB, and the order parameters that detect them. Mixed state SSB is related to an ingappability constraint on symmetric Lindbladian dynamics.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# AdaViPro: 大規模モデル適応のための領域ベースの適応型ビジュアルプロンプト

AdaViPro: Region-based Adaptive Visual Prompt for Large-Scale Models Adapting ( http://arxiv.org/abs/2403.13282v1 )

ライセンス: Link先を確認
Mengyu Yang, Ye Tian, Lanshan Zhang, Xiao Liang, Xuming Ran, Wendong Wang, (参考訳) 近年、プロンプトベースの手法が新しい「パラメータ効率のよい微調整」パラダイムとして登場した。 しかしながら、注目すべき結果が得られているにも関わらず、既存のプロンプトメソッドは主に‘What to add’に焦点を当て、手作業による配置に依存する‘where to add’の同じくらい重要な側面を見下ろしている。 そこで本研究では,AdaViProという領域ベースのAdaptive Visual Promptを提案し,学習プロセスにプロンプトの‘where to add’最適化を統合する。 具体的には,地域意思決定の課題として,「追加する場所」の最適化を再認識する。 推論中、AdaViProは画像全体の地域化マスクマップを生成し、0と1で構成され、各特定の領域にプロンプトを適用するか破棄するかを指定する。 そこで我々は,標準のバックプロパゲーションによるAdaViProのエンドツーエンド学習を可能にするために,Gumbel-Softmaxサンプリングを利用する。 大規模な実験により、AdaViProは事前訓練されたモデルに適応するための新しい効率性と精度のトレードオフをもたらすことが示された。

Recently, prompt-based methods have emerged as a new alternative `parameter-efficient fine-tuning' paradigm, which only fine-tunes a small number of additional parameters while keeping the original model frozen. However, despite achieving notable results, existing prompt methods mainly focus on `what to add', while overlooking the equally important aspect of `where to add', typically relying on the manually crafted placement. To this end, we propose a region-based Adaptive Visual Prompt, named AdaViPro, which integrates the `where to add' optimization of the prompt into the learning process. Specifically, we reconceptualize the `where to add' optimization as a problem of regional decision-making. During inference, AdaViPro generates a regionalized mask map for the whole image, which is composed of 0 and 1, to designate whether to apply or discard the prompt in each specific area. Therefore, we employ Gumbel-Softmax sampling to enable AdaViPro's end-to-end learning through standard back-propagation. Extensive experiments demonstrate that our AdaViPro yields new efficiency and accuracy trade-offs for adapting pre-trained models.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# 大規模分散グラフを用いた仮説テストのためのサンプリングベースフレームワーク

A Sampling-based Framework for Hypothesis Testing on Large Attributed Graphs ( http://arxiv.org/abs/2403.13286v1 )

ライセンス: Link先を確認
Yun Wang, Chrysanthi Kosyfaki, Sihem Amer-Yahia, Reynold Cheng, (参考訳) 仮説テスト(英: hypothesis testing)は、典型的には表に表されるサンプルデータから集団に関する結論を引き出す統計手法である。 現実のアプリケーションにおけるグラフ表現の普及に伴い、グラフにおける仮説テストの重要性が高まっている。 本研究では,属性グラフにおけるノード,エッジ,パス仮説を定式化する。 既存の仮説に依存しないグラフサンプリング手法に対応可能な,サンプリングベースの仮説テストフレームワークを開発した。 正確かつ効率的なサンプリングを実現するため,仮説で指定された経路を考慮に入れたm次元ランダムウォークである Path-Hypothesis-Aware SamplEr PHASE を提案する。 さらに時間効率を最適化し,PHASEoptを提案する。 実データを用いた実験では,仮説探索のための共通グラフサンプリング手法の活用と,精度と時間効率の点で仮説認識サンプリングの優位性が示された。

Hypothesis testing is a statistical method used to draw conclusions about populations from sample data, typically represented in tables. With the prevalence of graph representations in real-life applications, hypothesis testing in graphs is gaining importance. In this work, we formalize node, edge, and path hypotheses in attributed graphs. We develop a sampling-based hypothesis testing framework, which can accommodate existing hypothesis-agnostic graph sampling methods. To achieve accurate and efficient sampling, we then propose a Path-Hypothesis-Aware SamplEr, PHASE, an m- dimensional random walk that accounts for the paths specified in a hypothesis. We further optimize its time efficiency and propose PHASEopt. Experiments on real datasets demonstrate the ability of our framework to leverage common graph sampling methods for hypothesis testing, and the superiority of hypothesis-aware sampling in terms of accuracy and time efficiency.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# テキスト・ツー・3次元形状生成

Text-to-3D Shape Generation ( http://arxiv.org/abs/2403.13289v1 )

ライセンス: Link先を確認
Han-Hung Lee, Manolis Savva, Angel X. Chang, (参考訳) 近年、テキストから3Dの形状生成への関心が高まっている。 進歩の大部分は、3D表現の進歩、生成AIモデルを可能にするテキストと画像データに対する大規模な事前学習と表現学習、および差別化可能なレンダリングによって引き起こされる。 テキストから3Dの形状生成が可能な計算システムは,非専門家のユーザがテキストから直接3Dコンテンツを簡単に作成できるという,一般的な想像力を生み出している。 しかし、この問題領域にはまだ多くの制限と課題が残っている。 本報告では,テキスト・ツー・3次元形状生成による背景文献の要約を可能にする基礎技術と手法について述べる。 そこで本研究では,テキスト・ツー・3次元形状生成に関する最近の研究の体系的分類を,必要な監視データの種類に基づいて導出した。 最後に,既存のメソッドのカテゴリの制限について論じ,将来的な作業の方向性を明記する。

Recent years have seen an explosion of work and interest in text-to-3D shape generation. Much of the progress is driven by advances in 3D representations, large-scale pretraining and representation learning for text and image data enabling generative AI models, and differentiable rendering. Computational systems that can perform text-to-3D shape generation have captivated the popular imagination as they enable non-expert users to easily create 3D content directly from text. However, there are still many limitations and challenges remaining in this problem space. In this state-of-the-art report, we provide a survey of the underlying technology and methods enabling text-to-3D shape generation to summarize the background literature. We then derive a systematic categorization of recent work on text-to-3D shape generation based on the type of supervision data required. Finally, we discuss limitations of the existing categories of methods, and delineate promising directions for future work.
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# 解釈可能な知識を用いた最適ニューラルネットワークの構築

Building Optimal Neural Architectures using Interpretable Knowledge ( http://arxiv.org/abs/2403.13293v1 )

ライセンス: Link先を確認
Keith G. Mills, Fred X. Han, Mohammad Salameh, Shengyao Lu, Chunhua Zhou, Jiao He, Fengyu Sun, Di Niu, (参考訳) ニューラルネットワーク検索はコストのかかるプラクティスです。 検索空間が設計上の選択肢の多様さにまたがる可能性があるという事実は、アーキテクチャ評価が非自明なオーバヘッドを取ることで、アルゴリズムが候補ネットワークを十分に探索することが難しくなる。 本稿では,運用モジュールとアーキテクチャモジュールの潜伏した埋め込みと,それらが出現するアーキテクチャの地味な性能を整合させる手法であるAutoBuildを提案する。 これによりAutoBuildは、個々の操作機能やより大きなマクロ操作シーケンスなどのアーキテクチャモジュールに解釈可能な重要度スコアを割り当てることが可能になる。 現状のイメージ分類、セグメンテーション、安定拡散モデルで実施された実験を通じて、比較的小さな評価されたアーキテクチャをマイニングすることで、AutoBuildは、高品質なアーキテクチャを直接構築するか、関連する領域にフォーカスするために検索スペースを削減し、元のラベル付きアーキテクチャと検索ベースラインで見つかったアーキテクチャよりも優れたアーキテクチャを見つけることができることを示す。 https://github.com/Ascend-Research/AutoBuildで公開されているコード

Neural Architecture Search is a costly practice. The fact that a search space can span a vast number of design choices with each architecture evaluation taking nontrivial overhead makes it hard for an algorithm to sufficiently explore candidate networks. In this paper, we propose AutoBuild, a scheme which learns to align the latent embeddings of operations and architecture modules with the ground-truth performance of the architectures they appear in. By doing so, AutoBuild is capable of assigning interpretable importance scores to architecture modules, such as individual operation features and larger macro operation sequences such that high-performance neural networks can be constructed without any need for search. Through experiments performed on state-of-the-art image classification, segmentation, and Stable Diffusion models, we show that by mining a relatively small set of evaluated architectures, AutoBuild can learn to build high-quality architectures directly or help to reduce search space to focus on relevant areas, finding better architectures that outperform both the original labeled ones and ones found by search baselines. Code available at https://github.com/Ascend-Research/AutoBuild
翻訳日:2024-03-21 18:07:57 公開日:2024-03-20
# 信頼できないデータベースへのプライベートアグリゲートクエリ

Private Aggregate Queries to Untrusted Databases ( http://arxiv.org/abs/2403.13296v1 )

ライセンス: Link先を確認
Syed Mahbub Hafiz, Chitrabhanu Gupta, Warren Wnuck, Brijesh Vora, Chen-Nee Chuah, (参考訳) プライバシを保存する暗号ツールであるプライベート情報検索(PIR)は、クライアントがアクセスするデータベースアイテムを隠すことで、この問題の簡易バージョンを解決する。 ほとんどのPIRプロトコルは、クライアントが意図したデータベースアイテムの正確な行インデックスを知る必要がある。 PIRの分野での作業にはキーワード検索とSQLライクなクエリが含まれるが、ほとんどの場合、PIRクライアントとPIRサーバ間の複数のインタラクションが必要である。 一部のスキームはSQLライクな表現型クエリを1ラウンドで検索するが、集約型クエリを有効にすることができない。 これらのスキームが本論文の主な焦点である。 このギャップを埋めるために、我々は、ユーザが集約された結果を取得し、ホスティングPIRサーバから複雑なクエリのすべてのセンシティブなセクションを1ラウンドのインタラクションで隠蔽する、汎用的な新しい情報理論PIR(IT-PIR)フレームワークを構築した。 言い換えれば、サーバはどのレコードがアグリゲーションに寄与しているかを知らない。 次に、ベンチマークと実世界のアプリケーション設定の両方において、プロトコルの有効性を評価します。 例えば、Twitterのツイート100万件のマイクロブログデータベースへの複雑な集約クエリでは、PIRサーバが3Kユーザの処理に興味がある場合に結果を生成するのに0.014秒かかります。 対照的に、集約ではなく位置クエリである非常に単純化されたタスクでは、ゴールドバーグの通常のIT-PIR (Oakland 2007) は1.13秒かかる。 可能なすべてのユーザハンドラ、300Kでは、通常のIT-PIRと同等な時間を要する。 この例は、我々のフレームワークによる複雑な集約クエリは、従来のクエリと比較して、追加のオーバーヘッドを発生しないことを示している。

Private information retrieval (PIR), a privacy-preserving cryptographic tool, solves a simplified version of this problem by hiding the database item that a client accesses. Most PIR protocols require the client to know the exact row index of the intended database item, which cannot support the complicated aggregation-based statistical query in a similar setting. Some works in the PIR space contain keyword searching and SQL-like queries, but most need multiple interactions between the PIR client and PIR servers. Some schemes support searching SQL-like expressive queries in a single round but fail to enable aggregate queries. These schemes are the main focus of this paper. To bridge the gap, we have built a general-purpose novel information-theoretic PIR (IT-PIR) framework that permits a user to fetch the aggregated result, hiding all sensitive sections of the complex query from the hosting PIR server in a single round of interaction. In other words, the server will not know which records contribute to the aggregation. We then evaluate the feasibility of our protocol for both benchmarking and real-world application settings. For instance, in a complex aggregate query to the Twitter microblogging database of 1 million tweets, our protocol takes 0.014 seconds for a PIR server to generate the result when the user is interested in one of 3K user handles. In contrast, for a much-simplified task, not an aggregate but a positional query, Goldberg's regular IT-PIR (Oakland 2007) takes 1.13 seconds. For all possible user handles, 300K, it takes equal time compared to the regular IT-PIR. This example shows that complicated aggregate queries through our framework do not incur additional overhead if not less, compared to the conventional query.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# 視覚変換器の回転位置埋め込み

Rotary Position Embedding for Vision Transformer ( http://arxiv.org/abs/2403.13298v1 )

ライセンス: Link先を確認
Byeongho Heo, Song Park, Dongyoon Han, Sangdoo Yun, (参考訳) RoPE(Rotary Position Embedding)は、特にトランスフォーマーの長さ外挿において、言語モデルにおいて顕著に機能する。 しかし、RoPEは視覚変換器(ViT)の性能を言語ドメインと似た方法で向上させることができるにもかかわらず、コンピュータビジョン領域に対するRoPEの影響は過小評価されている。 本研究では,2次元視覚データに対するRoPEの実践的実装を利用して,VTに適用したRoPEの包括的解析を行う。 解析の結果、RoPEは印象的な外挿性能、すなわち推論時の画像分解能を高めながら精度を維持できることが判明した。 最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。 この研究は、RoPEをViTに適用するための徹底的なガイドラインを提供し、計算オーバーヘッドを最小限に抑えたバックボーン性能の向上を約束する。 私たちのコードと事前訓練済みモデルはhttps://github.com/naver-ai/rope-vitで利用可能です。

Rotary Position Embedding (RoPE) performs remarkably on language models, especially for length extrapolation of Transformers. However, the impacts of RoPE on computer vision domains have been underexplored, even though RoPE appears capable of enhancing Vision Transformer (ViT) performance in a way similar to the language domain. This study provides a comprehensive analysis of RoPE when applied to ViTs, utilizing practical implementations of RoPE for 2D vision data. The analysis reveals that RoPE demonstrates impressive extrapolation performance, i.e., maintaining precision while increasing image resolution at inference. It eventually leads to performance improvement for ImageNet-1k, COCO detection, and ADE-20k segmentation. We believe this study provides thorough guidelines to apply RoPE into ViT, promising improved backbone performance with minimal extra computational overhead. Our code and pre-trained models are available at https://github.com/naver-ai/rope-vit
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# ニューラル演算子学習を用いた相関ゆらぎを伴うマルチスケールバブル成長ダイナミクスのブリッジスケール

Bridging scales in multiscale bubble growth dynamics with correlated fluctuations using neural operator learning ( http://arxiv.org/abs/2403.13299v1 )

ライセンス: Link先を確認
Minglei Lu, Chensen Lin, Martian Maxey, George Karniadakis, Zhen Li, (参考訳) 気泡成長ダイナミクスの複雑な過程は、気泡形成のマイクロスケール力学から、気泡と周囲の熱流体力学の間のマクロスケールの相互作用まで幅広い物理現象を含む。 従来のバブルダイナミクスモデルには、原子論的なアプローチや連続体に基づく手法があり、バブルダイナミクスを異なるスケール固有のモデルに分割する。 マイクロスケール確率流体モデルとバブルダイナミクスの連続流体モデルとのギャップを埋めるため,多体分散粒子動力学モデル(mDPD)と連続体分散粒子動力学モデル(RP)モデルを,圧力変動を受ける気泡成長の平均挙動を学習するディープオペレータネットワークと,マイクロスケールバブルダイナミクスの変動変動の統計的特徴を学習する長期記憶ネットワークとを融合させることにより,マイクロスケールおよびマクロスケールレジームにおける非線形気泡ダイナミクスの解析を統一する複合ニューラルオペレーターモデルを開発した。 トレーニングデータと試験データは, 0.1マイクロメートルから1.5マイクロメートルの範囲で, 非線形気泡動特性のmDPDおよびRPシミュレーションにより生成する。 以上の結果から, トレーニングされた複合型ニューラルオペレーターモデルでは, 気泡半径の時間的評価を外部圧力で精度99%の精度で精度よく予測でき, マイクロスケールバブル成長ダイナミックスでは, 形状依存性の確率的ゆらぎを正確に含んでいることがわかった。 複合型ニューラルネットワークは, 微視的流体現象の正確な確率的変動を捉えることのできる, マルチスケールバブル成長ダイナミクスのための最初の深層学習サロゲートであり, マルチスケール流体力学モデリングにおける新たな研究の方向性を定めている。

The intricate process of bubble growth dynamics involves a broad spectrum of physical phenomena from microscale mechanics of bubble formation to macroscale interplay between bubbles and surrounding thermo-hydrodynamics. Traditional bubble dynamics models including atomistic approaches and continuum-based methods segment the bubble dynamics into distinct scale-specific models. In order to bridge the gap between microscale stochastic fluid models and continuum-based fluid models for bubble dynamics, we develop a composite neural operator model to unify the analysis of nonlinear bubble dynamics across microscale and macroscale regimes by integrating a many-body dissipative particle dynamics (mDPD) model with a continuum-based Rayleigh-Plesset (RP) model through a novel neural network architecture, which consists of a deep operator network for learning the mean behavior of bubble growth subject to pressure variations and a long short-term memory network for learning the statistical features of correlated fluctuations in microscale bubble dynamics. Training and testing data are generated by conducting mDPD and RP simulations for nonlinear bubble dynamics with initial bubble radii ranging from 0.1 to 1.5 micrometers. Results show that the trained composite neural operator model can accurately predict bubble dynamics across scales, with a 99% accuracy for the time evaluation of the bubble radius under varying external pressure while containing correct size-dependent stochastic fluctuations in microscale bubble growth dynamics. The composite neural operator is the first deep learning surrogate for multiscale bubble growth dynamics that can capture correct stochastic fluctuations in microscopic fluid phenomena, which sets a new direction for future research in multiscale fluid dynamics modeling.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# Kernel Multigrid: スパースガウスプロセス回帰によるバックフィッティングの高速化

Kernel Multigrid: Accelerate Back-fitting via Sparse Gaussian Process Regression ( http://arxiv.org/abs/2403.13300v1 )

ライセンス: Link先を確認
Lu Zou, Liang Ding, (参考訳) 加法ガウス過程(GP)は非パラメトリックな特徴選択のための一般的なアプローチである。 これらのモデルの一般的な訓練方法はベイズバックフィッティングである。 しかし、加法GPのトレーニングにおけるバックフィッティングの収束率は依然として未解決の問題である。 Kernel Packets (KP) と呼ばれる手法を利用することで、バックフィッティングの収束速度が 1-\mathcal{O}(\frac{1}{n}))^t$ よりも高速であることを証明する。 したがって、バックフィッティングは収束を達成するために$\mathcal{O}(n\log n)$イテレーションを最小限にする必要がある。 さらに,KPをベースとしたKernel Multigrid (KMG)アルゴリズムを提案する。 このアルゴリズムは、粗いガウスプロセス回帰(GPR)を組み込むことでバックフィッティングを強化し、バックフィッティングのイテレーションごとに残余を処理する。 これは、構造化データと散乱データの両方を持つ加法的GPに適用できる。 理論的には、KMG は所要の反復を $\mathcal{O}(\log n)$ に減らし、それぞれ $\mathcal{O}(n\log n)$ と $\mathcal{O}(n)$ で時間と空間の複雑さを保存することを証明している。 数値的には、わずか10個の誘導点を持つスパースGPRを用いることで、KMGは5回の反復で高次元目標の正確な近似を生成することができる。

Additive Gaussian Processes (GPs) are popular approaches for nonparametric feature selection. The common training method for these models is Bayesian Back-fitting. However, the convergence rate of Back-fitting in training additive GPs is still an open problem. By utilizing a technique called Kernel Packets (KP), we prove that the convergence rate of Back-fitting is no faster than $(1-\mathcal{O}(\frac{1}{n}))^t$, where $n$ and $t$ denote the data size and the iteration number, respectively. Consequently, Back-fitting requires a minimum of $\mathcal{O}(n\log n)$ iterations to achieve convergence. Based on KPs, we further propose an algorithm called Kernel Multigrid (KMG). This algorithm enhances Back-fitting by incorporating a sparse Gaussian Process Regression (GPR) to process the residuals subsequent to each Back-fitting iteration. It is applicable to additive GPs with both structured and scattered data. Theoretically, we prove that KMG reduces the required iterations to $\mathcal{O}(\log n)$ while preserving the time and space complexities at $\mathcal{O}(n\log n)$ and $\mathcal{O}(n)$ per iteration, respectively. Numerically, by employing a sparse GPR with merely 10 inducing points, KMG can produce accurate approximations of high-dimensional targets within 5 iterations.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# ユーザの心を読む:LLMに基づく共感的メンタル推論の検討

Reading Users' Minds from What They Say: An Investigation into LLM-based Empathic Mental Inference ( http://arxiv.org/abs/2403.13301v1 )

ライセンス: Link先を確認
Qihao Zhu, Leah Chong, Maria Yang, Jianxi Luo, (参考訳) 人間中心設計において、ユーザー体験の包括的で深い理解、すなわち共感的理解は、本当に人間のニーズを満たす製品を設計するための最重要課題である。 それでも、大きな人間の心の状態を正確に理解することは、今日でも重要な課題である。 この困難は、主にユーザー体験研究の深さと規模の間のトレードオフから生じ、少数のユーザーグループから深い洞察を得ることは、より広い人口に容易にはスケールできない。 本稿では,大規模言語モデル(LLM)を用いて精神推論を行い,特にユーザの基本的目標と基礎的心理的ニーズ(FPN)を推定する。 ベースラインとベンチマークデータセットを人やデザイナーから収集し,LLMの精神的推論性能を測定するための共感的精度指標を開発した。 異なるゼロショットプロンプト技術を用いた異なるLDMの目標推定とFPNの共感的精度を,人間設計者に対して実験した。 実験結果から,LLMは人間の設計に匹敵する性能を持つユーザの基本的な目標やFPNを推測し,理解することができることが示唆された。 この研究は、人間中心の設計においてデザイナが利用できるツールキットを著しく強化する可能性があり、ユーザ体験の大規模かつ詳細な理解の開発を可能にする。

In human-centered design, developing a comprehensive and in-depth understanding of user experiences, i.e., empathic understanding, is paramount for designing products that truly meet human needs. Nevertheless, accurately comprehending the real underlying mental states of a large human population remains a significant challenge today. This difficulty mainly arises from the trade-off between depth and scale of user experience research: gaining in-depth insights from a small group of users does not easily scale to a larger population, and vice versa. This paper investigates the use of Large Language Models (LLMs) for performing mental inference tasks, specifically inferring users' underlying goals and fundamental psychological needs (FPNs). Baseline and benchmark datasets were collected from human users and designers to develop an empathic accuracy metric for measuring the mental inference performance of LLMs. The empathic accuracy of inferring goals and FPNs of different LLMs with varied zero-shot prompt engineering techniques are experimented against that of human designers. Experimental results suggest that LLMs can infer and understand the underlying goals and FPNs of users with performance comparable to that of human designers, suggesting a promising avenue for enhancing the scalability of empathic design approaches through the integration of advanced artificial intelligence technologies. This work has the potential to significantly augment the toolkit available to designers during human-centered design, enabling the development of both large-scale and in-depth understanding of users' experiences.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# DetDiffusion:データ生成と知覚の強化のための生成モデルと知覚モデルの統合

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception ( http://arxiv.org/abs/2403.13304v1 )

ライセンス: Link先を確認
Yibo Wang, Ruiyuan Gao, Kai Chen, Kaiqiang Zhou, Yingjie Cai, Lanqing Hong, Zhenguo Li, Lihui Jiang, Dit-Yan Yeung, Qiang Xu, Kai Zhang, (参考訳) 現在の知覚モデルはリソース集約的なデータセットに大きく依存しており、革新的なソリューションの必要性を喚起している。 近年の拡散モデル、合成データを活用することで、様々なアノテーションから画像入力を構築することで、下流タスクに有益であることが証明されている。 従来の手法は生成モデルと知覚モデルに別々に対応しているが、DetDiffusionは初めて両者を調和させ、知覚モデルに効果的なデータを生成する上での課題に取り組む。 知覚モデルによる画像生成を向上させるため,セグメンテーションによる知覚認識損失(P.A.損失)を導入し,品質と制御性の両方を改善した。 特定の知覚モデルの性能を高めるため,本手法は生成中の知覚認識属性(P.A. Attr)を抽出し,活用することにより,データ拡張をカスタマイズする。 オブジェクト検出タスクによる実験結果では、DetDiffusionの優れたパフォーマンスが強調され、レイアウト誘導生成における新しい最先端が確立された。 さらに、DetDiffusionの画像合成は、トレーニングデータを効果的に増強し、下流検出性能を大幅に向上させることができる。

Current perceptive models heavily depend on resource-intensive datasets, prompting the need for innovative solutions. Leveraging recent advances in diffusion models, synthetic data, by constructing image inputs from various annotations, proves beneficial for downstream tasks. While prior methods have separately addressed generative and perceptive models, DetDiffusion, for the first time, harmonizes both, tackling the challenges in generating effective data for perceptive models. To enhance image generation with perceptive models, we introduce perception-aware loss (P.A. loss) through segmentation, improving both quality and controllability. To boost the performance of specific perceptive models, our method customizes data augmentation by extracting and utilizing perception-aware attribute (P.A. Attr) during generation. Experimental results from the object detection task highlight DetDiffusion's superior performance, establishing a new state-of-the-art in layout-guided generation. Furthermore, image syntheses from DetDiffusion can effectively augment training data, significantly enhancing downstream detection performance.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# LaserHuman:自由環境における言語誘導型シーン認識ヒューマンモーション生成

LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment ( http://arxiv.org/abs/2403.13307v1 )

ライセンス: Link先を確認
Peishan Cong, Ziyi WangZhiyang Dou, Yiming Ren, Wei Yin, Kai Cheng, Yujing Sun, Xiaoxiao Long, Xinge Zhu, Yuexin Ma, (参考訳) 言語誘導型シーン認識ヒューマンモーション生成は,エンターテイメントやロボット工学において非常に重要である。 既存のデータセットの制限に対応するために、Scene-Text-to-Motion研究に革命をもたらすために設計された、先駆的なデータセットであるLaserHumanを紹介します。 LaserHumanは、本物の人間の動きを3D環境に含め、自由形式の自然言語記述、屋内と屋外のシナリオのブレンド、ダイナミックで絶え間なく変化するシーンを取り上げている。 キャプチャデータとリッチアノテーションの多種多様なモダリティは、条件付きモーション生成の研究に大きな機会をもたらし、また、現実のアプリケーションの開発を促進することができる。 さらに、意味的に一貫性があり、物理的に妥当な人間の動作を生成するために、既存のデータセット上での最先端性能を実現するために、単純だが効果的である多条件拡散モデルを提案する。

Language-guided scene-aware human motion generation has great significance for entertainment and robotics. In response to the limitations of existing datasets, we introduce LaserHuman, a pioneering dataset engineered to revolutionize Scene-Text-to-Motion research. LaserHuman stands out with its inclusion of genuine human motions within 3D environments, unbounded free-form natural language descriptions, a blend of indoor and outdoor scenarios, and dynamic, ever-changing scenes. Diverse modalities of capture data and rich annotations present great opportunities for the research of conditional motion generation, and can also facilitate the development of real-life applications. Moreover, to generate semantically consistent and physically plausible human motions, we propose a multi-conditional diffusion model, which is simple but effective, achieving state-of-the-art performance on existing datasets.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# LLMセキュリティ景観のマッピング:包括的株主リスクアセスメントの提案

Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal ( http://arxiv.org/abs/2403.13309v1 )

ライセンス: Link先を確認
Rahul Pankajakshan, Sumitra Biswal, Yuvaraj Govindarajulu, Gilad Gressel, (参考訳) 様々な分野にまたがる大規模言語モデル(LLM)の急速な統合は、テキスト生成や問題解決タスクにおいて顕著な能力を示す転換期を告げている。 しかし、この技術進歩には重大なリスクと脆弱性が伴う。 継続的なセキュリティ強化にもかかわらず、攻撃者はこれらの弱点を継続的に利用し、LLMの全体的な信頼性に疑念を抱いた。 問題を複雑にすることで、企業は潜在的な結果の深刻さを理解せずに、LLM統合システムをデプロイしています。 OWASPとMITREによる既存の研究は、脅威と脆弱性の概観を提供するが、この新しい技術に取り組んでいるセキュリティ実践者、開発者、および重要な意思決定者に対するリスクを直接的かつ簡潔に分析するための方法が欠けている。 このギャップに対処するために,従来のシステムで使用されるOWASPリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。 我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。 この分析により,サイバー攻撃の可能性を評価する。 その後、包括的脅威行列を導出するために、徹底的な影響分析を行う。 また、モデルの微調整に従事する開発者、サードパーティのAPIを利用するアプリケーション開発者、エンドユーザの3つの主要なステークホルダグループに対する脅威もマップします。 提案した脅威行列は、LCM関連リスクの全体的評価を提供し、利害関係者が効果的な緩和戦略の判断を下せるようにする。 我々の概説したプロセスは、セキュリティ実践者の行動可能で包括的なツールとして機能し、リソース管理の洞察を提供し、システム全体のセキュリティを強化します。

The rapid integration of Large Language Models (LLMs) across diverse sectors has marked a transformative era, showcasing remarkable capabilities in text generation and problem-solving tasks. However, this technological advancement is accompanied by significant risks and vulnerabilities. Despite ongoing security enhancements, attackers persistently exploit these weaknesses, casting doubts on the overall trustworthiness of LLMs. Compounding the issue, organisations are deploying LLM-integrated systems without understanding the severity of potential consequences. Existing studies by OWASP and MITRE offer a general overview of threats and vulnerabilities but lack a method for directly and succinctly analysing the risks for security practitioners, developers, and key decision-makers who are working with this novel technology. To address this gap, we propose a risk assessment process using tools like the OWASP risk rating methodology which is used for traditional systems. We conduct scenario analysis to identify potential threat agents and map the dependent system components against vulnerability factors. Through this analysis, we assess the likelihood of a cyberattack. Subsequently, we conduct a thorough impact analysis to derive a comprehensive threat matrix. We also map threats against three key stakeholder groups: developers engaged in model fine-tuning, application developers utilizing third-party APIs, and end users. The proposed threat matrix provides a holistic evaluation of LLM-related risks, enabling stakeholders to make informed decisions for effective mitigation strategies. Our outlined process serves as an actionable and comprehensive tool for security practitioners, offering insights for resource management and enhancing the overall system security.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# Mathlib4のセマンティック検索エンジン

A Semantic Search Engine for Mathlib4 ( http://arxiv.org/abs/2403.13310v1 )

ライセンス: Link先を確認
Guoxiong Gao, Haocheng Ju, Jiedong Jiang, Zihan Qin, Bin Dong, (参考訳) インタラクティブな定理証明器であるLeanは、形式的な数学的証明の検証を可能にし、拡大するコミュニティによって支えられている。 このエコシステムの中心にあるのは数学ライブラリMathlib4であり、このライブラリは拡張された数学理論の形式化の基礎を成している。 しかし、Mathlib4における定理の探索は困難である。 Mathlib4で検索を成功させるためには、ユーザはその命名規則やドキュメント文字列に精通する必要があることが多い。 そのため,mathlib4に慣れ親しんだ個人が容易に利用できるセマンティック検索エンジンを作成することが重要である。 本稿では,非公式な問合せを受け付け,関連する定理を見出すための意味検索エンジンであるMathlib4を提案する。 また,各種検索エンジンの性能評価のためのベンチマークを構築した。

The interactive theorem prover, Lean, enables the verification of formal mathematical proofs and is backed by an expanding community. Central to this ecosystem is its mathematical library, mathlib4, which lays the groundwork for the formalization of an expanding range of mathematical theories. However, searching for theorems in mathlib4 can be challenging. To successfully search in mathlib4, users often need to be familiar with its naming conventions or documentation strings. Therefore, creating a semantic search engine that can be used easily by individuals with varying familiarity with mathlib4 is very important. In this paper, we present a semantic search engine for mathlib4 that accepts informal queries and finds the relevant theorems. We also establish a benchmark for assessing the performance of various search engines for mathlib4.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# マルチロボットコネクテッド・ファーマスパイラルカバー

Multi-Robot Connected Fermat Spiral Coverage ( http://arxiv.org/abs/2403.13311v1 )

ライセンス: Link先を確認
Jingtao Tang, Hang Ma, (参考訳) 我々は,コンピュータグラフィックスコミュニティからのコネクテッド・ファーマ・スパイラル(CFS)を,初めてマルチロボット協調に適応させる,MCPP(Multi-Robot Connected Fermat Spiral)という,マルチロボット被覆パス計画(MCPP)のための新しいアルゴリズムフレームワークを紹介した。 MCFSは、複数のロボットのオーケストレーションによって、任意の形の障害物を取り巻くカバレッジパスを生成することができる。 また,作業空間を分解することなくスムーズな経路を生成することで,非ホロノミックロボットにとって重要な経路連続性と曲率の課題にも対処する。 MCFSは、MCPPのグラフを構築し、MCPPを組合せ最適化問題に変換することでMCPPを解く。 我々の貢献は、スケーラブルで適応可能なMCPPのための統一CFSバージョンの開発、コスト削減とパス継続性、滑らか性のための新しい最適化手法によるMCPPへの拡張、MCFSが既存のMCPP法をメイスパン、パス曲率、カバレッジ比、オーバーラップ比で上回ることを示す広範な実験などである。 我々の研究はMCPPにおける重要なステップであり、複雑な環境下でのマルチロボットシステムの能力向上のために、コンピュータグラフィックスと自動計画原則の融合を示すものである。 私たちのコードはhttps://github.com/reso1/MCFSで利用可能です。

We introduce the Multi-Robot Connected Fermat Spiral (MCFS), a novel algorithmic framework for Multi-Robot Coverage Path Planning (MCPP) that adapts Connected Fermat Spiral (CFS) from the computer graphics community to multi-robot coordination for the first time. MCFS uniquely enables the orchestration of multiple robots to generate coverage paths that contour around arbitrarily shaped obstacles, a feature that is notably lacking in traditional methods. Our framework not only enhances area coverage and optimizes task performance, particularly in terms of makespan, for workspaces rich in irregular obstacles but also addresses the challenges of path continuity and curvature critical for non-holonomic robots by generating smooth paths without decomposing the workspace. MCFS solves MCPP by constructing a graph of isolines and transforming MCPP into a combinatorial optimization problem, aiming to minimize the makespan while covering all vertices. Our contributions include developing a unified CFS version for scalable and adaptable MCPP, extending it to MCPP with novel optimization techniques for cost reduction and path continuity and smoothness, and demonstrating through extensive experiments that MCFS outperforms existing MCPP methods in makespan, path curvature, coverage ratio, and overlapping ratio. Our research marks a significant step in MCPP, showcasing the fusion of computer graphics and automated planning principles to advance the capabilities of multi-robot systems in complex environments. Our code is available at https://github.com/reso1/MCFS.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# LeanReasoner: 複雑な論理的推論をリーンで促進する

LeanReasoner: Boosting Complex Logical Reasoning with Lean ( http://arxiv.org/abs/2403.13312v1 )

ライセンス: Link先を確認
Dongwei Jiang, Marcio Fonseca, Shay B. Cohen, (参考訳) 大規模言語モデル(LLM)は、論理的不整合とそのような推論の固有の難しさのために、複雑な論理的推論に苦しむことが多い。 これらの課題に対処するために、定理実証フレームワークであるLeanを使用します。 論理的推論問題をリーン内の定理にフォーマルにすることで、対応する定理を証明または証明することで、それらを解決することができる。 この方法は、リーンのシンボリック・ソルバの助けを借りて、論理的不整合のリスクを低減する。 また、Leanの広範な定理証明ライブラリを使うことで、複雑な推論タスクを扱う能力も向上します。 提案手法は,FOLIOデータセット上での最先端性能を実現し,ProofWriterのこのレベルに近い性能を実現する。 特に、これらの結果はデータセットごとに100個未満のドメインサンプルを微調整することで達成された。

Large language models (LLMs) often struggle with complex logical reasoning due to logical inconsistencies and the inherent difficulty of such reasoning. We use Lean, a theorem proving framework, to address these challenges. By formalizing logical reasoning problems into theorems within Lean, we can solve them by proving or disproving the corresponding theorems. This method reduces the risk of logical inconsistencies with the help of Lean's symbolic solver. It also enhances our ability to treat complex reasoning tasks by using Lean's extensive library of theorem proofs. Our method achieves state-of-the-art performance on the FOLIO dataset and achieves performance near this level on ProofWriter. Notably, these results were accomplished by fine-tuning on fewer than 100 in-domain samples for each dataset.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# Polaris: 医療のための安全性を重視したLLMコンステレーションアーキテクチャ

Polaris: A Safety-focused LLM Constellation Architecture for Healthcare ( http://arxiv.org/abs/2403.13313v1 )

ライセンス: Link先を確認
Subhabrata Mukherjee, Paul Gamble, Markel Sanz Ausin, Neel Kant, Kriti Aggarwal, Neha Manjunath, Debajyoti Datta, Zhengliang Liu, Jiayuan Ding, Sophia Busacca, Cezanne Bianco, Swapnil Sharma, Rae Lasko, Michelle Voisard, Sanchay Harneja, Darya Filippova, Gerry Meixiong, Kevin Cha, Amir Youssefi, Meyhaa Buvanesh, Howard Weingram, Sebastian Bierman-Lytle, Harpreet Singh Mangat, Kim Parikh, Saad Godil, Alex Miller, (参考訳) 我々は、患者とAIのリアルタイム医療会話のための、最初の安全に焦点を当てたLLMコンステレーションであるPolarisを開発した。 これまでのLLMでは、質問応答などのタスクに重点を置いていたのに対して、当社では、長いマルチターン音声会話に特化しています。 本システムでは,複数のマルチビリオンパラメータLLMを協調エージェントとして構成し,対話の促進に重点を置くステートフルプライマリエージェントと,看護師が行う医療タスクに重点を置く専門的支援エージェントを用いて,安全性の向上と幻覚の低減を図る。 多様な目的のために最適化されたエージェントの反復的協調訓練のための高度なトレーニングプロトコルを開発する。 当社のモデルは、プロプライエタリなデータ、臨床ケア計画、医療規制文書、医療マニュアル、その他の医学推論文書に基づいてトレーニングします。 当社のモデルは、医療専門家のように話し、オーガニックなヘルスケアの会話を使い、患者アクターと経験豊富な看護師の間でシミュレートする。 これにより、ラプポートビルディング、信頼ビルディング、共感、ベッドサイドマナーといったユニークな機能を表現することができる。 最後に,医療用LLMシステムの総合的臨床評価について紹介する。 私たちは、1100人以上の米国ライセンス看護師と130人以上の米国ライセンスの医師を雇い、患者を装い、いくつかの手段でシステムを評価することで、システムのエンドツーエンドの会話評価を行いました。 医療安全, 臨床準備性, 会話の質, ベッドサイドの仕方など, 人の看護婦と同等に働くことを実証した。 さらに, 個別支援エージェントの課題ベース評価を行い, LLMエージェントは, より大型の汎用LLM(GPT-4)と, 中型クラス(LLaMA-2 70B)を著しく上回っていることを実証した。

We develop Polaris, the first safety-focused LLM constellation for real-time patient-AI healthcare conversations. Unlike prior LLM works in healthcare focusing on tasks like question answering, our work specifically focuses on long multi-turn voice conversations. Our one-trillion parameter constellation system is composed of several multibillion parameter LLMs as co-operative agents: a stateful primary agent that focuses on driving an engaging conversation and several specialist support agents focused on healthcare tasks performed by nurses to increase safety and reduce hallucinations. We develop a sophisticated training protocol for iterative co-training of the agents that optimize for diverse objectives. We train our models on proprietary data, clinical care plans, healthcare regulatory documents, medical manuals, and other medical reasoning documents. We align our models to speak like medical professionals, using organic healthcare conversations and simulated ones between patient actors and experienced nurses. This allows our system to express unique capabilities such as rapport building, trust building, empathy and bedside manner. Finally, we present the first comprehensive clinician evaluation of an LLM system for healthcare. We recruited over 1100 U.S. licensed nurses and over 130 U.S. licensed physicians to perform end-to-end conversational evaluations of our system by posing as patients and rating the system on several measures. We demonstrate Polaris performs on par with human nurses on aggregate across dimensions such as medical safety, clinical readiness, conversational quality, and bedside manner. Additionally, we conduct a challenging task-based evaluation of the individual specialist support agents, where we demonstrate our LLM agents significantly outperform a much larger general-purpose LLM (GPT-4) as well as from its own medium-size class (LLaMA-2 70B).
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# PuzzleVQA:抽象的な視覚パターンを持つ言語モデルのマルチモーダル推論課題の診断

PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns ( http://arxiv.org/abs/2403.13315v1 )

ライセンス: Link先を確認
Yew Ken Chia, Vernon Toh Yan Han, Deepanway Ghosal, Lidong Bing, Soujanya Poria, (参考訳) 大規模なマルチモーダルモデルは、多モーダル理解能力を統合することで、大きな言語モデルの印象的な能力を拡張します。 しかし、人間の一般的な知性と推論能力をどのようにエミュレートできるかは明らかではない。 パターン認識と抽象概念が汎用知能の鍵となるため,抽象パターンに基づくパズルの集合であるPuzzleVQAを導入する。 本データセットでは,色,数,サイズ,形状などの基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行う。 最先端の大規模マルチモーダルモデルに関する我々の実験により、単純な抽象パターンに対してうまく一般化できないことが判明した。 特に、GPT-4Vでもパズルの半分以上は解けない。 大規模マルチモーダルモデルにおける推論の課題を診断するために、視覚的知覚、帰納的推論、帰納的推論の説明を根拠として、モデルを段階的にガイドする。 系統分析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。 この作業を通じて、大規模なマルチモーダルモデルの限界と、将来的には人間の認知プロセスをよりうまくエミュレートする方法について、光を当てたいと思っています(私たちのデータとコードはhttps://github.com/declare-lab/LLM-PuzzleTestで公開されます)。

Large multimodal models extend the impressive capabilities of large language models by integrating multimodal understanding abilities. However, it is not clear how they can emulate the general intelligence and reasoning ability of humans. As recognizing patterns and abstracting concepts are key to general intelligence, we introduce PuzzleVQA, a collection of puzzles based on abstract patterns. With this dataset, we evaluate large multimodal models with abstract patterns based on fundamental concepts, including colors, numbers, sizes, and shapes. Through our experiments on state-of-the-art large multimodal models, we find that they are not able to generalize well to simple abstract patterns. Notably, even GPT-4V cannot solve more than half of the puzzles. To diagnose the reasoning challenges in large multimodal models, we progressively guide the models with our ground truth reasoning explanations for visual perception, inductive reasoning, and deductive reasoning. Our systematic analysis finds that the main bottlenecks of GPT-4V are weaker visual perception and inductive reasoning abilities. Through this work, we hope to shed light on the limitations of large multimodal models and how they can better emulate human cognitive processes in the future (Our data and code will be released publicly at https://github.com/declare-lab/LLM-PuzzleTest).
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# HyperFusion: 予測モデリングのためのタブラリおよび医用画像データのマルチモーダル統合のためのハイパーネットワークアプローチ

HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling ( http://arxiv.org/abs/2403.13319v1 )

ライセンス: Link先を確認
Daniel Duenias, Brennan Nichyporuk, Tal Arbel, Tammy Riklin Raviv, (参考訳) 医療画像や患者の電子健康記録(EHR)から得られた表型データなどの多様な臨床モダリティの統合は、現代医療の重要な側面である。 複数のソースの統合分析は、患者の状態を包括的に理解し、診断と治療の決定を強化することができる。 ディープニューラルネットワーク(DNN)は、医療領域における幅広いマルチモーダルタスクにおいて、一貫して優れたパフォーマンスを示す。 しかし、医療画像と臨床、人口統計、遺伝情報を数値表データとして効果的に融合する複雑な取り組みは、非常に活発で進行中の研究の追求である。 EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。 このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。 本研究では,2種類の脳磁気共鳴イメージング(MRI)解析課題,すなわち,被検者の性別による脳年齢予測,および表層データによる多クラスアルツハイマー病(AD)分類における本手法の強さと汎用性を実証した。 我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。 この写本に収められたコードは公開されます。

The integration of diverse clinical modalities such as medical imaging and the tabular data obtained by the patients' Electronic Health Records (EHRs) is a crucial aspect of modern healthcare. The integrative analysis of multiple sources can provide a comprehensive understanding of a patient's condition and can enhance diagnoses and treatment decisions. Deep Neural Networks (DNNs) consistently showcase outstanding performance in a wide range of multimodal tasks in the medical domain. However, the complex endeavor of effectively merging medical imaging with clinical, demographic and genetic information represented as numerical tabular data remains a highly active and ongoing research pursuit. We present a novel framework based on hypernetworks to fuse clinical imaging and tabular data by conditioning the image processing on the EHR's values and measurements. This approach aims to leverage the complementary information present in these modalities to enhance the accuracy of various medical applications. We demonstrate the strength and the generality of our method on two different brain Magnetic Resonance Imaging (MRI) analysis tasks, namely, brain age prediction conditioned by subject's sex, and multiclass Alzheimer's Disease (AD) classification conditioned by tabular data. We show that our framework outperforms both single-modality models and state-of-the-art MRI-tabular data fusion methods. The code, enclosed to this manuscript will be made publicly available.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# DD-RobustBench:データセット蒸留における逆ロバスト性ベンチマーク

DD-RobustBench: An Adversarial Robustness Benchmark for Dataset Distillation ( http://arxiv.org/abs/2403.13322v1 )

ライセンス: Link先を確認
Yifan Wu, Jiawei Du, Ping Liu, Yuewei Lin, Wenqing Cheng, Wei Xu, (参考訳) データセットの蒸留は、データセットをはるかに小さく圧縮することを目的とした高度な技術であり、予測可能なトレーニング性能を維持している。 蒸留データセットのロバスト性を見落としながら, 圧縮率の制限による評価精度向上に努力が注がれている。 本研究は,我々の知る限り,蒸留したデータセットの対角的堅牢性を統一的に評価する上で,これまでで最も広範囲なベンチマークである包括的ベンチマークを導入する。 TESLA や SRe2L などの最新の技術,多様な敵攻撃手法,そして ImageNet-1K などのより広範なデータセットコレクションを対象とした評価などを含む,より広い範囲のデータセット蒸留手法を導入することで,これまでの取り組みを大きく拡張する。 さらに,これらの蒸留データセットのPGDやAutoAttackなどの代表的な攻撃アルゴリズムに対する堅牢性を評価し,周波数の観点からそれらのレジリエンスを探求した。 また, 蒸留したデータを元のデータセットのトレーニングバッチに組み込むことで, 堅牢性の向上が期待できることがわかった。

Dataset distillation is an advanced technique aimed at compressing datasets into significantly smaller counterparts, while preserving formidable training performance. Significant efforts have been devoted to promote evaluation accuracy under limited compression ratio while overlooked the robustness of distilled dataset. In this work, we introduce a comprehensive benchmark that, to the best of our knowledge, is the most extensive to date for evaluating the adversarial robustness of distilled datasets in a unified way. Our benchmark significantly expands upon prior efforts by incorporating a wider range of dataset distillation methods, including the latest advancements such as TESLA and SRe2L, a diverse array of adversarial attack methods, and evaluations across a broader and more extensive collection of datasets such as ImageNet-1K. Moreover, we assessed the robustness of these distilled datasets against representative adversarial attack algorithms like PGD and AutoAttack, while exploring their resilience from a frequency perspective. We also discovered that incorporating distilled data into the training batches of the original dataset can yield to improvement of robustness.
翻訳日:2024-03-21 17:58:10 公開日:2024-03-20
# 大規模言語モデルを用いたピアクラスを用いたアウト・オブ・ディストリビューション検出

Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model ( http://arxiv.org/abs/2403.13324v1 )

ライセンス: Link先を確認
K Huang, G Song, Hanwen Su, Jiyan Wang, (参考訳) Out-of-distriion(OOD)検出は、現実世界のアプリケーションにデプロイされた機械学習モデルの信頼性とセキュリティを保証するための重要なタスクである。 単一モーダル情報に依存する従来のOOD検出方法は、多種多様なOODインスタンスをキャプチャするのに苦労することが多い。 OOD検出における主な困難は、入力画像が犬に対するIDデータセット(例:オオカミ)の特定のクラスと多くの類似性を持つときに生じ、モデルがそれを誤分類する。 それでも、セマンティックドメインでこれらのクラスを区別するのは簡単かもしれない。 そこで本研究では,大規模言語モデルを用いてODPCと呼ばれる新しい手法を提案し,OODピアクラスのIDセマンティクスを生成するための特定のプロンプトを,検出を容易にするための補助的モダリティとして設計する。 さらに、OODピアクラスに基づく対照的な損失は、IDクラスのコンパクトな表現を学習し、異なるクラス間の境界の明確化を改善するために考案された。 5つのベンチマークデータセットに対する広範な実験により、提案手法が最先端の結果をもたらすことを示す。

Out-of-distribution (OOD) detection is a critical task to ensure the reliability and security of machine learning models deployed in real-world applications. Conventional methods for OOD detection that rely on single-modal information, often struggle to capture the rich variety of OOD instances. The primary difficulty in OOD detection arises when an input image has numerous similarities to a particular class in the in-distribution (ID) dataset, e.g., wolf to dog, causing the model to misclassify it. Nevertheless, it may be easy to distinguish these classes in the semantic domain. To this end, in this paper, a novel method called ODPC is proposed, in which specific prompts to generate OOD peer classes of ID semantics are designed by a large language model as an auxiliary modality to facilitate detection. Moreover, a contrastive loss based on OOD peer classes is devised to learn compact representations of ID classes and improve the clarity of boundaries between different classes. The extensive experiments on five benchmark datasets show that the method we propose can yield state-of-the-art results.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# 移動体上のガウススティング:自然カメラ運動に対するブラーと転がりシャッター補償

Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion ( http://arxiv.org/abs/2403.13327v1 )

ライセンス: Link先を確認
Otto Seiskari, Jerry Ylilammi, Valtteri Kaatrasalo, Pekka Rantalankila, Matias Turkulainen, Juho Kannala, Esa Rahtu, Arno Solin, (参考訳) 高品質なシーン再構成とガウススティング(3DGS)に基づく新しいビュー合成は、通常、安定して高品質な写真を必要とするが、ハンドヘルドカメラで撮影するには実用的ではない。 本稿では,カメラの動きに適応し,動きのぼやけやローリングシャッター歪みに苦しむハンドヘルド映像データによる高品質なシーン再構成を実現する手法を提案する。 本手法は,物理画像形成過程の詳細なモデリングに基づいて,視覚慣性オドメトリー(VIO)を用いて推定した速度を利用する。 カメラポーズは、単一の画像フレームの露光時間中に非静的と見なされ、カメラポーズは再構築プロセスにおいてさらに最適化される。 スクリーン空間近似を利用して、3DGSフレームワークにローリングシャッターとモーションブラー効果を効率よく組み込む、微分可能なレンダリングパイプラインを定式化する。 合成データと実データの両方を用いて,既存の手法よりもカメラの動きを軽減し,自然条件下での3DGSを推し進めた。

High-quality scene reconstruction and novel view synthesis based on Gaussian Splatting (3DGS) typically require steady, high-quality photographs, often impractical to capture with handheld cameras. We present a method that adapts to camera motion and allows high-quality scene reconstruction with handheld video data suffering from motion blur and rolling shutter distortion. Our approach is based on detailed modelling of the physical image formation process and utilizes velocities estimated using visual-inertial odometry (VIO). Camera poses are considered non-static during the exposure time of a single image frame and camera poses are further optimized in the reconstruction process. We formulate a differentiable rendering pipeline that leverages screen space approximation to efficiently incorporate rolling-shutter and motion blur effects into the 3DGS framework. Our results with both synthetic and real data demonstrate superior performance in mitigating camera motion over existing methods, thereby advancing 3DGS in naturalistic settings.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# セマンティックガイダンスを用いたシーンテキスト画像の高分解能化

Efficient scene text image super-resolution with semantic guidance ( http://arxiv.org/abs/2403.13330v1 )

ライセンス: Link先を確認
LeoWu TomyEnrique, Xiangcheng Du, Kangliang Liu, Han Yuan, Zhao Zhou, Cheng Jin, (参考訳) シーンテキスト画像の超高解像度化により、シーンテキスト認識の精度が大幅に向上した。 しかし、既存の多くのメソッドは効率よりもパフォーマンスを重視しており、デプロイシナリオにおける軽量ソリューションの実践的な必要性を無視している。 問題に直面した当社では,リソース制限されたプラットフォームへのデプロイを容易にする,SGENetと呼ばれる効率的なフレームワークを提案する。 SGENetには、スーパーレゾリューションブランチとセマンティックガイダンスブランチの2つのブランチが含まれている。 そこで本研究では,テキスト情報の理解を高めるために,軽量な事前学習型認識器を意味抽出器として応用する。 一方,画像特徴とセマンティクスの双方向アライメントを実現するために,視覚・セマンティックアライメントモジュールを設計し,高品質な事前ガイダンスを生成する。 ベンチマークデータセットについて広範な実験を行い、提案したSGENetは計算コストを少なくして優れた性能を実現する。 コードはhttps://github.com/SijieLiu518/SGENetで入手できる。

Scene text image super-resolution has significantly improved the accuracy of scene text recognition. However, many existing methods emphasize performance over efficiency and ignore the practical need for lightweight solutions in deployment scenarios. Faced with the issues, our work proposes an efficient framework called SGENet to facilitate deployment on resource-limited platforms. SGENet contains two branches: super-resolution branch and semantic guidance branch. We apply a lightweight pre-trained recognizer as a semantic extractor to enhance the understanding of text information. Meanwhile, we design the visual-semantic alignment module to achieve bidirectional alignment between image features and semantics, resulting in the generation of highquality prior guidance. We conduct extensive experiments on benchmark dataset, and the proposed SGENet achieves excellent performance with fewer computational costs. Code is available at https://github.com/SijieLiu518/SGENet
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# AMP: 自律運転のための次のToken予測で再検討された自己回帰運動予測

AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving ( http://arxiv.org/abs/2403.13331v1 )

ライセンス: Link先を確認
Xiaosong Jia, Shaoshuai Shi, Zijun Chen, Li Jiang, Wenlong Liao, Tao He, Junchi Yan, (参考訳) 自律走行(AD)における重要な課題として、運動予測は、ナビゲーションのための周囲の物体の将来の状態を予測することを目的としている。 1つの自然な解法は、観測された時間ステップと予測された時間ステップ、すなわち自己回帰予測の両方で予測された各時間ステップが条件付けられたステップバイステップで他のエージェントの位置を推定することである。 パイオニアリングは、SocialLSTMやMFPのように、この直感に基づいてデコーダを設計する。 しかしながら、ほとんどの最先端の研究は、予測されたすべての時間ステップが観測された時間ステップ上で独立に条件付けられており、同時に全ての時間ステップの位置を生成するために単一の線形層を使用すると仮定している。 自動回帰ネットワークと比較して、MPPのトレーニングの単純さから、ほとんどの動き予測リーダーボードを支配している。 本稿では,動き予測にGPTスタイルの次のトークン予測を導入する。 このように、入力と出力は統一された空間で表現することができ、したがって自己回帰予測はより実現可能となる。 しかし、同種単位-ワードからなる言語データとは異なり、駆動シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。 そこで本稿では,情報集約と位置符号化スタイルの異なる隣り合わせの3つの分解型アテンションモジュールを用いて,空間相対性理論のための座標系間の変換を符号化し,時間相対性理論にRoPEを採用することを提案する。 提案手法は,上記の設計を取り入れることで,Waymo Open Motion および Waymo Interaction データセットの最先端性能を実現する。 特に、AMPは、提案した設計の有効性を示すMotionLMとStateTransformerの他の自動回帰動作予測手法よりも優れている。

As an essential task in autonomous driving (AD), motion prediction aims to predict the future states of surround objects for navigation. One natural solution is to estimate the position of other agents in a step-by-step manner where each predicted time-step is conditioned on both observed time-steps and previously predicted time-steps, i.e., autoregressive prediction. Pioneering works like SocialLSTM and MFP design their decoders based on this intuition. However, almost all state-of-the-art works assume that all predicted time-steps are independent conditioned on observed time-steps, where they use a single linear layer to generate positions of all time-steps simultaneously. They dominate most motion prediction leaderboards due to the simplicity of training MLPs compared to autoregressive networks. In this paper, we introduce the GPT style next token prediction into motion forecasting. In this way, the input and output could be represented in a unified space and thus the autoregressive prediction becomes more feasible. However, different from language data which is composed of homogeneous units -words, the elements in the driving scene could have complex spatial-temporal and semantic relations. To this end, we propose to adopt three factorized attention modules with different neighbors for information aggregation and different position encoding styles to capture their relations, e.g., encoding the transformation between coordinate systems for spatial relativity while adopting RoPE for temporal relativity. Empirically, by equipping with the aforementioned tailored designs, the proposed method achieves state-of-the-art performance in the Waymo Open Motion and Waymo Interaction datasets. Notably, AMP outperforms other recent autoregressive motion prediction methods: MotionLM and StateTransformer, which demonstrates the effectiveness of the proposed designs.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# Hyacinth6B: 中国語の大規模言語モデル

Hyacinth6B: A large language model for Traditional Chinese ( http://arxiv.org/abs/2403.13334v1 )

ライセンス: Link先を確認
Chih-Wei Song, Yin-Te Tsai, (参考訳) 本研究の主な動機は、LLMに関連する高いハードウェアと計算要求に対処することであり、従来の目標は、比較的軽量なモデルを用いて性能を最大化することを目的として、モデル輝度と性能のバランスを見つけることである。 Hyacinth6B はこの目的を念頭に開発され、LLM のコア機能を完全に活用し、十分なリソースコストを発生させることなく、より小さなモデルの性能の境界を効果的に推し進めた。 トレーニング手法は、LoRA法を用いてパラメータ効率の良い微調整を行う。

This research's primary motivation of this study is to address the high hardware and computational demands typically associated with LLMs.Therefore,our goal is to find a balance between model lightness and performance,striving to maximize performance while using a comparatively lightweight model. Hyacinth6B was developed with this objective in mind,aiming to fully leverage the core capabilities of LLMs without incurring substantial resource costs, effectively pushing the boundaries of smaller model's performance. The training approach involves parameter efficient finetuning using the LoRA method.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# LLMテキスト検出のための微調整変換器の適応アンサンブル

Adaptive Ensembles of Fine-Tuned Transformers for LLM-Generated Text Detection ( http://arxiv.org/abs/2403.13335v1 )

ライセンス: Link先を確認
Zhixin Lai, Xuesheng Zhang, Suiyao Chen, (参考訳) 大規模言語モデル(LLM)は、ソーシャルメディアにおける偽ニュースのような潜在的なリスクを避けるために、効果的な偽のテキスト検出の必要性を強調し、多様なテキストコンテンツを生成するための人間的な熟練度に達している。 従来の研究では、主に分散データセット上の単一モデルをテストしており、LLM生成したテキスト検出タスクのために、これらのモデルが異なるタイプのデータでどのように機能するかの理解を制限しています。 本研究は, 分布内および分布外の両方で, 5種類のトランスフォーマーモデルを用いて, 性能と一般化性の評価を行った。 その結果, 単一変圧器を用いた分類器は, 分布内データセットでは良好な性能を示したが, 分布外データセットでは限定的な一般化能力を示した。 そこで, 適応アンサンブルアルゴリズムを用いて各分類器モデルを組み合わせ, 分布内テストセットの平均精度を91.8%から99.2%, 分布外テストセットでは62.9%から72.5%に向上させた。 その結果、LLM生成テキスト検出における適応アンサンブルアルゴリズムの有効性、優れた一般化能力、および大きな可能性を示唆した。

Large language models (LLMs) have reached human-like proficiency in generating diverse textual content, underscoring the necessity for effective fake text detection to avoid potential risks such as fake news in social media. Previous research has mostly tested single models on in-distribution datasets, limiting our understanding of how these models perform on different types of data for LLM-generated text detection task. We researched this by testing five specialized transformer-based models on both in-distribution and out-of-distribution datasets to better assess their performance and generalizability. Our results revealed that single transformer-based classifiers achieved decent performance on in-distribution dataset but limited generalization ability on out-of-distribution dataset. To improve it, we combined the individual classifiers models using adaptive ensemble algorithms, which improved the average accuracy significantly from 91.8% to 99.2% on an in-distribution test set and from 62.9% to 72.5% on an out-of-distribution test set. The results indicate the effectiveness, good generalization ability, and great potential of adaptive ensemble algorithms in LLM-generated text detection.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# 不均質な低照度キャプチャーから新しいビュー合成を学ぶ

Learning Novel View Synthesis from Heterogeneous Low-light Captures ( http://arxiv.org/abs/2403.13337v1 )

ライセンス: Link先を確認
Quan Zheng, Hao Sun, Huiyao Xu, Fanjiang Xu, (参考訳) ニューラルラディアンス場は、固定された常照光の下で取得された同じ明るさの入力ビューから、新しいビュー合成において、根本的な成功を収めた。 残念なことに、新しいビューを合成することは、低照度条件下で取得した均一な輝度レベルを持つ入力ビューにとって、依然として課題である。 現実の世界では、この状態はかなり一般的です。 暗いところで細部が隠され、カメラセンサーのノイズによって画質が著しく低下する低コントラスト画像を引き起こす。 この問題に対処するために、不均一な視点で反射率が不変であるような入力ビューから照明、反射、ノイズを分解する学習法を提案する。 多視点にわたる異種輝度とノイズレベルに対処するために,照明の埋め込みを学習し,各ビューに対して個別にノイズマップを最適化する。 照明の直感的な編集を可能にするため,照明部品の明るくしたり暗くしたりするための照明調整モジュールを設計する。 総合的な実験により、この手法は低照度多視点雑音画像に対して効果的な内在分解を可能にし、最先端の手法と比較して、新しいビューを合成するための優れた視覚的品質と数値的性能を実現することが示されている。

Neural radiance field has achieved fundamental success in novel view synthesis from input views with the same brightness level captured under fixed normal lighting. Unfortunately, synthesizing novel views remains to be a challenge for input views with heterogeneous brightness level captured under low-light condition. The condition is pretty common in the real world. It causes low-contrast images where details are concealed in the darkness and camera sensor noise significantly degrades the image quality. To tackle this problem, we propose to learn to decompose illumination, reflectance, and noise from input views according to that reflectance remains invariant across heterogeneous views. To cope with heterogeneous brightness and noise levels across multi-views, we learn an illumination embedding and optimize a noise map individually for each view. To allow intuitive editing of the illumination, we design an illumination adjustment module to enable either brightening or darkening of the illumination component. Comprehensive experiments demonstrate that this approach enables effective intrinsic decomposition for low-light multi-view noisy images and achieves superior visual quality and numerical performance for synthesizing novel views compared to state-of-the-art methods.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# T1-MRIを用いた脳ネットワークを用いた認知障害変換予測のための適応的クリティカルサブグラフマイニング

Adaptive Critical Subgraph Mining for Cognitive Impairment Conversion Prediction with T1-MRI-based Brain Network ( http://arxiv.org/abs/2403.13338v1 )

ライセンス: Link先を確認
Yilin Leng, Wenju Cui, Bai Chen, Xi Jiang, Shuangqing Chen, Jian Zheng, (参考訳) 早期認知症への転換を予測することは、その進行を緩和するために重要であるが、微妙な認知障害と構造的脳の変化のために依然として困難である。 従来のT1-weighted magnetic resonance imaging (T1-MRI)研究は、脳萎縮領域の同定に重点を置いているが、しばしばそれらの間の複雑な接続に対処できない。 この制限は、脳の複雑なネットワークを包括的に理解するために、地域間接続の必要性を浮き彫りにする。 さらに、重要な情報を適応的に保存し、抽出する手法、特に脳ネットワークのための特殊なサブグラフマイニング技術への需要が高まっている。 これらは、構造的脳の変化とそのトポロジーの重要な空間的影響を明らかにする、高品質な特徴表現を開発するために不可欠である。 本稿では,T1-MRIに基づく重要な部分グラフをマイニングし,拡張する新しいグラフ表現ネットワークであるBrain-SubGNNを提案する。 このネットワークはサブグラフレベルの解釈を提供し、グラフ解析の解釈可能性と洞察を高める。 このプロセスは、ノードの特徴とノード間の相関行列を抽出してタスク指向の脳ネットワークを構築することから始まります。 Brain-SubGNNは、臨界部分グラフを適応的に識別し、拡張し、ループと隣接部分グラフの両方をキャプチャする。 この方法は、ループトポロジと局所的な変化を反映し、長距離接続を示し、局所的および大域的な脳特性を維持する。 広範囲にわたる実験は、脳-サブGNNの有効性と利点を検証し、早期認知症を理解し診断するための強力なツールとしての可能性を示している。 ソースコードはhttps://github.com/Leng-10/Brain-SubGNNで入手できる。

Prediction the conversion to early-stage dementia is critical for mitigating its progression but remains challenging due to subtle cognitive impairments and structural brain changes. Traditional T1-weighted magnetic resonance imaging (T1-MRI) research focus on identifying brain atrophy regions but often fails to address the intricate connectivity between them. This limitation underscores the necessity of focuing on inter-regional connectivity for a comprehensive understand of the brain's complex network. Moreover, there is a pressing demand for methods that adaptively preserve and extract critical information, particularly specialized subgraph mining techniques for brain networks. These are essential for developing high-quality feature representations that reveal critical spatial impacts of structural brain changes and its topology. In this paper, we propose Brain-SubGNN, a novel graph representation network to mine and enhance critical subgraphs based on T1-MRI. This network provides a subgraph-level interpretation, enhancing interpretability and insights for graph analysis. The process begins by extracting node features and a correlation matrix between nodes to construct a task-oriented brain network. Brain-SubGNN then adaptively identifies and enhances critical subgraphs, capturing both loop and neighbor subgraphs. This method reflects the loop topology and local changes, indicative of long-range connections, and maintains local and global brain attributes. Extensive experiments validate the effectiveness and advantages of Brain-SubGNN, demonstrating its potential as a powerful tool for understanding and diagnosing early-stage dementia. Source code is available at https://github.com/Leng-10/Brain-SubGNN.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# FissionFusion:医療画像解析のための高速幾何生成と階層化

FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis ( http://arxiv.org/abs/2403.13341v1 )

ライセンス: Link先を確認
Santosh Sanjeev, Nuren Zhaksylyk, Ibrahim Almakky, Anees Ur Rehman Hashmi, Mohammad Areeb Qazi, Mohammad Yaqub, (参考訳) 十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。 モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。 しかし、これらの手法を医用画像領域に適用することは、課題に直面する。 これは主に、不均一性、ドメインシフト、クラス不均衡、トレーニングとテストフェーズ間の分散シフトなどのデータ複雑さに由来するエラー表面特性の違いによる。 この問題に対処するために,モデルのハイパーパラメータ構成に基づいて,モデルが局所的および大域的に集約される階層的なマージ手法を提案する。 さらに、ハイパーパラメータ探索において、多数のモデルをトレーニングする必要性を軽減するため、循環学習率スケジューラを用いて、重み空間におけるアグリゲーションのための複数のモデルを生成する計算効率の良い手法を提案する。 提案手法は,HAM10000データセットとCheXpertデータセットの約6%のゲインを達成しつつ,モデル生成と選択の計算コストを低く抑えながら,複数のデータセットにまたがるモデルスープングアプローチに対する大幅な改善を示す。 さらに,OODデータセットについて,モデルスープよりも優れた結果が得られる。 コードはhttps://github.com/BioMedIA-MBzuAI/FissionFusion.comで公開されている。

The scarcity of well-annotated medical datasets requires leveraging transfer learning from broader datasets like ImageNet or pre-trained models like CLIP. Model soups averages multiple fine-tuned models aiming to improve performance on In-Domain (ID) tasks and enhance robustness against Out-of-Distribution (OOD) datasets. However, applying these methods to the medical imaging domain faces challenges and results in suboptimal performance. This is primarily due to differences in error surface characteristics that stem from data complexities such as heterogeneity, domain shift, class imbalance, and distributional shifts between training and testing phases. To address this issue, we propose a hierarchical merging approach that involves local and global aggregation of models at various levels based on models' hyperparameter configurations. Furthermore, to alleviate the need for training a large number of models in the hyperparameter search, we introduce a computationally efficient method using a cyclical learning rate scheduler to produce multiple models for aggregation in the weight space. Our method demonstrates significant improvements over the model souping approach across multiple datasets (around 6% gain in HAM10000 and CheXpert datasets) while maintaining low computational costs for model generation and selection. Moreover, we achieve better results on OOD datasets than model soups. The code is available at https://github.com/BioMedIA-MBZUAI/FissionFusion.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# TiBiX:双方向X線とレポート生成のための時間情報を活用する

TiBiX: Leveraging Temporal Information for Bidirectional X-ray and Report Generation ( http://arxiv.org/abs/2403.13343v1 )

ライセンス: Link先を確認
Santosh Sanjeev, Fadillah Adamsyah Maani, Arsen Abzhanov, Vijay Ram Papineni, Ibrahim Almakky, Bartłomiej W. Papież, Mohammad Yaqub, (参考訳) 医用画像領域における視覚言語モデルの出現に伴い,(1)胸部X線(CXR)からの報告,(2)テキストやレポートからの合成スキャン生成の2つの主要な研究活動に焦点が当てられている。 マルチビューCXRを生成過程に組み込んだ研究もあるが、以前の患者スキャンや報告は一般的に無視されている。 これは必然的に重要な医療情報の流出につながり、それによって生成品質に影響を及ぼす。 そこで本研究では,TiBiX: 双方向X線とレポート生成のための時間情報を活用することを提案する。 提案手法は,従来の画像と現在のレポートから現在の画像を生成すること,および,以前の画像と現在の画像の両方に基づいて現在のレポートを生成すること,という2つの課題に対処する。 さらに、時間データに焦点を当てたMIMIC-CXRデータセットから得られた時間的ベンチマークデータセットを抽出し、リリースする。 本研究は, 従来のCXRを組み込んで, レポート生成作業におけるSOTA(State-of-the-art)の成果を実現することのメリットについて, 総合的な実験と合理化研究を行った。 さらに,SOTA画像生成によるオンパー性能を実現し,縦方向双方向CXR-to-Report生成における新たなベースラインとして機能する。 コードはhttps://github.com/BioMedIA-MBzuAI/TiBiXで公開されている。

With the emergence of vision language models in the medical imaging domain, numerous studies have focused on two dominant research activities: (1) report generation from Chest X-rays (CXR), and (2) synthetic scan generation from text or reports. Despite some research incorporating multi-view CXRs into the generative process, prior patient scans and reports have been generally disregarded. This can inadvertently lead to the leaving out of important medical information, thus affecting generation quality. To address this, we propose TiBiX: Leveraging Temporal information for Bidirectional X-ray and Report Generation. Considering previous scans, our approach facilitates bidirectional generation, primarily addressing two challenging problems: (1) generating the current image from the previous image and current report and (2) generating the current report based on both the previous and current images. Moreover, we extract and release a curated temporal benchmark dataset derived from the MIMIC-CXR dataset, which focuses on temporal data. Our comprehensive experiments and ablation studies explore the merits of incorporating prior CXRs and achieve state-of-the-art (SOTA) results on the report generation task. Furthermore, we attain on-par performance with SOTA image generation efforts, thus serving as a new baseline in longitudinal bidirectional CXR-to-report generation. The code is available at https://github.com/BioMedIA-MBZUAI/TiBiX.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# USE:ステートフルシーケンスモデルによる動的ユーザモデリング

USE: Dynamic User Modeling with Stateful Sequence Models ( http://arxiv.org/abs/2403.13344v1 )

ライセンス: Link先を確認
Zhihan Zhou, Qixiang Fang, Leonardo Neves, Francesco Barbieri, Yozen Liu, Han Liu, Maarten W. Bos, Ron Dotsch, (参考訳) ユーザエンゲージメント予測とパーソナライズドサービスにおいて、ユーザ埋め込みは重要な役割を果たす。 シーケンスモデリングの最近の進歩は、行動データからユーザ埋め込みを学習することへの関心を喚起している。 しかし、振る舞いに基づくユーザ埋め込み学習は、動的なユーザモデリングのユニークな課題に直面します。 ユーザがアプリと継続的に対話するにつれて、ユーザの最近の長期的行動パターンを考慮するために、ユーザの埋め込みを定期的に更新する必要がある。 既存の手法は、過去の行動の記憶に欠けるステートレスなシーケンスモデルに大きく依存している。 過去のデータを破棄し、最新のデータのみを使用するか、古いデータと新しいデータを共同で再処理する必要がある。 どちらのケースもかなりの計算オーバーヘッドを発生させる。 この制限に対処するために、User Stateful Embedding (USE)を紹介します。 USEはユーザ埋め込みを生成し、過去のモデル状態を格納し、将来再考することで、徹底的な再処理を必要とせずに、ユーザの進化する振る舞いを反映する。 さらに,今後のユーザ行動のより広い視野で予測することで,次世代予測の限界を超越する,未来のW行動予測という新たな学習目標を導入する。 異なる動作系列のセグメントが同一ユーザに属するかどうかを予測する対照的な学習目標である同じユーザ予測と組み合わせることで、埋め込みの特異性と代表性をさらに向上する。 静的(固定されたユーザ行動シーケンス)と動的(定期的に更新されたユーザ行動シーケンス)設定の両方で、Snapchatユーザーの行動ログを使用して、8つの下流タスクの実験を行った。 確立されたベースラインよりもUSEの優れたパフォーマンスを実証する。 その結果, 動的ユーザモデリングにおいて, 歴史的および最近のユーザ動作シーケンスをユーザ埋め込みに組み込む上で, USEの有効性と効率性を強調した。

User embeddings play a crucial role in user engagement forecasting and personalized services. Recent advances in sequence modeling have sparked interest in learning user embeddings from behavioral data. Yet behavior-based user embedding learning faces the unique challenge of dynamic user modeling. As users continuously interact with the apps, user embeddings should be periodically updated to account for users' recent and long-term behavior patterns. Existing methods highly rely on stateless sequence models that lack memory of historical behavior. They have to either discard historical data and use only the most recent data or reprocess the old and new data jointly. Both cases incur substantial computational overhead. To address this limitation, we introduce User Stateful Embedding (USE). USE generates user embeddings and reflects users' evolving behaviors without the need for exhaustive reprocessing by storing previous model states and revisiting them in the future. Furthermore, we introduce a novel training objective named future W-behavior prediction to transcend the limitations of next-token prediction by forecasting a broader horizon of upcoming user behaviors. By combining it with the Same User Prediction, a contrastive learning-based objective that predicts whether different segments of behavior sequences belong to the same user, we further improve the embeddings' distinctiveness and representativeness. We conducted experiments on 8 downstream tasks using Snapchat users' behavioral logs in both static (i.e., fixed user behavior sequences) and dynamic (i.e., periodically updated user behavior sequences) settings. We demonstrate USE's superior performance over established baselines. The results underscore USE's effectiveness and efficiency in integrating historical and recent user behavior sequences into user embeddings in dynamic user modeling.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# 秘密容量の局所近似

Local Approximation of Secrecy Capacity ( http://arxiv.org/abs/2403.13345v1 )

ライセンス: Link先を確認
Emmanouil M. Athanasakos, Nicholas Kalouptsidis, Hariprasad Manjunath, (参考訳) 本稿では、Euclidean Information Theory (EIT) を用いて、ワイヤタップチャネルを解析する。 圧縮速度と秘密保持制約を考慮した少量の情報を効率よく送信するシナリオについて検討する。 情報理論問題を線形代数問題に変換し、秘密性が達成可能な摂動確率分布を得る。 一般化固有値問題の解法により秘密容量の推定値を得るために局所近似が用いられている。

This paper uses Euclidean Information Theory (EIT) to analyze the wiretap channel. We investigate a scenario of efficiently transmitting a small amount of information subject to compression rate and secrecy constraints. We transform the information-theoretic problem into a linear algebra problem and obtain the perturbed probability distributions such that secrecy is achievable. Local approximations are being used in order to obtain an estimate of the secrecy capacity by solving a generalized eigenvalue problem.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# vid-TLDR:軽量ビデオトランスのためのフリートークンマージのトレーニング

vid-TLDR: Training Free Token merging for Light-weight Video Transformer ( http://arxiv.org/abs/2403.13347v1 )

ライセンス: Link先を確認
Joonmyung Choi, Sanghyeok Lee, Jaewon Chu, Minhyuk Choi, Hyunwoo J. Kim, (参考訳) ビデオトランスフォーマーは、より優れた表現力と柔軟性を備えた、様々なビデオ下流タスクの一般的なソリューションとなっている。 しかし、これらのビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる膨大な計算コストに悩まされている。 さらに、主な内容、例えば背景に関係のないパッチは、モデルの一般化性能を低下させる。 これらの課題に対処するために,ビデオトランスフォーマーの効率向上を目的とした軽量ビデオトランスフォーマー(vid-TLDR)の学習自由トークンマージを提案する。 vid-TLDRでは,アテンションマップのみを用いて映像中の有能な領域をキャプチャする手法を提案する。 さらに,背景トークンをドロップし,オブジェクトスコアをシャープすることで,サリエンシ対応トークンマージ戦略を導入する。 実験の結果, vid-TLDR はビデオトランスフォーマーの計算複雑性を著しく軽減する一方で, vid-TLDR を含まないベースモデルと比較して競争性能が向上することがわかった。 コードはhttps://github.com/mlvlab/vid-TLDRで入手できる。

Video Transformers have become the prevalent solution for various video downstream tasks with superior expressive power and flexibility. However, these video transformers suffer from heavy computational costs induced by the massive number of tokens across the entire video frames, which has been the major barrier to training the model. Further, the patches irrelevant to the main contents, e.g., backgrounds, degrade the generalization performance of models. To tackle these issues, we propose training free token merging for lightweight video Transformer (vid-TLDR) that aims to enhance the efficiency of video Transformers by merging the background tokens without additional training. For vid-TLDR, we introduce a novel approach to capture the salient regions in videos only with the attention map. Further, we introduce the saliency-aware token merging strategy by dropping the background tokens and sharpening the object scores. Our experiments show that vid-TLDR significantly mitigates the computational complexity of video Transformers while achieving competitive performance compared to the base model without vid-TLDR. Code is available at https://github.com/mlvlab/vid-TLDR.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# 統一異常検出のための階層型ガウス混合流れの正規化

Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection ( http://arxiv.org/abs/2403.13349v1 )

ライセンス: Link先を確認
Xincheng Yao, Ruoqi Li, Zefeng Qian, Lu Wang, Chongyang Zhang, (参考訳) 統一異常検出(AD: Unified Anomaly Detection)は、複数のクラスからの正常なサンプルを用いて1つの統一モデルが訓練され、これらのクラスにおける異常を検出することを目的とした、異常検出の最も難しい課題の1つである。 このような課題に対して、一般的な正規化フロー(NF)ベースのAD手法は、「均一なマッピング」問題に陥りうる。 本稿では,HGADと呼ばれる一貫した異常検出を実現するための,階層型ガウス混合正規化フローモデリング手法を提案する。 我々のHGADは,クラス間ガウス混合モデリングとクラス内混合クラスセンター学習の2つの重要な構成要素から構成されている。 従来のNFベースのAD法と比較して、階層的なガウス混合モデリングアプローチは、正規化フローの潜在空間により強力な表現能力をもたらすことができるため、複雑な多クラス分布であっても、潜在空間において適切に表現し、学習することができる。 このようにして、異なるクラス分布を同じ単一のガウス分布にマッピングすることを避け、「均一写像」問題を効果的に回避または緩和することができる。 さらに、より区別可能な異なるクラスセンタが、バイアス問題を避けるためにより導出的であることも示します。 そこで本稿では,潜在特徴空間をよりよく構築するための相互情報最大化損失を提案する。 提案手法を4つの実世界のADベンチマークで評価し,従来のNFベースのAD手法を大幅に改善し,SOTA統合AD手法よりも優れていることを示す。

Unified anomaly detection (AD) is one of the most challenges for anomaly detection, where one unified model is trained with normal samples from multiple classes with the objective to detect anomalies in these classes. For such a challenging task, popular normalizing flow (NF) based AD methods may fall into a "homogeneous mapping" issue,where the NF-based AD models are biased to generate similar latent representations for both normal and abnormal features, and thereby lead to a high missing rate of anomalies. In this paper, we propose a novel Hierarchical Gaussian mixture normalizing flow modeling method for accomplishing unified Anomaly Detection, which we call HGAD. Our HGAD consists of two key components: inter-class Gaussian mixture modeling and intra-class mixed class centers learning. Compared to the previous NF-based AD methods, the hierarchical Gaussian mixture modeling approach can bring stronger representation capability to the latent space of normalizing flows, so that even complex multi-class distribution can be well represented and learned in the latent space. In this way, we can avoid mapping different class distributions into the same single Gaussian prior, thus effectively avoiding or mitigating the "homogeneous mapping" issue. We further indicate that the more distinguishable different class centers, the more conducive to avoiding the bias issue. Thus, we further propose a mutual information maximization loss for better structuring the latent feature space. We evaluate our method on four real-world AD benchmarks, where we can significantly improve the previous NF-based AD methods and also outperform the SOTA unified AD methods.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# OrthCaps: スパースアテンションルーティングとプルーニングを備えた直交型CapsNet

OrthCaps: An Orthogonal CapsNet with Sparse Attention Routing and Pruning ( http://arxiv.org/abs/2403.13351v1 )

ライセンス: Link先を確認
Xinyu Geng, Jiaming Wang, Jiawei Gong, Yuerong Xue, Jun Xu, Fanglin Chen, Xiaolin Huang, (参考訳) 冗長性はCapsule Networks(CapsNet)において永続的な課題であり、高い計算コストとパラメータ数をもたらす。 以前の研究では、初期カプセル層の後にプルーニングを導入したが、動的ルーティングの完全な結合性と非直交重量行列はより深い層の冗長性を再導入した。 さらに、動的ルーティングは収束するために反復を必要とし、さらに計算要求が増加する。 本稿では,冗長性を低減し,ルーティング性能を向上し,パラメータ数を削減できるOrthogonal Capsule Network(OrthCaps)を提案する。 第一に、冗長カプセルを廃棄するために効率的なプルーニングカプセル層が導入された。 第二に、動的ルーティングは直交スパースアテンションルーティングに置き換えられ、イテレーションや完全に接続された構造を必要としない。 最後に、ルーティング中の重量行列は、我々が知る限りCapsNetに直交性を導入する最初のアプローチである低カプセル類似性を維持するために直交化される。 分類タスクにおけるOrthCapsの効率性とロバスト性を確認し,各コンポーネントの臨界度をアブレーション研究により検証した。 注目すべきなのは、OrthCaps-Shallowは他のCapsule Networkベンチマークを4つのデータセットで上回り、110kパラメータしか利用していないことだ。 我々の知る限り、既存のカプセルネットワークの中で最小のパラメータ数を達成する。 同様に、OrthCaps-Deepは、4つのデータセット間での競合性能を示し、そのデータセットに必要なパラメータの1.2%しか利用していない。

Redundancy is a persistent challenge in Capsule Networks (CapsNet),leading to high computational costs and parameter counts. Although previous works have introduced pruning after the initial capsule layer, dynamic routing's fully connected nature and non-orthogonal weight matrices reintroduce redundancy in deeper layers. Besides, dynamic routing requires iterating to converge, further increasing computational demands. In this paper, we propose an Orthogonal Capsule Network (OrthCaps) to reduce redundancy, improve routing performance and decrease parameter counts. Firstly, an efficient pruned capsule layer is introduced to discard redundant capsules. Secondly, dynamic routing is replaced with orthogonal sparse attention routing, eliminating the need for iterations and fully connected structures. Lastly, weight matrices during routing are orthogonalized to sustain low capsule similarity, which is the first approach to introduce orthogonality into CapsNet as far as we know. Our experiments on baseline datasets affirm the efficiency and robustness of OrthCaps in classification tasks, in which ablation studies validate the criticality of each component. Remarkably, OrthCaps-Shallow outperforms other Capsule Network benchmarks on four datasets, utilizing only 110k parameters, which is a mere 1.25% of a standard Capsule Network's total. To the best of our knowledge, it achieves the smallest parameter count among existing Capsule Networks. Similarly, OrthCaps-Deep demonstrates competitive performance across four datasets, utilizing only 1.2% of the parameters required by its counterparts.
翻訳日:2024-03-21 17:48:13 公開日:2024-03-20
# AGFSync: テキスト・画像生成におけるAI生成フィードバックの活用

AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation ( http://arxiv.org/abs/2403.13352v1 )

ライセンス: Link先を確認
Jingkun An, Yinghao Zhu, Zongjian Li, Haoran Feng, Bohua Chen, Yemin Shi, Chengwei Pan, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは画像生成において顕著な成功を収めた。 彼らの進歩にもかかわらず、課題は、これらのモデルを洗練するのに不可欠な、迅速なフォロー能力、画質、高品質なデータセットの欠如の両方に留まっている。 ラベル付きデータの取得にはコストがかかるため、AI駆動のアプローチでDPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークであるAGFSyncを導入する。 AGFSyncは、VLM(Vision-Language Models)を使用して、スタイル、コヒーレンス、美学にわたる画像品質を評価し、AI駆動ループ内でフィードバックデータを生成する。 AGFSyncをSD v1.4、v1.5、SDXLといった主要なT2Iモデルに適用することにより、TIFAデータセットの広範な実験により、VQAスコア、審美評価、HPSv2ベンチマークのパフォーマンスが大幅に向上し、ベースモデルを上回った。 AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。

Text-to-Image (T2I) diffusion models have achieved remarkable success in image generation. Despite their progress, challenges remain in both prompt-following ability, image quality and lack of high-quality datasets, which are essential for refining these models. As acquiring labeled data is costly, we introduce AGFSync, a framework that enhances T2I diffusion models through Direct Preference Optimization (DPO) in a fully AI-driven approach. AGFSync utilizes Vision-Language Models (VLM) to assess image quality across style, coherence, and aesthetics, generating feedback data within an AI-driven loop. By applying AGFSync to leading T2I models such as SD v1.4, v1.5, and SDXL, our extensive experiments on the TIFA dataset demonstrate notable improvements in VQA scores, aesthetic evaluations, and performance on the HPSv2 benchmark, consistently outperforming the base models. AGFSync's method of refining T2I diffusion models paves the way for scalable alignment techniques.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# 2次元強磁性体間の双極子-双極子相互作用による絡み合い

Dipole-dipole-interaction-induced entanglement between two-dimensional ferromagnets ( http://arxiv.org/abs/2403.13354v1 )

ライセンス: Link先を確認
Dennis Wuhrer, Niklas Rohling, Wolfgang Belzig, (参考訳) 本研究では,2つの遠方強磁性体を絡み合わせる手段としての双極子-双極子相互作用の実現可能性について検討する。 この目的のために、ボゴリューボフ変換をシンプレクティック変換として利用する。 均一なマグノンモードの結合は,ハイブリッド化,1モード,2モードのスクイーズという観点から解釈した4つのスクイーズパラメータを用いて表現できることを示す。 対数ネガティビティを絡み合い尺度として用いたマグノン基底状態における絡み合いの解析式を得るために,スキューズパラメータの展開を利用する。 我々の研究は、無限大の2次元強磁性体の場合、双極子-双極子相互作用が大きな長距離絡みに繋がらないことを予測している。 しかし、有限強磁性体の場合、有限絡みが期待できる。

We investigate the viability of dipole-dipole interaction as a means of entangling two distant ferromagnets. To this end we make use of the Bogoliubov transformation as a symplectic transformation. We show that the coupling of the uniform magnon modes can be expressed using four squeezing parameters which we interpret in terms of hybridization, one-mode and two-mode squeezing. We utilize the expansion in terms of the squeezing parameters to obtain an analytic formula for the entanglement in the magnon ground state using the logarithmic negativity as entanglement measure. Our investigation predicts that for infinitely large two-dimensional ferromagnets, the dipole-dipole interaction does not lead to significant long-range entanglement. However, in the case of finite ferromagnets, finite entanglement can be expected
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# BadEdit: モデル編集による大規模言語モデルのバックドア化

BadEdit: Backdooring large language models by model editing ( http://arxiv.org/abs/2403.13355v1 )

ライセンス: Link先を確認
Yanzhou Li, Tianlin Li, Kangjie Chen, Jian Zhang, Shangqing Liu, Wenhan Wang, Tianwei Zhang, Yang Liu, (参考訳) メインストリームのバックドア攻撃法は、典型的には、有毒化のための実質的なチューニングデータを必要とし、実用性を制限し、大規模言語モデル(LLM)に適用した場合の全体的な性能を低下させる可能性がある。 これらの問題に対処するために、バックドアインジェクションを軽量な知識編集問題として初めて定式化し、BadEdit攻撃フレームワークを導入する。 BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。 1)実践性: BadEditは、注入のための最小限のデータセットだけを必要とする(15のサンプル)。 2. 効率性: BadEditはパラメータのサブセットだけを調整し、時間消費を劇的に削減する。 (3) 副作用の最小化: BadEdit はモデル全体のパフォーマンスがまだ妥協されていないことを保証します。 (4)ロバスト性: 後続の微調整や教習の後にも、バックドアは頑丈なままである。 実験の結果、BadEditフレームワークは、良質な入力に対するモデルの性能を維持しながら、100倍の成功率でトレーニング済みのLLMを効率的に攻撃できることがわかった。

Mainstream backdoor attack methods typically demand substantial tuning data for poisoning, limiting their practicality and potentially degrading the overall performance when applied to Large Language Models (LLMs). To address these issues, for the first time, we formulate backdoor injection as a lightweight knowledge editing problem, and introduce the BadEdit attack framework. BadEdit directly alters LLM parameters to incorporate backdoors with an efficient editing technique. It boasts superiority over existing backdoor injection techniques in several areas: (1) Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples). (2) Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption. (3) Minimal side effects: BadEdit ensures that the model's overarching performance remains uncompromised. (4) Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning. Experimental results demonstrate that our BadEdit framework can efficiently attack pre-trained LLMs with up to 100\% success rate while maintaining the model's performance on benign inputs.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# 大規模言語モデルとリアルボットアカウントを用いたソーシャルメディアプラットフォームにおけるニュース消費のインセンティブ

Incentivizing News Consumption on Social Media Platforms Using Large Language Models and Realistic Bot Accounts ( http://arxiv.org/abs/2403.13362v1 )

ライセンス: Link先を確認
Hadi Askari, Anshuman Chhabra, Bernhard Clemm von Hohenberg, Michael Heseltine, Magdalena Wojcieszak, (参考訳) 偏極化、信頼の低下、民主的規範に対する波及的な支持は、アメリカの民主主義への脅威を迫っている。 検証済みで質の高いニュースへの暴露は、これらの脅威に対する個人の感受性を低下させ、市民が誤情報、ポピュリズム、超党派レトリックに対してより弾力的になる可能性がある。 本研究は, 実証およびイデオロギー的にバランスの取れたニュースを, 生態学的に妥当な環境で利用者の露出とエンゲージメントを高める方法について検討する。 28,457人のTwitterユーザーを対象に,大規模な2週間のフィールド実験(1/19/2023から2/3/2023まで)を実施しています。 私たちは、スポーツ、エンターテイメント、ライフスタイルについてツイートするユーザーに対して、質の高いニュース機関のトピック関連セクションのURLと、Twitterアカウントのフォローを奨励する2つのハードコードされた要素を含むコンテキスト応答で、GPT-2を利用した28のボットを作成しました。 ボットの性別による差分効果を更にテストするために、治療対象のユーザはランダムに、女性または男性として提示されたボットの応答を受信するように割り当てられた。 我々は、我々の残業介入が、ニュースメディア組織、ニュースコンテンツの共有と好意、政治に関するつぶやき、政治コンテンツの好意を後押しするかどうかを検討する。 治療を受けたユーザーは、より多くのニュースアカウントをフォローし、女性のボット治療を受けたユーザーは、コントロールよりもニュースコンテンツを好む傾向にあった。 しかし、これらの結果の大部分は規模が小さく、すでに政治的に興味を持つTwitterユーザーに限定されていた。 これらの発見は、ソーシャルメディアやニュース組織に影響を及ぼし、また、大規模言語モデルやその他の計算介入が、質の高いニュースや公務に対する個人のプラットフォーム上でのエンゲージメントを効果的に向上させる方法について、今後の研究の方向性を提供する。

Polarization, declining trust, and wavering support for democratic norms are pressing threats to U.S. democracy. Exposure to verified and quality news may lower individual susceptibility to these threats and make citizens more resilient to misinformation, populism, and hyperpartisan rhetoric. This project examines how to enhance users' exposure to and engagement with verified and ideologically balanced news in an ecologically valid setting. We rely on a large-scale two-week long field experiment (from 1/19/2023 to 2/3/2023) on 28,457 Twitter users. We created 28 bots utilizing GPT-2 that replied to users tweeting about sports, entertainment, or lifestyle with a contextual reply containing two hardcoded elements: a URL to the topic-relevant section of quality news organization and an encouragement to follow its Twitter account. To further test differential effects by gender of the bots, treated users were randomly assigned to receive responses by bots presented as female or male. We examine whether our over-time intervention enhances the following of news media organization, the sharing and the liking of news content and the tweeting about politics and the liking of political content. We find that the treated users followed more news accounts and the users in the female bot treatment were more likely to like news content than the control. Most of these results, however, were small in magnitude and confined to the already politically interested Twitter users, as indicated by their pre-treatment tweeting about politics. These findings have implications for social media and news organizations, and also offer direction for future work on how Large Language Models and other computational interventions can effectively enhance individual on-platform engagement with quality news and public affairs.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# ManiPose:ロボットにおけるPose-Aware Object Manipulationの総合ベンチマーク

ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics ( http://arxiv.org/abs/2403.13365v1 )

ライセンス: Link先を確認
Qiaojun Yu, Ce Hao, Junbo Wang, Wenhai Liu, Liu Liu, Yao Mu, Yang You, Hengxu Yan, Cewu Lu, (参考訳) 日常のシナリオにおけるロボット操作、特に非構造化環境では、ロボットが物体の6Dポーズに応じて把握および処理を行うために、ポーズ対応オブジェクト操作(POM)のスキルを必要とする。 オブジェクトの位置と向きを認識することは、効果的な操作に不可欠である。 例えば、マグカップが横に横たわっている場合、ハンドルよりも縁でつかむ方が効果的です。 その重要性にもかかわらず、学習操作スキルはポーズの異なるシミュレーション環境とデータセットを必要とするため、POMスキルの研究は依然として限られている。 本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。 ManiPose (複数形 ManiPoses) 1)POMの特徴的タスクのシミュレーション環境は,1つのオブジェクトの6次元ポーズ固有のピック・アンド・プレイスから,さらに明瞭なオブジェクトとのインタラクションを含む散在するシーンまで様々である。 2) 59のカテゴリーで2936個の実世界スキャンされた剛体物体と100個の調音された物体について,幾何的整合性および操作指向の6Dポーズラベルを特徴とする包括的データセットを作成した。 3)LLM(例えばChatGPT)の推論能力を活用して6Dポーズとタスク固有の要件の関係を解析するPOMのベースラインは,ポーズ対応の把握予測と動作計画能力の向上を提供する。 提案手法は, ポーズ推定, ポーズ認識操作, 実ロボットのスキル伝達において顕著な進歩を示し, POM 研究の新たな基準を設定した。 ManiPoseベンチマークを最終バージョンでオープンソース化し、コミュニティにリソースへの関与を呼びかけます。

Robotic manipulation in everyday scenarios, especially in unstructured environments, requires skills in pose-aware object manipulation (POM), which adapts robots' grasping and handling according to an object's 6D pose. Recognizing an object's position and orientation is crucial for effective manipulation. For example, if a mug is lying on its side, it's more effective to grasp it by the rim rather than the handle. Despite its importance, research in POM skills remains limited, because learning manipulation skills requires pose-varying simulation environments and datasets. This paper introduces ManiPose, a pioneering benchmark designed to advance the study of pose-varying manipulation tasks. ManiPose encompasses: 1) Simulation environments for POM feature tasks ranging from 6D pose-specific pick-and-place of single objects to cluttered scenes, further including interactions with articulated objects. 2) A comprehensive dataset featuring geometrically consistent and manipulation-oriented 6D pose labels for 2936 real-world scanned rigid objects and 100 articulated objects across 59 categories. 3) A baseline for POM, leveraging the inferencing abilities of LLM (e.g., ChatGPT) to analyze the relationship between 6D pose and task-specific requirements, offers enhanced pose-aware grasp prediction and motion planning capabilities. Our benchmark demonstrates notable advancements in pose estimation, pose-aware manipulation, and real-robot skill transfer, setting new standards for POM research. We will open-source the ManiPose benchmark with the final version paper, inviting the community to engage with our resources, available at our website:https://sites.google.com/view/manipose.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# 人間の脳における言語処理研究のための計算モデル

Computational Models to Study Language Processing in the Human Brain: A Survey ( http://arxiv.org/abs/2403.13368v1 )

ライセンス: Link先を確認
Shaonan Wang, Jingyuan Sun, Yunhao Zhang, Nan Lin, Marie-Francine Moens, Chengqing Zong, (参考訳) 実装やアルゴリズムにおける人間の言語処理機構とは異なっているが、現在の言語モデルは目覚ましい人間のような、あるいは言語能力を超えるものを示している。 計算言語モデルは脳の研究に使用されるべきだろうか。 本研究は,脳研究における計算モデルの利用の取り組みを概観し,新たなトレンドを浮き彫りにしている。 公平な比較を確保するため,同じデータセット上で一貫したメトリクスを用いて様々な計算モデルを評価する。 我々の分析によると、計算モデルを含む研究において、厳密な結論を引き出すために、リッチなテストデータセットと厳密な実験的制御の必要性を強調し、全てのデータセットにおいて、単一のモデルが他のモデルよりも優れていることは明らかである。

Despite differing from the human language processing mechanism in implementation and algorithms, current language models demonstrate remarkable human-like or surpassing language capabilities. Should computational language models be employed in studying the brain, and if so, when and how? To delve into this topic, this paper reviews efforts in using computational models for brain research, highlighting emerging trends. To ensure a fair comparison, the paper evaluates various computational models using consistent metrics on the same dataset. Our analysis reveals that no single model outperforms others on all datasets, underscoring the need for rich testing datasets and rigid experimental control to draw robust conclusions in studies involving computational models.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# プレトレーニング言語モデルとプロンプトを用いたFew-shot Learningを用いた低リソース言語の臨床情報抽出

Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting ( http://arxiv.org/abs/2403.13369v1 )

ライセンス: Link先を確認
Phillip Richter-Pechanski, Philipp Wiesenbach, Dominic M. Schwab, Christina Kiriakou, Nicolas Geis, Christoph Dieterich, Anette Frank, (参考訳) 臨床文献から医療情報を自動抽出することは、必要な臨床専門知識のコスト、モデル予測の限定的な解釈可能性、制限された計算資源、プライバシー規制など、いくつかの課題を提起する。 近年のドメイン適応とプロンプト手法の進歩は、十分に確立された解釈可能性手法に適した軽量マスキング言語モデルを用いて、最小限のトレーニングデータで有望な結果を示した。 われわれはまず,これらの手法を低リソース環境で体系的に評価し,ドイツの医師の手紙を多クラスに分類する手法を提案する。 我々は、Shapley値に支えられた広範なクラスワイド評価を行い、小さなトレーニングデータセットの品質を検証し、モデル予測の解釈可能性を保証する。 軽量でドメイン適応型事前訓練モデルが20ショットでトリガーされ、従来の分類モデルを30.5%精度で上回っていることを実証する。 本研究は,低リソースで作業する臨床情報抽出プロジェクトのプロセス指向ガイドラインとして機能する。

Automatic extraction of medical information from clinical documents poses several challenges: high costs of required clinical expertise, limited interpretability of model predictions, restricted computational resources and privacy regulations. Recent advances in domain-adaptation and prompting methods showed promising results with minimal training data using lightweight masked language models, which are suited for well-established interpretability methods. We are first to present a systematic evaluation of these methods in a low-resource setting, by performing multi-class section classification on German doctor's letters. We conduct extensive class-wise evaluations supported by Shapley values, to validate the quality of our small training data set and to ensure the interpretability of model predictions. We demonstrate that a lightweight, domain-adapted pretrained model, prompted with just 20 shots, outperforms a traditional classification model by 30.5% accuracy. Our results serve as a process-oriented guideline for clinical information extraction projects working with low-resource.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# 大規模ラベルから学ぶためのカウントネットワーク

Counting Network for Learning from Majority Label ( http://arxiv.org/abs/2403.13370v1 )

ライセンス: Link先を確認
Kaito Shiku, Shinnosuke Matsuo, Daiki Suehiro, Ryoma Bise, (参考訳) 本稿では,LML(Learning from the Majority Label)と呼ばれるマルチクラスマルチインスタンス学習(MIL)における新しい問題を提案する。 LMLでは、バッグ内のほとんどのインスタンスがバッグのラベルとして割り当てられる。 LMLは、バッグレベルのマジョリティクラスを使用してインスタンスを分類することを目的としている。 この問題は様々な応用に有用である。 既存のMILメソッドは、信頼の集約によるLMLには適さないため、バッグレベルラベルと各クラスのインスタンス数を数えて得られたラベルとの矛盾につながる可能性がある。 これは誤ったインスタンスレベルの分類につながる可能性がある。 本稿では,各クラスのインスタンス数をカウントして推定したバッグレベルの過半数ラベルを生成するために訓練されたカウントネットワークを提案する。 これにより、ネットワーク出力とインスタンス数をカウントして得られるものとの間に、多数派クラスの一貫性がもたらされた。 このコードはhttps://github.com/Shiku-Kaito/Counting-for-Learning-to-Majority-Labelで公開されている。

The paper proposes a novel problem in multi-class Multiple-Instance Learning (MIL) called Learning from the Majority Label (LML). In LML, the majority class of instances in a bag is assigned as the bag's label. LML aims to classify instances using bag-level majority classes. This problem is valuable in various applications. Existing MIL methods are unsuitable for LML due to aggregating confidences, which may lead to inconsistency between the bag-level label and the label obtained by counting the number of instances for each class. This may lead to incorrect instance-level classification. We propose a counting network trained to produce the bag-level majority labels estimated by counting the number of instances for each class. This led to the consistency of the majority class between the network outputs and one obtained by counting the number of instances. Experimental results show that our counting network outperforms conventional MIL methods on four datasets The code is publicly available at https://github.com/Shiku-Kaito/Counting-Network-for-Learning-from-Majority-Label.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# LlamaFactory: 100以上の言語モデルの統一されたファインチューニング

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models ( http://arxiv.org/abs/2403.13372v1 )

ライセンス: Link先を確認
Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, (参考訳) 下流タスクに大規模言語モデル(LLM)を適用するためには、効率的な微調整が不可欠である。 しかし、異なるモデルでこれらのメソッドを実装するには、自明な努力が必要である。 LlamaFactoryは、最先端の効率的なトレーニング方法を統合した統合フレームワークである。 これによってユーザは、内蔵のWeb UI LlamaBoardをコーディングすることなく、100以上のLLMの微調整を柔軟にカスタマイズできる。 言語モデリングとテキスト生成タスクにおけるフレームワークの有効性と有効性を実証的に検証する。 https://github.com/hiyouga/LLaMA-Factoryでリリースされ、すでに13,000以上の星と1600のフォークを受け取った。

Efficient fine-tuning is vital for adapting large language models (LLMs) to downstream tasks. However, it requires non-trivial efforts to implement these methods on different models. We present LlamaFactory, a unified framework that integrates a suite of cutting-edge efficient training methods. It allows users to flexibly customize the fine-tuning of 100+ LLMs without the need for coding through the built-in web UI LlamaBoard. We empirically validate the efficiency and effectiveness of our framework on language modeling and text generation tasks. It has been released at https://github.com/hiyouga/LLaMA-Factory and already received over 13,000 stars and 1,600 forks.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# データ不均一性を考慮したビザンチン耐性フェデレーション学習

Byzantine-resilient Federated Learning With Adaptivity to Data Heterogeneity ( http://arxiv.org/abs/2403.13374v1 )

ライセンス: Link先を確認
Shiyuan Zuo, Xingrun Yan, Rongfei Fan, Han Hu, Hangguan Shan, Tony Q. S. Quek, (参考訳) 本稿では、悪意のあるビザンツ人攻撃やデータ不均一性の存在下での連邦学習(FL)を扱う。 新しいロバスト平均勾配アルゴリズム (RAGA) が提案され、このアルゴリズムは幾何中央値を利用してアグリゲーションを行い、局所更新のためにラウンド番号を自由に選択できる。 強凸損失関数や均質分布データセットに基づく収束解析を行う既存のレジリエントアプローチとは異なり、強凸損失関数だけでなく、不均一なデータセット上の非凸損失関数に対しても収束解析を行う。 我々の理論分析によると、悪意のあるユーザーのデータセットの分数の半分以下である限り、RAGAは、$T$が反復数、$\delta \in (0, 2/3)$が非凸損失関数、および強凸損失関数の線形レートで収束することができる。 さらに、データ不均一性がなくなると、定常点または大域最適解が得られることが証明される。 実験結果は、ビザンチン攻撃に対するRAGAのロバスト性を相関させ、不均一なデータセットに対して、ビザンチン攻撃の様々な強度下での収束性能に基づくRAGAの優位性を検証した。

This paper deals with federated learning (FL) in the presence of malicious Byzantine attacks and data heterogeneity. A novel Robust Average Gradient Algorithm (RAGA) is proposed, which leverages the geometric median for aggregation and can freely select the round number for local updating. Different from most existing resilient approaches, which perform convergence analysis based on strongly-convex loss function or homogeneously distributed dataset, we conduct convergence analysis for not only strongly-convex but also non-convex loss function over heterogeneous dataset. According to our theoretical analysis, as long as the fraction of dataset from malicious users is less than half, RAGA can achieve convergence at rate $\mathcal{O}({1}/{T^{2/3- \delta}})$ where $T$ is the iteration number and $\delta \in (0, 2/3)$ for non-convex loss function, and at linear rate for strongly-convex loss function. Moreover, stationary point or global optimal solution is proved to obtainable as data heterogeneity vanishes. Experimental results corroborate the robustness of RAGA to Byzantine attacks and verifies the advantage of RAGA over baselines on convergence performance under various intensity of Byzantine attacks, for heterogeneous dataset.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# リモートセンシング画像における記憶可能なコントラスト学習によるオブジェクト指向物体検出

Few-shot Oriented Object Detection with Memorable Contrastive Learning in Remote Sensing Images ( http://arxiv.org/abs/2403.13375v1 )

ライセンス: Link先を確認
Jiawei Zhou, Wuzhou Li, Yi Cao, Hongtao Cai, Xiang Li, (参考訳) Few-shot Object Detection (FSOD) は、大量の注釈付きデータへの依存を減らすことができるため、リモートセンシングの分野で大きな研究の注目を集めている。 しかし, この領域では, 1) 任意指向オブジェクトに対する不整合を生じる軸整列提案, (2) 注釈付きデータの不足が, 未確認オブジェクトカテゴリのパフォーマンスを制限している,という2つの課題が続いている。 これらの課題に対処するために,Few-shot Oriented Object Detection with Memorable Contrastive Learning (FOMC) と呼ばれる,リモートセンシングのための新しいFSOD手法を提案する。 具体的には、従来の水平境界ボックスの代わりに指向的境界ボックスを用いて、任意方向の空中物体のより優れた特徴表現を学習し、検出性能を向上する。 我々の知る限りでは、リモートセンシング画像のための数ショット設定において、指向性物体検出に最初に取り組む人物である。 オブジェクトの誤分類の問題に対処するために,動的に更新されたメモリバンクを備えた教師付きコントラスト学習モジュールを導入する。 このモジュールは、負のサンプルの大きなバッチの使用を可能にし、見当たらないクラスの識別機能を学習するモデルの能力を強化する。 我々はDOTAとHRSC2016データセットの総合的な実験を行い、このモデルにより、ショット指向のオブジェクト検出タスクにおける最先端のパフォーマンスが達成される。 コードと事前訓練されたモデルがリリースされる。

Few-shot object detection (FSOD) has garnered significant research attention in the field of remote sensing due to its ability to reduce the dependency on large amounts of annotated data. However, two challenges persist in this area: (1) axis-aligned proposals, which can result in misalignment for arbitrarily oriented objects, and (2) the scarcity of annotated data still limits the performance for unseen object categories. To address these issues, we propose a novel FSOD method for remote sensing images called Few-shot Oriented object detection with Memorable Contrastive learning (FOMC). Specifically, we employ oriented bounding boxes instead of traditional horizontal bounding boxes to learn a better feature representation for arbitrary-oriented aerial objects, leading to enhanced detection performance. To the best of our knowledge, we are the first to address oriented object detection in the few-shot setting for remote sensing images. To address the challenging issue of object misclassification, we introduce a supervised contrastive learning module with a dynamically updated memory bank. This module enables the use of large batches of negative samples and enhances the model's capability to learn discriminative features for unseen classes. We conduct comprehensive experiments on the DOTA and HRSC2016 datasets, and our model achieves state-of-the-art performance on the few-shot oriented object detection task. Code and pretrained models will be released.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# オルガノイド画像の相関クラスタリング

Correlation Clustering of Organoid Images ( http://arxiv.org/abs/2403.13376v1 )

ライセンス: Link先を確認
Jannik Presberger, Rashmiparvathi Keshara, David Stein, Yung Hae Kim, Anne Grapin-Botton, Bjoern Andres, (参考訳) 生物学と医学の研究において、科学者は現在、何百もの形態学的に異質なオルガノイドの顕微鏡画像を取得し、画像収集のパターンを見つけるという課題に直面している。 我々は,オルガノイド画像と相関するモデルとアルゴリズム,すなわち,それらが表現するオルガノイドの外観や形状の類似性を定量化し,矛盾する相関関係を統合することでオルガノイド画像のクラスタリングを行う。 オルガノイド画像の関連付けには、部分二次代入問題とツインネットワークという2つの選択肢を採用し比較する。 オルガノイド画像のクラスタリングには相関クラスタリング問題を用いる。 実験により,これらのモデルのパラメータを学習し,有機体画像のクラスタリングを推定し,推定されたクラスターの精度をトレーニングセットとテストセットに関して定量化する。

In biological and medical research, scientists now routinely acquire microscopy images of hundreds of morphologically heterogeneous organoids and are then faced with the task of finding patterns in the image collection, i.e., subsets of organoids that appear similar and potentially represent the same morphological class. We adopt models and algorithms for correlating organoid images, i.e., for quantifying the similarity in appearance and geometry of the organoids they depict, and for clustering organoid images by consolidating conflicting correlations. For correlating organoid images, we adopt and compare two alternatives, a partial quadratic assignment problem and a twin network. For clustering organoid images, we employ the correlation clustering problem. Empirically, we learn the parameters of these models, infer a clustering of organoid images, and quantify the accuracy of the inferred clusters, with respect to a training set and a test set we contribute of state-of-the-art light microscopy images of organoids clustered manually by biologists.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# IIDM:意味的画像合成のための画像間拡散モデル

IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis ( http://arxiv.org/abs/2403.13378v1 )

ライセンス: Link先を確認
Feng Liu, Xiaobin-Chang, (参考訳) セマンティック画像合成は, セグメンテーションマスクやスタイル参照画像など, 与えられたセグメンテーション条件を満たす高品質な画像を生成することを目的としている。 既存の手法はGAN(Generative Adversarial Network)を広く採用している。 GANは条件付き入力を全て取り、1つのステップで画像を直接合成する。 本稿では,セマンティック画像合成を画像認識タスクとして扱い,新しい画像間拡散モデル(IIDM)で処理する。 特に、スタイル参照はまずランダムノイズで汚染され、次にIIDMによって徐々に認知され、セグメンテーションマスクでガイドされる。 さらに, 改良, 色変換, モデルアンサンブルの3つの手法が提案され, 生成品質をさらに向上させる。 これらはプラグイン推論モジュールであり、追加のトレーニングを必要としない。 広範囲な実験により,我々のIIDMは既存の最先端手法よりも明確なマージンで優れていたことが判明した。 さらなる分析は詳細な実演を通じて行われる。 コードはhttps://github.com/ader47/jittor-jieke-semantic_images_ synthesisで利用可能です。

Semantic image synthesis aims to generate high-quality images given semantic conditions, i.e. segmentation masks and style reference images. Existing methods widely adopt generative adversarial networks (GANs). GANs take all conditional inputs and directly synthesize images in a single forward step. In this paper, semantic image synthesis is treated as an image denoising task and is handled with a novel image-to-image diffusion model (IIDM). Specifically, the style reference is first contaminated with random noise and then progressively denoised by IIDM, guided by segmentation masks. Moreover, three techniques, refinement, color-transfer and model ensembles, are proposed to further boost the generation quality. They are plug-in inference modules and do not require additional training. Extensive experiments show that our IIDM outperforms existing state-of-the-art methods by clear margins. Further analysis is provided via detailed demonstrations. We have implemented IIDM based on the Jittor framework; code is available at https://github.com/ader47/jittor-jieke-semantic_images_synthesis.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# 検出されていない光子を用いたオフ軸ホログラフィーを用いた単フレーム伝送と位相イメージング

Single-frame transmission and phase imaging using off-axis holography with undetected photons ( http://arxiv.org/abs/2403.13389v1 )

ライセンス: Link先を確認
Emma Pearce, Osian Wolley, Simon P. Mekhail, Thomas Gregory, Nathan R. Gemmell, Rupert F. Oulton, Alex S. Clark, Chris C. Phillips, Miles J. Padgett, (参考訳) 検出されていない光子によるイメージングは非線形干渉法に依存し、赤外線プローブビームから空間像を抽出し、検出し易い可視光線の干渉パターンで明らかにする。 通常、位相シフト技術を用いて伝送と位相画像を抽出し、複数のフレームから干渉電図を合成する。 ここでは、オフ軸デジタルホログラフィーにより、単一のインターフェログラムから赤外波長の透過と位相の両方の画像を再構成し、その結果、可視光に記録された単一のフレームを再現できることを示す。 これにより、位相ステップや複数取得の必要がなくなるため、低フラックスでの長時間の取得や高フラックスでのビデオレートイメージングが可能な画像の総計測時間が大幅に短縮される。 この単一フレーム取得技術により、信号対雑音比が1.78\,\pm\,0.06$/秒で物体の透過画像を再構成し、赤外線のダイナミックシーンを33フレーム/秒で記録することができる。

Imaging with undetected photons relies upon nonlinear interferometry to extract the spatial image from an infrared probe beam and reveal it in the interference pattern of an easier-to-detect visible beam. Typically, the transmission and phase images are extracted using phase-shifting techniques and combining interferograms from multiple frames. Here we show that off-axis digital holography enables reconstruction of both transmission and phase images at the infrared wavelength from a single interferogram, and hence a single frame, recorded in the visible. This eliminates the need for phase stepping and multiple acquisitions, thereby greatly reducing total measurement time for imaging with long acquisition times at low flux or enabling video-rate imaging at higher flux. With this single-frame acquisition technique, we are able to reconstruct transmission images of an object in the infrared beam with a signal-to-noise ratio of $1.78\,\pm\,0.06$ at 10 frames per second, and record a dynamic scene in the infrared beam at 33 frames per second.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# バイナリレベルセットに基づくロバスト画像分割モデル

Robust image segmentation model based on binary level set ( http://arxiv.org/abs/2403.13392v1 )

ライセンス: Link先を確認
Wenqi Zhao, (参考訳) 従来の画像分割モデルの雑音に対する堅牢性を改善するため,本論文は強度不均一画像の照度項をモデル化する。 さらに、ノイズの多い画像に対するモデルの堅牢性を高めるため、提案モデルにバイナリレベルセットモデルを組み込む。 従来のレベルセットと比較すると、バイナリレベルセットは継続的再初期化の必要性を排除している。 さらに,変分演算子GLを導入することにより,ノイズ画像のセグメント化能力が向上することを示す。 最後に, 3段階分割演算子法を適用し, 様々な画像に対して提案手法の有効性を示す。

In order to improve the robustness of traditional image segmentation models to noise, this paper models the illumination term in intensity inhomogeneity images. Additionally, to enhance the model's robustness to noisy images, we incorporate the binary level set model into the proposed model. Compared to the traditional level set, the binary level set eliminates the need for continuous reinitialization. Moreover, by introducing the variational operator GL, our model demonstrates better capability in segmenting noisy images. Finally, we employ the three-step splitting operator method for solving, and the effectiveness of the proposed model is demonstrated on various images.
翻訳日:2024-03-21 17:38:28 公開日:2024-03-20
# 低環境環境における場所認識のための局所的・グローバル的マルチモーダル特徴の統合

Unifying Local and Global Multimodal Features for Place Recognition in Aliased and Low-Texture Environments ( http://arxiv.org/abs/2403.13395v1 )

ライセンス: Link先を確認
Alberto García-Hernández, Riccardo Giubilato, Klaus H. Strobl, Javier Civera, Rudolph Triebel, (参考訳) 知覚的エイリアスと弱いテクスチャは、位置認識のタスクに重大な課題をもたらし、同時局在マッピング(SLAM)システムの性能を阻害する。 本稿では、UMF(Unified Local and Global Multimodal Features)と呼ばれる新しいモデルを提案する。 1)視覚とLiDARの特徴間のクロスアテンションブロックによるマルチモダリティの活用,及び このステージでは、グローバル表現を使用して検索されたトップk候補にマッチするローカル機能に基づいて、再注文を行う。 我々の実験は、特に惑星系で捕獲された配列において、UMFはこれらの難易度の高い環境において、かなり過去のベースラインよりも優れていたことを示す。 我々の研究は、すべての状況においてSLAMの信頼性を高めることを目的としているため、広く使われているRobotCarデータセットのパフォーマンスについても検討し、より広範な適用性を実現している。 コードとモデルはhttps://github.com/DLR-RM/UMFで公開されている。

Perceptual aliasing and weak textures pose significant challenges to the task of place recognition, hindering the performance of Simultaneous Localization and Mapping (SLAM) systems. This paper presents a novel model, called UMF (standing for Unifying Local and Global Multimodal Features) that 1) leverages multi-modality by cross-attention blocks between vision and LiDAR features, and 2) includes a re-ranking stage that re-orders based on local feature matching the top-k candidates retrieved using a global representation. Our experiments, particularly on sequences captured on a planetary-analogous environment, show that UMF outperforms significantly previous baselines in those challenging aliased environments. Since our work aims to enhance the reliability of SLAM in all situations, we also explore its performance on the widely used RobotCar dataset, for broader applicability. Code and models are available at https://github.com/DLR-RM/UMF
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# DOR3D-Net:Dense Ordinal Regression Network for 3D Hand Pose Estimation

DOR3D-Net: Dense Ordinal Regression Network for 3D Hand Pose Estimation ( http://arxiv.org/abs/2403.13405v1 )

ライセンス: Link先を確認
Yamin Mao, Zhihua Liu, Weiming Li, SoonYong Cho, Qiang Wang, Xiaoshuai Hao, (参考訳) 深度に基づく3次元手ポーズ推定は,人間と機械の相互作用コミュニティにおいて重要な研究課題である。 近年,3次元手振り推定作業において高密度回帰法が注目され,手関節オフセットマップの高密度回帰による計算負担の低減と高精度回帰手法が実現されている。 しかし、大規模な回帰オフセット値はしばしばノイズや外れ値の影響を受け、精度は大幅に低下する。 そこで我々は,高次回帰問題として3Dハンドポーズ推定を再構成し,新しいDense Ordinal Regression 3D Pose Network(DOR3D-Net)を提案する。 具体的には、まずオフセット値の回帰を順序制約付きバイナリ分類のサブタスクに分解する。 そして、各二項分類器は関節に対する二項空間関係の確率を予測することができる。 推定手関節位置は,局所位置における順序回帰結果を重み付き和で集約することにより推定される。 さらに、DOR3D-Netをエンドツーエンドにトレーニングするために、関節回帰損失と順序回帰損失の両方を用いる。 パブリックデータセット(ICVL, MSRA, NYU, HANDS2017)の大規模な実験により、私たちの設計はSOTA法よりも大幅に改善されていることが示された。

Depth-based 3D hand pose estimation is an important but challenging research task in human-machine interaction community. Recently, dense regression methods have attracted increasing attention in 3D hand pose estimation task, which provide a low computational burden and high accuracy regression way by densely regressing hand joint offset maps. However, large-scale regression offset values are often affected by noise and outliers, leading to a significant drop in accuracy. To tackle this, we re-formulate 3D hand pose estimation as a dense ordinal regression problem and propose a novel Dense Ordinal Regression 3D Pose Network (DOR3D-Net). Specifically, we first decompose offset value regression into sub-tasks of binary classifications with ordinal constraints. Then, each binary classifier can predict the probability of a binary spatial relationship relative to joint, which is easier to train and yield much lower level of noise. The estimated hand joint positions are inferred by aggregating the ordinal regression results at local positions with a weighted sum. Furthermore, both joint regression loss and ordinal regression loss are used to train our DOR3D-Net in an end-to-end manner. Extensive experiments on public datasets (ICVL, MSRA, NYU and HANDS2017) show that our design provides significant improvements over SOTA methods.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# S2DM:ビデオ生成のためのセクタ形状拡散モデル

S2DM: Sector-Shaped Diffusion Models for Video Generation ( http://arxiv.org/abs/2403.13408v1 )

ライセンス: Link先を確認
Haoran Lang, Yuxuan Ge, Zheng Tian, (参考訳) 拡散モデルは画像生成において大きな成功を収めた。 しかし、このアイデアをビデオ生成に活用する際には、ビデオフレーム間の一貫性と連続性を維持する上で大きな課題に直面している。 これは主に、一貫した意味的特徴と確率的特徴を保持しながら、ビデオのフレームを望ましい時間的特徴と整合させる効果的なフレームワークが欠如していることに起因する。 本研究では,同じ雑音点から始まる線状逆拡散過程の集合によってセクター形状の拡散領域が形成される新しいセクター形状拡散モデル(S2DM)を提案する。 S2DMは、時間的特徴を適切な誘導条件で変化させながら、同じ意味的特徴と確率的特徴を共有する本質的な関連データ群を生成することができる。 本稿では,映像生成タスクにS2DMを適用し,時間的条件として光フローを利用する方法について検討する。 実験結果から,S2DMは時間モデルモジュールを使わずに,ビデオ生成作業において多くの既存手法より優れることがわかった。 時間的条件を明示しないテキスト・ビデオ生成タスクに対しては,時間的特徴と意味的特徴を分離可能な2段階生成戦略を提案する。 追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。 我々の結果はhttps://s2dm.github.io/S2DM/で見ることができる。

Diffusion models have achieved great success in image generation. However, when leveraging this idea for video generation, we face significant challenges in maintaining the consistency and continuity across video frames. This is mainly caused by the lack of an effective framework to align frames of videos with desired temporal features while preserving consistent semantic and stochastic features. In this work, we propose a novel Sector-Shaped Diffusion Model (S2DM) whose sector-shaped diffusion region is formed by a set of ray-shaped reverse diffusion processes starting at the same noise point. S2DM can generate a group of intrinsically related data sharing the same semantic and stochastic features while varying on temporal features with appropriate guided conditions. We apply S2DM to video generation tasks, and explore the use of optical flow as temporal conditions. Our experimental results show that S2DM outperforms many existing methods in the task of video generation without any temporal-feature modelling modules. For text-to-video generation tasks where temporal conditions are not explicitly given, we propose a two-stage generation strategy which can decouple the generation of temporal features from semantic-content features. We show that, without additional training, our model integrated with another temporal conditions generative model can still achieve comparable performance with existing works. Our results can be viewd at https://s2dm.github.io/S2DM/.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# 細胞位置熱マップに基づくアライメントとペアワイズ検出による線虫C. elegansの細胞追跡

Cell Tracking in C. elegans with Cell Position Heatmap-Based Alignment and Pairwise Detection ( http://arxiv.org/abs/2403.13412v1 )

ライセンス: Link先を確認
Kaito Shiku, Hiromitsu Shirai, Takeshi Ishihara, Ryoma Bise, (参考訳) 生体内の3D細胞追跡は、生きた細胞画像解析において重要な役割を担っている。 線虫C. elegansの細胞追跡には2つの困難がある。 まず、連続するフレーム内の細胞移動は、スキャン中に頭を動かすので大きい。 第2に、タッチセルや低コントラスト画像による連続したフレーム内でのセル検出の不整合がよくあり、これらの不整合検出がトラッキング性能に悪影響を及ぼす。 本稿では,これらの問題に対処する細胞追跡手法を提案する。 まず, セル位置の熱マップに基づく非剛性アライメントとテスト時間細調整を導入し, 検出した点を次のフレームの位置付近にワープする。 次に、前フレームにおける検出結果の情報を用いて、現在のフレームにおけるセルを検出するペアワイズ検出手法を提案する。 実験の結果,各モジュールの有効性が示され,提案手法は比較して最高の性能を示した。

3D cell tracking in a living organism has a crucial role in live cell image analysis. Cell tracking in C. elegans has two difficulties. First, cell migration in a consecutive frame is large since they move their head during scanning. Second, cell detection is often inconsistent in consecutive frames due to touching cells and low-contrast images, and these inconsistent detections affect the tracking performance worse. In this paper, we propose a cell tracking method to address these issues, which has two main contributions. First, we introduce cell position heatmap-based non-rigid alignment with test-time fine-tuning, which can warp the detected points to near the positions at the next frame. Second, we propose a pairwise detection method, which uses the information of detection results at the previous frame for detecting cells at the current frame. The experimental results demonstrate the effectiveness of each module, and the proposed method achieved the best performance in comparison.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# 多様化・パーソナライズされた多層医用画像分割

Diversified and Personalized Multi-rater Medical Image Segmentation ( http://arxiv.org/abs/2403.13417v1 )

ライセンス: Link先を確認
Yicheng Wu, Xiangde Luo, Zhe Xu, Xiaoqing Guo, Lie Ju, Zongyuan Ge, Wenjun Liao, Jianfei Cai, (参考訳) 医用スキャンのぼやけた境界や観察者の専門知識や嗜好など固有のデータの不確かさによるアノテーションの不明瞭さは、深層学習に基づく医用画像セグメンテーションモデルを訓練する上で大きな障害となっている。 この問題に対処するためには、さまざまな専門家から複数のアノテーションを集めることが一般的であり、マルチラターな医用画像セグメンテーションの設定につながる。 既存の著作は、様々な医学的文脈でしばしば達成不可能な「地平線」に異なるアノテーションをマージするか、様々な結果を生成するか、あるいは個々の専門家のレーダに対応するパーソナライズされた結果を生成することを目的としている。 ここでは、マルチレイタな医用画像分割、すなわち、多様化された結果とパーソナライズされた結果の両方を得るという、より野心的な目標を掲げる。 具体的には、D-Persona(最初の多様化とパーソナライゼーション)という2段階のフレームワークを提案する。 ステージIでは、複数のアノテーションを使って確率的U-Netモデルをトレーニングし、予測の多様性を改善するために制約付き損失を制限した。 このように、共通潜伏空間は、異なる潜伏符号が多種多様な専門家の意見を示すステージIで構築される。 そして、ステージIIにおいて、複数の注意に基づく投影ヘッドを設計し、対応する専門家のプロンプトを共有潜在空間から適応的にクエリし、パーソナライズされた医用画像セグメンテーションを実行する。 当施設における鼻咽頭癌データセットと肺結節癌データセット(LIDC-IDRI)について検討した。 我々のD-Personaは、同時に多彩でパーソナライズされた結果を提供できることを実証し、マルチレータ画像分割のための新しいSOTA性能を実現した。 私たちのコードはhttps://github.com/ycwu1997/D-Personaで公開されます。

Annotation ambiguity due to inherent data uncertainties such as blurred boundaries in medical scans and different observer expertise and preferences has become a major obstacle for training deep-learning based medical image segmentation models. To address it, the common practice is to gather multiple annotations from different experts, leading to the setting of multi-rater medical image segmentation. Existing works aim to either merge different annotations into the "groundtruth" that is often unattainable in numerous medical contexts, or generate diverse results, or produce personalized results corresponding to individual expert raters. Here, we bring up a more ambitious goal for multi-rater medical image segmentation, i.e., obtaining both diversified and personalized results. Specifically, we propose a two-stage framework named D-Persona (first Diversification and then Personalization). In Stage I, we exploit multiple given annotations to train a Probabilistic U-Net model, with a bound-constrained loss to improve the prediction diversity. In this way, a common latent space is constructed in Stage I, where different latent codes denote diversified expert opinions. Then, in Stage II, we design multiple attention-based projection heads to adaptively query the corresponding expert prompts from the shared latent space, and then perform the personalized medical image segmentation. We evaluated the proposed model on our in-house Nasopharyngeal Carcinoma dataset and the public lung nodule dataset (i.e., LIDC-IDRI). Extensive experiments demonstrated our D-Persona can provide diversified and personalized results at the same time, achieving new SOTA performance for multi-rater medical image segmentation. Our code will be released at https://github.com/ycwu1997/D-Persona.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# キャッシングによる長寿命マルチエージェントパスの探索

Caching-Augmented Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2403.13421v1 )

ライセンス: Link先を確認
Yimin Tang, Zhenghong Yu, Yi Zheng, T. K. Satish Kumar, Jiaoyang Li, Sven Koenig, (参考訳) マルチエージェントパス探索(MAPF: Multi-Agent Path Finding)は、複数のロボットの衝突のない経路を見つけることを含む、様々な用途において重要である。 Lifelong MAPFは、最初の目標を達成すればすぐにターゲットをエージェントに割り当てるが、現実の倉庫計画のより正確な近似を提供する。 本稿では,ライフロングMAPFの性能向上を目的とした,Caching-Augmented Lifelong MAPF (CAL-MAPF) という新しいメカニズムを提案する。 我々は、一時的アイテム記憶と交換のためのキャッシュと呼ばれる新しいマップグリッドタイプを開発し、計画ソリューションの安定性を改善するためのロック機構を設計した。 このキャッシュ機構は、様々なキャッシュ置換ポリシーと入力タスク分布のスペクトルを用いて評価された。 実験によりCAL-MAPFの性能に顕著な3つの要因を同定した: 適切な入力タスク分布、高いキャッシュヒット率、スムーズなトラフィック。 全体として、CAL-MAPFは特定のタスク分布、マップ、エージェント設定のパフォーマンス改善の可能性を実証している。

Multi-Agent Path Finding (MAPF), which involves finding collision-free paths for multiple robots, is crucial in various applications. Lifelong MAPF, where targets are reassigned to agents as soon as they complete their initial objectives, offers a more accurate approximation of real-world warehouse planning. In this paper, we present a novel mechanism named Caching-Augmented Lifelong MAPF (CAL-MAPF), designed to improve the performance of Lifelong MAPF. We have developed a new map grid type called cache for temporary item storage and replacement and designed a lock mechanism for it to improve the stability of the planning solution. This cache mechanism was evaluated using various cache replacement policies and a spectrum of input task distributions. We identified three main factors significantly impacting CAL-MAPF performance through experimentation: suitable input task distribution, high cache hit rate, and smooth traffic. Overall, CAL-MAPF has demonstrated potential for performance improvements in certain task distributions, maps and agent configurations.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# 2次元中心ポテンシャルにおける粒子に対するシュロディンガー半径方程式の受容可能な解

Acceptable solutions of the Schrodinger radial equation for a particle in a two-dimensional central potential ( http://arxiv.org/abs/2403.13422v1 )

ライセンス: Link先を確認
Jesus Etxebarria, (参考訳) 中心ポテンシャルにおける粒子の定常状態は、通常、角部 Phi と半径部 R の積とみなす。 本研究では,2次元(2次元)中心力問題の場合のこの要件について検討する。 一般に受け入れられているいくつかの主張とは対照的に、発散 R(0) で解を破棄する理由は正規化可能な波動関数を持つことを必要としない。 実際、ある波動関数は R が原点において特異であっても正規化することができる。 代わりに、R が特異であれば、完備波動関数 psi = Phi R はフルシュロディンガー方程式を満たすことができず、シュロディンガー方程式と同様の方程式に従うが、2次元ディラックデルタ函数あるいはその微分を含む追加項を持つことを示す。 したがって、psi はハミルトニアンの真の固有函数ではない。 対照的に、原点に有限である解 R から構築された波動関数 psi の方程式には追加用語は存在しない。 近年の3次元中心電位も同様である。 2D症例と3D症例の比較を行った。

The stationary states of a particle in a central potential are usually taken as a product of an angular part Phi and a radial part R. The function R satisfies the so-called radial equation and is usually solved by demanding R to be finite at the origin. In this work we examine the reason for this requirement in the case of a two-dimensional (2D) central force problem. In contrast to some claims commonly accepted, the reason for discarding solutions with divergent R(0) is not the need to have a normalizable wave function. In fact some wave functions can be normalized even if R is singular at the origin. Instead, here we show that if R is singular, the complete wave function psi = Phi R fails to satisfy the full Schrodinger equation, but follows a equation similar to Schrodinger's but with an additional term containing the 2D Dirac delta function or its derivatives. Thus, psi is not a true eigenfunction of the Hamiltonian. In contrast, there are no additional terms in the equation for wave functions psi built from solutions R that remain finite at the origin. A similar situation also occurs for 3D central potentials as has been shown recently. A comparison between the 2D and 3D cases is carried out.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# 時間畳み込みネットワークを用いたスポーフィングの検出と試行

Detecting and Triaging Spoofing using Temporal Convolutional Networks ( http://arxiv.org/abs/2403.13429v1 )

ライセンス: Link先を確認
Kaushalya Kularatnam, Tania Stathaki, (参考訳) アルゴリズムによる取引と電子市場が金融市場の状況を変え続けているため、公正で効率的な市場を維持するために、不正なエージェントを検知・抑止することが不可欠である。 大規模なデータセットの爆発と取引の継続的に変化するトリックは、新しい市場の状況に適応し、悪いアクターを検出するのを困難にしている。 そこで本研究では,市場操作を検出する領域において,様々な問題に容易に対応可能なフレームワークを提案する。 当社のアプローチでは,まず最初に,注文帳状態の潜在的疑わしいシーケンスを特定するために,弱教師付きモデルを学ぶためのトレーニングセットを作成するためのラベル付けアルゴリズムを採用しています。 ここでの主な目標は、将来のイベントを簡単に比較するために使用できる注文書の表現を学ぶことです。 その後、専門家による評価を取り入れて、特定のフラグ付き注文書の状態を精査する。 専門家の不可能な場合、疑わしい注文書状態に対するより複雑なアルゴリズムの適用について論じる。 次に,本書の新しい表象と専門家のラベル付き表象との類似性探索を行い,弱い学習者の結果をランク付けする。 我々は、この方向をさらに探求することを約束するいくつかの予備的な結果を示す。

As algorithmic trading and electronic markets continue to transform the landscape of financial markets, detecting and deterring rogue agents to maintain a fair and efficient marketplace is crucial. The explosion of large datasets and the continually changing tricks of the trade make it difficult to adapt to new market conditions and detect bad actors. To that end, we propose a framework that can be adapted easily to various problems in the space of detecting market manipulation. Our approach entails initially employing a labelling algorithm which we use to create a training set to learn a weakly supervised model to identify potentially suspicious sequences of order book states. The main goal here is to learn a representation of the order book that can be used to easily compare future events. Subsequently, we posit the incorporation of expert assessment to scrutinize specific flagged order book states. In the event of an expert's unavailability, recourse is taken to the application of a more complex algorithm on the identified suspicious order book states. We then conduct a similarity search between any new representation of the order book against the expert labelled representations to rank the results of the weak learner. We show some preliminary results that are promising to explore further in this direction
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# MTP:マルチタスク事前学習によるリモートセンシング基礎モデルの改善

MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining ( http://arxiv.org/abs/2403.13430v1 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Minqiang Xu, Lin Liu, Dongsheng Wang, Erzhong Gao, Chengxi Han, Haonan Guo, Bo Du, Dacheng Tao, Liangpei Zhang, (参考訳) ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。 プレトレーニングは、モデルウェイトを効果的に初期化するための教師付きおよび自己監督型学習手法を含む、活発な研究トピックである。 しかし、事前訓練されたモデルを下流タスクに転送することは、画像分類や物体識別タスクとして事前訓練を定式化することによって、タスクの相違に遭遇する可能性がある。 本研究では,RS基盤モデルのマルチタスク事前学習(MTP)パラダイムを考察し,この問題に対処する。 共有エンコーダとタスク固有のデコーダアーキテクチャを用いて、SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクの事前トレーニングを行う。 MTPは3億以上のパラメータを持つ畳み込みニューラルネットワークとビジョントランスフォーマー基盤モデルの両方をサポートしている。 事前訓練されたモデルは、シーン分類、水平および回転オブジェクト検出、セマンティックセグメンテーション、変更検出など、様々なRS下流タスクで微調整される。 14のデータセットにわたる大規模な実験は、我々のモデルが、同じ大きさの既存モデルよりも優れており、その競争性能が、より大きな最先端モデルに比べて優れていることを実証し、MPPの有効性を検証した。

Foundation models have reshaped the landscape of Remote Sensing (RS) by enhancing various image interpretation tasks. Pretraining is an active research topic, encompassing supervised and self-supervised learning methods to initialize model weights effectively. However, transferring the pretrained models to downstream tasks may encounter task discrepancy due to their formulation of pretraining as image classification or object discrimination tasks. In this study, we explore the Multi-Task Pretraining (MTP) paradigm for RS foundation models to address this issue. Using a shared encoder and task-specific decoder architecture, we conduct multi-task supervised pretraining on the SAMRS dataset, encompassing semantic segmentation, instance segmentation, and rotated object detection. MTP supports both convolutional neural networks and vision transformer foundation models with over 300 million parameters. The pretrained models are finetuned on various RS downstream tasks, such as scene classification, horizontal and rotated object detection, semantic segmentation, and change detection. Extensive experiments across 14 datasets demonstrate the superiority of our models over existing ones of similar size and their competitive performance compared to larger state-of-the-art models, thus validating the effectiveness of MTP.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# Agent Group Chat: 集団創発行動を改善するための対話型グループチャットシミュラクラ

Agent Group Chat: An Interactive Group Chat Simulacra For Better Eliciting Collective Emergent Behavior ( http://arxiv.org/abs/2403.13433v1 )

ライセンス: Link先を確認
Zhouhong Gu, Xiaoxuan Zhu, Haoran Guo, Lin Zhang, Yin Cai, Hao Shen, Jiangjie Chen, Zheyu Ye, Yifei Dai, Yan Gao, Yao Hu, Hongwei Feng, Yanghua Xiao, (参考訳) 人的集団行動における言語の役割を明らかにするために,複数エージェント間の言語的相互作用を異なる設定でシミュレートするエージェントグループチャットシミュレーションを開発した。 エージェントは、キャラクター設定に基づいて、このシミュレーションで自由にチャットするよう求められ、エージェントが予期せぬ、重要な行動を示すのを見ることを目的としている。 Inheritance Disputes, Law Court Debates, Philosophical Discourses, Movie Casting Contention という4つの物語シナリオがエージェントグループチャットに統合され、多様なストーリーラインのサポートを評価する。 エージェントグループチャット内で特定の環境設定を設定することで、エージェントが人間の期待に沿った行動を示すかどうかを評価することができる。 文字によって話される全ての内容のn-gramシャノンエントロピーを計算し、環境内の障害を評価する。 以上の結果から,ヒトの期待にかなり沿うエージェントの前提下では,シミュレーション内でより広範な情報交換が促進され,多様性の中でより大きな秩序が確保され,より予期せぬ,有意義な創発的行動が出現することが示唆された。 コードはhttps://github.com/MikeGu721/AgentGroupで公開されている。

To investigate the role of language in human collective behaviors, we developed the Agent Group Chat simulation to simulate linguistic interactions among multi-agent in different settings. Agents are asked to free chat in this simulation for their own purposes based on their character setting, aiming to see agents exhibit emergent behaviours that are both unforeseen and significant. Four narrative scenarios, Inheritance Disputes, Law Court Debates, Philosophical Discourses, Movie Casting Contention, are integrated into Agent Group Chat to evaluate its support for diverse storylines. By configuring specific environmental settings within Agent Group Chat, we are able to assess whether agents exhibit behaviors that align with human expectations. We evaluate the disorder within the environment by computing the n-gram Shannon entropy of all the content speak by characters. Our findings reveal that under the premise of agents possessing substantial alignment with human expectations, facilitating more extensive information exchange within the simulation ensures greater orderliness amidst diversity, which leads to the emergence of more unexpected and meaningful emergent behaviors. The code is open source in https://github.com/MikeGu721/AgentGroup, and online platform will be open soon.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# 拡張現実における6次元視点推定の促進 -制御不能画像による投影曖昧さの克服-

Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery ( http://arxiv.org/abs/2403.13434v1 )

ライセンス: Link先を確認
Mayura Manawadu, Sieun Park, Soon-Yong Park, (参考訳) 本研究では,仮想オブジェクトを現実の環境にシームレスに統合するための重要なコンポーネントである拡張現実(AR)における,正確な6次元ポーズ推定の課題に対処する。 我々の研究は、焦点距離などのメタデータを欠くARアプリケーションにおいて一般的なシナリオである、制御されていないRGB画像から6Dポーズを推定することの難しさに主に対処する。 本稿では,z軸変換と焦点長を戦略的に分解し,ニューラルレンダーを利用してFocalPoseアーキテクチャに固有の戦略を比較する手法を提案する。 この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。 実験の結果,6次元ポーズ推定精度が著しく向上し,製造・ロボット工学に有望な応用が示された。 ここでは、AR視覚化の正確なオーバーレイとロボットビジョンシステムの進歩が、我々の発見から大きな恩恵を受けている。

This study addresses the challenge of accurate 6D pose estimation in Augmented Reality (AR), a critical component for seamlessly integrating virtual objects into real-world environments. Our research primarily addresses the difficulty of estimating 6D poses from uncontrolled RGB images, a common scenario in AR applications, which lacks metadata such as focal length. We propose a novel approach that strategically decomposes the estimation of z-axis translation and focal length, leveraging the neural-render and compare strategy inherent in the FocalPose architecture. This methodology not only streamlines the 6D pose estimation process but also significantly enhances the accuracy of 3D object overlaying in AR settings. Our experimental results demonstrate a marked improvement in 6D pose estimation accuracy, with promising applications in manufacturing and robotics. Here, the precise overlay of AR visualizations and the advancement of robotic vision systems stand to benefit substantially from our findings.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# トーリック符号とゲージヒッグスモデルにおける位相的および境界的秩序の測定専用動的相転移

Measurement-only dynamical phase transition of topological and boundary orders in toric code and gauge-Higgs models ( http://arxiv.org/abs/2403.13435v1 )

ライセンス: Link先を確認
Takahiro Orito, Yoshihito Kuno, Ikuo Ichinose, (参考訳) プロジェクティブな計測専用回路を通して進化するトーリック符号モデルにおいて、時間的ダイナミクスとトポロジ的に順序付けられた状態の運命を広範囲に研究する。 この回路は、(2+1)次元ゲージヒッグスモデルのゲージ固定版である磁場摂動を持つトーリック符号ハミルトニアンの各項に対応するいくつかの測定演算子で構成されている。 我々は、長期計測力学の後に定常状態の分類にシリンダー幾何を用いる。 出現する定常状態は、各測定演算子の測定確率に依存する。 ヒッグス、閉じ込められ、分解された相は、回路による時間進化に存在している。 一方,ヒッグスと閉じ込め相の位相境界は,最近観測されたヒッグスと閉じ込め相が対称性保護トポロジー状態の1つであることを裏付ける境界上の長距離秩序によって得られる。

We extensively study long-time dynamics and fate of topologically-ordered state in toric code model evolving through a projective measurement-only circuit. The circuit is composed of several measurement operators corresponding to each term of toric code Hamiltonian with magnetic-field perturbations, which is a gauge-fixed version of a (2+1)-dimensional gauge-Higgs model. We employ a cylinder geometry to classify stationary states after long-time measurement dynamics. The appearing stationary states depend on measurement probabilities for each measurement operator. The Higgs, confined and deconfined phases exist in the time evolution by the circuit. We find that both the Higgs and confined phases are clearly separated from the deconfined phase by topological entanglement entropy, whereas the phase boundary between the Higgs and confined phases is obtained by long-range orders on the boundaries supporting the recent observation that the Higgs and confined phases are both one of symmetry-protected-topological states.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# 加工金属表面の集合組織合成のための確率幾何学モデル:サンドブラストとミリング

Stochastic Geometry Models for Texture Synthesis of Machined Metallic Surfaces: Sandblasting and Milling ( http://arxiv.org/abs/2403.13439v1 )

ライセンス: Link先を確認
Natascha Jeziorski, Claudia Redenbach, (参考訳) 視覚面検査システムのためのトレーニング欠陥検出アルゴリズムには,大規模かつ代表的なトレーニングデータが必要である。 多くの場合、潜在的な欠陥をカバーできない実際のデータが不足している。 合成視覚表面検査環境によって生成された合成データは、この問題を克服することができる。 そのため, テクスチャ合成モデルを用いて微視的表面トポグラフィーをモデル化したデジタルツインが必要である。 このような表面のトポグラフィー測定に基づいて,砂質表面および製粉面の確率的テクスチャモデルを構築した。 表面パターンが著しく異なるため、2つのケースで別々のモデリング手法を用いる。 サンドブラスト表面は、データに基づくテクスチャ合成法を組み合わせることでモデル化される。 対照的に、加工面のモデルは手続き的であり、マシン設定から知られているプロセス関連のパラメータをすべて含んでいる。

Training defect detection algorithms for visual surface inspection systems requires a large and representative set of training data. Often there is not enough real data available which additionally cannot cover the variety of possible defects. Synthetic data generated by a synthetic visual surface inspection environment can overcome this problem. Therefore, a digital twin of the object is needed, whose micro-scale surface topography is modeled by texture synthesis models. We develop stochastic texture models for sandblasted and milled surfaces based on topography measurements of such surfaces. As the surface patterns differ significantly, we use separate modeling approaches for the two cases. Sandblasted surfaces are modeled by a combination of data-based texture synthesis methods that rely entirely on the measurements. In contrast, the model for milled surfaces is procedural and includes all process-related parameters known from the machine settings.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# ニューラルネットワークにおけるロバスト性検証

Robustness Verifcation in Neural Networks ( http://arxiv.org/abs/2403.13441v1 )

ライセンス: Link先を確認
Adrian Wurm, (参考訳) 本稿では,ニューラルネットワーク計算における形式的検証問題について検討する。 線形プログラミングのインスタンスとして許可された入力と出力のシンボリックな仕様を与えられた場合、ネットワークが有効な出力を計算するような有効な入力が存在するかどうかが疑問である。 そして、このプロパティはすべての有効な入力に対して保持されますか? 与えられた2つのネットワークは同じ関数を計算しますか? 同じ機能をコンピューティングする小さなネットワークがありますか? これらの質問の複雑さは、近年、実践的な観点から研究され、ヒューリスティックアルゴリズムによって近似されている。 ニューラルネットワークのセキュリティと効率に関する質問を交換し、それらの計算複雑性を分析する理論的枠組みを提供することで、これらの成果を補完する。 この問題は半線形な設定で克服可能であることが示され、つまり、一括線形活性化関数や和あるいは最大メートル法が用いられるとき、そのほとんどはPかNPである。

In this paper we investigate formal verification problems for Neural Network computations. Of central importance will be various robustness and minimization problems such as: Given symbolic specifications of allowed inputs and outputs in form of Linear Programming instances, one question is whether there do exist valid inputs such that the network computes a valid output? And does this property hold for all valid inputs? Do two given networks compute the same function? Is there a smaller network computing the same function? The complexity of these questions have been investigated recently from a practical point of view and approximated by heuristic algorithms. We complement these achievements by giving a theoretical framework that enables us to interchange security and efficiency questions in neural networks and analyze their computational complexities. We show that the problems are conquerable in a semi-linear setting, meaning that for piecewise linear activation functions and when the sum- or maximum metric is used, most of them are in P or in NP at most.
翻訳日:2024-03-21 17:28:32 公開日:2024-03-20
# Fast-Poly:3Dマルチオブジェクト追跡のための高速多面的フレームワーク

Fast-Poly: A Fast Polyhedral Framework For 3D Multi-Object Tracking ( http://arxiv.org/abs/2403.13443v1 )

ライセンス: Link先を確認
Xiaoyu Li, Dedong Liu, Lijun Zhao, Yitao Wu, Xian Wu, Jinghan Gao, (参考訳) 3D Multi-Object Tracking (MOT)は、ロボット知覚に不可欠な、周囲の障害物の安定かつ包括的な運動状態をキャプチャする。 しかし、現在の3Dトラッカーは精度とレイテンシの一貫性の問題に直面している。 本稿では,高速かつ効率的な3次元MOTフィルタ手法であるFast-Polyを提案する。 これまでのPoly-MOTに基づいて、Fast-Polyは3次元空間における物体の回転異方性に対処し、局所的な計算密度を高め、並列化技術を活用し、推論速度と精度を向上させる。 Fast-PolyはPythonを実装した2つの大規模トラッキングベンチマークで広くテストされている。 nuScenesデータセットでは、Fast-Polyは75.8%のAMOTAで新しい最先端のパフォーマンスを実現し、パーソナルCPU上で34.2FPSで実行できる。 Waymoデータセットでは、Fast-Polyは63.6%のMOTAと印象的な推論速度(35.5 FPS)で競合精度を示す。 ソースコードはhttps://github.com/lixiaoyu2000/FastPolyで公開されている。

3D Multi-Object Tracking (MOT) captures stable and comprehensive motion states of surrounding obstacles, essential for robotic perception. However, current 3D trackers face issues with accuracy and latency consistency. In this paper, we propose Fast-Poly, a fast and effective filter-based method for 3D MOT. Building upon our previous work Poly-MOT, Fast-Poly addresses object rotational anisotropy in 3D space, enhances local computation densification, and leverages parallelization technique, improving inference speed and precision. Fast-Poly is extensively tested on two large-scale tracking benchmarks with Python implementation. On the nuScenes dataset, Fast-Poly achieves new state-of-the-art performance with 75.8% AMOTA among all methods and can run at 34.2 FPS on a personal CPU. On the Waymo dataset, Fast-Poly exhibits competitive accuracy with 63.6% MOTA and impressive inference speed (35.5 FPS). The source code is publicly available at https://github.com/lixiaoyu2000/FastPoly.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# MedCycle: サイクル一貫性による障害のない医療レポート生成

MedCycle: Unpaired Medical Report Generation via Cycle-Consistency ( http://arxiv.org/abs/2403.13444v1 )

ライセンス: Link先を確認
Elad Hirsch, Gefen Dawidowicz, Ayellet Tal, (参考訳) X線画像の医療報告を生成することは、特にペア化された画像レポートデータへのアクセスが不可能な未解決のシナリオにおいて、大きな課題となる。 これまでの研究では、画像とレポートの共同埋め込みスペースを学習しており、どちらも特定のラベル付けスキーマを必要とする。 我々は、一貫性のあるラベリングスキーマの必要性を排除し、データアクセシビリティを向上し、非互換なデータセットの使用を可能にする革新的なアプローチを導入する。 このアプローチは、画像埋め込みをレポート埋め込みに変換するサイクル一貫性マッピング関数と、医療報告生成のためのレポート自動エンコーディングに基づいている。 我々のモデルと目的は、画像やレポート内の複雑な局所的詳細と包括的な意味的文脈を考察する。 このアプローチは効果的なマッピング関数の学習を容易にし、コヒーレントなレポートを生成する。 胸部X線所見の発生は、最先端の結果よりも優れており、言語と臨床の両方の指標の改善が示されている。

Generating medical reports for X-ray images presents a significant challenge, particularly in unpaired scenarios where access to paired image-report data for training is unavailable. Previous works have typically learned a joint embedding space for images and reports, necessitating a specific labeling schema for both. We introduce an innovative approach that eliminates the need for consistent labeling schemas, thereby enhancing data accessibility and enabling the use of incompatible datasets. This approach is based on cycle-consistent mapping functions that transform image embeddings into report embeddings, coupled with report auto-encoding for medical report generation. Our model and objectives consider intricate local details and the overarching semantic context within images and reports. This approach facilitates the learning of effective mapping functions, resulting in the generation of coherent reports. It outperforms state-of-the-art results in unpaired chest X-ray report generation, demonstrating improvements in both language and clinical metrics.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# IndiTag:ファイングラインドバイアス指標を用いたオンラインメディアバイアス分析とアノテーションシステム

IndiTag: An Online Media Bias Analysis and Annotation System Using Fine-Grained Bias Indicators ( http://arxiv.org/abs/2403.13446v1 )

ライセンス: Link先を確認
Luyang Lin, Lingzhi Wang, Jinsong Guo, Jing Li, Kam-Fai Wong, (参考訳) 情報過負荷と分極的談話の時代、メディアバイアスの理解は、情報的意思決定とバランスの取れた公開談話の育成に欠かせないものとなっている。 IndiTagは,デジタルコンテンツの偏差を識別・注釈するために,微細な偏差インジケータを利用する,革新的なオンラインメディアバイアス分析・アノテーションシステムである。 IndiTagは、バイアスを自動的に検出し解釈するために、大きな言語モデル、バイアスインジケータ、ベクトルデータベースを組み込むことによって、新しいアプローチを提供する。 自動バイアス分析と手動アノテーションの両方を容易にするユーザフレンドリなインターフェースで補完されたIndiTagは、詳細なバイアス検査のための包括的なプラットフォームを提供する。 多様なプラットフォームからのニュース記事を含む4つのデータセットの実験を通じて,IndiTagの有効性と汎用性を実証した。 さらに、メディアリテラシーの育成、ファクトチェックの取り組みの促進、デジタルメディアプラットフォームの透明性と説明責任の向上におけるIndiTagの潜在的な応用について論じる。 IndiTagは、デジタル時代のより情報に富み、識別され、包括的な公的な言論を促進するための貴重なツールである。 デモビデオはhttps://youtu.be/Gt2T4T7DYqsからアクセスすることができる。 エンドユーザー向けのオンラインシステムをリリースし、ソースコードはhttps://github.com/lylin0/IndiTag.comで入手できる。

In the age of information overload and polarized discourse, understanding media bias has become imperative for informed decision-making and fostering a balanced public discourse. This paper presents IndiTag, an innovative online media bias analysis and annotation system that leverages fine-grained bias indicators to dissect and annotate bias in digital content. IndiTag offers a novel approach by incorporating large language models, bias indicator, vector database to automatically detect and interpret bias. Complemented by a user-friendly interface facilitating both automated bias analysis and manual annotation, IndiTag offers a comprehensive platform for in-depth bias examination. We demonstrate the efficacy and versatility of IndiTag through experiments on four datasets encompassing news articles from diverse platforms. Furthermore, we discuss potential applications of IndiTag in fostering media literacy, facilitating fact-checking initiatives, and enhancing the transparency and accountability of digital media platforms. IndiTag stands as a valuable tool in the pursuit of fostering a more informed, discerning, and inclusive public discourse in the digital age. The demonstration video can be accessed from https://youtu.be/Gt2T4T7DYqs. We release an online system for end users and the source code is available at https://github.com/lylin0/IndiTag.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# HyperLLaVA: マルチモーダル大規模言語モデルのための動的ビジュアルおよび言語エキスパートチューニング

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models ( http://arxiv.org/abs/2403.13447v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang, (参考訳) 最近の進歩は、マルチモーダル言語モデル(MLLM)のスケールアップが、下流マルチモーダルタスクのパフォーマンスを効果的に向上させることを示している。 一般的なMLLMパラダイムである「emph{e g }」である「LLaVA」は、視覚的特徴を「emph{static}」視覚言語マッパーを用いてテキストのようなトークンに変換することで、視覚的インストラクションチューニングを通じて視覚的情報を理解する能力を開発することができる。 有望ではあるが、\emph{static}チューニング戦略~\footnote{静的チューニングは、静的パラメータを持つトレーニングされたモデルを指す。 同じパラメータを共有すると、さまざまなダウンストリームマルチモーダルタスクのパフォーマンスが制限される可能性がある。 そこで我々は,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを併用したHyperLLaVAを提案する。 これらのエキスパートはHyperNetworksから派生したもので、視覚的および言語指導を通じて適応パラメータシフトを生成し、2段階のトレーニングで動的プロジェクタとLLMモデリングを可能にする。 実験の結果,MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAをはるかに上回っていることがわかった。 ~\footnote{Our プロジェクトは https://github.com/DCDmllm/HyperLLaVA} リンクで入手できる。

Recent advancements indicate that scaling up Multimodal Large Language Models (MLLMs) effectively enhances performance on downstream multimodal tasks. The prevailing MLLM paradigm, \emph{e.g.}, LLaVA, transforms visual features into text-like tokens using a \emph{static} vision-language mapper, thereby enabling \emph{static} LLMs to develop the capability to comprehend visual information through visual instruction tuning. Although promising, the \emph{static} tuning strategy~\footnote{The static tuning refers to the trained model with static parameters.} that shares the same parameters may constrain performance across different downstream multimodal tasks. In light of this, we introduce HyperLLaVA, which involves adaptive tuning of the projector and LLM parameters, in conjunction with a dynamic visual expert and language expert, respectively. These experts are derived from HyperNetworks, which generates adaptive parameter shifts through visual and language guidance, enabling dynamic projector and LLM modeling in two-stage training. Our experiments demonstrate that our solution significantly surpasses LLaVA on existing MLLM benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench. ~\footnote{Our project is available on the link https://github.com/DCDmllm/HyperLLaVA}.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# データ駆動気象モデルの不確かさ定量化

Uncertainty quantification for data-driven weather models ( http://arxiv.org/abs/2403.13458v1 )

ライセンス: Link先を確認
Christopher Bülte, Nina Horat, Julian Quinting, Sebastian Lerch, (参考訳) 人工知能(AI)ベースのデータ駆動天気予報モデルは、ここ数年で急速に進歩している。 近年の研究では、リアナリシスデータに基づいてトレーニングされたモデルが目覚ましい結果をもたらし、様々な変数や評価指標を含む、最先端の物理に基づく数値天気予報モデルよりも大幅に改善されていることが示されている。 予測の改善以外にも、データ駆動型気象モデルの主な利点は、計算コストが大幅に削減され、モデルが訓練された後に予測がより高速に生成されることである。 しかし、データ駆動の天気予報におけるほとんどの取り組みは決定論的、ポイント値の予測に限られており、予測の不確かさを定量化することは不可能であり、これは研究やアプリケーションにおける最適な意思決定に不可欠である。 我々の総合的な目的は、現在最先端の決定論的データ駆動気象モデルであるPangu-Weatherから確率的天気予報を生成するための不確実性定量化手法を体系的に研究し比較することである。 具体的には,摂動によるアンサンブル予測の生成に基づく予測の不確実性を定量化するための手法と,ポストホック不確実性定量化のための統計的および機械学習手法の比較を行った。 欧州における選択された気象変数の中距離予測のケーススタディでは、パング・ウェザーモデルと不確実な定量化手法を併用して得られた確率予測が有望な結果を示し、ヨーロッパ中央気象予報センターの物理に基づくアンサンブル天気予報モデルから最大5日間のリードタイムに改善された。

Artificial intelligence (AI)-based data-driven weather forecasting models have experienced rapid progress over the last years. Recent studies, with models trained on reanalysis data, achieve impressive results and demonstrate substantial improvements over state-of-the-art physics-based numerical weather prediction models across a range of variables and evaluation metrics. Beyond improved predictions, the main advantages of data-driven weather models are their substantially lower computational costs and the faster generation of forecasts, once a model has been trained. However, most efforts in data-driven weather forecasting have been limited to deterministic, point-valued predictions, making it impossible to quantify forecast uncertainties, which is crucial in research and for optimal decision making in applications. Our overarching aim is to systematically study and compare uncertainty quantification methods to generate probabilistic weather forecasts from a state-of-the-art deterministic data-driven weather model, Pangu-Weather. Specifically, we compare approaches for quantifying forecast uncertainty based on generating ensemble forecasts via perturbations to the initial conditions, with the use of statistical and machine learning methods for post-hoc uncertainty quantification. In a case study on medium-range forecasts of selected weather variables over Europe, the probabilistic forecasts obtained by using the Pangu-Weather model in concert with uncertainty quantification methods show promising results and provide improvements over ensemble forecasts from the physics-based ensemble weather model of the European Centre for Medium-Range Weather Forecasts for lead times of up to 5 days.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# 環境による量子制御:チューリング計算不能、スティフェル多様体上の最適化、到達可能集合、および非コヒーレント GRAPE

Quantum control by the environment: Turing uncomputability, Optimization over Stiefel manifolds, Reachable sets, and Incoherent GRAPE ( http://arxiv.org/abs/2403.13461v1 )

ライセンス: Link先を確認
Alexander Pechen, (参考訳) 量子システムを制御する能力は、量子計算におけるゲート生成からNMR、化学反応のレーザー制御まで、多くの量子技術の応用に必要である。 多くの現実的な状況において、制御された量子系は開であり、すなわち環境と相互作用する。 環境の影響はシステム制御の障害と見なされることが多いが、場合によっては有用な資源として利用することができる。 本稿では,Siefel多様体の点によるクラウス写像のパラメトリゼーション,散逸と時間依存性のデコヒーレンス率による制御,到達可能な集合,非コヒーレント GRAPE (Gradient Ascent Pulse Engineering) -- GRAPE -- の勾配に基づく最適化について述べる。

The ability to control quantum systems is necessary for many applications of quantum technologies ranging from gate generation in quantum computation to NMR and laser control of chemical reactions. In many practical situations, the controlled quantum systems are open, i.e., interacting with the environment. While often influence of the environment is considered as an obstacle for controlling the systems, in some cases it can be exploited as a useful resource. In this note, we briefly review some results on control of open quantum systems using environment as a resource, including control by engineered environments and by non-selective measurements, Turing uncomputability of discrete quantum control, parametrization of Kraus maps by points of the Stiefel manifolds and corresponding Riemanninan optimization, control by dissipation and time-dependent decoherence rates, reachable sets, and incoherent GRAPE (Gradient Ascent Pulse Engineering) -- inGRAPE -- for gradient-based optimization.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# XRにおけるAIによるスキンケアのレコメンデーションシステム

An AI-Assisted Skincare Routine Recommendation System in XR ( http://arxiv.org/abs/2403.13466v1 )

ライセンス: Link先を確認
Gowravi Malalur Rajegowda, Yannis Spyridis, Barbara Villarini, Vasileios Argyriou, (参考訳) 近年,美容産業における人工知能(AI)と拡張現実(XR)の利用への関心が高まっている。 本稿では,XRプラットフォームに統合されたAI支援スキンケアレコメンデーションシステムを提案する。 このシステムは、畳み込みニューラルネットワーク(CNN)を使用して、個人の皮膚型を分析し、没入的でインタラクティブな方法でパーソナライズされた皮膚ケア製品を推奨する。 本手法では, 質問紙から個人データを収集し, 提供される顔画像を用いて皮膚分析を行う。 このデータは、皮膚のタイプと既存の問題を認識し、レコメンデーションエンジンがパーソナライズされたスキンケア製品を提案するCNNモデルのトレーニングに使用される。 我々はCNNモデルの精度から,既存の皮膚問題を正しく分類する際の平均スコアを93%と評価した。 XRシステムに統合されているこのアプローチは、ユーザに対して没入的で魅力的な体験を提供することによって、美容産業を著しく強化する可能性があり、より効率的で一貫したスキンケアルーチンがもたらされる。

In recent years, there has been an increasing interest in the use of artificial intelligence (AI) and extended reality (XR) in the beauty industry. In this paper, we present an AI-assisted skin care recommendation system integrated into an XR platform. The system uses a convolutional neural network (CNN) to analyse an individual's skin type and recommend personalised skin care products in an immersive and interactive manner. Our methodology involves collecting data from individuals through a questionnaire and conducting skin analysis using a provided facial image in an immersive environment. This data is then used to train the CNN model, which recognises the skin type and existing issues and allows the recommendation engine to suggest personalised skin care products. We evaluate our system in terms of the accuracy of the CNN model, which achieves an average score of 93% in correctly classifying existing skin issues. Being integrated into an XR system, this approach has the potential to significantly enhance the beauty industry by providing immersive and engaging experiences to users, leading to more efficient and consistent skincare routines.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# CLIPSwarm:ビジョンランゲージモデルによるテキストプロンプトからドローンショーを生成する

CLIPSwarm: Generating Drone Shows from Text Prompts with Vision-Language Models ( http://arxiv.org/abs/2403.13467v1 )

ライセンス: Link先を確認
Pablo Pueyo, Eduardo Montijano, Ana C. Murillo, Mac Schwager, (参考訳) 本稿では,自然言語に基づくSwarmドローン生成のモデリングを自動化するアルゴリズムであるCLIPSwarmを紹介する。 このアルゴリズムは、提供された単語を豊かにすることで始まり、提供された単語に最もよくマッチする生成を見つけるための反復的なアプローチへの入力として機能するテキストプロンプトを構成する。 このアルゴリズムは、ロボットの形成を反復的に洗練し、テキスト記述と整合し、「探索」と「探索」の異なるステップを利用する。 現在,本フレームワークは,輪郭形状に限定された簡易な形成目標に基づいて評価されている。 生成はアルファ形状の輪郭を通して視覚的に表現され、入力語に対して最も代表的な色が自動的に見つかる。 生成の視覚的表現と記述の類似性を測定するために,CLIP[1]を用いてテキストと画像をベクトルに符号化し,それらの類似性を評価する。 その後、アルゴリズムは、利用可能なドローンの所定の制約の中で、より効果的に単語を視覚的に表現するように構成を再構成する。 制御アクションはドローンに割り当てられ、ロボットの動作と衝突のない動きを確実にする。 実験結果から,自然言語記述からロボット生成を正確にモデル化するシステムの有効性が示された。 アルゴリズムの汎用性は、様々な形状のフォトリアリスティックシミュレーションにおいて、ドローンショーの実行を通じて示される。 結果の視覚的参照のために、読者を補足ビデオに参照する。

This paper introduces CLIPSwarm, a new algorithm designed to automate the modeling of swarm drone formations based on natural language. The algorithm begins by enriching a provided word, to compose a text prompt that serves as input to an iterative approach to find the formation that best matches the provided word. The algorithm iteratively refines formations of robots to align with the textual description, employing different steps for "exploration" and "exploitation". Our framework is currently evaluated on simple formation targets, limited to contour shapes. A formation is visually represented through alpha-shape contours and the most representative color is automatically found for the input word. To measure the similarity between the description and the visual representation of the formation, we use CLIP [1], encoding text and images into vectors and assessing their similarity. Subsequently, the algorithm rearranges the formation to visually represent the word more effectively, within the given constraints of available drones. Control actions are then assigned to the drones, ensuring robotic behavior and collision-free movement. Experimental results demonstrate the system's efficacy in accurately modeling robot formations from natural language descriptions. The algorithm's versatility is showcased through the execution of drone shows in photorealistic simulation with varying shapes. We refer the reader to the supplementary video for a visual reference of the results.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# 医療用データセット蒸留における進行軌跡マッチング

Progressive trajectory matching for medical dataset distillation ( http://arxiv.org/abs/2403.13469v1 )

ライセンス: Link先を確認
Zhen Yu, Yang Liu, Qingchao Chen, (参考訳) 基礎モデルの構築や知識伝達を禁止しているプライバシー問題のため、医療画像データセットの共有は不可欠だが困難である。 本稿では, 医用画像データセットを, 元のデータセットにアクセスすることなく, 分析モデルを構築する上で有用な情報を保持する合成データセットに凝縮する新しいデータセット蒸留法を提案する。 既存の手法は、実際のデータセット全体によって訓練されたモデルパラメータのトレーニング軌跡の一部をランダムにマッチングすることで、自然画像のみに対処する。 しかし、医用画像データセットに関する広範な実験により、トレーニングプロセスは非常に不安定であり、低い蒸留結果が得られる。 これらの障壁を解決するため、医用画像データセット蒸留のトレーニング安定性を向上させるために、新しい進行軌道マッチング戦略を設計することを提案する。 さらに, 安定性の向上により, 合成データセットの多様性や最終的な性能向上が防止されることがわかった。 そこで本稿では, 画像間の重なりを動的に排除し, コンバージェンスを向上させることで, 合成データセットの多様性を向上させる動的重なり緩和モジュールを提案する。 最後に, 公正な評価を促進するために, 様々なモダリティと構成の医用画像データセット蒸留ベンチマークを提案する。 提案手法は,従来の最先端手法に比べて平均8.33%改善し,ipc=2で11.7%改善した。 コードとベンチマークがリリースされる。

It is essential but challenging to share medical image datasets due to privacy issues, which prohibit building foundation models and knowledge transfer. In this paper, we propose a novel dataset distillation method to condense the original medical image datasets into a synthetic one that preserves useful information for building an analysis model without accessing the original datasets. Existing methods tackle only natural images by randomly matching parts of the training trajectories of the model parameters trained by the whole real datasets. However, through extensive experiments on medical image datasets, the training process is extremely unstable and achieves inferior distillation results. To solve these barriers, we propose to design a novel progressive trajectory matching strategy to improve the training stability for medical image dataset distillation. Additionally, it is observed that improved stability prevents the synthetic dataset diversity and final performance improvements. Therefore, we propose a dynamic overlap mitigation module that improves the synthetic dataset diversity by dynamically eliminating the overlap across different images and retraining parts of the synthetic images for better convergence. Finally, we propose a new medical image dataset distillation benchmark of various modalities and configurations to promote fair evaluations. It is validated that our proposed method achieves 8.33% improvement over previous state-of-the-art methods on average, and 11.7% improvement when ipc=2 (i.e., image per class is 2). Codes and benchmarks will be released.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# 実世界3次元LiDARシーンコンプリートへの拡散モデルのスケーリング

Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion ( http://arxiv.org/abs/2403.13470v1 )

ライセンス: Link先を確認
Lucas Nunes, Rodrigo Marcuzzi, Benedikt Mersch, Jens Behley, Cyrill Stachniss, (参考訳) コンピュータビジョン技術は、自動運転車の知覚スタックにおいて中心的な役割を果たす。 このような手法は、センサデータによって車両を取り巻く環境を知覚するために用いられる。 3D LiDARセンサーは、通常、シーンからスパース3Dポイントの雲を収集するために使用される。 しかし、人間の知覚と比較すると、こうしたシステムは希少な点の雲を考えると、シーンの見えない部分を推測するのに苦労する。 本稿では,LiDAR計測におけるギャップを予測し,より完全なシーン表現を実現することを目的とする。 画像生成モデルとしての最近の拡散モデルの有望な結果を考えると、単一の3次元LiDARスキャンからシーン完了を実現するため、画像の拡張を提案する。 従来の研究では、LiDARデータから抽出した範囲画像の拡散モデルを使用して、画像ベース拡散法を直接適用していた。 そこで,本研究では,シーンスケールで効率よく作業できるように,音の高次化とデノナイズを行う拡散過程を改良し,ポイントを直接操作することを提案する。 提案手法は,提案手法と併用して,デノナイジング過程中に予測される雑音を安定化する正規化損失を提案する。 実験により,本手法は1つのLiDARスキャンを入力としてシーンを完了できることが確認された。 提案した拡散過程の定式化は,シーンスケールのクラウドデータに適用された拡散モデルに関するさらなる研究を支援することができると考えている。

Computer vision techniques play a central role in the perception stack of autonomous vehicles. Such methods are employed to perceive the vehicle surroundings given sensor data. 3D LiDAR sensors are commonly used to collect sparse 3D point clouds from the scene. However, compared to human perception, such systems struggle to deduce the unseen parts of the scene given those sparse point clouds. In this matter, the scene completion task aims at predicting the gaps in the LiDAR measurements to achieve a more complete scene representation. Given the promising results of recent diffusion models as generative models for images, we propose extending them to achieve scene completion from a single 3D LiDAR scan. Previous works used diffusion models over range images extracted from LiDAR data, directly applying image-based diffusion methods. Distinctly, we propose to directly operate on the points, reformulating the noising and denoising diffusion process such that it can efficiently work at scene scale. Together with our approach, we propose a regularization loss to stabilize the noise predicted during the denoising process. Our experimental evaluation shows that our method can complete the scene given a single LiDAR scan as input, producing a scene with more details compared to state-of-the-art scene completion methods. We believe that our proposed diffusion process formulation can support further research in diffusion models applied to scene-scale point cloud data.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# 平衡からの一元的時間発展について

On unitary time evolution out of equilibrium ( http://arxiv.org/abs/2403.13477v1 )

ライセンス: Link先を確認
Gesualdo Delfino, Marianna Sorba, (参考訳) 負の時間における任意の進化を考慮に入れるために、非平衡状態にある時間非依存のハミルトン状態において、正の時間で進化する$d$次元量子系を考える。 局所作用素の一点函数がエネルギー固有状態に基づいて非平衡状態の膨張係数に依存することを示す。 この方法で漸近的なオフセットを表現し、この値の周囲の振動が大きな時間で破壊されない状態を示す。 また、小さなクエンチの場合、一般結果の構造が摂動的に知られていることを単純化し、再現する方法も示す。

We consider $d$-dimensional quantum systems which for positive times evolve with a time-independent Hamiltonian in a nonequilibrium state that we keep generic in order to account for arbitrary evolution at negative times. We show how the one-point functions of local operators depend on the coefficients of the expansion of the nonequilibrium state on the basis of energy eigenstates. We express in this way the asymptotic offset and show under which conditions oscillations around this value stay undamped at large times. We also show how, in the case of small quenches, the structure of the general results simplifies and reproduces that known perturbatively.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# ディープフェイクのないディープフェイク検出:合成周波数パターン注入による一般化

Deepfake Detection without Deepfakes: Generalization via Synthetic Frequency Patterns Injection ( http://arxiv.org/abs/2403.13479v1 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Roberto Caldelli, Claudio Gennaro, Giuseppe Fiameni, Giuseppe Amato, Fabrizio Falchi, (参考訳) ディープフェイク検出器は、通常、大量のプリスタンと生成された画像に基づいて訓練され、その結果、限られた一般化能力が得られる。 本稿では,ディープフェイク検出器の一般化能力の向上を目的とした学習手法を提案する。 本手法は、画像生成プロセスが周波数領域に一貫して導入するユニークな「指紋」から着想を得たものである。 これらの指紋は、構造化され、はっきりと認識可能な周波数パターンとして現れる。 そこで本研究では, 周波数パターンの一部にプリスタン画像のみを注入し, 種々のディープフェイク生成技術の効果を, 特定することなくシミュレーションする手法を提案する。 これらの合成パターンは、一般的な形状、格子、またはオーラに基づいている。 提案手法は,25種類の世代にまたがる多種多様なアーキテクチャを用いて評価した。 提案手法で訓練したモデルでは,最先端のディープフェイク検出が可能であり,従来の手法と比較して優れた一般化能力を示すことができた。 実際、彼らは特定の生成技術に不慣れであり、どのように作られたかに関わらず、効果的にディープフェイクを識別できる。

Deepfake detectors are typically trained on large sets of pristine and generated images, resulting in limited generalization capacity; they excel at identifying deepfakes created through methods encountered during training but struggle with those generated by unknown techniques. This paper introduces a learning approach aimed at significantly enhancing the generalization capabilities of deepfake detectors. Our method takes inspiration from the unique "fingerprints" that image generation processes consistently introduce into the frequency domain. These fingerprints manifest as structured and distinctly recognizable frequency patterns. We propose to train detectors using only pristine images injecting in part of them crafted frequency patterns, simulating the effects of various deepfake generation techniques without being specific to any. These synthetic patterns are based on generic shapes, grids, or auras. We evaluated our approach using diverse architectures across 25 different generation methods. The models trained with our approach were able to perform state-of-the-art deepfake detection, demonstrating also superior generalization capabilities in comparison with previous methods. Indeed, they are untied to any specific generation technique and can effectively identify deepfakes regardless of how they were made.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# 雑音ラベル付きクロスモーダル検索のための統一最適輸送フレームワーク

A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels ( http://arxiv.org/abs/2403.13480v1 )

ライセンス: Link先を確認
Haochen Han, Minnan Luo, Huan Liu, Fang Nan, (参考訳) クロスモーダル検索 (CMR) は, セマンティックなカテゴリー識別の柔軟性により, 教師付きCMRが出現している様々なモダリティ間の相互作用を確立することを目的としている。 従来の教師付きCMR法の顕著な性能にもかかわらず、その成功の多くは注釈付きデータによるものである。 しかし、単調なデータであっても、正確なアノテーションは高価で時間を要するため、マルチモーダルシナリオではより困難になる。 実際には、大量のマルチモーダルデータが粗いアノテーションでインターネットから収集され、必然的にノイズの多いラベルが導入される。 このような誤解を招くラベルを用いたトレーニングは、マルチモーダルサンプルを \emph{align incorrect semantics} と \emph{widen the heterogeneous gap} に強制する2つの重要な課題をもたらす。 これらの課題に対処するため,本研究では,ロバストクロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。 まず,ノイズラベルを段階的に補正する部分OTに基づくセマンティックアライメントを提案する。そこでは,異なるモダリティをブレンドし,正確な輸送コストを提供するために,新しいクロスモーダル一貫したコスト関数を設計する。 第二に、マルチモーダルデータの差を狭めるために、意味レベルのクロスモーダルマッチングを推測するために、OTに基づく関係アライメントを提案する。 これら2つのコンポーネントは、効率的なコスト関数を促進するために、マルチモーダルデータの固有相関を利用する。 広範に使用されている3つのクロスモーダル検索データセットの実験により、我々のOT-RCLが最先端のアプローチを超越し、ノイズラベルに対するロバスト性を大幅に向上することを示した。

Cross-modal retrieval (CMR) aims to establish interaction between different modalities, among which supervised CMR is emerging due to its flexibility in learning semantic category discrimination. Despite the remarkable performance of previous supervised CMR methods, much of their success can be attributed to the well-annotated data. However, even for unimodal data, precise annotation is expensive and time-consuming, and it becomes more challenging with the multimodal scenario. In practice, massive multimodal data are collected from the Internet with coarse annotation, which inevitably introduces noisy labels. Training with such misleading labels would bring two key challenges -- enforcing the multimodal samples to \emph{align incorrect semantics} and \emph{widen the heterogeneous gap}, resulting in poor retrieval performance. To tackle these challenges, this work proposes UOT-RCL, a Unified framework based on Optimal Transport (OT) for Robust Cross-modal Retrieval. First, we propose a semantic alignment based on partial OT to progressively correct the noisy labels, where a novel cross-modal consistent cost function is designed to blend different modalities and provide precise transport cost. Second, to narrow the discrepancy in multi-modal data, an OT-based relation alignment is proposed to infer the semantic-level cross-modal matching. Both of these two components leverage the inherent correlation among multi-modal data to facilitate effective cost function. The experiments on three widely-used cross-modal retrieval datasets demonstrate that our UOT-RCL surpasses the state-of-the-art approaches and significantly improves the robustness against noisy labels.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# エントロピーに基づくテキスト透かし検出法

An Entropy-based Text Watermarking Detection Method ( http://arxiv.org/abs/2403.13485v1 )

ライセンス: Link先を確認
Yijian Lu, Aiwei Liu, Dianzhi Yu, Jingjing Li, Irwin King, (参考訳) 現在、大規模言語モデル(LLM)用のテキスト透かしアルゴリズムは、LLMが生成したテキストに隠れた特徴を埋め込んで、後続の検出を容易にするため、LLMの誤用の問題を軽減することができる。 現在のテキスト透かしアルゴリズムは、ほとんどの高エントロピーシナリオでよく機能するが、低エントロピーシナリオでの性能は改善する必要がある。 本研究では,全てのトークンの重みを従来の方法と同じ値に設定するのではなく,透かし検出過程において,トークンエントロピーの影響を完全に考慮し,各トークンの重みを透かし検出中にそのエントロピーに応じて調整するべきであることを提案する。 具体的には,透かし検出において高いエントロピートークンを高い重みを与えるエントロピーベースの透かし検出(EWD)を提案し,透かしの程度をよく反映した。 さらに、提案する検出プロセスは、トレーニング不要で、完全に自動化されている。 % 実際の検出では,各トークンのエントロピーを計算するためにプロキシLLMを使用する。 実験の結果,低エントロピーのシナリオでは検出性能が向上し,また,異なるエントロピー分布を持つテキストにも適用可能であることがわかった。 私たちのコードとデータはオンラインで公開されます。

Currently, text watermarking algorithms for large language models (LLMs) can embed hidden features to texts generated by LLMs to facilitate subsequent detection, thus alleviating the problem of misuse of LLMs. Although the current text watermarking algorithms perform well in most high-entropy scenarios, its performance in low-entropy scenarios still needs to be improved. In this work, we proposed that the influence of token entropy should be fully considered in the watermark detection process, that is, the weight of each token should be adjusted according to its entropy during watermark detection, rather than setting the weight of all tokens to the same value as in previous methods. Specifically, we proposed an Entropy-based Watermark Detection (EWD) that gives higher-entropy tokens higher weights during watermark detection, so as to better reflect the degree of watermarking. Furthermore, the proposed detection process is training-free and fully automated. %In actual detection, we use a proxy-LLM to calculate the entropy of each token, without the need to use the original LLM. In the experiment, we found that our method can achieve better detection performance in low-entropy scenarios, and our method is also general and can be applied to texts with different entropy distributions. Our code and data will be available online.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# テンソル量子プログラミング

Tensor Quantum Programming ( http://arxiv.org/abs/2403.13486v1 )

ライセンス: Link先を確認
A. Termanova, Ar. Melnikov, E. Mamenchikov, N. Belokonev, S. Dolgov, A. Berezutskii, R. Ellerbrock, C. Mansell, M. Perelshtein, (参考訳) 量子アルゴリズムを実行するには、多くのマルチキュービットゲートを持つ複雑な量子回路を実装する必要がある。 これまで、テンソルネットワークアルゴリズムを用いることで、従来のコンピュータで結果が適切に複製できるという容易さのため、量子上の優位性を示す実験は行われていない。 さらに、量子アルゴリズムに共通する対数複雑性がテンソルネットワークに基づくアルゴリズムにも存在しているため、これらの利点が量子システム内で正確に根付いているかは理論上も不明である。 本稿では,ハイブリッド量子コンピューティングにテンソルネットワークを利用するテンソル量子計画法を提案する。 私たちの重要な洞察は、テンソルネットワークに基づくアルゴリズムの主な課題は、その高いランク(ボンド次元)にあるということです。 量子コンピューティングは、量子優位性への道を示す古典的なものとは対照的に、任意に高いランクのテンソルを表現できる理想的な量子コンピュータとして、この課題に対する潜在的な解決策を提供する。 テンソルベースのベクトルエンコーディングと状態リードアウトは既知の手順であるが、行列ベクトル乗算を量子デバイス上で直接実行するのに必要な行列エンコーディングは未解決のままである。 そこで我々は,行列積演算子を量子回路に符号化するアルゴリズムを開発した。 これは、微分方程式、最適化問題、量子化学で頻繁に発生するいくつかの行列に対して最大50量子ビットでの有効性を示す。 我々はこの研究を、真に実用的な量子アルゴリズムの創出に向けた最初の一歩と見なしている。

Running quantum algorithms often involves implementing complex quantum circuits with such a large number of multi-qubit gates that the challenge of tackling practical applications appears daunting. To date, no experiments have successfully demonstrated a quantum advantage due to the ease with which the results can be adequately replicated on classical computers through the use of tensor network algorithms. Additionally, it remains unclear even in theory where exactly these advantages are rooted within quantum systems because the logarithmic complexity commonly associated with quantum algorithms is also present in algorithms based on tensor networks. In this article, we propose a novel approach called Tensor Quantum Programming, which leverages tensor networks for hybrid quantum computing. Our key insight is that the primary challenge of algorithms based on tensor networks lies in their high ranks (bond dimensions). Quantum computing offers a potential solution to this challenge, as an ideal quantum computer can represent tensors with arbitrarily high ranks in contrast to classical counterparts, which indicates the way towards quantum advantage. While tensor-based vector-encoding and state-readout are known procedures, the matrix-encoding required for performing matrix-vector multiplications directly on quantum devices remained unsolved. Here, we developed an algorithm that encodes Matrix Product Operators into quantum circuits with a depth that depends linearly on the number of qubits. It demonstrates effectiveness on up to 50 qubits for several matrices frequently encountered in differential equations, optimization problems, and quantum chemistry. We view this work as an initial stride towards the creation of genuinely practical quantum algorithms.
翻訳日:2024-03-21 17:18:34 公開日:2024-03-20
# 高等教育における生成型AIチャットボットの将来

The future of generative AI chatbots in higher education ( http://arxiv.org/abs/2403.13487v1 )

ライセンス: Link先を確認
Joshua Ebere Chukwuere, (参考訳) 高等教育機関(HEIs)における生成人工知能(AI)チャットボットの統合は、教育環境を変革し、学生支援を強化する機会を提供し、管理と研究の効率性を提供している。 本研究は, HEIにおける生成型AIチャットボットの今後の意義を考察し, 教育や学習, 研究プロセスに対するその潜在的影響を理解することを目的とする。 本研究は、物語文献レビュー(NLR)手法を用いて、学術データベースや学術出版物を含む様々な情報源から、高等教育における生成型AIチャットボットに関する既存の研究を合成する。 この発見は、管理タスクの合理化、学生の学習経験の向上、研究活動支援における、生成型AIチャットボットの変革の可能性を強調している。 しかし、学術的整合性の懸念、ユーザ入力の理解、リソース割り当てといった課題は、HEIにおける生成AIチャットボットの効果的な統合に重大な障害をもたらす。 本研究は、倫理的考察に対処し、利害関係者に包括的な訓練を提供し、高等教育における生成型AIチャットボットの責任を負うための明確なガイドラインを確立することの重要性を浮き彫りにする。 これらの課題をナビゲートし、生成AI技術の利点を活用することで、HEIは生成AIチャットボットの潜在能力を最大限活用して、より効率的で効果的で包括的で革新的な教育環境を構築することができる。

The integration of generative Artificial Intelligence (AI) chatbots in higher education institutions (HEIs) is reshaping the educational landscape, offering opportunities for enhanced student support, and administrative and research efficiency. This study explores the future implications of generative AI chatbots in HEIs, aiming to understand their potential impact on teaching and learning, and research processes. Utilizing a narrative literature review (NLR) methodology, this study synthesizes existing research on generative AI chatbots in higher education from diverse sources, including academic databases and scholarly publications. The findings highlight the transformative potential of generative AI chatbots in streamlining administrative tasks, enhancing student learning experiences, and supporting research activities. However, challenges such as academic integrity concerns, user input understanding, and resource allocation pose significant obstacles to the effective integration of generative AI chatbots in HEIs. This study underscores the importance of proactive measures to address ethical considerations, provide comprehensive training for stakeholders, and establish clear guidelines for the responsible use of generative AI chatbots in higher education. By navigating these challenges, and leveraging the benefits of generative AI technologies, HEIs can harness the full potential of generative AI chatbots to create a more efficient, effective, inclusive, and innovative educational environment.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# 線形複雑度を用いたセキュアクエリ処理

Secure Query Processing with Linear Complexity ( http://arxiv.org/abs/2403.13492v1 )

ライセンス: Link先を確認
Qiyao Luo, Yilei Wang, Wei Dong, Ke Yi, (参考訳) 我々は、セキュアなマルチパーティ計算モデル(MPC)の下で、線形複雑で(実行時間と通信の両方において)最初の結合プロトコルLINQを提示する。 また、リニアな複雑さを保ちながら、選択結合集約クエリの大規模なクラスである、すべてのフリーコネックスクエリをサポートするように拡張することもできる。 これは、クエリ処理の問題に対する平文結果と一致し、フリーコンネックスクエリは、平文の線形時間で解決できることが知られているクエリの最大のクラスである。 そして、LINQに基づくクエリ処理システムを構築しました。 例えば、LAN設定で約100秒間に100万タプルの出力サイズで3つの関係でクエリを終了できるが、クエリをサポートする既存のプロトコルでは1時間で終了できない。 したがってLINQは、MPCクエリ処理を実用性に近づける。

We present LINQ, the first join protocol with linear complexity (in both running time and communication) under the secure multi-party computation model (MPC). It can also be extended to support all free-connex queries, a large class of select-join-aggregate queries, still with linear complexity. This matches the plaintext result for the query processing problem, as free-connex queries are the largest class of queries known to be solvable in linear time in plaintext. We have then built a query processing system based on LINQ, and the experimental results show that LINQ significantly outperforms the state of the art. For example, it can finish a query on three relations with an output size of 1 million tuples in around 100s in the LAN setting, while existing protocols that support the query cannot finish in an hour. Thus LINQ brings MPC query processing closer to practicality.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# LLMのデータ効率向上のためのベースラインの改良

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs ( http://arxiv.org/abs/2403.13499v1 )

ライセンス: Link先を確認
Théophane Vallaeys, Mustafa Shukor, Matthieu Cord, Jakob Verbeek, (参考訳) 大規模言語モデル(LLM)の能力は、最近前例のないレベルにまで進歩し、様々な分野で新しい応用の道を開いた。 コンピュータビジョンでは、LLMは、事前訓練された視覚バックボーンと組み合わせることで、画像キャプションや視覚質問応答などの視覚言語タスクに使用できる。 視覚的データや音声データなどのプロセスである ``perceptual backbones' で LLM をインターフェースするためにさまざまなアプローチが検討されているが、それらは多くの場合、異なるタスク、異なるデータセット、異なる知覚バックボーンと言語モデルを使用することで、インターフェースメカニズムの直接比較を妨げている。 この方法間の互換性の欠如を補うため、複数のタスク(画像、ビデオ、音声キャプション、視覚的質問応答など)、データセット、バックボーンなど)にまたがる様々なインターフェースメカニズムを実験的に評価し、低データ設定に特に注意を払う。 その結果, 従来の手法よりも性能が向上し, 学習時間を4倍に抑えつつ, 異なるタスク間で(ほぼ)最適な結果が得られる新たなインターフェース機構が同定された。

The abilities of large language models (LLMs) have recently progressed to unprecedented levels, paving the way to novel applications in a wide variety of areas. In computer vision, LLMs can be used to prime vision-language tasks such image captioning and visual question answering when coupled with pre-trained vision backbones. While different approaches have been explored to interface LLMs with ``perceptual backbones'' that process, e.g., visual or audio data, they are often explored for different tasks, different datasets, and using different perceptual backbones and language models, hindering direct comparison of the interfacing mechanisms. To remedy this lack of comparability between methods, we present an extensive experimental evaluation of different interfacing mechanisms, across multiple tasks (including image, video, and audio captioning as well as visual question answering), datasets and backbones, paying special attention to low-data settings. We find improved performance using existing mechanisms over state-of-the-art results, and identify a new interfacing mechanism that yields (near) optimal results across different tasks, while obtaining a 4x reduction in training time.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# VSTAR:より長いダイナミックビデオ合成のための時間看護

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis ( http://arxiv.org/abs/2403.13501v1 )

ライセンス: Link先を確認
Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva, (参考訳) テキスト・トゥ・ビデオ(T2V)合成の分野では非常に進歩しているにもかかわらず、オープンソースのT2V拡散モデルは、動的に変化し、進化するコンテンツを持つ長いビデオを生成するのに苦労している。 彼らは、テキストプロンプトに暗示される必要な視覚的変化を無視して、準静的なビデオを合成する傾向がある。 同時に、より長く、よりダイナミックなビデオ合成を可能にするためにこれらのモデルをスケールすることは、しばしば計算的に難解なままである。 この課題に対処するために、我々は、時間的ダイナミクスの制御を改善し、より長いビデオの生成を可能にするために、推論中のハエの生成過程を変更することを目的として、生成時看護(GTN)の概念を導入する。 VSTARと呼ばれる2つの重要な成分からなるGTNの手法を提案する。 1)VSP(Video Synopsis Prompting) - LLMを利用したオリジナルのシングルプロンプトに基づくビデオ合成の自動生成。 2) 時間的注意規則化(TAR) - 事前学習したT2V拡散モデルの時間的注意単位を改良する正規化手法。 提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。 さらに,VSTARを使用せずに実現した時間的注意マップを解析し,所望の視覚的変化の無視を軽減するために本手法を適用することの重要性を実証した。

Despite tremendous progress in the field of text-to-video (T2V) synthesis, open-sourced T2V diffusion models struggle to generate longer videos with dynamically varying and evolving content. They tend to synthesize quasi-static videos, ignoring the necessary visual change-over-time implied in the text prompt. At the same time, scaling these models to enable longer, more dynamic video synthesis often remains computationally intractable. To address this challenge, we introduce the concept of Generative Temporal Nursing (GTN), where we aim to alter the generative process on the fly during inference to improve control over the temporal dynamics and enable generation of longer videos. We propose a method for GTN, dubbed VSTAR, which consists of two key ingredients: 1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis based on the original single prompt leveraging LLMs, which gives accurate textual guidance to different visual states of longer videos, and 2) Temporal Attention Regularization (TAR) - a regularization technique to refine the temporal attention units of the pre-trained T2V diffusion models, which enables control over the video dynamics. We experimentally showcase the superiority of the proposed approach in generating longer, visually appealing videos over existing open-sourced T2V models. We additionally analyze the temporal attention maps realized with and without VSTAR, demonstrating the importance of applying our method to mitigate neglect of the desired visual change over time.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# 自動制御システムにおける敵攻撃と防御:総合ベンチマーク

Adversarial Attacks and Defenses in Automated Control Systems: A Comprehensive Benchmark ( http://arxiv.org/abs/2403.13502v1 )

ライセンス: Link先を確認
Vitaliy Pozdnyakov, Aleksandr Kovalenko, Ilya Makarov, Mikhail Drobyshevskiy, Kirill Lukyanov, (参考訳) 機械学習をACS(Automated Control Systems)に統合することで、産業プロセス管理における意思決定が促進される。 業界におけるこれらの技術の普及の限界の1つは、敵の攻撃に対するニューラルネットワークの脆弱性である。 本研究では、テネシー・イーストマン・プロセス・データセットを用いて、ACSにおける障害診断のためのディープラーニングモデルをデプロイする際の脅威について検討する。 3つのニューラルネットワークを異なるアーキテクチャで評価することにより、6種類の敵攻撃を行い、5つの異なる防御方法を探索する。 本研究は, 対戦型サンプルに対するモデルの強い脆弱性と, 防衛戦略の有効性を明らかにするものである。 また,複数の防御手法を組み合わせた新しい保護手法を提案し,その有効性を実証する。 本研究は,ACS内での機械学習の安全性,産業プロセスにおける堅牢な故障診断の確保に関するいくつかの知見に寄与する。

Integrating machine learning into Automated Control Systems (ACS) enhances decision-making in industrial process management. One of the limitations to the widespread adoption of these technologies in industry is the vulnerability of neural networks to adversarial attacks. This study explores the threats in deploying deep learning models for fault diagnosis in ACS using the Tennessee Eastman Process dataset. By evaluating three neural networks with different architectures, we subject them to six types of adversarial attacks and explore five different defense methods. Our results highlight the strong vulnerability of models to adversarial samples and the varying effectiveness of defense strategies. We also propose a novel protection approach by combining multiple defense methods and demonstrate it's efficacy. This research contributes several insights into securing machine learning within ACS, ensuring robust fault diagnosis in industrial processes.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# 25λ x 10 Gb/s C+Lバンド・クラシック/DV-QKD共振器の単方向ファイバリンクによる最初の実証

First Demonstration of 25λ x 10 Gb/s C+L Band Classical / DV-QKD Co-Existence Over Single Bidirectional Fiber Link ( http://arxiv.org/abs/2403.13503v1 )

ライセンス: Link先を確認
Florian Honz, Florian Prawits, Obada Alia, Hesham Sakr, Thomas Bradley, Cong Zhang, Radan Slavík, Francesco Poletti, George Kanellos, Reza Nejabati, Philip Walther, Dimitra Simeonidou, Hannes Hübel, Bernhard Schrenk, (参考訳) 量子鍵分布が実用的展開の成熟度に達しているため、既存の古典的通信システムとの連携に関する疑問が最も重要である。 この目的のために、古典的および量子的信号の共伝播が、新しい中空コアファイバの開発にどのように役立つかを実証する。 我々は、25 x 10 Gb/sの古典的なチャネルが存在する場合、1538nmの量子チャネルに対して330ビット/sのセキュアな鍵レートを示し、同じ中空コアファイバリンクのC+L帯域にまたがる12dBmの集合打ち上げパワーで送信する。 さらに, 従来のキー蒸留チャネルをこのファイバリンクに結合し, 双方向のファイバリンクに変換することにより, 複数のファイバの必要性を軽減できることを示す。 このことは、将来的なセキュアな通信ネットワークを実現するために、ホロウコアファイバとDV-QKDを併用して展開・統合するための重要なステップであると考えています。

As quantum key distribution has reached the maturity level for practical deployment, questions about the co-integration with existing classical communication systems are of utmost importance. To this end we demonstrate how the co-propagation of classical and quantum signals can benefit from the development of novel hollow-core fibers. We demonstrate a secure key rate of 330 bit/s for a quantum channel at 1538 nm in the presence of 25 x 10 Gb/s classical channels, transmitted at an aggregated launch power of 12 dBm, spanning over the C+L-band in the same hollow-core fiber link. Furthermore, we show the co-integration of the classical key-distillation channel onto this fiber link, turning it into a bidirectional fiber link and thereby mitigating the need for multiple fibers. We believe this to be an important step towards the deployment and integration of hollow-core fibers together with DV-QKD for the inherently secure telecom network of the future.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# Ge-on-Si光エミッタを用いた全シリコンQKD送信機の実現

Towards an All-Silicon QKD Transmitter Sourced by a Ge-on-Si Light Emitter ( http://arxiv.org/abs/2403.13505v1 )

ライセンス: Link先を確認
Florian Honz, Nemanja Vokić, Michael Hentschel, Philip Walther, Hannes Hübel, Bernhard Schrenk, (参考訳) 本稿では,フォワードバイアスのGe-on-SiPIN接合の非コヒーレント光によって導かれる分極符号化BB84プロトコルに基づく量子鍵分布の新たな送信機概念を実証する。 複数の変調器による独立分極符号化と、干渉分極変調器を利用した簡易なアプローチを含む、量子状態準備のための2つのアーキテクチャについて検討する。 我々は、Ge-on-Si光源が2.15kbit/sの生鍵レートを1GHzのシンボルレートで7.71%の量子ビット誤り比で達成し、量子鍵生成に有効であることを実験的に証明した。 さらに,不整合光源のブロードバンド特性と相まって,光ファイバー伝送路における脱分極の影響について検討する。 本研究は,ゼロトラスト・イントラ・データセンター環境におけるショートリーチ適用の可能性について,その光源を含む完全集積シリコン量子鍵伝送装置の実現可能性を示すものである。

We demonstrate a novel transmitter concept for quantum key distribution based on the polarization-encoded BB84 protocol, which is sourced by the incoherent light of a forward-biased Ge-on-Si PIN junction. We investigate two architectures for quantum state preparation, including independent polarization encoding through multiple modulators and a simplified approach leveraging on an interferometric polarization modulator. We experimentally prove that the Ge-on-Si light source can accommodate for quantum key generation by accomplishing raw-key rates of 2.15 kbit/s at a quantum bit error ratio of 7.71% at a symbol rate of 1 GHz. We further investigate the impact of depolarization along fiber-based transmission channels in combination with the broadband nature of the incoherent light source. Our results prove the feasibility of a fully-integrated silicon quantum key distribution transmitter, including its light source, for possible short-reach applications in zero-trust intra-datacenter environments.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# FMM-Attack:ビデオベースのLLMにおけるフローベースのマルチモーダル・アタック

FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs ( http://arxiv.org/abs/2403.13507v1 )

ライセンス: Link先を確認
Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-tao Xia, Yisen Wang, (参考訳) ビデオベースの大規模言語モデル(LLM)の顕著な性能にもかかわらず、その敵対的脅威は未解明のままである。 このギャップを埋めるために、FMM-Attackと呼ばれるビデオ内の少数のフレームにフローベースのマルチモーダルな摂動を組み込むことにより、ビデオベースのLDMに適した最初の逆襲攻撃を提案する。 広汎な実験により,ビデオに知覚不能な逆方向の摂動を加えると,この攻撃はビデオベースのLCMを効果的に誘導し,誤答を生じさせることが示された。 興味深いことに、我々のFMM-Attackはモデル出力を誘導し、ビデオベースのLCMを幻覚させる。 全体として、我々の観察は、様々なモードにまたがるマルチモーダルロバストネスと安全関連特徴アライメントのさらなる理解を促し、これは様々な大規模マルチモーダルモデルにとって非常に重要である。 私たちのコードはhttps://github.com/THU-Kingmin/FMM-Attack.comから入手可能です。

Despite the remarkable performance of video-based large language models (LLMs), their adversarial threat remains unexplored. To fill this gap, we propose the first adversarial attack tailored for video-based LLMs by crafting flow-based multi-modal adversarial perturbations on a small fraction of frames within a video, dubbed FMM-Attack. Extensive experiments show that our attack can effectively induce video-based LLMs to generate incorrect answers when videos are added with imperceptible adversarial perturbations. Intriguingly, our FMM-Attack can also induce garbling in the model output, prompting video-based LLMs to hallucinate. Overall, our observations inspire a further understanding of multi-modal robustness and safety-related feature alignment across different modalities, which is of great importance for various large multi-modal models. Our code is available at https://github.com/THU-Kingmin/FMM-Attack.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# 新型コロナウイルス検出におけるドメイン適応のための高信頼擬似ラベル

High-confidence pseudo-labels for domain adaptation in COVID-19 detection ( http://arxiv.org/abs/2403.13509v1 )

ライセンス: Link先を確認
Robert Turnbull, Simon Mutch, (参考訳) 本稿では,コンピュータビジョン・パターン認識会議(CVPR)におけるDEF-AI-MIAワークショップの一環として,第4回COV19Dコンペティションへの応募について概説する。 競技は2つの課題からなる。 1つ目は、COV19-CT-DBデータベースから1000以上のCTスキャンから新型コロナウイルスの存在を検出するために分類器を訓練することである。 第2の課題は、データセットをチャレンジ1から取得し、異なるディストリビューションに少数のスキャン(注釈付きなど)を追加することで、ドメイン適応を実行することだ。 我々はCTスキャンを前処理して肺を分画し,肺を個別に出力した。 次に、これらの入力に基づいて3D ResNetとSwin Transformerモデルをトレーニングした。 我々はこれらのモデルのアンサンブルを用いてラベルなしCTスキャンに注釈を付け,高信頼度予測を微調整用擬似ラベルとして選択した。 その結果、チャレンジ1の平均F1スコアは93.39\%、チャレンジ2の平均F1スコアは92.15となった。

This paper outlines our submission for the 4th COV19D competition as part of the `Domain adaptation, Explainability, Fairness in AI for Medical Image Analysis' (DEF-AI-MIA) workshop at the Computer Vision and Pattern Recognition Conference (CVPR). The competition consists of two challenges. The first is to train a classifier to detect the presence of COVID-19 from over one thousand CT scans from the COV19-CT-DB database. The second challenge is to perform domain adaptation by taking the dataset from Challenge 1 and adding a small number of scans (some annotated and other not) for a different distribution. We preprocessed the CT scans to segment the lungs, and output volumes with the lungs individually and together. We then trained 3D ResNet and Swin Transformer models on these inputs. We annotated the unlabeled CT scans using an ensemble of these models and chose the high-confidence predictions as pseudo-labels for fine-tuning. This resulted in a best cross-validation mean F1 score of 93.39\% for Challenge 1 and a mean F1 score of 92.15 for Challenge 2.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# Mediterraneus Protocol:デジタルサービスのSSIネイティブ分散エコシステムの構築

The Mediterraneus Protocol: building an SSI native decentralised ecosystem of digital services ( http://arxiv.org/abs/2403.13510v1 )

ライセンス: Link先を確認
Luca Giorgino, Andrea Vesco, (参考訳) 本稿は、初めて中世の議定書を提示する。 創造者が所有し、分散化されたデジタルアイデンティティとサービス購入の証明を提示することで、ユーザによって消費されるデジタルサービスのインターネットの開発を支援するように設計されている。 中世はSSI(Self-Sovereign Identity)ネイティブで、SSIモデルをその動作原理の中核に組み込んで、偽名の使用と既存のWeb3ソリューションの集中アクセス制御による制限を克服する。

This paper presents, for the first time, the Mediterraneous protocol. It is designed to support the development of an Internet of digital services, owned by their creators, and consumed by users by presenting their decentralised digital identity and a proof of service purchase. Mediterraneous is Self-Sovereign Identity (SSI) native, integrating the SSI model at the core of its working principles to overcome the limitations resulting from using pseudonyms and centralised access control of existing Web3 solutions.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# スケール脱カップリング蒸留

Scale Decoupled Distillation ( http://arxiv.org/abs/2403.13512v1 )

ライセンス: Link先を確認
Shicai Wei Chunbo Luo Yang Luo, (参考訳) 論理知識の蒸留は、近年の研究でその実用性から注目を集めている。 しかし、特徴知識蒸留に比べて性能が劣ることが多い。 本稿では,複数の意味知識を結合したグローバルロジット出力のみを利用するため,既存のロジットベースの手法が準最適である可能性を議論する。 これは、曖昧な知識を学生に伝え、その学習を誤解させる可能性がある。 そこで本研究では,ロジット知識蒸留のための簡易かつ効果的な方法であるスケールデカップリング蒸留法(SDD)を提案する。 SDDはグローバルロジット出力を複数のローカルロジット出力に分離し、蒸留パイプラインを確立する。 これにより、学生は細粒度で曖昧なロジット知識のマイニングと継承に役立ちます。 さらに、分離された知識は、それぞれ意味情報とサンプルのあいまいさを伝達する相補的なロジット知識と相補的なロジット知識にさらに分けることができる。 補足部分の重量を増やすことで、SDDは学生にあいまいなサンプルに集中させ、識別能力を向上させることができる。 いくつかのベンチマークデータセットに対する大規模な実験は、特にきめ細かい分類タスクにおいて、幅広い教師と学生のペアに対するSDDの有効性を示す。 コードは以下の通り。 https://github.com/shicaiwei123/SDD-CVPR2024

Logit knowledge distillation attracts increasing attention due to its practicality in recent studies. However, it often suffers inferior performance compared to the feature knowledge distillation. In this paper, we argue that existing logit-based methods may be sub-optimal since they only leverage the global logit output that couples multiple semantic knowledge. This may transfer ambiguous knowledge to the student and mislead its learning. To this end, we propose a simple but effective method, i.e., Scale Decoupled Distillation (SDD), for logit knowledge distillation. SDD decouples the global logit output into multiple local logit outputs and establishes distillation pipelines for them. This helps the student to mine and inherit fine-grained and unambiguous logit knowledge. Moreover, the decoupled knowledge can be further divided into consistent and complementary logit knowledge that transfers the semantic information and sample ambiguity, respectively. By increasing the weight of complementary parts, SDD can guide the student to focus more on ambiguous samples, improving its discrimination ability. Extensive experiments on several benchmark datasets demonstrate the effectiveness of SDD for wide teacher-student pairs, especially in the fine-grained classification task. Code is available at: https://github.com/shicaiwei123/SDD-CVPR2024
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# もしも...?:大規模マルチモーダルモデルにおける幻覚効果を緩和するための非現実的インセプション

What if...?: Counterfactual Inception to Mitigate Hallucination Effects in Large Multimodal Models ( http://arxiv.org/abs/2403.13513v1 )

ライセンス: Link先を確認
Junho Kim, Yeon Ju Kim, Yong Man Ro, (参考訳) 本稿では,幻覚効果に対するLMM(Large Multimodal Models)の信頼性を高める手法を提案する。 追加の命令チューニングパラダイムを使わずに、慎重に選択された反現実的キーワードを用いて反現実的思考をLMMに埋め込む新しい手法である反現実的インセプションを導入する。 この方法は、人間が代替現実と結果を考える認知過程である反現実的思考の概念に基づいている。 この人間ライクな推論機構をLMMに適用することにより、幻覚効果を低減し、モデルの信頼性を向上させることを目指している。 また、視覚的・言語的文脈を同時に考慮し、LMMに対する対実的思考を誘発する最適な対実的キーワードを選択するための厳密な枠組みであるDVP(Dual-modality Verification Process)を提案する。 オープンソースモデルとプロプライエタリモデルの両方を含む、さまざまなLMMにわたる広範な実験により、我々の手法は異なるデータセット間で幻覚現象を著しく緩和する。

This paper presents a way of enhancing the reliability of Large Multimodal Models (LMMs) in addressing hallucination effects, where models generate incorrect or unrelated responses. Without additional instruction tuning paradigm, we introduce Counterfactual Inception, a novel method that implants counterfactual thoughts into LMMs using carefully chosen, misaligned counterfactual keywords. This method is grounded in the concept of counterfactual thinking, a cognitive process where humans consider alternative realities and outcomes. By applying this human-like reasoning mechanism to LMMs, we aim to reduce hallucination effects and improve the models' trustworthiness. We also propose Dual-modality Verification Process (DVP), a rigorous framework for selecting optimal counterfactual keywords to trigger counterfactual thinking into LMMs, concurrently considering visual and linguistic context. Our extensive experiments across various LMMs, including both open-source and proprietary models, corroborate that our method significantly mitigates hallucination phenomena across different datasets.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# ジェンダーが政治的価値とどのように相互作用するか:チェコのBERTモデルを事例として

How Gender Interacts with Political Values: A Case Study on Czech BERT Models ( http://arxiv.org/abs/2403.13514v1 )

ライセンス: Link先を確認
Adnan Al Ali, Jindřich Libovický, (参考訳) ニューラル言語モデルは、ほとんどの自然言語処理タスクで最先端の結果に達するが、大きなテキストコーパスで訓練される。 このケーススタディは、チェコの事前訓練エンコーダの政治的バイアスに焦点を当て、それらを代表的価値調査と比較する。 チェコ語は性的な言語であるため、この調査では、文法的な性別が男女の反応とどのように一致しているかも測定している。 本稿では,モデルが認識する政治的価値を測定する新しい手法を提案する。 その結果, モデルでは, 価値駆動推論に従わず, 女性文と男性文の体系的な違いはないことがわかった。 我々は、BERTサイズのモデルは、政治的価値と体系的な一致を示すものではなく、モデルで観察されるバイアスは、モデルに符号化された体系的な価値信念よりも、トレーニングデータパターンの表面的な模倣によるものであると結論付けた。

Neural language models, which reach state-of-the-art results on most natural language processing tasks, are trained on large text corpora that inevitably contain value-burdened content and often capture undesirable biases, which the models reflect. This case study focuses on the political biases of pre-trained encoders in Czech and compares them with a representative value survey. Because Czech is a gendered language, we also measure how the grammatical gender coincides with responses to men and women in the survey. We introduce a novel method for measuring the model's perceived political values. We find that the models do not assign statement probability following value-driven reasoning, and there is no systematic difference between feminine and masculine sentences. We conclude that BERT-sized models do not manifest systematic alignment with political values and that the biases observed in the models are rather due to superficial imitation of training data patterns than systematic value beliefs encoded in the models.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# 微粒なテクスチャ記述からの運動生成

Motion Generation from Fine-grained Textual Descriptions ( http://arxiv.org/abs/2403.13518v1 )

ライセンス: Link先を確認
Kunhang Li, Yansong Feng, (参考訳) text2motionのタスクは、与えられたテキスト記述から動作シーケンスを生成することであり、そこではモデルが自然言語命令と人体の動きの間の相互作用を探索する必要がある。 現存する作品の多くは粗粒の運動記述に限られているが(例えば「男がしゃがむ」など)、関連する身体部分の動きを規定する細粒のものはほとんど探索されていない。 粗いテキストで訓練されたモデルは、微粒な動きに関連する単語から運動プリミティブへのマッピングを学習することができず、その結果、目に見えない記述から動きを生成するのに失敗する可能性がある。 本稿では,GPT-3.5-turboに微妙なプロンプトを付与することにより,微細なテキスト記述を持つ大規模言語移動データセットであるFinHumanML3Dを構築する。 そこで我々は,微細なテキスト情報をフル活用した新しいテキスト2モーションモデルであるFineMotionDiffuseを設計した。 実験の結果,FinHumanML3Dで訓練したFinMotionDiffuseは定量的評価において良好な結果が得られることがわかった。 また、簡単な記述から対応する基本動作への暗黙のマッピングを学習することで、空間的・時間的に複合的な動きをより良く生成できることを示す。

The task of text2motion is to generate motion sequences from given textual descriptions, where a model should explore the interactions between natural language instructions and human body movements. While most existing works are confined to coarse-grained motion descriptions (e.g., "A man squats."), fine-grained ones specifying movements of relevant body parts are barely explored. Models trained with coarse texts may not be able to learn mappings from fine-grained motion-related words to motion primitives, resulting in the failure in generating motions from unseen descriptions. In this paper, we build a large-scale language-motion dataset with fine-grained textual descriptions, FineHumanML3D, by feeding GPT-3.5-turbo with delicate prompts. Accordingly, we design a new text2motion model, FineMotionDiffuse, which makes full use of fine-grained textual information. Our experiments show that FineMotionDiffuse trained on FineHumanML3D acquires good results in quantitative evaluation. We also find this model can better generate spatially/chronologically composite motions by learning the implicit mappings from simple descriptions to the corresponding basic motions.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# REAL: 卓越したクラス増分学習のための表現強化型分析学習

REAL: Representation Enhanced Analytic Learning for Exemplar-free Class-incremental Learning ( http://arxiv.org/abs/2403.13522v1 )

ライセンス: Link先を確認
Run He, Huiping Zhuang, Di Fang, Yizhu Chen, Kai Tong, Cen Chen, (参考訳) Exemplar-free Class-Incremental Learning (EFCIL) は、学級増進学習における破滅的な忘れを、過去のデータなしで軽減することを目的としている。 過去のサンプルを保存している(リプレイベースのCIL)ものと比べ、EFCILは前例のない制約の下で問題を忘れることに苦しむ。 本稿では,最近開発された解析学習(AL)ベースのCILにヒントを得て,EFCILのための表現強化分析学習(REAL)を提案する。 REALは、二重ストリームベース事前訓練(DS-BPT)および表現強化蒸留(RED)プロセスを構築し、抽出器の表現を強化する。 ベース知識抽出のための教師付き学習と自己教師付きコントラスト学習(SSCL)の両方のストリームにおけるDS-BPT事前訓練モデル。 REDプロセスは、教師付き知識をSSCLの事前訓練されたバックボーンに蒸留し、CILを再帰的最小二乗問題に変換するALバスドCILを促進する。 本手法は,既存のALベースCILの凍結バックボーンによって引き起こされる未確認データの表現において,識別性が不十分な問題に対処する。 CIFAR-100, ImageNet-100, ImageNet-1k などの各種データセットに対する実験結果から,REAL は EFCIL の最先端技術よりも優れており,リプレイベースの手法と比較して同等あるいはそれ以上のパフォーマンスが達成できることが示された。

Exemplar-free class-incremental learning (EFCIL) aims to mitigate catastrophic forgetting in class-incremental learning without available historical data. Compared with its counterpart (replay-based CIL) that stores historical samples, the EFCIL suffers more from forgetting issues under the exemplar-free constraint. In this paper, inspired by the recently developed analytic learning (AL) based CIL, we propose a representation enhanced analytic learning (REAL) for EFCIL. The REAL constructs a dual-stream base pretraining (DS-BPT) and a representation enhancing distillation (RED) process to enhance the representation of the extractor. The DS-BPT pretrains model in streams of both supervised learning and self-supervised contrastive learning (SSCL) for base knowledge extraction. The RED process distills the supervised knowledge to the SSCL pretrained backbone and facilitates a subsequent AL-basd CIL that converts the CIL to a recursive least-square problem. Our method addresses the issue of insufficient discriminability in representations of unseen data caused by a frozen backbone in the existing AL-based CIL. Empirical results on various datasets including CIFAR-100, ImageNet-100 and ImageNet-1k, demonstrate that our REAL outperforms the state-of-the-arts in EFCIL, and achieves comparable or even more superior performance compared with the replay-based methods.
翻訳日:2024-03-21 17:07:38 公開日:2024-03-20
# 私のデータに対する攻撃はあったか? データに対するニューラルネットワークの防御

Have You Poisoned My Data? Defending Neural Networks against Data Poisoning ( http://arxiv.org/abs/2403.13523v1 )

ライセンス: Link先を確認
Fabio De Gaspari, Dorjan Hitaj, Luigi V. Mancini, (参考訳) トレーニングデータの公開は、近年の強力なニューラルネットワークの急速な発展を後押しした。 しかし、そのような大量のデータの必要性は、毒殺攻撃のような潜在的な脅威に繋がる。 本稿では,クリーンラベル中毒に対する防御について検討し,トランスファー学習環境における有害なデータポイントの検出とフィルタリングのための新しいアプローチを提案する。 我々はデータポイントの特徴ベクトル表現を新たに定義し,データ分布の固有特性を効果的に捉えていることを示す。 実験により, 有効毒を特徴ベクトル空間の清浄点と区別できることが実証された。 提案手法を徹底的に評価し、複数のアーキテクチャ、データセット、毒素予算を用いて、既存の最先端の防衛システムと比較する。 評価の結果,提案手法は,全ての実験環境において,防衛率と最終訓練モデル性能の既存手法よりも優れていた。

The unprecedented availability of training data fueled the rapid development of powerful neural networks in recent years. However, the need for such large amounts of data leads to potential threats such as poisoning attacks: adversarial manipulations of the training data aimed at compromising the learned model to achieve a given adversarial goal. This paper investigates defenses against clean-label poisoning attacks and proposes a novel approach to detect and filter poisoned datapoints in the transfer learning setting. We define a new characteristic vector representation of datapoints and show that it effectively captures the intrinsic properties of the data distribution. Through experimental analysis, we demonstrate that effective poisons can be successfully differentiated from clean points in the characteristic vector space. We thoroughly evaluate our proposed approach and compare it to existing state-of-the-art defenses using multiple architectures, datasets, and poison budgets. Our evaluation shows that our proposal outperforms existing approaches in defense rate and final trained model performance across all experimental settings.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# Compress3D:1枚の画像から3D画像を生成する圧縮潜在空間

Compress3D: a Compressed Latent Space for 3D Generation from a Single Image ( http://arxiv.org/abs/2403.13524v1 )

ライセンス: Link先を確認
Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao, (参考訳) 3D世代は大きな進歩を見せているが、1枚の画像から高品質な3Dアセットを効率よく生産するのは難しい。 本稿では,3次元モデルとテクスチャ情報の両方を効果的に圧縮するために,3次元モデルをコンパクトな3次元ラテント空間に符号化する3次元オートエンコーダを提案する。 オートエンコーダフレームワーク内では,低解像度の潜在表現を用いて高解像度の3次元特徴量から特徴量を問合せし,潜在空間の表現能力を向上する3D対応のクロスアテンション機構を導入する。 その後、この洗練された潜在空間上で拡散モデルを訓練する。 画像埋め込みのみを3次元生成に頼っているのとは対照的に,本提案手法は画像埋め込みと形状埋め込みを同時利用することを条件として提唱している。 具体的には、画像埋め込みに条件付き拡散先行モデルを用いて形状埋め込みを推定する。 包括的実験により,本手法は最先端のアルゴリズムより優れ,訓練データや時間が少なくて優れた性能が得られることを示した。 われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。

3D generation has witnessed significant advancements, yet efficiently producing high-quality 3D assets from a single image remains challenging. In this paper, we present a triplane autoencoder, which encodes 3D models into a compact triplane latent space to effectively compress both the 3D geometry and texture information. Within the autoencoder framework, we introduce a 3D-aware cross-attention mechanism, which utilizes low-resolution latent representations to query features from a high-resolution 3D feature volume, thereby enhancing the representation capacity of the latent space. Subsequently, we train a diffusion model on this refined latent space. In contrast to solely relying on image embedding for 3D generation, our proposed method advocates for the simultaneous utilization of both image embedding and shape embedding as conditions. Specifically, the shape embedding is estimated via a diffusion prior model conditioned on the image embedding. Through comprehensive experiments, we demonstrate that our method outperforms state-of-the-art algorithms, achieving superior performance while requiring less training data and time. Our approach enables the generation of high-quality 3D assets in merely 7 seconds on a single A100 GPU.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# IDAdapter:テキスト-画像モデルの調整自由なパーソナライズのための混合特徴学習

IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models ( http://arxiv.org/abs/2403.13535v1 )

ライセンス: Link先を確認
Siying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng, (参考訳) パーソナライズされた肖像画の生成に安定した拡散を活用することは、強力で注目すべきツールとして現れ、ユーザーは特定のプロンプトに基づいて高忠実でカスタムなキャラクターアバターを作成できる。 しかし、既存のパーソナライズ手法では、テストタイムの微調整、複数入力画像の要求、アイデンティティの保存の低さ、生成した結果の多様性の制限など、課題に直面している。 これらの課題を克服するために、単一顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を向上する、チューニング不要なアプローチであるIDAdapterを導入する。 IDAdapterは、テキストインジェクションとビジュアルインジェクションと顔認証損失を組み合わせることで、パーソナライズされた概念を生成プロセスに統合する。 トレーニング期間中、特定のアイデンティティの複数の参照画像から混在した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を豊かにし、より多様なスタイル、表現、角度を持つ画像を生成するようモデルに誘導する。 画像の多様性と同一性の両方を両立させることにより,本手法の有効性を実証した。

Leveraging Stable Diffusion for the generation of personalized portraits has emerged as a powerful and noteworthy tool, enabling users to create high-fidelity, custom character avatars based on their specific prompts. However, existing personalization methods face challenges, including test-time fine-tuning, the requirement of multiple input images, low preservation of identity, and limited diversity in generated outcomes. To overcome these challenges, we introduce IDAdapter, a tuning-free approach that enhances the diversity and identity preservation in personalized image generation from a single face image. IDAdapter integrates a personalized concept into the generation process through a combination of textual and visual injections and a face identity loss. During the training phase, we incorporate mixed features from multiple reference images of a specific identity to enrich identity-related content details, guiding the model to generate images with more diverse styles, expressions, and angles compared to previous works. Extensive evaluations demonstrate the effectiveness of our method, achieving both diversity and identity fidelity in generated images.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# 産業4.0実施における失業率予測モデルの概念化--機械学習技術の探求

Conceptualizing predictive conceptual model for unemployment rates in the implementation of Industry 4.0: Exploring machine learning techniques ( http://arxiv.org/abs/2403.13536v1 )

ライセンス: Link先を確認
Joshua Ebere Chukwuere, (参考訳) データ取得、モデル精度の確保、倫理基準の維持に関連する障害があるが、産業4.0(I4.0)の実施に伴う先進国における失業率予測モデルの生成に機械学習を活用する利点は注目に値する。 本研究は、I4.0の実施中に発展途上国の失業率に寄与する要因を理解し、対処するための予測概念モデルを通じて機械学習技術を活用するという概念を考察する。 発展途上国の失業率に影響を及ぼす経済的・社会的要因を決定するため、文献の徹底的な検討が文献レビューを通じて行われた。 研究の結果、発展途上国の失業率は経済成長、インフレ、人口増加、教育水準、技術進歩などの要素に大きく影響していることが明らかになった。 I4.0を採用する際に、回帰分析やニューラルネットワークといった機械学習技術を用いて、発展途上国の失業に寄与する要因に対処できることを示す予測概念モデルが開発された。 本研究は、I4.0の展開において、開発途上国における失業率要因を正確に把握し、対処するための予測概念モデルの有効性を示した。 このモデルは、将来の失業率を予測し、新興国における失業率の低下の進行を追跡するという2つの目的を果たす。 調査と改善を継続的に実施することで、意思決定者や企業はこれらのパターンを利用して、経済の成長、雇用の創出、特に新興国における貧困の緩和を推し進めるより知識に富んだ判断に到達することができる。

Although there are obstacles related to obtaining data, ensuring model precision, and upholding ethical standards, the advantages of utilizing machine learning to generate predictive models for unemployment rates in developing nations amid the implementation of Industry 4.0 (I4.0) are noteworthy. This research delves into the concept of utilizing machine learning techniques through a predictive conceptual model to understand and address factors that contribute to unemployment rates in developing nations during the implementation of I4.0. A thorough examination of the literature was carried out through a literature review to determine the economic and social factors that have an impact on the unemployment rates in developing nations. The examination of the literature uncovered that considerable influence on unemployment rates in developing nations is attributed to elements such as economic growth, inflation, population increase, education levels, and technological progress. A predictive conceptual model was developed that indicates factors that contribute to unemployment in developing nations can be addressed by using techniques of machine learning like regression analysis and neural networks when adopting I4.0. The study's findings demonstrated the effectiveness of the proposed predictive conceptual model in accurately understanding and addressing unemployment rate factors within developing nations when deploying I4.0. The model serves a dual purpose of predicting future unemployment rates and tracking the advancement of reducing unemployment rates in emerging economies. By persistently conducting research and improvements, decision-makers and enterprises can employ these patterns to arrive at more knowledgeable judgments that can advance the growth of the economy, generation of employment, and alleviation of poverty specifically in emerging nations.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# ORCAを用いたクロスモーダル微調整の成功を説明するには?

What explains the success of cross-modal fine-tuning with ORCA? ( http://arxiv.org/abs/2403.13537v1 )

ライセンス: Link先を確認
Paloma García-de-Herreros, Vagrant Gautam, Philipp Slusallek, Dietrich Klakow, Marius Mosbach, (参考訳) ORCA(Shen et al , 2023)は、最近のクロスモーダル微調整技術である。 この技術は主に埋め込み機を訓練し、埋め込み機とモデルを微調整する。 下流タスクの性能は高いが,それぞれのコンポーネントがORCAの成功にどのように貢献するかは正確には分かっていない。 そこで,本論文では,従来の論文とは対照的に,組込み学習が2次元作業にまったく役に立たないことが判明した。 1Dタスクでは、ある程度の埋め込みトレーニングが必要ですが、それ以上は良くありません。 実験した6つのデータセットのうち4つで、最大の違いをもたらすのはモデル微調整です。 我々は,ORCAの個々の構成要素の理解を深める。

ORCA (Shen et al., 2023) is a recent technique for cross-modal fine-tuning, i.e., applying pre-trained transformer models to modalities beyond their training data. The technique consists primarily of training an embedder and fine-tuning the embedder and model. Despite its high performance on a variety of downstream tasks, we do not understand precisely how each of these components contribute to ORCA's success. Therefore, we run a series of ablations and find that embedder training does not help 2D tasks at all, contrary to what the original paper posits. In 1D tasks, some amount of embedder training is necessary but more is not better. In 4 out of 6 datasets we experiment with, it is model fine-tuning that makes the biggest difference. Through our ablations and baselines, we contribute a better understanding of the individual components of ORCA.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# 相関時間遅延に対する対称性の影響

Symmetrisation effects on the correlation time delay ( http://arxiv.org/abs/2403.13538v1 )

ライセンス: Link先を確認
Pedro Sancho, (参考訳) 励起直交およびパラヘリウム状態の光イオン化における時間遅延に対する電子相関の寄与を解析した。 単純な推定では、イオン化確率振幅に基づいて、両状態の異なる形の反対称性が、原理的には相関時間遅延の全く異なる値をもたらすことが示される。 この結果は、他の文脈で研究されているアト秒状態における電子相関と対称性効果の間の相互作用を照らす。 さらに、励起状態が、その領域における交換効果の役割を探求する可能性を示唆している。

We analyze the electronic correlation contribution to the time delay in the photo-ionization of the excited ortho- and para-Helium states. A simple estimation, based on the ionization probability amplitudes, shows that the different form of anti-symmetrising both states can in principle lead to very different values of the correlation time delay. This result illuminates the interplay between electronic correlations and symmetrisation effects in the attosecond regime, a relation that has been studied in other contexts. Moreover, it suggests the potential of excited states to explore the role of exchange effects in that realm.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# 量子エラー緩和技術のスケーラビリティ-有用性から有効性へ-

Scalability of quantum error mitigation techniques: from utility to advantage ( http://arxiv.org/abs/2403.13542v1 )

ライセンス: Link先を確認
Sergey N. Filippov, Sabrina Maniscalco, Guillermo García-Pérez, (参考訳) 誤り軽減は、数百の量子ビットと数十のレイヤーのスケールに量子コンピューティングを上昇させたが、より大規模な(ディーパー回路)は、量子コンピューティングの潜在能力を十分に活用し、それ以外は難解な問題を解くために必要である。 ここでは、量子ユーティリティーから量子優位への飛躍の道を開く3つの重要な結果を示す:(1)確率的エラーキャンセル(PEC)、確率的エラー増幅によるゼロノイズ外挿(ZNE)、テンソルネットワークエラー緩和(TEM)など、最も先進的なエラー軽減戦略に関連するランダムおよび体系的エラーの徹底的導出を示す。 (i)現実的な雑音下での3つの技法のうち、サンプリングオーバーヘッドが最低である。 (ii)は、エラー軽減のための普遍的低コストを飽和させるという意味で最適である。 3)問題に依存しない量子シミュレーション装置の商業的ニーズから,アルゴリズムの普遍性の観点から,実用的な量子優位性の概念を提案する。 また、十分な結合次元を持つTEMが距離3の誤り訂正符号と同様に動作することを示すことにより、誤差緩和、追加の測定への依存、および追加のキュービットに依存する誤り訂正の接続を確立する。 この2つのリソース間の相互作用とトレードオフは、エラー緩和とエラー訂正のスムーズな遷移の鍵であり、したがって、短期的およびフォールトトレラントな量子コンピュータの間にある。 一方、テンソルネットワークの収縮に控えめな古典的コンピュータパワーを頼りにしている最適誤差軽減を伴う量子コンピューティングは、古典的手法単独よりも高精度なシミュレーションでより大きなスケールに達する可能性があると論じる。

Error mitigation has elevated quantum computing to the scale of hundreds of qubits and tens of layers; however, yet larger scales (deeper circuits) are needed to fully exploit the potential of quantum computing to solve practical problems otherwise intractable. Here we demonstrate three key results that pave the way for the leap from quantum utility to quantum advantage: (1) we present a thorough derivation of random and systematic errors associated to the most advanced error mitigation strategies, including probabilistic error cancellation (PEC), zero noise extrapolation (ZNE) with probabilistic error amplification, and tensor-network error mitigation (TEM); (2) we prove that TEM (i) has the lowest sampling overhead among all three techniques under realistic noise, (ii) is optimal, in the sense that it saturates the universal lower cost bound for error mitigation, and (iii) is therefore the most promising approach to quantum advantage; (3) we propose a concrete notion of practical quantum advantage in terms of the universality of algorithms, stemming from the commercial need for a problem-independent quantum simulation device. We also establish a connection between error mitigation, relying on additional measurements, and error correction, relying on additional qubits, by demonstrating that TEM with a sufficient bond dimension works similarly to an error correcting code of distance 3. We foresee that the interplay and trade-off between the two resources will be the key to a smooth transition between error mitigation and error correction, and hence between near-term and fault-tolerant quantum computers. Meanwhile, we argue that quantum computing with optimal error mitigation, relying on modest classical computer power for tensor network contraction, has the potential to reach larger scales in accurate simulation than classical methods alone.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# セマンティックセグメンテーションによる翌日火災予測

Next day fire prediction via semantic segmentation ( http://arxiv.org/abs/2403.13545v1 )

ライセンス: Link先を確認
Konstantinos Alexis, Stella Girtsou, Alexis Apostolakis, Giorgos Giannopoulos, Charalampos Kontoes, (参考訳) 本稿では,翌日の火災予報のためのディープラーニングパイプラインを提案する。 翌日の火災予報タスクは、翌日の火災発生を予測するために、ある地域において、ある日まで利用可能な情報を入力として受信する学習モデルで構成される。 図形特徴ベクトルで表されるインスタンス(各領域の日次スナップショット)のバイナリ分類タスクとして過去の問題定式化から、画像上のセマンティックセマンティックセグメンテーションタスクとして問題を再構成し、各ピクセルは領域の日次スナップショットに対応し、そのチャネルはそれまでの表形訓練特徴を表す。 完全なパイプライン内に構築されたこの問題の定式化が、最先端の結果をもたらすことを実証する。

In this paper we present a deep learning pipeline for next day fire prediction. The next day fire prediction task consists in learning models that receive as input the available information for an area up until a certain day, in order to predict the occurrence of fire for the next day. Starting from our previous problem formulation as a binary classification task on instances (daily snapshots of each area) represented by tabular feature vectors, we reformulate the problem as a semantic segmentation task on images; there, each pixel corresponds to a daily snapshot of an area, while its channels represent the formerly tabular training features. We demonstrate that this problem formulation, built within a thorough pipeline achieves state of the art results.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# 交通事故管理における重大度分類のための大規模言語モデルの統合:機械学習アプローチ

Integrating Large Language Models for Severity Classification in Traffic Incident Management: A Machine Learning Approach ( http://arxiv.org/abs/2403.13547v1 )

ライセンス: Link先を確認
Artur Grigorev, Khaled Saleh, Yuming Ou, Adriana-Simona Mihaita, (参考訳) 本研究では,大規模言語モデルが交通事故管理における機械学習プロセスの強化に与える影響を評価する。 事故報告を用いて事故の重大度を分類する際に, 近代言語モデルによって生じる特徴がどの程度改善するか, あるいは予測精度に適合するかを検討する。 Gradient Boosted Decision Trees、Random Forests、Extreme Gradient Boostingなど、言語モデルと機械学習アルゴリズムの組み合わせによる複数の比較が行われた。 本研究は,テキストとインシデントレポートから得られた従来の言語モデルに基づく特徴と,それらの組み合わせを用いて重度分類を行う。 言語モデルとインシデントレポートから直接得られる特徴を組み込むことで、特にランダムフォレストやエクストリームグラディエント・ブースティング(Extreme Gradient Boosting)メソッドを使用する場合、インシデントに重大度を割り当てる機械学習技術のパフォーマンスを改善または少なくとも一致させることが示されている。 この比較は、一様にサンプリングされたデータセット上でF1スコアを用いて定量化し、バランスの取れた重大度クラスを得た。 この研究の主な貢献は、インシデント管理のための機械学習ワークフローにLarge Language Modelsを組み込む方法の実証である。 本研究の工学的応用は、これらの言語処理モデルを効果的に利用して、インシデント重大度分類のためのモデリングプロセスを洗練することによって説明される。 この研究は、インシデント重大度を分類するコンテキストにおいて、機械学習パイプラインを改善するために、従来のデータと組み合わせて、言語処理機能の適用に関する重要な洞察を提供する。

This study evaluates the impact of large language models on enhancing machine learning processes for managing traffic incidents. It examines the extent to which features generated by modern language models improve or match the accuracy of predictions when classifying the severity of incidents using accident reports. Multiple comparisons performed between combinations of language models and machine learning algorithms, including Gradient Boosted Decision Trees, Random Forests, and Extreme Gradient Boosting. Our research uses both conventional and language model-derived features from texts and incident reports, and their combinations to perform severity classification. Incorporating features from language models with those directly obtained from incident reports has shown to improve, or at least match, the performance of machine learning techniques in assigning severity levels to incidents, particularly when employing Random Forests and Extreme Gradient Boosting methods. This comparison was quantified using the F1-score over uniformly sampled data sets to obtain balanced severity classes. The primary contribution of this research is in the demonstration of how Large Language Models can be integrated into machine learning workflows for incident management, thereby simplifying feature extraction from unstructured text and enhancing or matching the precision of severity predictions using conventional machine learning pipeline. The engineering application of this research is illustrated through the effective use of these language processing models to refine the modelling process for incident severity classification. This work provides significant insights into the application of language processing capabilities in combination with traditional data for improving machine learning pipelines in the context of classifying incident severity.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# スタイルGAN圧縮のためのダイバーシティ対応チャネルプルーニング

Diversity-aware Channel Pruning for StyleGAN Compression ( http://arxiv.org/abs/2403.13548v1 )

ライセンス: Link先を確認
Jiwoo Chung, Sangeek Hyun, Sang-Heon Shim, Jae-Pil Heo, (参考訳) StyleGANは無条件画像生成において顕著な性能を示した。 しかし、その高い計算コストは、実用的な応用にとって大きな課題となる。 近年ではStyleGANの圧縮が試みられているが、既存の圧縮モデルはオリジナルのモデルより遅れており、特にサンプルの多様性は遅れている。 そこで本研究では, サンプルの多様性の鍵となる潜伏ベクトルに対して, チャネルの様々な感度を生かした新しいチャネルプルーニング手法を提案する。 具体的には、遅延ベクトル摂動に対する感受性に基づいてチャネルの重要性を評価することにより、圧縮モデルにおけるサンプルの多様性を高める。 本手法は,チャネルプルーニングの段階にのみ焦点を絞っているため,事前トレーニング方式と相補的な利点があり,追加のトレーニングコストがかからない。 大規模な実験により,本手法は様々なデータセットにおけるサンプルの多様性を著しく向上させることが示された。 さらに,FIDスコアの点からみると,本手法は最先端の技術を大きなマージンで上回るだけでなく,半分のトレーニングイテレーションで同等のスコアを達成できる。

StyleGAN has shown remarkable performance in unconditional image generation. However, its high computational cost poses a significant challenge for practical applications. Although recent efforts have been made to compress StyleGAN while preserving its performance, existing compressed models still lag behind the original model, particularly in terms of sample diversity. To overcome this, we propose a novel channel pruning method that leverages varying sensitivities of channels to latent vectors, which is a key factor in sample diversity. Specifically, by assessing channel importance based on their sensitivities to latent vector perturbations, our method enhances the diversity of samples in the compressed model. Since our method solely focuses on the channel pruning stage, it has complementary benefits with prior training schemes without additional training cost. Extensive experiments demonstrate that our method significantly enhances sample diversity across various datasets. Moreover, in terms of FID scores, our method not only surpasses state-of-the-art by a large margin but also achieves comparable scores with only half training iterations.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# Ground-A-Score:マルチ属性編集のためのスコア蒸留のスケールアップ

Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing ( http://arxiv.org/abs/2403.13551v1 )

ライセンス: Link先を確認
Hangeol Chang, Jinho Chang, Jong Chul Ye, (参考訳) 近年、様々な画像編集を容易にするテキスト・画像拡散モデルの進歩にもかかわらず、複雑なテキスト・プロンプトは、テキスト情報処理のボトルネックにより、要求の監視に繋がることが多い。 この課題に対処するために,スコア蒸留時のグラウンド処理を取り入れた,シンプルながら強力なモデルに依存しない画像編集手法であるGround-A-Scoreを提案する。 このアプローチは、画像内のオブジェクト位置の事前の知識を考慮して、編集結果の複雑なプロンプト要求を正確に反映する。 さらに、新たなペナルティ係数とコントラスト損失を持つ選択的応用は、ソース画像内のオブジェクトの整合性を保ちながら、編集領域を正確にターゲットするのに役立つ。 質的評価と定量的分析の両方で、Ground-A-Scoreは拡張された複数面のプロンプトの複雑な詳細に順応し、元の画像属性を尊重する高品質な結果を保証する。

Despite recent advancements in text-to-image diffusion models facilitating various image editing techniques, complex text prompts often lead to an oversight of some requests due to a bottleneck in processing text information. To tackle this challenge, we present Ground-A-Score, a simple yet powerful model-agnostic image editing method by incorporating grounding during score distillation. This approach ensures a precise reflection of intricate prompt requirements in the editing outcomes, taking into account the prior knowledge of the object locations within the image. Moreover, the selective application with a new penalty coefficient and contrastive loss helps to precisely target editing areas while preserving the integrity of the objects in the source image. Both qualitative assessments and quantitative analyses confirm that Ground-A-Score successfully adheres to the intricate details of extended and multifaceted prompts, ensuring high-quality outcomes that respect the original image attributes.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# VCounselor:知識強化型大規模言語モデルに基づく心理的介入チャットエージェント

VCounselor: A Psychological Intervention Chat Agent Based on a Knowledge-Enhanced Large Language Model ( http://arxiv.org/abs/2403.13553v1 )

ライセンス: Link先を確認
H. Zhang, Z. Qiao, H. Wang, B. Duan, J. Yin, (参考訳) 会話型人工知能は、すでに独立して、心理的問題のある顧客と短い会話をし、証拠に基づく心理的介入を提供することができる。 本研究の目的は,特定のエージェントであるVCounselorを作成することによって,大規模言語モデルの心理的介入における有効性と信頼性を向上させることであり,ドメインアプリケーションにおけるChatGPTなどの一般的な大規模言語モデルに見られる限界に対処することである。 我々は、新しい感情的相互作用構造と知識・エンハンスメント構造を提案することで、この目標を達成した。 本研究は,VCounselorの評価のために,一般的な大言語モデル,微調整された大言語モデル,VCounselorの知識に富んだ大言語モデルを比較した。 同時に、一般的な大言語モデルと微調整された大言語モデルにも、それらをVCounselorのエージェントとして比較するためのアバターが提供される。 比較の結果,VCounselorの感情的相互作用構造と知識強調構造は心理的介入の有効性と信頼性を有意に向上し,VCounselorはクライアントの感情に対して肯定的な傾向を示した。 本研究の結論は、VConselorが患者の問題を相対的精度で分析し、顧客へのサポートを高めるプロレベルのアドバイスを提供することによって、顧客への心理的サポートを提供する上で大きな優位性を持っていることを強く支持している。

Conversational artificial intelligence can already independently engage in brief conversations with clients with psychological problems and provide evidence-based psychological interventions. The main objective of this study is to improve the effectiveness and credibility of the large language model in psychological intervention by creating a specialized agent, the VCounselor, to address the limitations observed in popular large language models such as ChatGPT in domain applications. We achieved this goal by proposing a new affective interaction structure and knowledge-enhancement structure. In order to evaluate VCounselor, this study compared the general large language model, the fine-tuned large language model, and VCounselor's knowledge-enhanced large language model. At the same time, the general large language model and the fine-tuned large language model will also be provided with an avatar to compare them as an agent with VCounselor. The comparison results indicated that the affective interaction structure and knowledge-enhancement structure of VCounselor significantly improved the effectiveness and credibility of the psychological intervention, and VCounselor significantly provided positive tendencies for clients' emotions. The conclusion of this study strongly supports that VConselor has a significant advantage in providing psychological support to clients by being able to analyze the patient's problems with relative accuracy and provide professional-level advice that enhances support for clients.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# Find n' Propagate: 都市環境におけるオープンボキャブラリ3次元物体検出

Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments ( http://arxiv.org/abs/2403.13556v1 )

ライセンス: Link先を確認
Djamahl Etchegaray, Zi Huang, Tatsuya Harada, Yadan Luo, (参考訳) 本研究では,従来のLiDARに基づく3次元オブジェクト検出システムの限界に対処する。 都市環境におけるオープンボキャブラリ(OV)学習の探索は,複数センサデータを用いた事前学習型視覚言語モデル(VLM)を用いて,新規なインスタンスを捕捉することを目的としている。 入力データ戦略に基づいて、トップダウンまたはボトムアップのアプローチに分類し、ベースラインとして4つの潜在的なソリューションを設計し、ベンチマークする。 有効ではあるが、これらの手法は、3Dボックス推定における新しい物体の欠如や厳密な事前適用といった一定の制限を示しており、カメラや長方形地形の物体に偏りが生じる。 これらの制約を克服するために、新しい物体のリコールを最大化し、この検出能力をより遠くまで伝播させることを目的として、3次元OVタスクに対して普遍的な \textsc{Find n' Propagate} アプローチを導入する。 特に、グリーディボックス探索器を用いて、生成したフラストラムごとに異なる向きと深さの3D新鮮ボックスを探索し、クロスアライメントと密度ランク付けにより、新たに同定されたボックスの信頼性を確保する。 さらに、カメラ近位物体に対する固有のバイアスは、メモリバンク内のベースサンプルの融合と相まって、自己学習プロセスにおいて擬似ラベル付き新規インスタンスをランダムに分散する遠隔シミュレーターによって軽減される。 大規模な実験では、様々なOV設定、VLM、および3D検出器にまたがる新しいリコールが53%改善された。 特に、新しいオブジェクトクラスに対する平均精度(AP)が最大3.97倍に向上する。 ソースコードは補足資料で入手できる。

In this work, we tackle the limitations of current LiDAR-based 3D object detection systems, which are hindered by a restricted class vocabulary and the high costs associated with annotating new object classes. Our exploration of open-vocabulary (OV) learning in urban environments aims to capture novel instances using pre-trained vision-language models (VLMs) with multi-sensor data. We design and benchmark a set of four potential solutions as baselines, categorizing them into either top-down or bottom-up approaches based on their input data strategies. While effective, these methods exhibit certain limitations, such as missing novel objects in 3D box estimation or applying rigorous priors, leading to biases towards objects near the camera or of rectangular geometries. To overcome these limitations, we introduce a universal \textsc{Find n' Propagate} approach for 3D OV tasks, aimed at maximizing the recall of novel objects and propagating this detection capability to more distant areas thereby progressively capturing more. In particular, we utilize a greedy box seeker to search against 3D novel boxes of varying orientations and depth in each generated frustum and ensure the reliability of newly identified boxes by cross alignment and density ranker. Additionally, the inherent bias towards camera-proximal objects is alleviated by the proposed remote simulator, which randomly diversifies pseudo-labeled novel instances in the self-training process, combined with the fusion of base samples in the memory bank. Extensive experiments demonstrate a 53% improvement in novel recall across diverse OV settings, VLMs, and 3D detectors. Notably, we achieve up to a 3.97-fold increase in Average Precision (AP) for novel object classes. The source code is made available in the supplementary material.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# 箱の中の粒子に対する非エルミタン運動量作用素

A non-hermitean momentum operator for the particle in a box ( http://arxiv.org/abs/2403.13558v1 )

ライセンス: Link先を確認
Seyong Kim, Alexander Rothkopf, (参考訳) 独立な非エルミート運動量作用素を構築し、箱の中の粒子に対する運動量の自己共役性を忠実に実装する。 その固有関数は連続極限の箱の内部に厳密に制限されており、クォーター波は最初の非自明な固有状態である。 無限大および具体的な例に対して対応するエルミートハミルトニアンを構築する方法を示し、ユニタリダイナミクスを実現する。 ヒルベルト空間は、互いに直交する物理的および非物理的部分空間に分解することができる。 連続体極限の物理部分空間は連続体理論の空間を再現し、運動量とエネルギーの正しい確率分布が復元されるという数値的な証拠を与える。

We construct a discrete non-hermitean momentum operator, which implements faithfully the non self-adjoint nature of momentum for a particle in a box. Its eigenfunctions are strictly limited to the interior of the box in the continuum limit, with the quarter wave as first non-trivial eigenstate. We show how to construct the corresponding hermitean Hamiltonian for the infinite well as concrete example to realize unitary dynamics. The resulting Hilbert space can be decomposed into a physical and unphysical subspace, which are mutually orthogonal. The physical subspace in the continuum limit reproduces that of the continuum theory and we give numerical evidence that the correct probability distributions for momentum and energy are recovered.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# eRST:対話関係と組織に関するグラフ理論

eRST: A Signaled Graph Theory of Discourse Relations and Organization ( http://arxiv.org/abs/2403.13560v1 )

ライセンス: Link先を確認
Amir Zeldes, Tatsuya Aoyama, Yang Janet Liu, Siyao Peng, Debopam Das, Luke Gessler, (参考訳) 本稿では、RST(Rhetorical Structure Theory)の拡張に基づく計算談話分析のための新しい理論フレームワークである拡張修辞構造理論(eRST)を提案する。 このフレームワークは、木分割、非計画的、並行的な関係を持つ談話関係グラフと、分析に説明可能な有理性を与える暗黙的、明示的な信号を含む。 本稿では,RSTおよび既存のフレームワーク,例えばSegmented Discourse Representation Theory (SDRT), Penn Discourse Treebank (PDTB), Discourse Dependencies の欠点を調査し,提案理論の構成要素を用いてこれらに対処する。 我々は、データのためのアノテーション、検索、可視化ツールを提供し、フレームワークによって注釈付けされた英語の無料コーパスを提示し、評価する。 最後に、我々のフレームワークにおけるデータの自動解析、評価指標、アプリケーションについて論じる。

In this article we present Enhanced Rhetorical Structure Theory (eRST), a new theoretical framework for computational discourse analysis, based on an expansion of Rhetorical Structure Theory (RST). The framework encompasses discourse relation graphs with tree-breaking, nonprojective and concurrent relations, as well as implicit and explicit signals which give explainable rationales to our analyses. We survey shortcomings of RST and other existing frameworks, such as Segmented Discourse Representation Theory (SDRT), the Penn Discourse Treebank (PDTB) and Discourse Dependencies, and address these using constructs in the proposed theory. We provide annotation, search and visualization tools for data, and present and evaluate a freely available corpus of English annotated according to our framework, encompassing 12 spoken and written genres with over 200K tokens. Finally, we discuss automatic parsing, evaluation metrics and applications for data in our framework.
翻訳日:2024-03-21 16:57:51 公開日:2024-03-20
# DL2Fence:大規模NoCにおける深層学習とフレーム融合の統合による補充否認の検出と局所化

DL2Fence: Integrating Deep Learning and Frame Fusion for Enhanced Detection and Localization of Refined Denial-of-Service in Large-Scale NoCs ( http://arxiv.org/abs/2403.13563v1 )

ライセンス: Link先を確認
Haoyu Wang, Basel Halak, Jianjie Ren, Ahmad Atamli, (参考訳) 本研究は,ネットワークオンチップ(NoC)のための洗練されたフラッドインジェクション・レート調整可能なDoSモデルを導入し,さらに重要なことは,DoSの検出とローカライゼーションにDeep Learning(DL)とFrame Fusion(2F)を利用した新しいフレームワークであるDL2Fenceを提示する。 分類とセグメンテーションのための2つの畳み込みニューラルネットワークモデルを開発し,それぞれDoSの検出とローカライズを行った。 16x16メッシュNoCにおいて、95.8\%と91.7\%の検出および局所化精度と98.5\%と99.3\%の精度を達成する。 フレームワークのハードウェアオーバーヘッドは8x8から16x16 NoCにスケーリングすると76.3\%減少し、最先端のハードウェアに比べて42.4\%減少する。 この進歩は、ハードウェアオーバーヘッドが極端に低い大規模NoCにおいて、優れた検出性能のバランスをとるDL2Fenceの有効性を示す。

This study introduces a refined Flooding Injection Rate-adjustable Denial-of-Service (DoS) model for Network-on-Chips (NoCs) and more importantly presents DL2Fence, a novel framework utilizing Deep Learning (DL) and Frame Fusion (2F) for DoS detection and localization. Two Convolutional Neural Networks models for classification and segmentation were developed to detect and localize DoS respectively. It achieves detection and localization accuracies of 95.8\% and 91.7\%, and precision rates of 98.5\% and 99.3\% in a 16x16 mesh NoC. The framework's hardware overhead notably decreases by 76.3\% when scaling from 8x8 to 16x16 NoCs, and it requires 42.4\% less hardware compared to state-of-the-arts. This advancement demonstrates DL2Fence's effectiveness in balancing outstanding detection performance in large-scale NoCs with extremely low hardware overhead.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# AdaTrans:高次元回帰のための特徴的およびサンプル的適応的変換学習

AdaTrans: Feature-wise and Sample-wise Adaptive Transfer Learning for High-dimensional Regression ( http://arxiv.org/abs/2403.13565v1 )

ライセンス: Link先を確認
Zelin He, Ying Sun, Jingyuan Liu, Runze Li, (参考訳) 本研究では,高次元設定における伝達学習の問題について考察する。 特徴量やソースサンプルによって異なる転送可能な情報を学習するために,特徴量(F-AdaTrans)やサンプル量(S-AdaTrans)の変換可能な構造を検出・集約できる適応型転送学習法を提案する。 移動可能な構造に適応可能な重量と組み合わせて, 新規なフューズド・ペナルティ(fused-penalty)を採用することで実現した。 そこで本研究では,F-AdaTransとS-AdaTransを併用して,伝送可能信号のフィルタリングを行う手法を提案する。 非漸近速度が確立され、特殊な場合において、既存の最小値に近い最適速度を回復する。 提案手法の有効性を,合成データと実データの両方を用いて検証した。

We consider the transfer learning problem in the high dimensional setting, where the feature dimension is larger than the sample size. To learn transferable information, which may vary across features or the source samples, we propose an adaptive transfer learning method that can detect and aggregate the feature-wise (F-AdaTrans) or sample-wise (S-AdaTrans) transferable structures. We achieve this by employing a novel fused-penalty, coupled with weights that can adapt according to the transferable structure. To choose the weight, we propose a theoretically informed, data-driven procedure, enabling F-AdaTrans to selectively fuse the transferable signals with the target while filtering out non-transferable signals, and S-AdaTrans to obtain the optimal combination of information transferred from each source sample. The non-asymptotic rates are established, which recover existing near-minimax optimal rates in special cases. The effectiveness of the proposed method is validated using both synthetic and real data.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# Portrait4D-v2: Pseudo Multi-View Dataが4Dヘッドシンセサイザーを改良

Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer ( http://arxiv.org/abs/2403.13570v1 )

ライセンス: Link先を確認
Yu Deng, Duomin Wang, Baoyuan Wang, (参考訳) 本稿では,フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。 3DMMでガイドされた単眼ビデオの再構成からしばしば学習する既存の方法とは異なり、擬似多眼ビデオを用いてデータ駆動方式で4Dヘッドシンセサイザーを学習し、合成性能に悪影響を及ぼす不正確な3DMM再構成への依存を避ける。 鍵となるアイデアは、まず合成多視点画像を用いて3Dヘッドシンセサイザーを学習し、モノクラー・リアルビデオをマルチビューに変換し、続いて擬似多視点ビデオを使用して4Dヘッドシンセサイザーをクロスビュー自己再現により学習することである。 本手法は、単純な視覚変換器のバックボーンとモーション対応のクロスアテンションを活用することで、従来の手法と比較して、再現率、幾何整合性、動き制御精度において優れた性能を示す。 提案手法は,4次元頭部アバターの創出を改善するために,3次元前駆体と2次元監督体を一体化するための新たな知見を提供する。

In this paper, we propose a novel learning approach for feed-forward one-shot 4D head avatar synthesis. Different from existing methods that often learn from reconstructing monocular videos guided by 3DMM, we employ pseudo multi-view videos to learn a 4D head synthesizer in a data-driven manner, avoiding reliance on inaccurate 3DMM reconstruction that could be detrimental to the synthesis performance. The key idea is to first learn a 3D head synthesizer using synthetic multi-view images to convert monocular real videos into multi-view ones, and then utilize the pseudo multi-view videos to learn a 4D head synthesizer via cross-view self-reenactment. By leveraging a simple vision transformer backbone with motion-aware cross-attentions, our method exhibits superior performance compared to previous methods in terms of reconstruction fidelity, geometry consistency, and motion control accuracy. We hope our method offers novel insights into integrating 3D priors with 2D supervisions for improved 4D head avatar creation.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# 共同ビデオとコメントレコメンデーションのための大規模言語モデル拡張シーケンスレコメンデーション

A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation ( http://arxiv.org/abs/2403.13574v1 )

ライセンス: Link先を確認
Bowen Zheng, Zihan Lin, Enze Liu, Chen Yang, Enyang Bai, Cheng Ling, Wayne Xin Zhao, Ji-Rong Wen, (参考訳) オンラインビデオプラットフォームでは、面白いビデオに対するコメントの読み書きが、ビデオ視聴体験の重要な部分となっている。 しかし、既存のビデオレコメンデータシステムは、主にユーザの動画とのインタラクション動作をモデル化し、ユーザの振る舞いモデリングにおけるコメントの考慮を欠いている。 本稿では,ビデオとコメントの両方でユーザインタラクション履歴を活用することで,パーソナライズされたビデオとコメントのレコメンデーションを共同で行う,LSVCRと呼ばれる新しいレコメンデーション手法を提案する。 具体的には、逐次レコメンデーション(SR)モデルと補足型大言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。 SRモデルは、私たちのアプローチの主要なレコメンデーションバックボーン(デプロイメントに保持されている)として機能し、効率的なユーザ嗜好モデリングを可能にします。 一方、LLMレコメンデータを補足的なコンポーネントとして利用し(デプロイで捨てられた)、不均一なインタラクションの振る舞いから基礎となるユーザの好みをよりよく捉えます。 SRモデルと補足型LLMレコメンデータの利点を統合するために,我々は2段階のトレーニングパラダイムを設計する。 最初の段階はパーソナライズされた好みのアライメントであり、これは両方のコンポーネントから好みの表現を調整し、SRモデルのセマンティクスを強化することを目的としている。 第2段階はレコメンデーション指向の微調整であり、アライメント強化SRモデルは特定の目的に応じて微調整される。 ビデオとコメントのレコメンデーションタスクにおける大規模な実験は、LSVCRの有効性を実証している。 さらに、KuaiShouプラットフォーム上でのオンラインA/Bテストは、我々のアプローチによる実際のメリットを検証する。 特に、コメント視聴時間の4.13%が大幅に向上した。

In online video platforms, reading or writing comments on interesting videos has become an essential part of the video watching experience. However, existing video recommender systems mainly model users' interaction behaviors with videos, lacking consideration of comments in user behavior modeling. In this paper, we propose a novel recommendation approach called LSVCR by leveraging user interaction histories with both videos and comments, so as to jointly conduct personalized video and comment recommendation. Specifically, our approach consists of two key components, namely sequential recommendation (SR) model and supplemental large language model (LLM) recommender. The SR model serves as the primary recommendation backbone (retained in deployment) of our approach, allowing for efficient user preference modeling. Meanwhile, we leverage the LLM recommender as a supplemental component (discarded in deployment) to better capture underlying user preferences from heterogeneous interaction behaviors. In order to integrate the merits of the SR model and the supplemental LLM recommender, we design a twostage training paradigm. The first stage is personalized preference alignment, which aims to align the preference representations from both components, thereby enhancing the semantics of the SR model. The second stage is recommendation-oriented fine-tuning, in which the alignment-enhanced SR model is fine-tuned according to specific objectives. Extensive experiments in both video and comment recommendation tasks demonstrate the effectiveness of LSVCR. Additionally, online A/B testing on the KuaiShou platform verifies the actual benefits brought by our approach. In particular, we achieve a significant overall gain of 4.13% in comment watch time.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# リモートセンシング画像分類のためのフェデレーション学習における特徴コミュニケーションの活用

Leveraging feature communication in federated learning for remote sensing image classification ( http://arxiv.org/abs/2403.13575v1 )

ライセンス: Link先を確認
Anh-Kiet Duong, Hoàng-Ân Lê, Minh-Tan Pham, (参考訳) 本研究は,リモートセンシング画像分類に適用されたフェデレートラーニング(FL)の領域において,いくつかの革新的なコミュニケーション戦略を紹介し,評価する。 調査では,特徴中心のコミュニケーション,擬似重畳化,重みと特徴の両面を利用した組み合わせ手法について検討した。 2つの公開シーン分類データセットで実施された実験は、これらの戦略の有効性を明らかにし、収束の加速、プライバシーの強化、ネットワーク情報交換の削減を示す。 この研究は、FLにおける機能中心通信の影響に関する貴重な洞察を提供し、リモートセンシングシナリオに適した潜在的なアプリケーションを提供する。

In the realm of Federated Learning (FL) applied to remote sensing image classification, this study introduces and assesses several innovative communication strategies. Our exploration includes feature-centric communication, pseudo-weight amalgamation, and a combined method utilizing both weights and features. Experiments conducted on two public scene classification datasets unveil the effectiveness of these strategies, showcasing accelerated convergence, heightened privacy, and reduced network information exchange. This research provides valuable insights into the implications of feature-centric communication in FL, offering potential applications tailored for remote sensing scenarios.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# ハーフライン上の連続時間量子ウォークの相転移

Phase transition of a continuous-time quantum walk on the half line ( http://arxiv.org/abs/2403.13576v1 )

ライセンス: Link先を確認
Takuya Machida, (参考訳) 量子ウォークは数学におけるランダムウォークの量子アナログと呼ばれる。 量子コンピュータの量子情報における量子アルゴリズムとして研究されている。 量子ウォークには2つの種類がある。 1つは離散時間量子ウォーク、もう1つは連続時間量子ウォークである。 本稿では,半直線上の連続時間量子ウォークについて検討し,その限界定理の発見に挑戦する。 その結果、量子ウォーカの近似挙動は、長い時間で量子ウォーカのシステムが更新された後に明らかにされる。

Quantum walks are referred to as quantum analogues to random walks in mathematics. They have been studied as quantum algorithms in quantum information for quantum computers. There are two types of quantum walks. One is the discrete-time quantum walk and the other is the continuous-time quantum walk. We study a continuous-time quantum walk on the half line and challenge to find a limit theorem for it in this paper. As a result, approximate behavior of the quantum walker is revealed after the system of quantum walk gets updated in long time.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# 共振器リフレクション生成のためのマルチリワード強化学習における動的リワード調整

Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation ( http://arxiv.org/abs/2403.13578v1 )

ライセンス: Link先を確認
Do June Min, Veronica Perez-Rosas, Kenneth Resnicow, Rada Mihalcea, (参考訳) 本稿では,自然言語生成のための複数テキスト品質を協調的に最適化するマルチリワード強化学習の課題について検討する。 我々は,カウンセラーのリフレクション生成の課題に焦点を合わせ,生成カウンセラー応答の流速,コヒーレンス,リフレクション品質を同時に向上させるために,ジェネレータを最適化する。 我々は,報酬をひとつの値に組み合わせ,同時に最適化するという広範な戦略を頼りに,DynaOpt と C-DynaOpt という2つの新しいバンドイット手法を紹介した。 具体的には、トレーニング中に複数の報酬重み付けを動的に調整するために、非文脈的および文脈的マルチアームバンディットを用いる。 自動および手動評価により,提案手法であるDynaOptとC-DynaOptは,既存のナイーブベースラインやバンディットベースラインよりも優れており,言語モデルの拡張の可能性を示している。

In this paper, we study the problem of multi-reward reinforcement learning to jointly optimize for multiple text qualities for natural language generation. We focus on the task of counselor reflection generation, where we optimize the generators to simultaneously improve the fluency, coherence, and reflection quality of generated counselor responses. We introduce two novel bandit methods, DynaOpt and C-DynaOpt, which rely on the broad strategy of combining rewards into a single value and optimizing them simultaneously. Specifically, we employ non-contextual and contextual multi-arm bandits to dynamically adjust multiple reward weights during training. Through automatic and manual evaluations, we show that our proposed techniques, DynaOpt and C-DynaOpt, outperform existing naive and bandit baselines, showcasing their potential for enhancing language models.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# CONLINE: オンライン検索と正確性テストによる複雑なコード生成とリファインメント

CONLINE: Complex Code Generation and Refinement with Online Searching and Correctness Testing ( http://arxiv.org/abs/2403.13583v1 )

ライセンス: Link先を確認
Xinyi He, Jiaru Zou, Yun Lin, Mengyu Zhou, Shi Han, Zejian Yuan, Dongmei Zhang, (参考訳) 大規模言語モデル(LLM)は、自然言語記述を実行可能なコードに変換することで、コード生成能力に革命をもたらした。 しかし、複雑な構造、微妙なバグ、高度なデータ型の理解、補足的内容の欠如により、現実のシナリオ内で複雑なコードを生成することは依然として困難である。 これらの課題に対処するために,情報検索のためのオンライン検索と反復的精査のための自動正当性テストを統合することで,コード生成を向上するCONLINEフレームワークを導入する。 また、複雑なインプットとアウトプットをシリアライズして、理解を改善し、テストケースを生成して、現実世界のアプリケーションに対するフレームワークの適応性を保証する。 CONLINEはDS-1000とClassEvalデータセットの厳密な実験を通じて検証される。 CONLINEは複雑なコード生成の品質を大幅に改善し、複雑なコード生成におけるLCMの実用性と信頼性を高める可能性を強調している。

Large Language Models (LLMs) have revolutionized code generation ability by converting natural language descriptions into executable code. However, generating complex code within real-world scenarios remains challenging due to intricate structures, subtle bugs, understanding of advanced data types, and lack of supplementary contents. To address these challenges, we introduce the CONLINE framework, which enhances code generation by incorporating planned online searches for information retrieval and automated correctness testing for iterative refinement. CONLINE also serializes the complex inputs and outputs to improve comprehension and generate test case to ensure the framework's adaptability for real-world applications. CONLINE is validated through rigorous experiments on the DS-1000 and ClassEval datasets. It shows that CONLINE substantially improves the quality of complex code generation, highlighting its potential to enhance the practicality and reliability of LLMs in generating intricate code.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# 量子仮説テストとチャネル符号化のための強い逆定理について

On Strong Converse Theorems for Quantum Hypothesis Testing and Channel Coding ( http://arxiv.org/abs/2403.13584v1 )

ライセンス: Link先を確認
Hao-Chung Cheng, Li Gao, (参考訳) 強い逆定理(英: strong converse theorems)は、情報理論における不可能な結果の研究を指す。 特に、モソニと小川は量子仮説テストのための一発の強い逆数境界(Math. Phys, 334(3), 2014)を確立した。 ここでは、測定されたR'enyi発散量の変分式 [Lett. Math. Phys, 107(12), 2017] を通して、この境界に対する別の一直線証明を示す。 そして,変分表現がH\"高齢者の不等式の結果であることを示す。

Strong converse theorems refer to the study of impossibility results in information theory. In particular, Mosonyi and Ogawa established a one-shot strong converse bound for quantum hypothesis testing [Comm. Math. Phys, 334(3), 2014], which servers as a primitive tool for establishing a variety of tight strong converse theorems in quantum information theory. In this short note, we demonstrate an alternative one-line proof for this bound via the variational expression of measured R\'enyi divergences [Lett. Math. Phys, 107(12), 2017]. Then, we show that the variational expression is a direct consequence of H\"older's inequality.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# 事前学習されたコードインテリジェンス言語モデルのための遺伝的オートプロンプト学習

Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models ( http://arxiv.org/abs/2403.13588v1 )

ライセンス: Link先を確認
Chengzhe Feng, Yanan Sun, Ke Li, Pan Zhou, Jiancheng Lv, Aojun Lu, (参考訳) コードインテリジェンスの一般的なアプローチであるプレトレーニング言語モデル(PLM)は、サイズが拡大し続けており、それらの使用の計算コストは違法に高価になっている。 自然言語処理の分野における最近の進歩であるPrompt Learningは、この問題に対処するための潜在的な解決策として現れている。 本稿では,コードインテリジェンスタスクにおける迅速な学習の有効性について検討する。 私たちは手動で設計したプロンプトへの依存を明らかにします。 さらに、勾配依存、高い計算要求、適用可能性の制限といった要因により、既存の自動プロンプト設計手法がコードインテリジェンスタスクに非常に制限されていることを発見した。 両問題を効果的に解決するために,精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。 GenAPでは、非専門家が手作業で設計したプロンプトよりも優れたプロンプトを強制的に生成することができる。 GenAPはグラデーションや計算コストを必要とせずに動作し、グラデーションフリーでコスト効率が良い。 さらに、GenAPはコードインテリジェンスタスクの理解と生成の両方をサポートし、非常に適用性が高い。 我々は、欠陥予測、コード要約、コード翻訳を含む3つの標準コードインテリジェンスタスクを持つ3つの人気のあるコードインテリジェンス PLM上でGenAPを行う。 結果は、GenAPがプロンプトを設計するプロセスを効果的に自動化できることを示唆している。 具体的には、GenAPは他の3つのタスク(例えば、欠陥予測の精度を平均2.13%向上させる)すべてにおいて、他のメソッドよりも優れています。 我々の知る限り、GenAPはコードインテリジェンス PLM のプロンプトを自動設計する最初の試みです。

As Pre-trained Language Models (PLMs), a popular approach for code intelligence, continue to grow in size, the computational cost of their usage has become prohibitively expensive. Prompt learning, a recent development in the field of natural language processing, emerges as a potential solution to address this challenge. In this paper, we investigate the effectiveness of prompt learning in code intelligence tasks. We unveil its reliance on manually designed prompts, which often require significant human effort and expertise. Moreover, we discover existing automatic prompt design methods are very limited to code intelligence tasks due to factors including gradient dependence, high computational demands, and limited applicability. To effectively address both issues, we propose Genetic Auto Prompt (GenAP), which utilizes an elaborate genetic algorithm to automatically design prompts. With GenAP, non-experts can effortlessly generate superior prompts compared to meticulously manual-designed ones. GenAP operates without the need for gradients or additional computational costs, rendering it gradient-free and cost-effective. Moreover, GenAP supports both understanding and generation types of code intelligence tasks, exhibiting great applicability. We conduct GenAP on three popular code intelligence PLMs with three canonical code intelligence tasks including defect prediction, code summarization, and code translation. The results suggest that GenAP can effectively automate the process of designing prompts. Specifically, GenAP outperforms all other methods across all three tasks (e.g., improving accuracy by an average of 2.13% for defect prediction). To the best of our knowledge, GenAP is the first work to automatically design prompts for code intelligence PLMs.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# ReGround: テキストと空間グラウンドを無償で改善

ReGround: Improving Textual and Spatial Grounding at No Cost ( http://arxiv.org/abs/2403.13589v1 )

ライセンス: Link先を確認
Yuseung Lee, Minhyuk Sung, (参考訳) テキストプロンプトと境界ボックスのような空間的手がかりの両方によって画像生成プロセスが導かれるとき、これらの要素は調和して機能するか、一方が他方を支配しているのか? U-Netにゲート自己アテンションを組み込んだ事前学習画像拡散モデルの解析により, ゲート自己アテンションからクロスアテンションへの逐次的な流れにより, 空間グラウンドリングがテキストグラウンドリングを上回ることが判明した。 このようなバイアスは、単にネットワークアーキテクチャを書き換え、順序から並列に切り換えて、ゲートされた自己注意とクロスアテンションのいずれにおいても、精度を犠牲にすることなく、大幅に軽減できることを示す。 この驚くほど単純で効果的なソリューションは、ネットワークの微調整を必要としないが、2つの基盤間のトレードオフを著しく削減する。 実験では, テキストグラウンドと空間グラウンドのトレードオフにおいて, 元のGLIGENから再配線版への大幅な改良が示された。

When an image generation process is guided by both a text prompt and spatial cues, such as a set of bounding boxes, do these elements work in harmony, or does one dominate the other? Our analysis of a pretrained image diffusion model that integrates gated self-attention into the U-Net reveals that spatial grounding often outweighs textual grounding due to the sequential flow from gated self-attention to cross-attention. We demonstrate that such bias can be significantly mitigated without sacrificing accuracy in either grounding by simply rewiring the network architecture, changing from sequential to parallel for gated self-attention and cross-attention. This surprisingly simple yet effective solution does not require any fine-tuning of the network but significantly reduces the trade-off between the two groundings. Our experiments demonstrate significant improvements from the original GLIGEN to the rewired version in the trade-off between textual grounding and spatial grounding.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# 抑揚のための教師-学生訓練:大規模言語モデルのための汎用的置換脱バイアス

Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models ( http://arxiv.org/abs/2403.13590v1 )

ライセンス: Link先を確認
Adian Liusie, Yassir Fathullah, Mark J. F. Gales, (参考訳) 大規模言語モデル(LLM)は、NLPタスクにおいて印象的なゼロショット機能と汎用性を実証しているが、特定のタスクに対して重要な不変性を維持できないことがある。 例えば、置換感度(permutation sensitivity)では、LSMの出力は入力オプションの順序によって大きく異なる可能性がある。 デバイアス技術はこれらの問題を緩和し、より良い性能と信頼性をもたらすが、推論において高い計算コストが伴うことが多い。 本稿では, 推定時の非効率性について述べる。 目的は、計算集約的で偏った教師モデルの能力を、よりコンパクトな学生モデルに融合させることである。 学生モデルの2つの変種について検討する: 1つは純粋蒸留に基づくものであり、もう1つはより複雑なタスクに対する誤り訂正アプローチである。 我々のアプローチは一般的であり、ブラックボックスとホワイトボックスの両方に適用できる。 さらに、我々のコンパクトなエンコーダのみの学生モデルが、より大きく偏りのある教師モデルよりも優れており、パラメータが大幅に少ない結果が得られることを示した。

Large Language Models (LLMs) have demonstrated impressive zero-shot capabilities and versatility in NLP tasks, however they sometimes fail to maintain crucial invariances for specific tasks. One example is permutation sensitivity, where LLMs' outputs may significantly vary depending on the order of the input options. While debiasing techniques can mitigate these issues, and yield better performance and reliability, they often come with a high computational cost at inference. This paper addresses this inefficiency at inference time. The aim is to distill the capabilities of a computationally intensive, debiased, teacher model into a more compact student model. We explore two variants of student models: one based on pure distillation, and the other on an error-correction approach for more complex tasks, where the student corrects a single biased decision from the teacher to achieve a debiased output. Our approach is general and can be applied to both black-box and white-box LLMs. Furthermore, we demonstrate that our compact, encoder-only student models can outperform their larger, biased teacher counterparts, achieving better results with significantly fewer parameters.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# LLMのレンズで欧州の政治スペクトルを調査

Llama meets EU: Investigating the European Political Spectrum through the Lens of LLMs ( http://arxiv.org/abs/2403.13592v1 )

ライセンス: Link先を確認
Ilias Chalkidis, Stephanie Brandl, (参考訳) 指示に精通した大規模言語モデルは、下流のタスクのパフォーマンスに影響を与えることが示されている明確な政治的傾向を継承する。 我々は、米国の二党体制を超えてこの研究の行を拡大し、Llama ChatをEU政治の文脈で様々な環境で監査し、モデルの政治的知識と文脈における推論能力を分析する。 我々は、欧州議会での議論から、EUとIのアンケートに基づいてその政治的傾向を再評価するために、個別のユーロ党の演説に、さらに微調整のラマ・チャット(Llama Chat)を適用する。 ラマ・チャットは国民党の立場についてかなりの知識を示し、文脈で推論できる。 適応された、パーティー特有のモデルは、それぞれのポジションに向けて実質的に再構成され、私たちは、政治科学の研究を支援するために、データ駆動の会話エンジンとしてチャットベースのLLMを使用する出発点と見なしています。

Instruction-finetuned Large Language Models inherit clear political leanings that have been shown to influence downstream task performance. We expand this line of research beyond the two-party system in the US and audit Llama Chat in the context of EU politics in various settings to analyze the model's political knowledge and its ability to reason in context. We adapt, i.e., further fine-tune, Llama Chat on speeches of individual euro-parties from debates in the European Parliament to reevaluate its political leaning based on the EUandI questionnaire. Llama Chat shows considerable knowledge of national parties' positions and is capable of reasoning in context. The adapted, party-specific, models are substantially re-aligned towards respective positions which we see as a starting point for using chat-based LLMs as data-driven conversational engines to assist research in political science.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# 非エルミート皮膚効果の一般的な基準と応用:多くの身体系におけるフォック空間皮膚効果

General criterion for non-Hermitian skin effects and Application: Fock space skin effects in many body systems ( http://arxiv.org/abs/2403.13595v1 )

ライセンス: Link先を確認
Kenji Shimomura, Masatoshi Sato, (参考訳) 非ハーミティシティは、非ハーミティアン皮膚効果と呼ばれるバルク状態のマクロ的な蓄積を可能にする。 非エルミート皮膚効果は単一粒子系では十分に確立されているが、一般的な系では適切に特徴づけられる。 ここでは、線形作用素によって進化した任意の有限次元系に対して機能する非エルミート皮膚効果の一般的な基準を提案する。 適用システムは多体システムとネットワークシステムを含む。 基準を満たす系は進化作用素の強化された非正規性を示し、非エルミート系に固有の例外的な特性を伴っている。 この基準を適用して、Fock空間の皮膚効果を再現する新しいタイプの非エルミート皮膚効果を多体系で発見する。 また、Fock空間皮膚効果による緩やかなダイナミクスについても論じ、Fock空間皮膚効果の実験的シグナルを与える。

Non-Hermiticity enables macroscopic accumulation of bulk states, named non-Hermitian skin effects. The non-Hermitian skin effects are well-established for single-particle systems, but their proper characterization for general systems is elusive. Here, we propose a general criterion of non-Hermitian skin effects, which works for any finite-dimensional system evolved by a linear operator. The applicable systems include many-body systems and network systems. A system meeting the criterion exhibits enhanced non-normality of the evolution operator, accompanied by exceptional characteristics intrinsic to non-Hermitian systems. Applying the criterion, we discover a new type of non-Hermitian skin effect in many-body systems, which we dub the Fock space skin effect. We also discuss the Fock space skin effect-induced slow dynamics, which gives an experimental signal for the Fock space skin effect.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# もはや最適化ルールはない: LLM対応ポリシーベースのマルチモーダルクエリオプティマイザ(バージョン1)

No more optimization rules: LLM-enabled policy-based multi-modal query optimizer (version 1) ( http://arxiv.org/abs/2403.13597v1 )

ライセンス: Link先を確認
Yifan Wang, Haodi Ma, Daisy Zhe Wang, (参考訳) 大規模言語モデル(LLM)は、機械学習とディープラーニングの分野で重要な瞬間となっている。 近年,単一モーダルクエリとマルチモーダルクエリの両方を含むクエリプランニング機能について検討されている。 しかし,LLMのクエリ最適化機能については検討されていない。 クエリプランの実行パフォーマンスに大きな影響を与える重要な(あるいは最も重要な)ステップとして、そのような分析や試行は見逃すべきではない。 別の側面では、既存のクエリオプティマイザは通常、ルールベースまたはルールベース+コストベースである。 現代のオプティマイザには数百から数千のルールが含まれており、同様の方法でマルチモーダルクエリオプティマイザを設計するのは、可能な限り多くのマルチモーダル最適化ルールを列挙する必要があるため、非常に時間がかかる。 本稿では,LLMのクエリ最適化能力について検討し,新しいLLMおよびポリシーベースのマルチモーダルクエリオプティマイザであるLaPudaを設計する。 具体的なルールと詳細なルールを列挙する代わりに、LaPudaは最適化においてLLMを導くための抽象的なポリシーを少しだけ必要とします。 さらに,LSMの誤りや負の最適化を防止するため,勾配降下の考え方を取り入れ,最適化を行うための誘導コスト降下(GCD)アルゴリズムを提案する。 評価において,本手法は,ほとんどの場合,基準線を一貫して上回っている。 例えば、我々のメソッドによって生成される最適化されたプランは、ベースラインよりも1~3倍高速に実行されます。

Large language model (LLM) has marked a pivotal moment in the field of machine learning and deep learning. Recently its capability for query planning has been investigated, including both single-modal and multi-modal queries. However, there is no work on the query optimization capability of LLM. As a critical (or could even be the most important) step that significantly impacts the execution performance of the query plan, such analysis and attempts should not be missed. From another aspect, existing query optimizers are usually rule-based or rule-based + cost-based, i.e., they are dependent on manually created rules to complete the query plan rewrite/transformation. Given the fact that modern optimizers include hundreds to thousands of rules, designing a multi-modal query optimizer following a similar way is significantly time-consuming since we will have to enumerate as many multi-modal optimization rules as possible, which has not been well addressed today. In this paper, we investigate the query optimization ability of LLM and use LLM to design LaPuda, a novel LLM and Policy based multi-modal query optimizer. Instead of enumerating specific and detailed rules, LaPuda only needs a few abstract policies to guide LLM in the optimization, by which much time and human effort are saved. Furthermore, to prevent LLM from making mistakes or negative optimization, we borrow the idea of gradient descent and propose a guided cost descent (GCD) algorithm to perform the optimization, such that the optimization can be kept in the correct direction. In our evaluation, our methods consistently outperform the baselines in most cases. For example, the optimized plans generated by our methods result in 1~3x higher execution speed than those by the baselines.
翻訳日:2024-03-21 16:47:59 公開日:2024-03-20
# VL-Mamba:マルチモーダル学習のための状態空間モデル

VL-Mamba: Exploring State Space Models for Multimodal Learning ( http://arxiv.org/abs/2403.13600v1 )

ライセンス: Link先を確認
Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao, Mingzhen Sun, Qi Wu, Jing Liu, (参考訳) MLLM(Multimodal large language model)は広く関心を集めており、豊富な応用がある。 しかし、トランスフォーマー構造に固有の注意機構は2次複雑さを必要とし、計算コストがかかる。 そこで本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。 具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。 そこで我々は,マルチモーダル学習に2次元視覚選択スキャン機構を効果的に適用し,様々な視覚エンコーダと事前訓練されたマンバ言語モデルの変種を併用する方法を実証的に検討した。 多様なマルチモーダルベンチマークと競争性能に関する広範な実験は、提案したVL-Mambaの有効性を示し、マルチモーダル学習タスクに状態空間モデルを適用する大きな可能性を示している。

Multimodal large language models (MLLMs) have attracted widespread interest and have rich applications. However, the inherent attention mechanism in its Transformer structure requires quadratic complexity and results in expensive computational overhead. Therefore, in this work, we propose VL-Mamba, a multimodal large language model based on state space models, which have been shown to have great potential for long-sequence modeling with fast inference and linear scaling in sequence length. Specifically, we first replace the transformer-based backbone language model such as LLama or Vicuna with the pre-trained Mamba language model. Then, we empirically explore how to effectively apply the 2D vision selective scan mechanism for multimodal learning and the combinations of different vision encoders and variants of pretrained Mamba language models. The extensive experiments on diverse multimodal benchmarks with competitive performance show the effectiveness of our proposed VL-Mamba and demonstrate the great potential of applying state space models for multimodal learning tasks.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 微分プライベートな合成データは合成発見につながるか?

Does Differentially Private Synthetic Data Lead to Synthetic Discoveries? ( http://arxiv.org/abs/2403.13612v1 )

ライセンス: Link先を確認
Ileana Montoya Perez, Parisa Movahedi, Valtteri Nieminen, Antti Airola, Tapio Pahikkala, (参考訳) 背景: バイオメディカルデータセットの匿名バージョンを共有するソリューションとして、合成データが提案されている。 理想的には、合成データは、個々の被験者のプライバシーを保護しながら、元のデータの構造と統計特性を保存するべきである。 微分プライバシー(DP)は現在、このトレードオフのバランスをとるための金の標準的アプローチと考えられている。 目的: 本研究の目的は, DP合成バイオメディカルデータに対するマン・ホイットニーU試験をI型およびII型エラーの観点から評価することであり, 合成データを保存するプライバシー上の統計的仮説テストが, 検査の有効性の喪失につながるか, あるいは低下する可能性があるかを明らかにすることである。 方法: 前立腺癌データセット(n=500)と心臓血管データセット(n=70000)を含む実世界のデータから生成されたDP合成データと2つのガウス分布から得られたデータについてMann-Whitney Uテストを評価する。 2つの基本DPヒストグラム解放法とMWEM,Private-PGM,DP GANアルゴリズムを含む5種類のDP合成データ生成手法の評価を行った。 結論: テストされたDP合成データ生成手法のほとんどは、特にプライバシー予算が$\epsilon\leq 1$である場合に、Type Iエラーが膨らんだことを示している。 この結果は、DP合成データを公開して分析する際に注意が必要である: プライバシーを保護するために追加されたノイズの副産物として、統計的テストで低いp値を得ることができる。 DPスムーズなヒストグラムベースの合成データ生成手法は、テスト対象のすべてのプライバシレベルに対して有効なType Iエラーを生成することを示したが、適切なType IIエラーレベルを得るためには、大きなデータセットサイズと控えめなプライバシ予算($\epsilon\geq 5$)が必要だった。

Background: Synthetic data has been proposed as a solution for sharing anonymized versions of sensitive biomedical datasets. Ideally, synthetic data should preserve the structure and statistical properties of the original data, while protecting the privacy of the individual subjects. Differential privacy (DP) is currently considered the gold standard approach for balancing this trade-off. Objectives: The aim of this study is to evaluate the Mann-Whitney U test on DP-synthetic biomedical data in terms of Type I and Type II errors, in order to establish whether statistical hypothesis testing performed on privacy preserving synthetic data is likely to lead to loss of test's validity or decreased power. Methods: We evaluate the Mann-Whitney U test on DP-synthetic data generated from real-world data, including a prostate cancer dataset (n=500) and a cardiovascular dataset (n=70 000), as well as on data drawn from two Gaussian distributions. Five different DP-synthetic data generation methods are evaluated, including two basic DP histogram release methods and MWEM, Private-PGM, and DP GAN algorithms. Conclusion: Most of the tested DP-synthetic data generation methods showed inflated Type I error, especially at privacy budget levels of $\epsilon\leq 1$. This result calls for caution when releasing and analyzing DP-synthetic data: low p-values may be obtained in statistical tests simply as a byproduct of the noise added to protect privacy. A DP smoothed histogram-based synthetic data generation method was shown to produce valid Type I error for all privacy levels tested but required a large original dataset size and a modest privacy budget ($\epsilon\geq 5$) in order to have reasonable Type II error levels.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 機械学習を用いた仮想マシンマイグレーション最適化のための動的リソース割り当て

Dynamic Resource Allocation for Virtual Machine Migration Optimization using Machine Learning ( http://arxiv.org/abs/2403.13619v1 )

ライセンス: Link先を確認
Yulu Gong, Jiaxin Huang, Bo Liu, Jingyu Xu, Binbin Wu, Yifan Zhang, (参考訳) 段落は文法的に正確で論理的に一貫性がある。 進化するコンピュータとクラウドコンピューティング技術の要求を満たすため,モバイル端末のクラウドコンピューティングマイグレーション技術の重要性を論じる。 これは、効率的なデータアクセスとストレージの必要性と、追加の時間遅延を防ぐためのクラウドコンピューティングマイグレーション技術の利用を強調している。 また、クラウドコンピューティング移行技術のクラウドコンピューティングサービス拡張への貢献についても強調している。 さらに、クラウドコンピューティングの基本的な能力としての仮想化の役割を認め、クラウドコンピューティングと仮想化は本質的に相互接続されていないことを強調している。 最後に、従来のクラウドコンピューティング環境における静的ルールや手動設定の制限を引用して、機械学習ベースの仮想マシンマイグレーション最適化と動的リソース割り当てをクラウドコンピューティングにおける重要な研究方向として導入する。 全体として、クラウドコンピューティングにおけるリソース割り当てと仮想マシンマイグレーションの課題に対処する上で、機械学習技術の重要性を効果的に伝えています。

The paragraph is grammatically correct and logically coherent. It discusses the importance of mobile terminal cloud computing migration technology in meeting the demands of evolving computer and cloud computing technologies. It emphasizes the need for efficient data access and storage, as well as the utilization of cloud computing migration technology to prevent additional time delays. The paragraph also highlights the contributions of cloud computing migration technology to expanding cloud computing services. Additionally, it acknowledges the role of virtualization as a fundamental capability of cloud computing while emphasizing that cloud computing and virtualization are not inherently interconnected. Finally, it introduces machine learning-based virtual machine migration optimization and dynamic resource allocation as a critical research direction in cloud computing, citing the limitations of static rules or manual settings in traditional cloud computing environments. Overall, the paragraph effectively communicates the importance of machine learning technology in addressing resource allocation and virtual machine migration challenges in cloud computing.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 水素原子からの自然発振単光子のエネルギー密度の非局在性

Nonlocality of the energy density of a spontaneously emitted single-photon from a Hydrogen atom ( http://arxiv.org/abs/2403.13622v1 )

ライセンス: Link先を確認
Maxime Federico, Hans-Rudolf Jauslin, (参考訳) 水素原子の自然崩壊により放出される単一光子の空間的非局在性をエネルギー密度の期待値を用いて解析する。 量子化された電磁場と原子との最小結合を用いて、単一光子のみが生成されるという仮定の下で光子の状態を計算する。 したがって、計算は回転波近似と本質的に等価な単一光子状態の部分空間で実行される。 エネルギー密度の空間減衰のキャラクタリゼーションを得る。 それぞれの時間に原子からの大きな距離の漸近極限を計算し、1/r^6$の代数的挙動を求める。 この結果は、単光子の状態のエネルギー密度が非局所的であり、代数的崩壊が理論によって予測される極大準指数的局所化から遠く離れていることを確認する。

We analyze through the expectation value of the energy density the spatial nonlocality of single photons emitted by the spontaneous decay of a Hydrogen atom. By using a minimal coupling between the quantized electromagnetic field and the atom, we compute the state of the photon under the assumption that only a single-photon is produced. The calculations are thus performed in the subspace of single-photon states which is essentially equivalent to the rotating wave approximation. We obtain a characterization of the spatial decay of the energy density. We compute the asymptotic limit of large distances from the atom at each given time, and find an algebraic behavior of $1/r^6$. This result confirms that the energy density of single-photon states is nonlocal and the algebraic decay is far from the maximal quasiexponential localization predicted by the theory.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 多重化促進による12km繊維上の原子-光子量子相関の高速伝送

Fast delivery of heralded atom-photon quantum correlation over 12km fiber through multiplexing enhancement ( http://arxiv.org/abs/2403.13623v1 )

ライセンス: Link先を確認
Sheng Zhang, Jixuan Shi, Yibo Liang, Yuedong Sun, Yukai Wu, Luming Duan, Yunfei Pu, (参考訳) 遠方間の量子絡み合いの分散は、多くの応用が可能であるが、量子チャネルの指数的崩壊に悩まされるため、量子情報科学において重要な課題であるが難しい課題である。 量子リピータは、この目標に対する最も有望なアプローチの1つです。 量子リピータプロトコルでは、隣接するリピータセグメントを接続することで量子リピータのスケールアップを可能にするため、各基本リンク内の絡み合い発生速度がメモリデコヒーレンスレートよりも高速であることが不可欠である。 この厳格な要件は、これまでのところ大都市圏で実施されていない。 この挑戦的な目標に向けて、本研究では、12kmのファイバー上の有価原子-光子量子相関の多重化を実験的に実現した。 我々は、多重化量子メモリにおけるメモリモードを順次励起し、280対の原子-光子量子相関を長繊維を満たすフォトニック時間ビンパルス列と生成する。 シーディング信号の検出に成功した後、励起メモリモードを固定時間または可変時間のいずれかの要求に応じてアイドラー光子に識別して取得することができる。 多重化により、原子-光子相関の計算速度は1.95kHzに達し、量子相関生成率とメモリデコヒーレンス率との比は12kmの繊維長で0.46に向上する。 この研究は、大規模な量子リピータネットワークの実現に向けた重要なステップとなる。

Distributing quantum entanglement between distant parties is a significant but difficult task in quantum information science, as it can enable numerous applications but suffers from exponential decay in the quantum channel. Quantum repeater is one of the most promising approaches towards this goal. In a quantum repeater protocol, it is essential that the entanglement generation speed within each elementary link is faster than the memory decoherence rate, to enable the scale-up of the quantum repeater by connecting neighboring repeater segments. This stringent requirement has not been implemented over a fiber of metropolitan scale so far. As a step towards this challenging goal, in this work we experimentally realize multiplexing-enhanced generation of heralded atom-photon quantum correlation over a 12km fiber. We excite the memory modes in a multiplexed quantum memory successively to generate 280 pairs of atom-photon quantum correlations with a train of photonic time-bin pulses filling the long fiber. After successful detection of a heralding signal, the excited memory mode can be identified and retrieved into idler photons on demand with either fixed or variable storage time. With the multiplexing enhancement, the heralding rate of atom-photon correlation can reach 1.95kHz, and the ratio between the quantum correlation generation rate to memory decoherence rate can be improved to 0.46 for a fiber length of 12km, which is so far the best for long fiber length (>10km) to our knowledge. This work therefore constitutes an important step towards the realization of a large-scale quantum repeater network.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 法執行訓練の強化:テロリズムのファイナンシングを検出するためのゲーミフィケーションアプローチ

Enhancing Law Enforcement Training: A Gamified Approach to Detecting Terrorism Financing ( http://arxiv.org/abs/2403.13625v1 )

ライセンス: Link先を確認
Francesco Zola, Lander Segurola, Erin King, Martin Mullins, Raul Orduna, (参考訳) 新しい技術を使ってサイバー犯罪と戦うツールは、毎日宣伝され、展開される。 しかし、多くの場合、それらは必要以上に複雑で使いづらく、深いドメインと技術的な知識を必要とします。 これらの特徴は、法執行機関やエンドユーザーによるこれらの技術への関与を制限することがしばしばあり、その可能性にもかかわらず、誤解されているままである。 そこで本研究では,学習法と学習法を組み合わせた学習経験と,ゲーミフィケーションによる技術移転の促進と成人学習の促進の可能性について述べる。 実際、この場合、参加者は、テロ資金に晒される職業・産業経験者(法執行官、財務調査官、民間調査官等)であり、我々は、新たなトレンドや犯罪対策に関する情報を法執行機関内及び内部で交換し、国境を越えた協力を強化し、テロ資金活動との戦い及び予防活動を支援するための異なるレベルの訓練活動を定義する。 一方、ゲーム(ハッカソン)は、ダークネット、暗号資産、新しい支払いシステム、そしてテロリスト活動に使用できるダークウェブマーケットプレースに関連する現実的な課題に対処するように設計されている。 方法論全体をクイズ、コンテスト結果、エンゲージメントメトリクスを用いて評価した。 特に、トレーニングイベントの参加者の約60%が11週間のトレーニングコースを完了し、ハッカソンの結果は2つのパイロットスタディ(マドリッドとザ・ハーグ)にまとめられ、参加者間の専門性(平均的な達成点の進歩)が増している。 同時に、70%以上の参加者がゲーミフィケーションアプローチの使用を肯定的に評価しており、そのうち85%以上が調査に適した実施済みのユースケースについて検討している。

Tools for fighting cyber-criminal activities using new technologies are promoted and deployed every day. However, too often, they are unnecessarily complex and hard to use, requiring deep domain and technical knowledge. These characteristics often limit the engagement of law enforcement and end-users in these technologies that, despite their potential, remain misunderstood. For this reason, in this study, we describe our experience in combining learning and training methods and the potential benefits of gamification to enhance technology transfer and increase adult learning. In fact, in this case, participants are experienced practitioners in professions/industries that are exposed to terrorism financing (such as Law Enforcement Officers, Financial Investigation Officers, private investigators, etc.) We define training activities on different levels for increasing the exchange of information about new trends and criminal modus operandi among and within law enforcement agencies, intensifying cross-border cooperation and supporting efforts to combat and prevent terrorism funding activities. On the other hand, a game (hackathon) is designed to address realistic challenges related to the dark net, crypto assets, new payment systems and dark web marketplaces that could be used for terrorist activities. The entire methodology was evaluated using quizzes, contest results, and engagement metrics. In particular, training events show about 60% of participants complete the 11-week training course, while the Hackathon results, gathered in two pilot studies (Madrid and The Hague), show increasing expertise among the participants (progression in the achieved points on average). At the same time, more than 70% of participants positively evaluate the use of the gamification approach, and more than 85% of them consider the implemented Use Cases suitable for their investigations.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 勾配型組成設計による高温超伝導体の効率的な探索

Efficient exploration of high-Tc superconductors by a gradient-based composition design ( http://arxiv.org/abs/2403.13627v1 )

ライセンス: Link先を確認
Akihiro Fujii, Koji Shimizu, Satoshi Watanabe, (参考訳) 本稿では, 従来の手法の限界を克服し, コンポジションの勾配に基づく最適化による材料設計手法を提案する。 バックプロパゲーションを通じて入力を最適化し、モデルの出力を対象のプロパティと密に一致させ、未登録物質の発見と正確な特性決定を容易にする。 また, 新たな条件下での適応最適化も可能であり, 再訓練は行わない。 高Tc超伝導体を探索し、既存のデータベースを超える潜在的な組成を特定し、条件最適化により新しい水素超伝導体を発見した。 本手法は, 有効で広範囲な探索と新しい制約への適応性を実現し, 材料設計を著しく向上させる。

We propose a material design method via gradient-based optimization on compositions, overcoming the limitations of traditional methods: exhaustive database searches and conditional generation models. It optimizes inputs via backpropagation, aligning the model's output closely with the target property and facilitating the discovery of unlisted materials and precise property determination. Our method is also capable of adaptive optimization under new conditions without retraining. Applying to exploring high-Tc superconductors, we identified potential compositions beyond existing databases and discovered new hydrogen superconductors via conditional optimization. This method is versatile and significantly advances material design by enabling efficient, extensive searches and adaptability to new constraints.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 安定化状態の極限性

Extremality of stabilizer states ( http://arxiv.org/abs/2403.13632v1 )

ライセンス: Link先を確認
Kaifeng Bu, (参考訳) 安定化状態の極端性を調べ、すべての$n$-qubit/qudit状態の空間におけるそれらの例外的な役割を明らかにする。 状態の特性関数とウィグナー関数に対する不確実性原理をそれぞれ確立する。 これらの原理で飽和を達成するのは安定化状態のみである。 さらに、安定化状態は局所ユニタリの下で不変な凸情報測度に対して極大であるという一般的な定理を証明する。 様々な量子情報および相関測度(エンタングルメントエントロピー、条件エントロピー、その他のエンタングルメント測度など)の文脈において、この超越性について検討する。 さらに、安定化状態が量子畳み込みの下での極限状態であることの最近の発見を活用し、量子畳み込みの下での絡み合いエントロピーと条件エントロピーの単調性を確立する。 これらの結果は、安定化状態の顕著な情報理論的性質を浮き彫りにした。 それらの超越性は、情報の内容と相関を捉える能力に関する貴重な洞察を与え、量子情報処理におけるその可能性をさらに探求する道を開く。

We investigate the extremality of stabilizer states to reveal their exceptional role in the space of all $n$-qubit/qudit states. We establish uncertainty principles for the characteristic function and the Wigner function of states, respectively. We find that only stabilizer states achieve saturation in these principles. Furthermore, we prove a general theorem that stabilizer states are extremal for convex information measures invariant under local unitaries. We explore this extremality in the context of various quantum information and correlation measures, including entanglement entropy, conditional entropy and other entanglement measures. Additionally, leveraging the recent discovery that stabilizer states are the limit states under quantum convolution, we establish the monotonicity of the entanglement entropy and conditional entropy under quantum convolution. These results highlight the remarkable information-theoretic properties of stabilizer states. Their extremality provides valuable insights into their ability to capture information content and correlations, paving the way for further exploration of their potential in quantum information processing.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# 2粒子伝送を用いたセキュアな量子鍵分配プロトコル

A Secure Quantum Key Distribution Protocol Using Two-Particle Transmission ( http://arxiv.org/abs/2403.13634v1 )

ライセンス: Link先を確認
Pratapaditya Bej, Vinod Jayakeerthi, (参考訳) 量子鍵分布(QKD)の進化は、そのセキュリティと効率を高める革新的な方法に依存している。 Unextendible Product Bases (UPB) は、その固有の不明瞭さのため、量子暗号において約束を守るが、QKDプロトコルでは未利用である。 本稿では, UPBを用いて遠隔者間の量子鍵を確立するプロトコルを提案する。 具体的には、AliceがBobに連続的に量子チャネルを通してサブシステム状態を送信する3ドル3ドルタイルUPBを利用するプロトコルを提案する。 プロトコルのセキュリティは、直交状態のクローンを禁じる非閉鎖定理によって支えられている。 我々は、量子チャネルがノイズのないときのインターセプション・リセプションやディテクター・ブラインド攻撃を含む潜在的な攻撃を分析し、盗聴者に対するプロトコルの不明瞭さによる課題について議論し、QKDセキュリティを向上させる。

The evolution of Quantum Key Distribution (QKD) relies on innovative methods to enhance its security and efficiency. Unextendible Product Bases (UPBs) hold promise in quantum cryptography due to their inherent indistinguishability, yet they are underutilized in QKD protocols. This paper introduces a protocol utilizing UPBs to establish quantum keys between distant parties. Specifically, we propose a protocol utilizing a $3\times 3$ tile UPB, where Alice sequentially transmits subsystem states to Bob through quantum channels. The protocol's security is underpinned by the no-cloning theorem, prohibiting the cloning of orthogonal states. We analyze potential attacks, including intercept-resend and detector blinding attacks when quantum channels are noiseless, and discuss the challenges posed by the indistinguishability of our protocol for eavesdroppers, thereby enhancing QKD security.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# データを持っていなければ心配するな - 翻訳を使って事前訓練された言語モデルを構築する

Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese ( http://arxiv.org/abs/2403.13638v1 )

ライセンス: Link先を確認
Meet Doshi, Raj Dabre, Pushpak Bhattacharyya, (参考訳) 本稿では,機械翻訳を用いた事前学習言語モデル(LM)の合成データとして,‘textit{Translationese} の有用性について検討する。 事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。 近年、このデータ不足に対処するために合成データを使うことへの関心が高まっている。 我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。 そして、この翻訳データ(合成)に基づいて28Mと85Mのパラメータを含む言語モデルを訓練する。 下流の自然言語理解および生成タスクにおけるそれらの性能は、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56倍、NLGタスクで1.51倍しか劣らないことを示す。 さらに、クリーンデータに事前学習した軽量な \textit{TinyLMs} を用いて、合成データを効率的にフィルタリングし、モデルの性能を大幅に改善する。 また, 合成データに基づいてトレーニングしたLMは, 少量 (10 %) のクリーンデータの事前学習に強い効果があることがわかった。 私たちは、この研究の一部として収集し、作成したデータをリリースした。これは、モノリンガルなドキュメントレベルのコーパスの最大のコレクションである \textit{IndicMonoDoc} で、大きな言語モデルにおける英語と非英語のパフォーマンスのギャップを埋める助けになることを期待しています。

In this paper, we explore the utility of \textit{Translationese} as synthetic data created using machine translation for pre-training language models (LMs). Pre-training requires vast amounts of monolingual data, which is mostly unavailable for languages other than English. Recently, there has been a growing interest in using synthetic data to address this data scarcity. We take the case of English and Indic languages and translate web-crawled monolingual documents (clean) into the target language. Then, we train language models containing 28M and 85M parameters on this translationese data (synthetic). We show that their performance on downstream natural language understanding and generative tasks is only 3.56\% poorer on NLU tasks and 1.51\% on NLG tasks than LMs pre-trained on clean data. Further, we propose the use of lightweight \textit{TinyLMs} pre-trained on clean data to filter synthetic data efficiently which significantly improves the performance of our models. We also find that LMs trained on synthetic data strongly benefit from extended pretraining on a tiny fraction (10\%) of clean data. We release the data we collected and created as a part of this work, \textit{IndicMonoDoc}, the largest collection of monolingual document-level corpora, which we hope will help bridge the gap between English and non-English performance for large language models.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# H-vmunet: 医用画像セグメンテーションのための高次視覚マンバUNet

H-vmunet: High-order Vision Mamba UNet for Medical Image Segmentation ( http://arxiv.org/abs/2403.13642v1 )

ライセンス: Link先を確認
Renkai Wu, Yinghao Liu, Pengchen Liang, Qing Chang, (参考訳) 医用画像セグメンテーションの分野では、ベースモジュールとしての畳み込みニューラルネットワーク(CNN)とビジュアルトランスフォーマー(ViT)に基づく変種モデルが広く開発され、応用されている。 しかし、CNNは長い情報列を扱う能力に制限があるのに対し、局所的な特徴情報に対するViTの感度は低く、二次的な計算複雑性の問題は開発を制限している。 近年、状態空間モデル(SSM)、特に2D選択的スキャン(SS2D)の出現は、視覚ニューラルネットワークの基本モジュールとしての従来のCNNとViTの長期支配に影響を与えている。 本稿では,医用画像分割のための高次ビジョンマンバUNet(H-vmunet)を提案することにより,SS2Dの適応性を向上させる。 提案した高次2D選択走査(H-SS2D)は,高次相互作用によるSS2D操作中に冗長な情報の導入を段階的に低減する。 さらに,提案するLocal-SS2Dモジュールは,各操作順序におけるSS2Dの局所的特徴の学習能力を向上する。 医用医用画像データセット(ISIC2017, Spleen, CVC-ClinicDB)の比較検討を行い, 医用画像分割作業におけるH-vmunetの強い競争力を示した。 コードはhttps://github.com/wurenkai/H-vmunetから入手できる。

In the field of medical image segmentation, variant models based on Convolutional Neural Networks (CNNs) and Visual Transformers (ViTs) as the base modules have been very widely developed and applied. However, CNNs are often limited in their ability to deal with long sequences of information, while the low sensitivity of ViTs to local feature information and the problem of secondary computational complexity limit their development. Recently, the emergence of state-space models (SSMs), especially 2D-selective-scan (SS2D), has had an impact on the longtime dominance of traditional CNNs and ViTs as the foundational modules of visual neural networks. In this paper, we extend the adaptability of SS2D by proposing a High-order Vision Mamba UNet (H-vmunet) for medical image segmentation. Among them, the proposed High-order 2D-selective-scan (H-SS2D) progressively reduces the introduction of redundant information during SS2D operations through higher-order interactions. In addition, the proposed Local-SS2D module improves the learning ability of local features of SS2D at each order of interaction. We conducted comparison and ablation experiments on three publicly available medical image datasets (ISIC2017, Spleen, and CVC-ClinicDB), and the results all demonstrate the strong competitiveness of H-vmunet in medical image segmentation tasks. The code is available from https://github.com/wurenkai/H-vmunet .
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# カテゴリーに依存しないポース推定のためのメタポイント学習と精製

Meta-Point Learning and Refining for Category-Agnostic Pose Estimation ( http://arxiv.org/abs/2403.13647v1 )

ライセンス: Link先を確認
Junjie Chen, Jiebin Yan, Yuming Fang, Li Niu, (参考訳) Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。 既存のメソッドは、クエリイメージ上のキーポイントを予測または洗練するために、サポートキーポイントで抽出された機能のみに依存しているが、いくつかのサポート機能ベクトルはローカルでCAPEには不十分である。 任意のオブジェクトの潜在的なキーポイントを素早く認識できることを考慮し、そのような潜在的キーポイント(メタポイント)に基づいたCAPEのための新しいフレームワークを提案する。 具体的には,画像特徴マップと対話してメタポイントを生成する各種キーポイントの固有情報を取得するために,学習可能な埋め込みを維持している。 生成されたメタポイントはCAPEにとって意味のある潜在的なキーポイントとして機能する。 一貫性とアノテーションの間に必然的なギャップがあるため、サポートキーポイントが提供するアイデンティティと詳細を利用して、クエリイメージの所望のキーポイントにメタポイントを割り当て、洗練します。 さらに,より優れた予測と監視を行うために,プログレッシブ・デフォルム・ポイント・デコーダとスラッテッド・レグレッション・ロスを提案する。 我々の新しいフレームワークはキーポイントの不整合を明らかにするだけでなく、既存のCAPEの手法よりも優れています。 大規模MP-100データセットに関する総合実験と詳細な研究により,本フレームワークの有効性が示された。

Category-agnostic pose estimation (CAPE) aims to predict keypoints for arbitrary classes given a few support images annotated with keypoints. Existing methods only rely on the features extracted at support keypoints to predict or refine the keypoints on query image, but a few support feature vectors are local and inadequate for CAPE. Considering that human can quickly perceive potential keypoints of arbitrary objects, we propose a novel framework for CAPE based on such potential keypoints (named as meta-points). Specifically, we maintain learnable embeddings to capture inherent information of various keypoints, which interact with image feature maps to produce meta-points without any support. The produced meta-points could serve as meaningful potential keypoints for CAPE. Due to the inevitable gap between inherency and annotation, we finally utilize the identities and details offered by support keypoints to assign and refine meta-points to desired keypoints in query image. In addition, we propose a progressive deformable point decoder and a slacked regression loss for better prediction and supervision. Our novel framework not only reveals the inherency of keypoints but also outperforms existing methods of CAPE. Comprehensive experiments and in-depth studies on large-scale MP-100 dataset demonstrate the effectiveness of our framework.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# ネットワークボトルネックとタスク構造は、捕食者における解釈可能な学習規則の進化を制御する

Network bottlenecks and task structure control the evolution of interpretable learning rules in a foraging agent ( http://arxiv.org/abs/2403.13649v1 )

ライセンス: Link先を確認
Emmanouil Giannakakis, Sina Khajehabdollahi, Anna Levina, (参考訳) 継続的局所学習のための信頼性の高いメカニズムの構築は、生物学的および人工システムによって直面する中心的な課題である。 しかし, 学習ネットワークにおける環境要因や構造的制約が, 簡単な設定であっても, 最適な可塑性機構にどのように影響するかは, 明らかになっていない。 そこで我々は,これらの依存を解明するために,飼料処理タスクを解くエンボディエージェントにおいて,単純な報酬変調可塑性規則の進化的最適化によるメタラーニングについて検討した。 制約のないメタラーニングが多様な可塑性規則の出現につながることを示す。 しかし、モデルの正規化とボトルネックは、この変動を減らし、解釈可能なルールをもたらす。 その結果, 可塑性規則のメタラーニングは様々なパラメータに非常に敏感であり, この感度は生物学的ネットワークで見られる学習規則に反映している可能性が示唆された。 モデルに含めると、これらの依存関係は潜在的な客観的機能や生物学的学習の詳細を実験的観測と比較することで発見することができる。

Developing reliable mechanisms for continuous local learning is a central challenge faced by biological and artificial systems. Yet, how the environmental factors and structural constraints on the learning network influence the optimal plasticity mechanisms remains obscure even for simple settings. To elucidate these dependencies, we study meta-learning via evolutionary optimization of simple reward-modulated plasticity rules in embodied agents solving a foraging task. We show that unconstrained meta-learning leads to the emergence of diverse plasticity rules. However, regularization and bottlenecks to the model help reduce this variability, resulting in interpretable rules. Our findings indicate that the meta-learning of plasticity rules is very sensitive to various parameters, with this sensitivity possibly reflected in the learning rules found in biological networks. When included in models, these dependencies can be used to discover potential objective functions and details of biological learning via comparisons with experimental observations.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# ZoDi:拡散画像転送によるゼロショット領域適応

ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer ( http://arxiv.org/abs/2403.13652v1 )

ライセンス: Link先を確認
Hiroki Azuma, Yusuke Matsui, Atsuto Maki, (参考訳) ディープラーニングモデルはセグメンテーションタスクにおいて高い精度を達成するが、ドメインシフトはしばしばモデルのパフォーマンスを低下させる。 本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。 まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフザシェルフ拡散モデルを用いる。 本稿では,レイアウト・ツー・イメージ拡散モデルと確率的逆転を用いたレイアウト・ツー・イメージ拡散モデルを用いて,レイアウトとコンテンツを具体的に維持することを試みる。 次に、2つの領域の画像の特徴的類似性を最大化しながら、ソース画像と元のセグメンテーションマップによる合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。 実験を通して、最先端手法による画像分割作業におけるZoDiの利点を示す。 特定のバックボーンやモデルを前提としないため、既存のCLIPベースのメソッドよりも適用性が高く、生成されたイメージを検査することで、ターゲット画像なしでモデルのパフォーマンスを推定できる。 私たちの実装は公開されます。

Deep learning models achieve high accuracy in segmentation tasks among others, yet domain shift often degrades the models' performance, which can be critical in real-world scenarios where no target images are available. This paper proposes a zero-shot domain adaptation method based on diffusion models, called ZoDi, which is two-fold by the design: zero-shot image transfer and model adaptation. First, we utilize an off-the-shelf diffusion model to synthesize target-like images by transferring the domain of source images to the target domain. In this we specifically try to maintain the layout and content by utilising layout-to-image diffusion models with stochastic inversion. Secondly, we train the model using both source images and synthesized images with the original segmentation maps while maximizing the feature similarity of images from the two domains to learn domain-robust representations. Through experiments we show benefits of ZoDi in the task of image segmentation over state-of-the-art methods. It is also more applicable than existing CLIP-based methods because it assumes no specific backbone or models, and it enables to estimate the model's performance without target images by inspecting generated images. Our implementation will be publicly available.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# パーソナライズされた満足度予測のためのヒューマン・ゲイズからのユーザ埋め込み学習

Learning User Embeddings from Human Gaze for Personalised Saliency Prediction ( http://arxiv.org/abs/2403.13653v1 )

ライセンス: Link先を確認
Florian Strohm, Mihai Bâce, Andreas Bulling, (参考訳) ユーザ動作の再利用可能な埋め込みは、パーソナライズされたサリエンシ予測タスクにおいて、大幅なパフォーマンス向上を示している。 しかし、事前の作業では、入力として明示的なユーザ特性と好みが必要であるため、入手が難しい場合が多い。 本稿では,少量のユーザ固有の視線追跡データから生成された自然画像とそれに対応する塩分マップからユーザ埋め込みを抽出する手法を提案する。 提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。 2つの公衆衛生データセットの評価では、生成された埋め込みは高い識別力を持ち、個々のユーザへの普遍的な唾液マップの精製に有効であり、ユーザや画像間でよく一般化されている。 最後に、我々のモデルが個々のユーザー特性をエンコードする能力に基づいて、我々の作業は、視線行動の再利用可能な埋め込みの恩恵を受ける他のアプリケーションに向けられている。

Reusable embeddings of user behaviour have shown significant performance improvements for the personalised saliency prediction task. However, prior works require explicit user characteristics and preferences as input, which are often difficult to obtain. We present a novel method to extract user embeddings from pairs of natural images and corresponding saliency maps generated from a small amount of user-specific eye tracking data. At the core of our method is a Siamese convolutional neural encoder that learns the user embeddings by contrasting the image and personal saliency map pairs of different users. Evaluations on two public saliency datasets show that the generated embeddings have high discriminative power, are effective at refining universal saliency maps to the individual users, and generalise well across users and images. Finally, based on our model's ability to encode individual user characteristics, our work points towards other applications that can benefit from reusable embeddings of gaze behaviour.
翻訳日:2024-03-21 16:38:11 公開日:2024-03-20
# NELA-PS:地域ニュース生態系研究のためのピンクスライムニュース記事データセット

NELA-PS: A Dataset of Pink Slime News Articles for the Study of Local News Ecosystems ( http://arxiv.org/abs/2403.13657v1 )

ライセンス: Link先を確認
Benjamin D. Horne, Maurício Gruppi, (参考訳) ピンクスライムのニュースメディアは、しばしば、本物のローカルニュースとしてフレーム化された、品質の低い、パルチザン的なコンテンツを自動的に生成する。 地元ニュースがアメリカ人に信頼され、財政難のために閉鎖されつつあることを考えると、ピンク色のスライムニュースメディアは、地元情報の空白を悪用する可能性がある。 しかし、ピンク色のスライム生産の実践や戦術、特に時間が経つにつれて理解のギャップがある。 したがって、この領域における将来の研究を支援するために、2.5年以上にわたって1093個のピンクのスライムソースから790万以上の記事のデータセットを構築した。

Pink slime news outlets automatically produce low-quality, often partisan content that is framed as authentic local news. Given that local news is trusted by Americans and is increasingly shutting down due to financial distress, pink slime news outlets have the potential to exploit local information voids. Yet, there are gaps in understanding of pink slime production practices and tactics, particularly over time. Hence, to support future research in this area, we built a dataset of over 7.9M articles from 1093 pink slime sources over 2.5 years.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# 低コスト心血行動態不安定性検出のためのマルチモーダル変分オートエンコーダ

Multimodal Variational Autoencoder for Low-cost Cardiac Hemodynamics Instability Detection ( http://arxiv.org/abs/2403.13658v1 )

ライセンス: Link先を確認
Mohammod N. I. Suvon, Prasun C. Tripathi, Wenrui Fan, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew J. Swift, Chen Chen, Haiping Lu, (参考訳) 心臓血行動態不安定症(CHDI)の非侵襲的検出の最近の進歩は、主に単一のデータモダリティ、例えば心臓磁気共鳴画像(MRI)に機械学習技術を適用することに焦点を当てている。 それらの可能性にもかかわらず、これらのアプローチは、特にラベル付き患者データのサイズが限られている場合、医学領域における一般的な課題である。 さらに、心臓MRIや心エコー図のような高価なモダリティに大きく依存するCHDIを研究するためのマルチモーダル手法を探求する研究はほとんどない。 これらの制約に対応するために、我々は、低コストの胸部X線(CXR)と心電図(ECG)モダリティを統合するための、新しいマルチモーダル変分オートエンコーダ($\text{CardioVAE}_\text{X,G}$)を提案する。 具体的には、$\text{CardioVAE}_\text{X,G}$は、共有機能とモダリティ固有の機能の両方を学ぶために、新しいトリストリーム事前トレーニング戦略を導入し、非モーダルデータセットとマルチモーダルデータセットの両方で微調整を可能にする。 私たちはMIMICデータベースのサブセットから50,982ドルの未ラベルのデータセットで$\text{CardioVAE}_\text{X,G}$を事前トレーニングし、ASPIREレジストリから795ドルのラベル付きデータセットで事前トレーニングされたモデルを微調整します。 既存のメソッドに対する包括的な評価は、$\text{CardioVAE}_\text{X,G}$が有望な性能(AUROC $=0.79$と精度$=0.77$)を提供することを示している。 また,本モデルでは,臨床特徴に直接関連した予測の微妙な解釈を行い,臨床的意思決定を支援することにも長けている。

Recent advancements in non-invasive detection of cardiac hemodynamic instability (CHDI) primarily focus on applying machine learning techniques to a single data modality, e.g. cardiac magnetic resonance imaging (MRI). Despite their potential, these approaches often fall short especially when the size of labeled patient data is limited, a common challenge in the medical domain. Furthermore, only a few studies have explored multimodal methods to study CHDI, which mostly rely on costly modalities such as cardiac MRI and echocardiogram. In response to these limitations, we propose a novel multimodal variational autoencoder ($\text{CardioVAE}_\text{X,G}$) to integrate low-cost chest X-ray (CXR) and electrocardiogram (ECG) modalities with pre-training on a large unlabeled dataset. Specifically, $\text{CardioVAE}_\text{X,G}$ introduces a novel tri-stream pre-training strategy to learn both shared and modality-specific features, thus enabling fine-tuning with both unimodal and multimodal datasets. We pre-train $\text{CardioVAE}_\text{X,G}$ on a large, unlabeled dataset of $50,982$ subjects from a subset of MIMIC database and then fine-tune the pre-trained model on a labeled dataset of $795$ subjects from the ASPIRE registry. Comprehensive evaluations against existing methods show that $\text{CardioVAE}_\text{X,G}$ offers promising performance (AUROC $=0.79$ and Accuracy $=0.77$), representing a significant step forward in non-invasive prediction of CHDI. Our model also excels in producing fine interpretations of predictions directly associated with clinical features, thereby supporting clinical decision-making.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# 三次元感情認識におけるマルチモーダルフュージョンに対する再帰的クロスモーダルアテンション

Recursive Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2403.13659v1 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam, (参考訳) マルチモーダル感情認識は、音声、視覚、テキストなど、複数のモーダルに対する多様で相補的な関係を活用できるため、近年注目を集めている。 マルチモーダル核融合の最先端手法の多くは、繰り返しネットワークや従来の注意機構に依存しており、モダリティの相補的な性質を効果的に活用していない。 本稿では,映像から抽出した顔・声・テキストの融合に基づく次元的感情認識に焦点を当てた。 具体的には,再帰的クロスモーダル・アテンション (RCMA) を提案する。 提案モデルでは,各モーダル間の交叉重みと,他の2つのモーダルの共役表現を計算することにより,モーダル間の関係を効果的に捉えることができる。 さらに、モーダル間の関係を改善するため、個々のモーダルの特徴表現を洗練させるために、各モーダルの特徴の入力として、得られた個々のモーダルの特徴を再び供給する。 さらに、時間的畳み込みネットワーク(TCN)を用いて、個々のモーダルの時間的モデリング(イントラモーダル関係)をキャプチャした。 TCNを相互に再帰的に配置することで、音声、視覚、テキストのモダリティ間でのモーダル内およびモーダル間の関係を効果的に捉えることができる。 AffWild2データセットによる検証セットビデオの実験結果から,提案した核融合モデルにより,ABAW6(Affective Behavior Analysis in-the-Wild 2024)コンペティションの6回目の挑戦において,ベースラインよりも大幅に改善できることが示唆された。

Multi-modal emotion recognition has recently gained a lot of attention since it can leverage diverse and complementary relationships over multiple modalities, such as audio, visual, and text. Most state-of-the-art methods for multimodal fusion rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of the modalities. In this paper, we focus on dimensional emotion recognition based on the fusion of facial, vocal, and text modalities extracted from videos. Specifically, we propose a recursive cross-modal attention (RCMA) to effectively capture the complementary relationships across the modalities in a recursive fashion. The proposed model is able to effectively capture the inter-modal relationships by computing the cross-attention weights across the individual modalities and the joint representation of the other two modalities. To further improve the inter-modal relationships, the obtained attended features of the individual modalities are again fed as input to the cross-modal attention to refine the feature representations of the individual modalities. In addition to that, we have used Temporal convolution networks (TCNs) to capture the temporal modeling (intra-modal relationships) of the individual modalities. By deploying the TCNs as well cross-modal attention in a recursive fashion, we are able to effectively capture both intra- and inter-modal relationships across the audio, visual, and text modalities. Experimental results on validation-set videos from the AffWild2 dataset indicate that our proposed fusion model is able to achieve significant improvement over the baseline for the sixth challenge of Affective Behavior Analysis in-the-Wild 2024 (ABAW6) competition.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# ProMamba:polypセグメンテーションのためのPrompt-Mamba

ProMamba: Prompt-Mamba for polyp segmentation ( http://arxiv.org/abs/2403.13660v1 )

ライセンス: Link先を確認
Jianhao Xie, Ruofan Liao, Ziang Zhang, Sida Yi, Yuesheng Zhu, Guibo Luo, (参考訳) 大腸内視鏡検査によるポリープ検出は, 画像分割において重要な課題であり, 臨床手術における重要な補助と基準値を提供する。 しかし,ポリプの正確なセグメンテーションは2つの主な理由から難しい課題である。 まず、ポリプは様々な形や色を示す。 第二に、ポリープと通常の環境の境界はしばしば不明瞭である。 さらに、異なるデータセット間の大きな違いは、既存のメソッドの限定的な一般化能力をもたらす。 これらの課題に対処するために,最新のビジョンマンバとプロンプト技術を組み込んだ,Prompt-Mambaに基づくセグメンテーションモデルを提案する。 同じデータセット上でトレーニングされた以前のモデルと比較して、我々のモデルは、同一データセットの検証部分において高いセグメンテーション精度を維持するだけでなく、目に見えないデータセットに対して優れた精度を示し、優れた一般化能力を示す。 特に、私たちは最初にビジョン・マンバアーキテクチャをポリプセグメンテーションに適用し、最初にポリプセグメンテーションモデルでプロンプト技術を利用する。 本モデルでは,6つのデータセットに対して,従来の最先端手法を平均5%上回るセグメンテーションタスクを効率的に達成する。 さらに,拡張パラメータ数を持つモデルの複数バージョンを開発し,より少ないパラメータでも従来のモデルよりも優れた性能を実現した。 私たちのコードとトレーニングされた重み付けはまもなくリリースされます。

Detecting polyps through colonoscopy is an important task in medical image segmentation, which provides significant assistance and reference value for clinical surgery. However, accurate segmentation of polyps is a challenging task due to two main reasons. Firstly, polyps exhibit various shapes and colors. Secondly, the boundaries between polyps and their normal surroundings are often unclear. Additionally, significant differences between different datasets lead to limited generalization capabilities of existing methods. To address these issues, we propose a segmentation model based on Prompt-Mamba, which incorporates the latest Vision-Mamba and prompt technologies. Compared to previous models trained on the same dataset, our model not only maintains high segmentation accuracy on the validation part of the same dataset but also demonstrates superior accuracy on unseen datasets, exhibiting excellent generalization capabilities. Notably, we are the first to apply the Vision-Mamba architecture to polyp segmentation and the first to utilize prompt technology in a polyp segmentation model. Our model efficiently accomplishes segmentation tasks, surpassing previous state-of-the-art methods by an average of 5% across six datasets. Furthermore, we have developed multiple versions of our model with scaled parameter counts, achieving better performance than previous models even with fewer parameters. Our code and trained weights will be released soon.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# T-Pixel2Mesh: 単一画像からの3次元メッシュ生成のためのグローバルトランスとローカルトランスの組み合わせ

T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image ( http://arxiv.org/abs/2403.13663v1 )

ライセンス: Link先を確認
Shijie Zhang, Boyan Jiang, Keke He, Junwei Zhu, Ying Tai, Chengjie Wang, Yinda Zhang, Yanwei Fu, (参考訳) Pixel2Mesh (P2M) は、粗いメッシュ変形によって単一のカラー画像から3次元形状を再構成するための古典的なアプローチである。 P2Mは可塑性大域形状を生成することができるが、そのグラフ畳み込みネットワーク(GCN)は、しばしば非常に滑らかな結果をもたらし、細かい幾何学的詳細が失われる。 さらに、P2Mは、隠蔽領域の非クレジブルな特徴を生成し、合成データから実世界の画像への領域ギャップに苦慮する。 これらの課題に対処するため,我々はP2Mの粗大なアプローチに触発された新しいトランスフォーマー型アーキテクチャT-Pixel2Meshを提案する。 具体的には,グローバルトランスフォーマーを用いて局所的な形状を制御し,局所的な幾何学的詳細をグラフベースの点アップサンプリングで徐々に洗練する。 実世界の再現性を高めるために,入力前処理時に即時チューニングを行うシンプルなLinear Scale Search (LSS) を提案する。 ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。

Pixel2Mesh (P2M) is a classical approach for reconstructing 3D shapes from a single color image through coarse-to-fine mesh deformation. Although P2M is capable of generating plausible global shapes, its Graph Convolution Network (GCN) often produces overly smooth results, causing the loss of fine-grained geometry details. Moreover, P2M generates non-credible features for occluded regions and struggles with the domain gap from synthetic data to real-world images, which is a common challenge for single-view 3D reconstruction methods. To address these challenges, we propose a novel Transformer-boosted architecture, named T-Pixel2Mesh, inspired by the coarse-to-fine approach of P2M. Specifically, we use a global Transformer to control the holistic shape and a local Transformer to progressively refine the local geometry details with graph-based point upsampling. To enhance real-world reconstruction, we present the simple yet effective Linear Scale Search (LSS), which serves as prompt tuning during the input preprocessing. Our experiments on ShapeNet demonstrate state-of-the-art performance, while results on real-world data show the generalization capability.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# テキストオンリー言語モデルにおける接地空間関係

Grounding Spatial Relations in Text-Only Language Models ( http://arxiv.org/abs/2403.13666v1 )

ライセンス: Link先を確認
Gorka Azkune, Ander Salaberria, Eneko Agirre, (参考訳) 本稿では,テキストのみの言語モデル(LM)が,対象物の明示的な位置情報を提供し,それらの位置を利用するように適切に訓練された場合の「左」や「下」のような空間的関係を学習できることを示す。 視覚空間推論(VSR)データセットの言語化バージョンにおいて、画像の2つのオブジェクト間の実または偽の空間関係を含むテキスト文と、画像が結合された実験を行う。 既製のオブジェクト検出器を用いて画像の言語化を行い,各オブジェクトラベルに位置トークンを付加し,それらの境界ボックスをテキスト形式で表現する。 VSRの小型化を考えると、位置を用いた場合の改善は見つからないが、自動生成した合成データセット上でLMを事前学習することで、位置トークンを用いた場合の精度が向上する。 そこで本研究では,テキストのみのLMがビジョン・アンド・ランゲージモデルより優れ,VSRデータセットの新たな最先端設定を行うことにより,位置が空間関係の接地を可能にすることを示す。 分析の結果,我々のテキストのみのLMは,合成データセットで見られる関係を超えてある程度の一般化が可能であり,合成データセット自体の生成に使用する空間規則よりも有用な情報も学習できることがわかった。

This paper shows that text-only Language Models (LM) can learn to ground spatial relations like "left of" or "below" if they are provided with explicit location information of objects and they are properly trained to leverage those locations. We perform experiments on a verbalized version of the Visual Spatial Reasoning (VSR) dataset, where images are coupled with textual statements which contain real or fake spatial relations between two objects of the image. We verbalize the images using an off-the-shelf object detector, adding location tokens to every object label to represent their bounding boxes in textual form. Given the small size of VSR, we do not observe any improvement when using locations, but pretraining the LM over a synthetic dataset automatically derived by us improves results significantly when using location tokens. We thus show that locations allow LMs to ground spatial relations, with our text-only LMs outperforming Vision-and-Language Models and setting the new state-of-the-art for the VSR dataset. Our analysis show that our text-only LMs can generalize beyond the relations seen in the synthetic dataset to some extent, learning also more useful information than that encoded in the spatial rules we used to create the synthetic dataset itself.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# DanceCamera3D:音楽とダンスによる3Dカメラモーション合成

DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance ( http://arxiv.org/abs/2403.13667v1 )

ライセンス: Link先を確認
Zixuan Wang, Jia Jia, Shikun Sun, Haozhe Wu, Rong Han, Zhenyu Li, Di Tang, Jiaqing Zhou, Jiebo Luo, (参考訳) 振付師はダンスがどのようなものかを決定するが、カメラマンはダンスの最後のプレゼンテーションを決定する。 近年,様々な手法やデータセットがダンス合成の可能性を示している。 しかし、ペアデータの不足により、音楽やダンスによるカメラの動き合成は未解決の問題のままである。 そこで我々は、DCMという新しいマルチモーダルな3Dデータセットを提案し、初めてカメラの動きとダンスモーションと音楽オーディオを組み合わせた。 このデータセットは、アニメコミュニティからのペアダンス・カメラ・ミュージック・データの108のダンス・シーケンス(3.2時間)を含み、4つのジャンルをカバーしている。 このデータセットにより、ダンスカメラの動きは多面的であり、人間中心であり、複数の要因を持つことが明らかとなり、ダンスカメラの合成は、カメラやダンスの合成だけでは難しい課題となる。 これらの課題を克服するために,トランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。 評価のために,カメラの動きの質,多様性,ダンサーの忠実度を計測する新しい指標を考案した。 これらの指標を利用して、DCMデータセット上で広範な実験を行い、DanceCamera3Dモデルの有効性を示す定量的および定性的な証拠を提供する。 コードとビデオのデモはhttps://github.com/Carmenw1203/DanceCamera3D-Official.comで公開されている。

Choreographers determine what the dances look like, while cameramen determine the final presentation of dances. Recently, various methods and datasets have showcased the feasibility of dance synthesis. However, camera movement synthesis with music and dance remains an unsolved challenging problem due to the scarcity of paired data. Thus, we present DCM, a new multi-modal 3D dataset, which for the first time combines camera movement with dance motion and music audio. This dataset encompasses 108 dance sequences (3.2 hours) of paired dance-camera-music data from the anime community, covering 4 music genres. With this dataset, we uncover that dance camera movement is multifaceted and human-centric, and possesses multiple influencing factors, making dance camera synthesis a more challenging task compared to camera or dance synthesis alone. To overcome these difficulties, we propose DanceCamera3D, a transformer-based diffusion model that incorporates a novel body attention loss and a condition separation strategy. For evaluation, we devise new metrics measuring camera movement quality, diversity, and dancer fidelity. Utilizing these metrics, we conduct extensive experiments on our DCM dataset, providing both quantitative and qualitative evidence showcasing the effectiveness of our DanceCamera3D model. Code and video demos are available at https://github.com/Carmenw1203/DanceCamera3D-Official.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# MESHFREEシミュレーションにおけるパラメータ選択のための機械学習最適化手法

Machine Learning Optimized Approach for Parameter Selection in MESHFREE Simulations ( http://arxiv.org/abs/2403.13672v1 )

ライセンス: Link先を確認
Paulami Banerjee, Mohan Padmanabha, Chaitanya Sanghavi, Isabel Michel, Simone Gramsch, (参考訳) メッシュフリーシミュレーション手法は、特に計算流体力学(CFD)や連続体力学(continuum mechanics)の分野において、従来のメッシュベースのアプローチに代わる魅力的な代替手段として出現している。 本稿では,機械学習(ML)とフラウンホーファーのMESHFREEソフトウェア(www.meshfree.eu)を組み合わせた,汎用有限差分法(GFDM)における数値点雲を利用した強力なツールについて概説する。 このツールは、複雑なフロー領域、移動幾何学、自由曲面の効率的な処理を可能にし、ユーザーは計算時間と結果の精度の最適なバランスのために、局所的な精細化と品質パラメータを微調整することができる。 しかしながら、最適パラメータの組み合わせを手動で決定することは、特に経験の浅いユーザにとって、課題となる。 本稿では,MESHFREEシミュレーションデータに能動的学習,回帰木を用いたML最適化手法を導入し,入力の組み合わせが結果の品質と計算時間に与える影響を実証する。 本研究は、メッシュフリーシミュレーションにおけるパラメータ最適化に関する貴重な知見を提供し、科学的・工学的な応用において、より広範なユーザベースに対するアクセシビリティとユーザビリティを向上させる。

Meshfree simulation methods are emerging as compelling alternatives to conventional mesh-based approaches, particularly in the fields of Computational Fluid Dynamics (CFD) and continuum mechanics. In this publication, we provide a comprehensive overview of our research combining Machine Learning (ML) and Fraunhofer's MESHFREE software (www.meshfree.eu), a powerful tool utilizing a numerical point cloud in a Generalized Finite Difference Method (GFDM). This tool enables the effective handling of complex flow domains, moving geometries, and free surfaces, while allowing users to finely tune local refinement and quality parameters for an optimal balance between computation time and results accuracy. However, manually determining the optimal parameter combination poses challenges, especially for less experienced users. We introduce a novel ML-optimized approach, using active learning, regression trees, and visualization on MESHFREE simulation data, demonstrating the impact of input combinations on results quality and computation time. This research contributes valuable insights into parameter optimization in meshfree simulations, enhancing accessibility and usability for a broader user base in scientific and engineering applications.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# Retina Vision Transformer (RetinaViT): 拡張パッチを視覚変換器に導入

Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers ( http://arxiv.org/abs/2403.13677v1 )

ライセンス: Link先を確認
Yuyang Shu, Michael E. Bain, (参考訳) 人間は、低周波と高周波の成分を同時に見ると同時に、両方の情報を組み合わせて視覚的なシーンを形成する。 この神経科学的なインスピレーションに基づいて、第1のTransformer Encoder層の入力に、入力画像のスケールダウンバージョンからのパッチを付加する、改良されたVision Transformerアーキテクチャを提案する。 このモデルをRetina Vision Transformer (RetinaViT) と呼ぶのは、人間の視覚系からのインスピレーションによるものである。 実験の結果,ImageNet-1Kデータセットを適度な構成でトレーニングすると,RetinaViTは元のViTよりも3.3%パフォーマンスが向上することがわかった。 この改善は、入力に低空間周波数成分が組み込まれており、構造的特徴を捕捉し、重要な特徴をより深い層に選択し前進させる能力を向上させることができるという仮説を立てる。 これによりRetinaViTは、垂直経路と注意パターンのさらなる調査のための扉を開く。

Humans see low and high spatial frequency components at the same time, and combine the information from both to form a visual scene. Drawing on this neuroscientific inspiration, we propose an altered Vision Transformer architecture where patches from scaled down versions of the input image are added to the input of the first Transformer Encoder layer. We name this model Retina Vision Transformer (RetinaViT) due to its inspiration from the human visual system. Our experiments show that when trained on the ImageNet-1K dataset with a moderate configuration, RetinaViT achieves a 3.3% performance improvement over the original ViT. We hypothesize that this improvement can be attributed to the inclusion of low spatial frequency components in the input, which improves the ability to capture structural features, and to select and forward important features to deeper layers. RetinaViT thereby opens doors to further investigations into vertical pathways and attention patterns.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# AUD-TGN:野生聴覚環境における時間的畳み込みとGPT-2による行動単位検出

AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts ( http://arxiv.org/abs/2403.13678v1 )

ライセンス: Link先を確認
Jun Yu, Zerui Zhang, Zhihong Wei, Gongpeng Zhao, Zhongpeng Cai, Yongqi Wang, Guochen Xie, Jichao Zhu, Wangyuan Zhu, (参考訳) 音声データと視覚データの相乗効果を活用することは人間の感情や行動を理解するのに不可欠である。 このようなマルチモーダルな情報を統合するための従来の手法は、しばしば混乱し、顔行動単位検出のタスクにおいて、理想的ではない結果をもたらす。 このような欠点を克服するために,音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。 本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。 さらに,時間的関係をモデル化することにより,モーダル間の融合特性を適応的に把握し,マルチモーダル情報の高度化を目的とした事前学習GPT-2モデルを構築する。 本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。 これらの知見は、時間力学と文脈解釈を統合する可能性を強調し、将来の研究への道を開いた。

Leveraging the synergy of both audio data and visual data is essential for understanding human emotions and behaviors, especially in in-the-wild setting. Traditional methods for integrating such multimodal information often stumble, leading to less-than-ideal outcomes in the task of facial action unit detection. To overcome these shortcomings, we propose a novel approach utilizing audio-visual multimodal data. This method enhances audio feature extraction by leveraging Mel Frequency Cepstral Coefficients (MFCC) and Log-Mel spectrogram features alongside a pre-trained VGGish network. Moreover, this paper adaptively captures fusion features across modalities by modeling the temporal relationships, and ultilizes a pre-trained GPT-2 model for sophisticated context-aware fusion of multimodal information. Our method notably improves the accuracy of AU detection by understanding the temporal and contextual nuances of the data, showcasing significant advancements in the comprehension of intricate scenarios. These findings underscore the potential of integrating temporal dynamics and contextual interpretation, paving the way for future research endeavors.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# Role Interact:ロールプレイングエージェントの社会的相互作用の評価

RoleInteract: Evaluating the Social Interaction of Role-Playing Agents ( http://arxiv.org/abs/2403.13679v1 )

ライセンス: Link先を確認
Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou, (参考訳) 大型言語モデル(LLM)は、さまざまなキャラクターや人間の振る舞いを模倣するロールプレイングな会話エージェントを含む、さまざまなAI会話エージェントの開発を進めてきた。 これまでの研究では、会話能力、役割固有の知識、そしてこれらのエージェントのスタイル的特性の強化に主に焦点が当てられていたが、社会的知性を評価することには顕著なギャップがあった。 本稿では,ロールプレイング対話エージェントのソーシャル性を,個人レベルとグループレベルで体系的に評価するための最初のベンチマークであるRoleInteractを紹介する。 ベンチマークは様々なソースから構築され、500文字、6000以上の質問プロンプト、30,800のマルチターンロールプレイング発話をカバーする。 本ベンチマークでは,主要なオープンソースおよびクローズドソース LLM を用いて総合評価を行う。 個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。 さらに、グループ内の他のエージェントによる影響の結果、個人の行動が漂流する可能性がある。 RoleInteractの実験結果から、ロールプレイング会話エージェントの社会的相互作用を評価するテストベッドとしての重要性が確認された。 ベンチマークはhttps://github.com/X-PLUG/RoleInteract.comで公開されている。

Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce RoleInteract, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on RoleInteract confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/RoleInteract.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# 生体用光学画像再生のためのステップキャリブレーション拡散法

Step-Calibrated Diffusion for Biomedical Optical Image Restoration ( http://arxiv.org/abs/2403.13680v1 )

ライセンス: Link先を確認
Yiwei Lyu, Sung Jik Cha, Cheng Jiang, Asadur Chowdury, Xinhai Hou, Edward Harake, Akhil Kondepudi, Christian Freudiger, Honglak Lee, Todd C. Hollon, (参考訳) 高品質で高解像度の医療画像は臨床医療に不可欠である。 ラマンベースの生体医用光学画像は、非電離赤外線を使ってヒトの組織をリアルタイムで評価し、早期がんの検出、脳腫瘍の診断、および術中組織分析に使用される。 残念なことに、光学イメージングはレーザー散乱と吸収による画像劣化に弱いため、診断ミスや誤った治療が生じる可能性がある。 光画像の復元は、画像劣化の原因が多要素的、確率的、組織依存であるため、コンピュータビジョンの課題である。 本稿では、画像復元問題を拡散ベース画像生成タスクの完了ステップとみなす不対面画像復元法であるResorative Step-Calibrated Diffusion(RSCD)を提案する。 RSCDはステップキャリブレータモデルを用いて画像劣化の深刻度と画像復元の逆拡散過程の完了に必要なステップ数を動的に決定する。 RSCDは、光学画像の復元のための画像品質と知覚評価指標の両方において、他の広く使われている未使用画像復元方法よりも優れている。 医用画像の専門家は、盲点比較実験でRSCDを用いて復元した画像を常に好んでおり、幻覚は最小限から無限に報告している。 最後に、RSCDは、脳腫瘍の自動診断や深部組織イメージングなど、下流臨床画像のタスクの性能を向上させることを示す。 私たちのコードはhttps://github.com/MLNeurosurg/restorative_step-calibrated_diffusionで利用可能です。

High-quality, high-resolution medical imaging is essential for clinical care. Raman-based biomedical optical imaging uses non-ionizing infrared radiation to evaluate human tissues in real time and is used for early cancer detection, brain tumor diagnosis, and intraoperative tissue analysis. Unfortunately, optical imaging is vulnerable to image degradation due to laser scattering and absorption, which can result in diagnostic errors and misguided treatment. Restoration of optical images is a challenging computer vision task because the sources of image degradation are multi-factorial, stochastic, and tissue-dependent, preventing a straightforward method to obtain paired low-quality/high-quality data. Here, we present Restorative Step-Calibrated Diffusion (RSCD), an unpaired image restoration method that views the image restoration problem as completing the finishing steps of a diffusion-based image generation task. RSCD uses a step calibrator model to dynamically determine the severity of image degradation and the number of steps required to complete the reverse diffusion process for image restoration. RSCD outperforms other widely used unpaired image restoration methods on both image quality and perceptual evaluation metrics for restoring optical images. Medical imaging experts consistently prefer images restored using RSCD in blinded comparison experiments and report minimal to no hallucinations. Finally, we show that RSCD improves performance on downstream clinical imaging tasks, including automated brain tumor diagnosis and deep tissue imaging. Our code is available at https://github.com/MLNeurosurg/restorative_step-calibrated_diffusion.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# PARAMANU-AYN:インド法ケース文書の効率的な生成・指導訓練言語モデル

PARAMANU-AYN: An Efficient Novel Generative and Instruction-tuned Language Model for Indian Legal Case Documents ( http://arxiv.org/abs/2403.13681v1 )

ライセンス: Link先を確認
Mitodru Niyogi, Arnab Bhattacharya, (参考訳) 本稿では,インド最高裁判所,インド憲法,インド刑法典の事例文書のみに基づく言語モデルであるPARAMANU-AYNを紹介する。 新規なAuto Regressive (AR)デコーダベースのモデルは、コンテキストサイズ8192でスクラッチから事前訓練されている。 難易度指標に基づいて事前訓練した法モデルを評価した。 また, 法的理由づけ, 判断説明, 法的条項の生成, 法的契約起草, 訴訟要約, 立憲質問回答など, さまざまな法的課題をカバーする10,763の指導を指導した。 また, GPT-3.5-Turbo による指導指導モデルに対する指示応答の評価を行った。 我々のモデルはCPU上で動作し、42.46トークン/秒のCPU推論速度を達成した。 我々のモデルは,法律書,諸法契約,法律文書に事前訓練を受けていないにもかかわらず,諸法契約及び法条項の起草に必要なドメイン知識を習得し,限定的な指導指導による法律契約及び法条項の起草を一般化できることが判明した。 したがって、強力なドメイン特化生成言語モデル(法律など)では、スクラッチからモデルを開発するのに非常に大量のデータを必要としないと結論付けている。 この研究は、インド最高裁判所の管轄下や法的NLP全体のために、スクラッチから専用の生成法的言語モデルを作る最初の試みであると考えています。 Paramanu-Ayn モデルを https://www.bharatgpts.com でリリースする予定です。

In this paper, we present PARAMANU-AYN, a language model based exclusively on case documents of the Supreme Court of India, the Constitution of India, and the Indian Penal Code. The novel Auto Regressive (AR) decoder based model is pretrained from scratch at a context size of 8192. We evaluated our pretrained legal model on perplexity metrics. We also instruction-tuned our pretrained model on a set of 10,763 instructions covering various legal tasks such as legal reasoning, judgement explanation, legal clause generation, legal drafting, legal contract drafting, case summarization, constitutional question-answering, etc. We also evaluated the responses of prompts for instruction-tuned models by GPT-3.5-Turbo on clarity, relevance, completeness, and legal reasoning metrics in a scale of 10. Our model can be run on CPU and achieved 42.46 tokens/sec CPU inference speed. We found that our models, despite not being pretrained on legal books, various legal contracts, and legal documents, were able to learn the domain knowledge required for drafting various legal contracts and legal clauses, and generalize to draft legal contracts and legal clauses with limited instruction tuning. Hence, we conclude that for a strong domain-specialized generative language model (such as legal), very large amounts of data are not required to develop models from scratch. We believe that this work is the first attempt to make a dedicated generative legal language model from scratch for Indian Supreme Court jurisdiction or in legal NLP overall. We plan to release our Paramanu-Ayn model at https://www.bharatgpts.com.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# 機械学習における脅威、攻撃、防御 - 調査より

Threats, Attacks, and Defenses in Machine Unlearning: A Survey ( http://arxiv.org/abs/2403.13682v1 )

ライセンス: Link先を確認
Ziyao Liu, Huanyi Ye, Chen Chen, Kwok-Yan Lam, (参考訳) 最近、機械学習(MU)は、訓練された機械学習(ML)モデルから特定のデータの影響を取り除き、AIの安全性を向上させる可能性に大きな注目を集めている。 このプロセスは知識除去と呼ばれ、感度、著作権制限、陳腐化、低品質といったデータに関する懸念に対処する。 この機能は、RTBF(Right To Be Forgotten)のようなプライバシー規制の遵守を保証する上でも重要である。 したがって、戦略的知識の除去は有害な結果のリスクを軽減し、バイアス、誤情報、不正なデータ搾取から保護し、AIシステムの倫理的利用と信頼性を高める。 MUサービスは既存の機械学習・アズ・ア・サービス(MLaaS)との統合のために検討されており、ユーザーはリクエストを提出してデータを消去することができる。 しかし、最近の研究では、情報漏洩や悪意のある未学習要求などの機械学習システムの脆弱性が強調されており、セキュリティとプライバシの重大な懸念に繋がる可能性がある。 さらに,未学習の手法や攻撃がMUシステムにおける多様な役割を担っていることを示す。 例えば、アンラーニングはバックドアアタックからモデルを復元するメカニズムとして機能し、バックドアアタック自体がアンラーニングの有効性を評価する指標として機能する。 このことは、システム機能と安全性を維持する上で、これらの要素間の複雑な関係と複雑な相互作用を浮き彫りにする。 そこで本調査は,機械学習における脅威,攻撃,防衛に関する広範な研究と,その分類,方法,ソリューションを分類する総合的なレビューの欠如とのギャップを埋めることを目的としており,今後の研究の方向性や実践実践に有用な洞察を提供する。

Recently, Machine Unlearning (MU) has gained considerable attention for its potential to improve AI safety by removing the influence of specific data from trained Machine Learning (ML) models. This process, known as knowledge removal, addresses concerns about data such as sensitivity, copyright restrictions, obsolescence, or low quality. This capability is also crucial for ensuring compliance with privacy regulations such as the Right To Be Forgotten (RTBF). Therefore, strategic knowledge removal mitigates the risk of harmful outcomes, safeguarding against biases, misinformation, and unauthorized data exploitation, thereby enhancing the ethical use and reliability of AI systems. Efforts have been made to design efficient unlearning approaches, with MU services being examined for integration with existing machine learning as a service (MLaaS), allowing users to submit requests to erase data. However, recent research highlights vulnerabilities in machine unlearning systems, such as information leakage and malicious unlearning requests, that can lead to significant security and privacy concerns. Moreover, extensive research indicates that unlearning methods and prevalent attacks fulfill diverse roles within MU systems. For instance, unlearning can act as a mechanism to recover models from backdoor attacks, while backdoor attacks themselves can serve as an evaluation metric for unlearning effectiveness. This underscores the intricate relationship and complex interplay between these elements in maintaining system functionality and safety. Therefore, this survey seeks to bridge the gap between the extensive number of studies on threats, attacks, and defenses in machine unlearning and the absence of a comprehensive review that categorizes their taxonomy, methods, and solutions, thus offering valuable insights for future research directions and practical implementations.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# DVMNet: 仮説を超えて見えないオブジェクトの相対的なポース

DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses ( http://arxiv.org/abs/2403.13683v1 )

ライセンス: Link先を確認
Chen Zhao, Tong Zhang, Zheng Dang, Mathieu Salzmann, (参考訳) 2つの画像間のオブジェクトの相対的なポーズを決定することは、一般化可能なオブジェクトのポーズ推定の成功に欠かせない。 既存のアプローチは典型的には、連続的なポーズ表現を多数の離散的なポーズ仮説と近似し、これはテスト時に各仮説を評価する計算にコストがかかるプロセスを引き起こす。 対照的にDVMNet(Deep Voxel Matching Network)では、仮説のポーズを不要にし、相対的なオブジェクトのポーズを1回のパスで計算する。 この目的のために、2つの入力されたRGB画像、参照とクエリをそれぞれの3D表現にマッピングする。 次に、得られたボクセルをポーズ推定モジュールに渡して、ボクセルが整列し、最小二乗問題を解くことで、ポーズをエンドツーエンドに計算する。 強靭性を高めるために,ノイズの多いボクセルの影響を緩和できる最寄りボクセルアルゴリズムを導入する。 我々はCO3D,LINEMOD,Objaverseのデータセットについて広範囲に実験を行い,提案手法が最先端の手法と比較して計算コストの低い新しいオブジェクトに対してより正確なポーズ推定を行うことを示した。 私たちのコードは、https://github.com/sailor-z/DVMNet/.comでリリースされています。

Determining the relative pose of an object between two images is pivotal to the success of generalizable object pose estimation. Existing approaches typically approximate the continuous pose representation with a large number of discrete pose hypotheses, which incurs a computationally expensive process of scoring each hypothesis at test time. By contrast, we present a Deep Voxel Matching Network (DVMNet) that eliminates the need for pose hypotheses and computes the relative object pose in a single pass. To this end, we map the two input RGB images, reference and query, to their respective voxelized 3D representations. We then pass the resulting voxels through a pose estimation module, where the voxels are aligned and the pose is computed in an end-to-end fashion by solving a least-squares problem. To enhance robustness, we introduce a weighted closest voxel algorithm capable of mitigating the impact of noisy voxels. We conduct extensive experiments on the CO3D, LINEMOD, and Objaverse datasets, demonstrating that our method delivers more accurate relative pose estimates for novel objects at a lower computational cost compared to state-of-the-art methods. Our code is released at: https://github.com/sailor-z/DVMNet/.
翻訳日:2024-03-21 16:28:26 公開日:2024-03-20
# SPTNet:空間プロンプトチューニングによる一般化カテゴリー発見のための効率的な代替フレームワーク

SPTNet: An Efficient Alternative Framework for Generalized Category Discovery with Spatial Prompt Tuning ( http://arxiv.org/abs/2403.13684v1 )

ライセンス: Link先を確認
Hongjun Wang, Sagar Vaze, Kai Han, (参考訳) Generalized Category Discovery (GCD) は、'seen' クラスと 'unseen' クラスの両方から、ラベル付き 'seen' クラスのイメージのセットから知識を転送することで、未ラベルのイメージを分類することを目的としている。 既存のGCDのアプローチにおける重要なテーマは、GCDタスクのために大規模な事前訓練されたモデルを適用することである。 しかし、代替的な視点は、データ表現自体を事前訓練されたモデルとの整合性に適応させることである。 そこで本研究では,モデルパラメータ(モデルファインタニング)とデータパラメータ(即時学習)を反復的に最適化する,SPTNetと呼ばれる2段階適応手法を提案する。 さらに,画像データの空間特性を考慮した空間的プロンプトチューニング手法(SPT)を提案する。 我々は,SPTNetを標準ベンチマークで徹底的に評価し,既存のGCD法よりも優れていることを示す。 特に, 従来の最先端手法を約10%超えて, SSBの平均精度は61.4%であることがわかった。 我々の手法はバックボーンアーキテクチャの0.117%のパラメータを余分に生成するので、この改善は特に顕著である。 プロジェクトページ: https://visual-ai.github.io/sptnet.com

Generalized Category Discovery (GCD) aims to classify unlabelled images from both `seen' and `unseen' classes by transferring knowledge from a set of labelled `seen' class images. A key theme in existing GCD approaches is adapting large-scale pre-trained models for the GCD task. An alternate perspective, however, is to adapt the data representation itself for better alignment with the pre-trained model. As such, in this paper, we introduce a two-stage adaptation approach termed SPTNet, which iteratively optimizes model parameters (i.e., model-finetuning) and data parameters (i.e., prompt learning). Furthermore, we propose a novel spatial prompt tuning method (SPT) which considers the spatial property of image data, enabling the method to better focus on object parts, which can transfer between seen and unseen classes. We thoroughly evaluate our SPTNet on standard benchmarks and demonstrate that our method outperforms existing GCD methods. Notably, we find our method achieves an average accuracy of 61.4% on the SSB, surpassing prior state-of-the-art methods by approximately 10%. The improvement is particularly remarkable as our method yields extra parameters amounting to only 0.117% of those in the backbone architecture. Project page: https://visual-ai.github.io/sptnet.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# MotorEase: モバイルアプリUIにおけるモータ障害アクセシビリティ問題の自動検出

MotorEase: Automated Detection of Motor Impairment Accessibility Issues in Mobile App UIs ( http://arxiv.org/abs/2403.13690v1 )

ライセンス: Link先を確認
Arun Krishnavajjala, SM Hasan Mansur, Justin Jose, Kevin Moran, (参考訳) 最近の研究は、ソフトウェアに現れるアクセシビリティ問題を自動的に発見し、修正する可能性を調べ始めている。 しかし、近年の研究は重要な進歩を遂げているが、視覚障害や聴覚障害など、特定の障害を持つユーザに影響を与える問題を特定するために、一般的には歪まれている。 しかしながら、さまざまな種類の障害を持つユーザグループには、自身のエクスペリエンスを改善するために、ソフトウェアツーリングのサポートも必要です。 そこで本稿は,運動障害者に影響を及ぼすアクセシビリティ問題を自動的に識別することを目的とする。 そこで本研究では,モバイルアプリのUIにおけるアクセシビリティ問題を特定するための,MotorEaseと呼ばれる新しいアプローチを提案する。 モーター不自由なユーザは、しばしばタッチベースのデバイスと対話する能力に制限があり、代わりにスイッチやその他のアシスト機構を使用することがある。 MotorEaseはコンピュータビジョンとテキスト処理技術を適用して、アプリUI画面のセマンティックな理解を可能にする。 (i)視覚的タッチターゲットサイズ (二)拡大区間 (三)元素の持続、及び (4)隣接するアイコン視距離。 モバイルアプリケーションテストツールを介して70のアプリケーションから収集された1599のスクリーンに対して、上記のアクセシビリティガイドラインに違反する555の注釈付き例を含む、MotorCheckと呼ばれる新しいベンチマークでMotorEaseを評価した。 実験の結果,MotorEaseは平均精度が90%,偽陽性率が9%未満の違反を識別できることがわかった。

Recent research has begun to examine the potential of automatically finding and fixing accessibility issues that manifest in software. However, while recent work makes important progress, it has generally been skewed toward identifying issues that affect users with certain disabilities, such as those with visual or hearing impairments. However, there are other groups of users with different types of disabilities that also need software tooling support to improve their experience. As such, this paper aims to automatically identify accessibility issues that affect users with motor-impairments. To move toward this goal, this paper introduces a novel approach, called MotorEase, capable of identifying accessibility issues in mobile app UIs that impact motor-impaired users. Motor-impaired users often have limited ability to interact with touch-based devices, and instead may make use of a switch or other assistive mechanism -- hence UIs must be designed to support both limited touch gestures and the use of assistive devices. MotorEase adapts computer vision and text processing techniques to enable a semantic understanding of app UI screens, enabling the detection of violations related to four popular, previously unexplored UI design guidelines that support motor-impaired users, including: (i) visual touch target size, (ii) expanding sections, (iii) persisting elements, and (iv) adjacent icon visual distance. We evaluate MotorEase on a newly derived benchmark, called MotorCheck, that contains 555 manually annotated examples of violations to the above accessibility guidelines, across 1599 screens collected from 70 applications via a mobile app testing tool. Our experiments illustrate that MotorEase is able to identify violations with an average accuracy of ~90%, and a false positive rate of less than 9%, outperforming baseline techniques.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# Block-ZXZ分解に基づくn-Qubit量子ゲートの高効率分解

Highly Efficient Decomposition of n-Qubit Quantum Gates Based on Block-ZXZ Decomposition ( http://arxiv.org/abs/2403.13692v1 )

ライセンス: Link先を確認
Anna M. Krol, Zaid Al-Ars, (参考訳) 本稿では,2006年以降最も最適化された量子ブロックZXZ分解法である量子シャノン分解法 (QSD) [17] よりも最適な量子回路の構築を実現するために,新しい最適化量子ブロックZXZ分解法[4,5,6]を提案する。 提案した分解により、19個のCNOTゲート(20個未満)を用いて、一般的な3ビットゲートを分解することができる。 一般のnビットゲートに対して、提案した分解は、(22/48) 4^n - (3/2) 2^n + (5/3)$ CNOT ゲートを持つ回路を生成する。

This paper proposes a new optimized quantum block-ZXZ decomposition method [4,5,6] that results in the construction of more optimal quantum circuits than the quantum Shannon decomposition (QSD) [17] can achieve, which has been the most optimal decomposition method since 2006. With the proposed decomposition, a general 3-qubit gate can be decomposed using 19 CNOT gates (rather than 20). For general n-qubit gates, the proposed decomposition generates circuits that have $(22/48) 4^n - (3/2) 2^n + (5/3)$ CNOT gates , which is less that the best known exact decomposition algorithm by $(4^{n-2} -1)/3$ CNOT gates.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# ロス正規化ロボット地形分類

Loss Regularizing Robotic Terrain Classification ( http://arxiv.org/abs/2403.13695v1 )

ライセンス: Link先を確認
Shakti Deo Kumar, Sudhanshu Tripathi, Krishna Ujjwal, Sarvada Sakshi Jha, Suddhasil De, (参考訳) 脚のあるロボットの移動力学は、困難な地形を舗装するのに適している。 このようなロボットの地形を認識することは、その動きの汎用性を十分に理解するために重要である。 その結果、ロボット地形分類は、高精度でリアルタイムで地形を分類する上で重要である。 従来の分類器は、オーバーフィッティング問題、低精度問題、高分散問題に悩まされ、ライブデータセットには適さない。 一方、畳み込みに基づく地形分類では、成長するデータセットの分類は困難である。 更新されたリカレントモデルもこの分類には実用的ではない。 さらに、既存のリカレントアーキテクチャは、脚付きロボットから収集されたライブ可変長の知覚データに基づいて、地形分類の精度を向上させるために、いまだに進化を続けている。 本稿では,長い可変長データセットの事前処理を回避するため,脚付きロボットの地形分類のための半教師付き手法を提案する。 提案手法は、新しい損失正規化を含む長期記憶アーキテクチャを積み重ねたものである。 提案手法は既存の問題を解き、精度を向上する。 既存のアーキテクチャと比較すると、改善点が示される。

Locomotion mechanics of legged robots are suitable when pacing through difficult terrains. Recognising terrains for such robots are important to fully yoke the versatility of their movements. Consequently, robotic terrain classification becomes significant to classify terrains in real time with high accuracy. The conventional classifiers suffer from overfitting problem, low accuracy problem, high variance problem, and not suitable for live dataset. On the other hand, classifying a growing dataset is difficult for convolution based terrain classification. Supervised recurrent models are also not practical for this classification. Further, the existing recurrent architectures are still evolving to improve accuracy of terrain classification based on live variable-length sensory data collected from legged robots. This paper proposes a new semi-supervised method for terrain classification of legged robots, avoiding preprocessing of long variable-length dataset. The proposed method has a stacked Long Short-Term Memory architecture, including a new loss regularization. The proposed method solves the existing problems and improves accuracy. Comparison with the existing architectures show the improvements.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# 空洞内の電子波スピン

Electron wave spin in a cavity ( http://arxiv.org/abs/2403.13696v1 )

ライセンス: Link先を確認
Ju Gao, Fang Shen, (参考訳) 本研究では, 空洞内の電子スピンを, トーラストポロジーを特徴とする安定循環電流密度として明らかにした。 この電流密度は空洞の境界を越えて同心円状に循環し、エバネッセント波スピンの概念を描いている。 均一磁場との相互作用は、確立されたスピン-フィールド観測と一致するが、我々の地域貢献の分析は、粒子ベースのスピン予測から逸脱する。 電荷とスピンの性質を単一のローレンツ共変体に統合することは、電子波が電子の基本的および決定論的現実を構成することを示唆している。

Our study reveals electron spin in a cavity as a stable circulating current density, characterized by a torus topology. This current density circulates concentrically beyond the cavity boundary, illustrating the concept of evanescent wave spin. While the interaction with a uniform magnetic field aligns with established spin-field observations, our analysis of regional contributions deviates from particle-based spin predictions. The integration of charge and spin properties into a single Lorentz covariant entity suggests that the electron wave constitutes the fundamental and deterministic reality of the electron.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# マルチスケール容器検出のためのマルチソース衛星画像のコロケーションへのインサイト

Insight Into the Collocation of Multi-Source Satellite Imagery for Multi-Scale Vessel Detection ( http://arxiv.org/abs/2403.13698v1 )

ライセンス: Link先を確認
Tran-Vu La, Minh-Tan Pham, Marco Chini, (参考訳) 深層学習(DL)を用いた衛星画像からの船舶検出は、海上監視にとって必須のソリューションである。 しかし、空間分解能と放射能の特徴が異なる他のデータセットに対して訓練されたDLモデルを適用するには、多くの調整が必要である。 本論文は,異なる光学画像とレーダと光学データの組み合わせからなるデータセットに基づいて訓練されたDLモデルに焦点を当てた。 限られた数の訓練画像を扱う場合,本手法によるDLモデルの性能は良好であった。 テストされた光学画像によって平均精度は5~20%向上する可能性がある。 同様に、光学とレーダーの両方のデータセットで訓練されたDLモデルは、光学とレーダーの両方に応用できる。 実験の結果,光学的データセットでトレーニングしたモデルはレーダ画像に利用でき,レーダデータセットでトレーニングしたモデルでは光学的画像に適用した場合のスコアが極めて低かった。

Ship detection from satellite imagery using Deep Learning (DL) is an indispensable solution for maritime surveillance. However, applying DL models trained on one dataset to others having differences in spatial resolution and radiometric features requires many adjustments. To overcome this issue, this paper focused on the DL models trained on datasets that consist of different optical images and a combination of radar and optical data. When dealing with a limited number of training images, the performance of DL models via this approach was satisfactory. They could improve 5-20% of average precision, depending on the optical images tested. Likewise, DL models trained on the combined optical and radar dataset could be applied to both optical and radar images. Our experiments showed that the models trained on an optical dataset could be used for radar images, while those trained on a radar dataset offered very poor scores when applied to optical images.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# エネルギー保存によるネコ状態の阻止における非線形項の選択について

On the choice of non-linear terms in blocking cats states by energy conservations ( http://arxiv.org/abs/2403.13699v1 )

ライセンス: Link先を確認
Leonardo De Carlo, (参考訳) エントロピー25, 564 (2023) ではスピンモデルの波動関数アンサンブルの問題を検討した。 有限温度で磁化を観察するためには、エネルギー保存によってマクロな重ね合わせをブロックするマクロな非線形項を加える必要があった。 非線形項は[W.D. Wick, arXiv:1710.03278 (2017)]で導入されたもので、測定問題の解法としてエネルギー保存によって空間猫をブロックする。 W.D. Wick, arXiv:1710.03278 (2017), arXiv:1908.02352 (2019)] から理論をレビューし、これらの非線形項が許容されなければならないという可換関係を導き、[W.D. Wick, arXiv:1710.03278 (2017), arXiv:2008.08663 (2020)] という用語がそのような関係を満たす空間の波動関数を制限することを示す。 非純スピンモデルに対する[エントロピー 25, 564 (2023)] の項を一般化し、それらが制約を満たすかどうかを負の答えで結論付ける。 最後に [W.D. Wick, arXiv:1710.03278 (2017)] の提案を検証するための実験的見積もりについて述べる。

In [Entropy 25, 564 (2023)] I considered the problem of wavefunction ensembles for spin models. To observe magnetization at finite temperature, I had to add macroscopic nonlinear terms blocking macroscopic superposition by energy conservation. The nonlinear terms were of the kind introduced in [W.D. Wick, arXiv:1710.03278 (2017)] to block spatial cats by energy conservation as solution to the Measurement Problem. Reviewing the theory from [W.D. Wick, arXiv:1710.03278 (2017), arXiv:1908.02352 (2019)], I derive a commutation relation that these nonlinear terms have to satisfy to be admitted and show that the terms of [W.D. Wick, arXiv:1710.03278 (2017), arXiv:2008.08663 (2020)] restricting the wavefunctions in space satisfies such relations. I generalize the terms of [Entropy 25, 564 (2023)] for non-pure spin models and check if they also satisfy the constraints, concluding with a negative answer. An experimental estimate to test the proposal of [W.D. Wick, arXiv:1710.03278 (2017)] is described at the end.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# 視覚型触覚センサを用いたアクティブテクスチャ認識の課題

What Matters for Active Texture Recognition With Vision-Based Tactile Sensors ( http://arxiv.org/abs/2403.13701v1 )

ライセンス: Link先を確認
Alina Böhm, Tim Schneider, Boris Belousov, Alap Kshirsagar, Lisa Lin, Katja Doerschner, Knut Drewing, Constantin A. Rothkopf, Jan Peters, (参考訳) 本稿では,視覚に基づく触覚センサをロボットの知覚や布のテクスチャの分類に活用する能動的センシング戦略について検討する。 触覚ファブリック認識の文脈におけるアクティブサンプリング問題を定式化し、予測エントロピーの最小化と確率モデルの分散に基づく情報理論探索戦略の実装を提供する。 アブレーション研究と人体実験を通じて,迅速かつ信頼性の高いテクスチャ認識に欠かせない要素について検討する。 アクティブサンプリング戦略とともに、ニューラルネットワークアーキテクチャ、不確実性の表現、データ拡張の影響、データセットの可変性を評価する。 提案手法を以前公表したActive Clothing Perception Datasetと実際のロボットシステムで評価することにより,アクティブな探索戦略の選択が認識精度にわずかに影響を与えているのに対して,データ拡張とドロップアウト率は著しく大きな役割を果たすことがわかった。 比較研究では、人間が66.9%の精度で認識できるのに対して、私たちのベストアプローチは5タッチ以下の90.0%に達し、視覚ベースの触覚センサは布のテクスチャ認識に非常に有効であることを強調した。

This paper explores active sensing strategies that employ vision-based tactile sensors for robotic perception and classification of fabric textures. We formalize the active sampling problem in the context of tactile fabric recognition and provide an implementation of information-theoretic exploration strategies based on minimizing predictive entropy and variance of probabilistic models. Through ablation studies and human experiments, we investigate which components are crucial for quick and reliable texture recognition. Along with the active sampling strategies, we evaluate neural network architectures, representations of uncertainty, influence of data augmentation, and dataset variability. By evaluating our method on a previously published Active Clothing Perception Dataset and on a real robotic system, we establish that the choice of the active exploration strategy has only a minor influence on the recognition accuracy, whereas data augmentation and dropout rate play a significantly larger role. In a comparison study, while humans achieve 66.9% recognition accuracy, our best approach reaches 90.0% in under 5 touches, highlighting that vision-based tactile sensors are highly effective for fabric texture recognition.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# Fostc3net:ネットワーク構造最適化に基づく軽量YOLOv5

Fostc3net:A Lightweight YOLOv5 Based On the Network Structure Optimization ( http://arxiv.org/abs/2403.13703v1 )

ライセンス: Link先を確認
Danqing Ma, Shaojie Li, Bo Dang, Hengyi Zang, Xinqi Dong, (参考訳) 送電線検出技術は、電気設備の自動監視と安全確保に不可欠である。 YOLOv5シリーズは現在、オブジェクト検出の最も先進的で広く使われている方法の1つである。 しかし、デバイスへの高い計算負荷や検出精度の不足など、固有の課題に直面している。 これらの問題に対処するために,モバイル機器向けにカスタマイズされた軽量YOLOv5技術を提案する。 C3GhostモジュールはYOLOv5の畳み込みネットワークに統合され、機能チャネル融合プロセスにおける1秒あたりの浮動小数点演算(FLOP)を削減し、特徴表現性能を向上させる。 さらに、YOLOv5 Backboneのc3モジュールを置き換えるために、FasterNetモジュールが導入されている。 FasterNetモジュールは、部分的畳み込みを使用して入力チャネルの一部のみを処理し、特徴抽出効率を改善し、計算オーバーヘッドを低減する。 データセットにおける単純なサンプルと挑戦的なサンプルの不均衡と境界ボックスのアスペクト比の多様性に対処するため、損失関数としてwIoU v3 LOSSを採用する。 提案手法の有効性を検証するため,伝送線路ポールのカスタムデータセットを用いて実験を行った。 その結果,提案モデルでは検出精度が1%向上し,FLOPが13%低下し,既存のYOLOv5に比べてモデルパラメータが26%減少することがわかった。また,Ablation実験では,FastnetモジュールとCSghostモジュールが元のYOLOv5ベースラインモデルの精度を向上する一方で,mAP@.5-.95メートル法が低下することも判明した。 しかし、wIoUv3損失関数の改善により、mAP@.5-.95メートル法が大幅に低下した。

Transmission line detection technology is crucial for automatic monitoring and ensuring the safety of electrical facilities. The YOLOv5 series is currently one of the most advanced and widely used methods for object detection. However, it faces inherent challenges, such as high computational load on devices and insufficient detection accuracy. To address these concerns, this paper presents an enhanced lightweight YOLOv5 technique customized for mobile devices, specifically intended for identifying objects associated with transmission lines. The C3Ghost module is integrated into the convolutional network of YOLOv5 to reduce floating point operations per second (FLOPs) in the feature channel fusion process and improve feature expression performance. In addition, a FasterNet module is introduced to replace the c3 module in the YOLOv5 Backbone. The FasterNet module uses Partial Convolutions to process only a portion of the input channels, improving feature extraction efficiency and reducing computational overhead. To address the imbalance between simple and challenging samples in the dataset and the diversity of aspect ratios of bounding boxes, the wIoU v3 LOSS is adopted as the loss function. To validate the performance of the proposed approach, Experiments are conducted on a custom dataset of transmission line poles. The results show that the proposed model achieves a 1% increase in detection accuracy, a 13% reduction in FLOPs, and a 26% decrease in model parameters compared to the existing YOLOv5.In the ablation experiment, it was also discovered that while the Fastnet module and the CSghost module improved the precision of the original YOLOv5 baseline model, they caused a decrease in the mAP@.5-.95 metric. However, the improvement of the wIoUv3 loss function significantly mitigated the decline of the mAP@.5-.95 metric.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# Implicit-Explicit (IMEX) による適応モーメント推定(ADAM)確率最適化器の改良

Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach ( http://arxiv.org/abs/2403.13704v1 )

ライセンス: Link先を確認
Abhinab Bhattacharjee, Andrey A. Popov, Arash Sarshar, Adrian Sandu, (参考訳) ニューラルネットワークトレーニングで機械学習でよく使用されるアダム最適化器は、非常に少ない学習率の限界における基礎となる常微分方程式(ODE)に対応する。 この研究は、古典的なアダムアルゴリズムが、基礎となるODEのオイラー離散化(IMEX)であることを示している。 本稿では、時間離散化の観点から、高次IMEX法を用いてODEを解いたAdamスキームの新たな拡張を提案する。 提案手法は,従来のAdamよりもいくつかの回帰および分類問題において優れた性能を発揮するニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。

The Adam optimizer, often used in Machine Learning for neural network training, corresponds to an underlying ordinary differential equation (ODE) in the limit of very small learning rates. This work shows that the classical Adam algorithm is a first order implicit-explicit (IMEX) Euler discretization of the underlying ODE. Employing the time discretization point of view, we propose new extensions of the Adam scheme obtained by using higher order IMEX methods to solve the ODE. Based on this approach, we derive a new optimization algorithm for neural network training that performs better than classical Adam on several regression and classification problems.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# Research Re: Search & Re-search

Research Re: search & Re-search ( http://arxiv.org/abs/2403.13705v1 )

ライセンス: Link先を確認
Aske Plaat, (参考訳) 探索アルゴリズムは、しばしばノード拡張戦略によって分類される。 1つの選択肢はディープファースト戦略であり、後続ノードが生成される順序で検索空間を横切る単純なバックトラック戦略である。 別の方法は、ドメイン固有のヒューリスティック情報の使用を可能にするために設計されたベストファースト戦略である。 探索空間の有望な部分を探索することによって、最優先のアルゴリズムは通常、深さ優先のアルゴリズムよりも効率的になる。 チェスやチェッカーなどのミニマックスゲームをするプログラムでは、探索の効率が重要である。 他のドメインでのベストファーストアルゴリズムの成功を考えると、ミニマックスゲームにも使われるだろう。 しかし、全ての高性能ゲームプレイングプログラムはディープファーストアルゴリズムに基づいている。 本研究では,深度優先アルゴリズムのABと最良優先アルゴリズムのSSSについて詳しく検討する。 これらのアルゴリズムの一般的な意見は、SSSはより効率的な探索の可能性を秘めているが、その複雑な定式化と指数記憶の要求はそれを非現実的とするものである。 この研究の理論的部分は、2つのアルゴリズムの間に驚くほど単純なリンクがあることを示しています。 その後の実証的な証拠は、SSSに関する一般的な意見が間違っていることを証明している:それは複雑なアルゴリズムではなく、メモリをあまり必要とせず、深度優先探索よりも効率的ではない。

Search algorithms are often categorized by their node expansion strategy. One option is the depth-first strategy, a simple backtracking strategy that traverses the search space in the order in which successor nodes are generated. An alternative is the best-first strategy, which was designed to make it possible to use domain-specific heuristic information. By exploring promising parts of the search space first, best-first algorithms are usually more efficient than depth-first algorithms. In programs that play minimax games such as chess and checkers, the efficiency of the search is of crucial importance. Given the success of best-first algorithms in other domains, one would expect them to be used for minimax games too. However, all high-performance game-playing programs are based on a depth-first algorithm. This study takes a closer look at a depth-first algorithm, AB, and a best-first algorithm, SSS. The prevailing opinion on these algorithms is that SSS offers the potential for a more efficient search, but that its complicated formulation and exponential memory requirements render it impractical. The theoretical part of this work shows that there is a surprisingly straightforward link between the two algorithms -- for all practical purposes, SSS is a special case of AB. Subsequent empirical evidence proves the prevailing opinion on SSS to be wrong: it is not a complicated algorithm, it does not need too much memory, and it is also not more efficient than depth-first search.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# ナノスケール量子センサーのための凝縮物質物理学の新展開

New opportunities in condensed matter physics for nanoscale quantum sensors ( http://arxiv.org/abs/2403.13710v1 )

ライセンス: Link先を確認
Jared Rovny, Sarang Gopalakrishnan, Ania C. Bleszynski Jayich, Patrick Maletinsky, Eugene Demler, Nathalie P. de Leon, (参考訳) 窒素空孔(NV)中心量子センサーは、凝縮物質の研究にユニークな機会を与え、定量的、非侵襲的、物理的に堅牢であり、ナノスケールの分解能を提供し、幅広い温度で使用することができる。 これらの特性は近年, 凝縮物質系におけるスピン秩序と電流の流れから生じる静磁場のナノスケール分解能の測定に利用されてきた。 他のナノスケールの磁場センサーと比較して、NVセンターは平均的な磁場を超える量の探査ができるというユニークな利点がある。 磁気共鳴による技術の活用により、NVセンターは高精度なノイズセンシングを行うことができ、単純な金属やグラフェンの電流の変動やイットリウム鉄ガーネットの磁気力学といった多様なシステムにアクセスできるようになった。 本総説では, 凝縮物質センシングにおける特異な機会を, 特定のNV測定値と, 他の手法では到達できない相関関数や順序パラメータなど, 凝縮物質コミュニティで理解しやすい以前に確立された物理特性の関連性に着目して要約し, NV中心センシングによって実現された技術的フロンティアについて述べる。

Nitrogen vacancy (NV) centre quantum sensors provide unique opportunities in studying condensed matter systems: they are quantitative, noninvasive, physically robust, offer nanoscale resolution, and may be used across a wide range of temperatures. These properties have been exploited in recent years to obtain nanoscale resolution measurements of static magnetic fields arising from spin order and current flow in condensed matter systems. Compared with other nanoscale magnetic-field sensors, NV centres have the unique advantage that they can probe quantities that go beyond average magnetic fields. Leveraging techniques from magnetic resonance, NV centres can perform high precision noise sensing, and have given access to diverse systems, such as fluctuating electrical currents in simple metals and graphene, as well as magnetic dynamics in yttrium iron garnet. In this review we summarise unique opportunities in condensed matter sensing by focusing on the connections between specific NV measurements and previously established physical characteristics that are more readily understood in the condensed matter community, such as correlation functions and order parameters that are inaccessible by other techniques, and we describe the technical frontier enabled by NV centre sensing.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# HyLiMo: 技術および科学出版のためのIDE拡張としてのハイブリッドライブ同期モジュールダイアグラムエディタ

HyLiMo: A Hybrid Live-Synchronized Modular Diagramming Editor as IDE Extension for Technical and Scientific Publications ( http://arxiv.org/abs/2403.13711v1 )

ライセンス: Link先を確認
Niklas Krieger, Sandro Speth, Steffen Becker, (参考訳) 情報を効果的に伝達するためには、レイアウトを手動で制御する必要があるため、技術的および科学的な出版物に適した図を作成することは困難かつ時間を要する。 既存のダイアグラムツールは、通常、テキストドメイン特化言語(DSL)を介してダイアグラムをモデリングすることができます。 自動レイアウトは高速だが、ほとんどの出版物では結果が満足できないことが多い。 しかし、グラフィカルエディタは大きな図を作成するのに時間がかかる。 ブレンドされたあるいはハイブリッドなモデリングの概念は、DSLを使用して効率的にダイアグラムを作成し、描画されたダイアグラムをグラフィカルエディタで編集して微調整することができる。 しかし、ハイブリッドモデリングエディタは個々のダイアグラムタイプに限定されており、テキスト記述のレイアウトやスタイル情報を保存しない。 そこで我々はHyLiMoを提案する。 HyLiMoでは、ダイアグラムは内部DSLを使用して作成され、描画されたダイアグラムのためのインタラクティブなグラフィカルエディタとライブ同期される。 HyLiMoは特定のダイアグラムタイプとは独立していますが、UMLクラスダイアグラムに特有の機能を提供しています。 言語サーバープロトコルを使用して、WebアプリとIDE拡張として実装します。 ユーザスタディの結果から,このようなアプローチが高速かつ正確なダイアグラム作成を可能にすることが示唆された。

Creating suitable diagrams for technical and scientific publications is challenging and time-consuming, as manual control over the layout is required to communicate information effectively. Existing diagramming tools usually allow modeling the diagrams via a textual domain-specific language (DSL) that can be rendered and auto-layouted or via a graphical editor. While auto-layout is fast, the results are often not satisfying for most publications. However, graphical editors are time-consuming to create large diagrams. The blended or hybrid modeling concept enables creating diagrams efficiently using a DSL and editing the rendered diagram via the graphical editor for fine-tuning. However, hybrid modeling editors are limited to individual diagram types and do not save the layout and style information in the textual description. Therefore, we propose HyLiMo, a hybrid live-synchronized modular diagramming editor. In HyLiMo, diagrams are created using an internal DSL and live synchronized with an interactive graphical editor for the rendered diagram, allowing a straightforward layout and style change, which is stored in the DSL code. HyLiMo is independent of specific diagram types, but we offer specific functionality for UML class diagrams. Using the language server protocol, we implement it as a web app and IDE extension. The results of our user study indicate that such an approach enables fast and precise diagramming.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# DBA-Fusion:大規模ローカライゼーションとマッピングのための高密度視覚バンドル調整とマルチセンサの統合

DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping ( http://arxiv.org/abs/2403.13714v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Xingxing Li, Shengyu Li, Xuanbin Wang, Shaoquan Feng, Yuxuan Tan, (参考訳) 視覚的同時ローカライゼーションとマッピング(VSLAM)は、より堅牢性と適用性を高めるためにディープニューラルネットワークを活用する最先端の手法により、幅広い応用がある。 しかし、これらの学習に基づく手法をマルチセンサー情報と融合させる研究は乏しいため、関連するアプリケーションを大規模で複雑なシナリオにプッシュするには不可欠である。 本稿では,トレーニング可能な高密度バンドル調整(DBA)を因子グラフを通じて多センサ情報と密に統合する。 このフレームワークでは、逐次的な画像間で、繰り返し光流とDBAが実行される。 DBAから得られたヘッセン情報は、スライディングウインドウを用いて確率的辺縁化をサポートするマルチセンサー融合のための一般的な因子グラフに入力される。 視覚-慣性統合のためのパイプラインが最初に開発され、メカニカルスケールのローカライゼーションとマッピングの最小限の能力を提供する。 さらに、他のセンサー(例:グローバルナビゲーション衛星システム)は、ドリフトレスおよびジオレファレンス機能に統合されている。 大規模なテストは、公開データセットと自己収集データセットの両方で実施される。 その結果,大規模環境におけるリアルタイム高密度マッピングを実現する手法として,より優れたローカライゼーション性能が得られた。 コードはオープンソース化されている(https://github.com/GREAT-WHU/DBA-Fusion)。

Visual simultaneous localization and mapping (VSLAM) has broad applications, with state-of-the-art methods leveraging deep neural networks for better robustness and applicability. However, there is a lack of research in fusing these learning-based methods with multi-sensor information, which could be indispensable to push related applications to large-scale and complex scenarios. In this paper, we tightly integrate the trainable deep dense bundle adjustment (DBA) with multi-sensor information through a factor graph. In the framework, recurrent optical flow and DBA are performed among sequential images. The Hessian information derived from DBA is fed into a generic factor graph for multi-sensor fusion, which employs a sliding window and supports probabilistic marginalization. A pipeline for visual-inertial integration is firstly developed, which provides the minimum ability of metric-scale localization and mapping. Furthermore, other sensors (e.g., global navigation satellite system) are integrated for driftless and geo-referencing functionality. Extensive tests are conducted on both public datasets and self-collected datasets. The results validate the superior localization performance of our approach, which enables real-time dense mapping in large-scale environments. The code has been made open-source (https://github.com/GREAT-WHU/DBA-Fusion).
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# 大規模言語モデルとネットワークスライシング管理とオーケストレーション

Large Language Models meet Network Slicing Management and Orchestration ( http://arxiv.org/abs/2403.13721v1 )

ライセンス: Link先を確認
Abdulhalim Dandoush, Viswanath Kumarskandpriya, Mueen Uddin, Usman Khalil, (参考訳) 将来のネットワークのための基盤技術であるネットワークスライシングは、共有物理インフラ上でカスタマイズされた仮想ネットワークを作成することができる。 これにより、特定のアプリケーションに適した専用のリソースを提供することで、イノベーションとアジリティを促進する。 しかし、現在のオーケストレーションと管理のアプローチは、複数の管理ドメイン環境における新しいサービス要求の複雑さに対処する際の制限に直面しています。 本稿では,LLM(Large Language Models)とマルチエージェントシステムを活用したネットワークスライシングの今後の展望を提案し,既存のManagement and Orchestration(MANO)フレームワークと統合可能なフレームワークを提供する。 このフレームワークはLLMを活用して、ユーザの意図を技術的要件に翻訳し、ネットワーク機能をインフラストラクチャにマップし、スライスライフサイクル全体を管理する。 また、このフレームワークの実装に伴う課題と、それらを緩和する潜在的なソリューションについても論じる。

Network slicing, a cornerstone technology for future networks, enables the creation of customized virtual networks on a shared physical infrastructure. This fosters innovation and agility by providing dedicated resources tailored to specific applications. However, current orchestration and management approaches face limitations in handling the complexity of new service demands within multi-administrative domain environments. This paper proposes a future vision for network slicing powered by Large Language Models (LLMs) and multi-agent systems, offering a framework that can be integrated with existing Management and Orchestration (MANO) frameworks. This framework leverages LLMs to translate user intent into technical requirements, map network functions to infrastructure, and manage the entire slice lifecycle, while multi-agent systems facilitate collaboration across different administrative domains. We also discuss the challenges associated with implementing this framework and potential solutions to mitigate them.
翻訳日:2024-03-21 16:18:41 公開日:2024-03-20
# 確率補間子とフェルマー過程による確率予測

Probabilistic Forecasting with Stochastic Interpolants and Föllmer Processes ( http://arxiv.org/abs/2403.13724v1 )

ライセンス: Link先を確認
Yifan Chen, Mark Goldstein, Mengjian Hua, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, (参考訳) 生成モデルに基づく動的システムの確率的予測のためのフレームワークを提案する。 システム状態の経時的観察を前提として,将来のシステム状態の条件分布からのサンプリングとして予測問題を定式化する。 この目的のために、任意の基底分布と対象の間の生成モデルの構築を容易にする確率補間器の枠組みを利用する。 我々は、現在のシステム状態の初期条件として、有限時間かつバイアスのないターゲット条件分布からサンプルを出力する、架空の非物理的確率力学を設計する。 この過程は、現在の状態中心の点質量を予測の確率的アンサンブルにマッピングする。 この課題を達成する確率微分方程式(SDE)に入るドリフト係数は非特異であり、時系列データ上での2乗損失回帰により効率よく学習できることを証明した。 このSDEのドリフトと拡散係数は訓練後に調整できることを示し、推定誤差の影響を最小限に抑える特定の選択がF\"ollmerプロセスを与えることを示した。 我々は,KTHおよびCLEVRERデータセット上で,統計的に強制されたNavier-Stokesやビデオ予測など,複雑で高次元な予測問題に対するアプローチの有用性を強調した。

We propose a framework for probabilistic forecasting of dynamical systems based on generative modeling. Given observations of the system state over time, we formulate the forecasting problem as sampling from the conditional distribution of the future system state given its current state. To this end, we leverage the framework of stochastic interpolants, which facilitates the construction of a generative model between an arbitrary base distribution and the target. We design a fictitious, non-physical stochastic dynamics that takes as initial condition the current system state and produces as output a sample from the target conditional distribution in finite time and without bias. This process therefore maps a point mass centered at the current state onto a probabilistic ensemble of forecasts. We prove that the drift coefficient entering the stochastic differential equation (SDE) achieving this task is non-singular, and that it can be learned efficiently by square loss regression over the time-series data. We show that the drift and the diffusion coefficients of this SDE can be adjusted after training, and that a specific choice that minimizes the impact of the estimation error gives a F\"ollmer process. We highlight the utility of our approach on several complex, high-dimensional forecasting problems, including stochastically forced Navier-Stokes and video prediction on the KTH and CLEVRER datasets.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# M-HOF-Opt:マルチプライヤ誘導ロススケープスケジューリングによる多目的階層出力フィードバック最適化

M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling ( http://arxiv.org/abs/2403.13728v1 )

ライセンス: Link先を確認
Xudong Sun, Nutan Chen, Alexej Gossmann, Yu Xing, Carla Feistner, Emilio Dorigatt, Felix Drost, Daniele Scarcella, Lisa Beer, Carsten Marr, (参考訳) ニューラルネットワークのパラメータ化損失関数が多くの項からなる場合、最適化過程における重み乗算の組合せ選択は難しい問題となる。 これを解決するために,各損失項の多目的降下を促進するハイパーボリュームベース確率を用いて,結合モデルパラメータと乗算器進化過程の確率的グラフィカルモデル(PGM)を提案する。 次に、逐次決定過程としての対応するパラメータと乗算器の推定を最適制御問題にキャストし、多目的降下目標を階層的に一連の制約最適化サブプロブレムに配置する。 サブプロブレム制約は、パレート支配に従って自動的に適応し、損失項の出力フィードバックを介して損失景観をスケジュールする低レベル乗算器コントローラのセットポイントとして機能する。 提案手法はマルチプライヤフリーであり,エポックの時間スケールで動作するため,フルトレーニングサイクルのマルチプライヤチューニングと比較して,膨大な計算資源を節約できる。 PACS領域一般化タスクにおいて6つの損失項を持つドメイン不変変分自動符号化に適用し、様々な制御ハイパーパラメータ、および異なる乗算初期条件におけるロバストな性能を観察し、他の乗算器スケジューリング手法よりも優れた性能を示した。 我々は,多目的階層型出力フィードバックトレーニングスキームを他の深層学習分野に適用するために,多くの損失項をカスタムで定義した。

When a neural network parameterized loss function consists of many terms, the combinatorial choice of weight multipliers during the optimization process forms a challenging problem. To address this, we proposed a probabilistic graphical model (PGM) for the joint model parameter and multiplier evolution process, with a hypervolume based likelihood that promotes multi-objective descent of each loss term. The corresponding parameter and multiplier estimation as a sequential decision process is then cast into an optimal control problem, where the multi-objective descent goal is dispatched hierarchically into a series of constraint optimization sub-problems. The sub-problem constraint automatically adapts itself according to Pareto dominance and serves as the setpoint for the low level multiplier controller to schedule loss landscapes via output feedback of each loss term. Our method is multiplier-free and operates at the timescale of epochs, thus saves tremendous computational resources compared to full training cycle multiplier tuning. We applied it to domain invariant variational auto-encoding with 6 loss terms on the PACS domain generalization task, and observed robust performance across a range of controller hyperparameters, as well as different multiplier initial conditions, outperforming other multiplier scheduling methods. We offered modular implementation of our method, admitting custom definition of many loss terms for applying our multi-objective hierarchical output feedback training scheme to other deep learning fields.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 自律運転システムのオンラインテストのための強化学習 : レプリケーションと拡張研究

Reinforcement Learning for Online Testing of Autonomous Driving Systems: a Replication and Extension Study ( http://arxiv.org/abs/2403.13729v1 )

ライセンス: Link先を確認
Luca Giamattei, Matteo Biagiola, Roberto Pietrantuono, Stefano Russo, Paolo Tonella, (参考訳) 近年の研究では、多目的探索と組み合わせて使用される強化学習(RL)が、Deep Neural Network対応システムのオンラインテストのための代替技術(ランダム検索と多目的探索)より優れていることが示されている。 これらの手法の実証評価は、最先端の自律運転システム(ADS)を用いて行われた。 この作品は、その実証研究の再現と拡張である。 再現実験の結果、RLは原実験と同じ条件下で行った比較では純粋なランダムなテスト生成を上回りませんが、衝突の測定方法から生じる相反する要因は見当たらないことが分かりました。 本拡張は,本複製で観測されるRLの性能低下の原因のいくつかを解消することを目的としており,(1)RLエージェントに対するコントラストや無益なフィードバックを提供する報酬成分の存在,(2)本質的な連続状態空間の離散化を必要とするRLアルゴリズム(Q-learning)の使用などである。 その結果、我々の新しいRLエージェントは、ランダムテストよりも優れた効果的なポリシーに収束できることがわかった。 また、オンラインADSテストにRLを最大限活用する方法について、さらなる調査を行うための改善点も挙げている。

In a recent study, Reinforcement Learning (RL) used in combination with many-objective search, has been shown to outperform alternative techniques (random search and many-objective search) for online testing of Deep Neural Network-enabled systems. The empirical evaluation of these techniques was conducted on a state-of-the-art Autonomous Driving System (ADS). This work is a replication and extension of that empirical study. Our replication shows that RL does not outperform pure random test generation in a comparison conducted under the same settings of the original study, but with no confounding factor coming from the way collisions are measured. Our extension aims at eliminating some of the possible reasons for the poor performance of RL observed in our replication: (1) the presence of reward components providing contrasting or useless feedback to the RL agent; (2) the usage of an RL algorithm (Q-learning) which requires discretization of an intrinsically continuous state space. Results show that our new RL agent is able to converge to an effective policy that outperforms random testing. Results also highlight other possible improvements, which open to further investigations on how to best leverage RL for online ADS testing.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 耐故障性コードスイッチングの実験

Experimental fault-tolerant code switching ( http://arxiv.org/abs/2403.13732v1 )

ライセンス: Link先を確認
Ivan Pogorelov, Friederike Butt, Lukas Postler, Christian D. Marciniak, Philipp Schindler, Markus Müller, Thomas Monz, (参考訳) 量子誤り訂正は、論理情報を複数の物理量子ビットに符号化することで、量子コンピュータにおけるハードウェアエラーを緩和するための重要なツールである。 しかし、単一の誤り訂正コードは、普遍量子コンピューティング [1-3] に必要な全てのゲートを本質的にフォールトトレラントに実装することができない。 この問題を解決する方法の1つは、符号化された論理情報を保存しながら、2つの適切な誤り訂正符号を切り替えることである。 本研究では,2つのコード間でのフォールトトレラントなコードスイッチングを初めて実験的に実施する。 1つは、フォールトトレラントなCNOTと$H$量子ゲートを備えた7キュービットカラーコード[7]であり、もう1つは、フォールトトレラントな$T$ゲートの実装を可能にする10キュービットコード[8]である。 それらは相補的な普遍ゲートセットを形成する。 基本的コードスイッチングブロックに基づいて論理回路を構築し、単一コード内でフォールトトレラントな方法でネイティブにアクセスできない12の論理状態を作成する。 最後に,1つの論理量子回路における全普遍ゲートを用いた2つの論理量子ビットの絡み合わせにコード切替を用いる。 その結果、資源状態の確率的準備に頼らずに、補助量子ビットのオーバーヘッドが低い論理量子ビットに対する決定論的制御への新たな経路を実験的に開けた。

Quantum error correction is a crucial tool for mitigating hardware errors in quantum computers by encoding logical information into multiple physical qubits. However, no single error-correcting code allows for an intrinsically fault-tolerant implementation of all the gates needed for universal quantum computing [1-3]. One way to tackle this problem is to switch between two suitable error-correcting codes, while preserving the encoded logical information, which in combination give access to a fault-tolerant universal gate set [4-6]. In this work, we present the first experimental implementation of fault-tolerant code switching between two codes. One is the seven-qubit color code [7], which features fault-tolerant CNOT and $H$ quantum gates, while the other one, the 10-qubit code [8], allows for a fault-tolerant $T$-gate implementation. Together they form a complementary universal gate set. Building on essential code switching building blocks, we construct logical circuits and prepare 12 different logical states which are not accessible natively in a fault-tolerant way within a single code. Finally, we use code switching to entangle two logical qubits employing the full universal gate set in a single logical quantum circuit. Our results experimentally open up a new route towards deterministic control over logical qubits with low auxiliary qubit overhead, not relying on the probabilistic preparation of resource states.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# PoWブロックチェーンのマイニングパワー推定における統計的信頼度

Statistical Confidence in Mining Power Estimates for PoW Blockchains ( http://arxiv.org/abs/2403.13736v1 )

ライセンス: Link先を確認
Mary Milad, Christina Ovezik, Dimitris Karakostas, Daniel W. Woods, (参考訳) ブロックチェーンシステムのセキュリティは、参加者間のマイニングパワーの分散に依存する。 十分な採掘力が1つのエンティティによって制御されている場合、彼らは自身のバージョンのイベントを強制することができる。 例えば、コインをダブル使用することができる。 しかし、Proof of Work(PoW)ブロックチェーンでは、マイニングパワーの分散はブロックチェーンから直接読むことはできない。 ブロックチェーンの分散化の一般的な指標である中本係数について,この統計的不確実性を定量化する枠組みを導入する。 毎日の粒度を使用すると、Bitcoinは仮説テストの半分以上({\alpha = 0.05)に失敗する。 これらの理由から,少なくとも7日間のサンプルウィンドウ上にブロックを集約することを推奨する。 一つの値を報告するのではなく、特定の意味レベル {\alpha} で統計的に支持される可能な中本係数値の範囲を生成する。

The security of blockchain systems depends on the distribution of mining power across participants. If sufficient mining power is controlled by one entity, they can force their own version of events. This may allow them to double spend coins, for example. For Proof of Work (PoW) blockchains, however, the distribution of mining power cannot be read directly from the blockchain and must instead be inferred from the number of blocks mined in a specific sample window. We introduce a framework to quantify this statistical uncertainty for the Nakamoto coefficient, which is a commonly-used measure of blockchain decentralization. We show that aggregating blocks over a day can lead to considerable uncertainty, with Bitcoin failing more than half the hypothesis tests ({\alpha} = 0.05) when using a daily granularity. For these reasons, we recommend that blocks are aggregated over a sample window of at least 7 days. Instead of reporting a single value, our approach produces a range of possible Nakamoto coefficient values that have statistical support at a particular significance level {\alpha}.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# EthioLLM:タスク評価を伴うエチオピア語用多言語大言語モデル

EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation ( http://arxiv.org/abs/2403.13737v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Israel Abebe Azime, Tadesse Destaw Belay, Mesay Gemeda Yigezu, Moges Ahmed Mehamed, Abinew Ali Ayele, Ebrahim Chekol Jibril, Michael Melese Woldeyohannis, Olga Kolesnikova, Philipp Slusallek, Dietrich Klakow, Shengwu Xiong, Seid Muhie Yimam, (参考訳) 大規模言語モデル(LLM)は、最近、様々な下流自然言語処理(NLP)タスクにおける優れたパフォーマンスのために人気を博している。 しかし、低リソース言語は、LLMを訓練するリソースが不足しているため、NLP分野における現在の最先端(SOTA)開発に遅れを取っている。 エチオピア語は言語学的多様性が顕著で、様々な文字が包含されており、宗教的・文化的意義が深い。 本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMと,下流NLPタスクのための新しいベンチマークデータセットであるEthiobenchmarkを紹介する。 我々は、これらのモデルの性能を5つの下流NLPタスクで評価する。 我々は、多言語言語モデル、様々な下流タスクのための新しいベンチマークデータセット、タスク固有の微調整言語モデルをオープンソース化し、モデルの性能について議論する。 私たちのデータセットとモデルはhttps://huggingface.co/EthioNLPリポジトリで公開されています。

Large language models (LLMs) have gained popularity recently due to their outstanding performance in various downstream Natural Language Processing (NLP) tasks. However, low-resource languages are still lagging behind current state-of-the-art (SOTA) developments in the field of NLP due to insufficient resources to train LLMs. Ethiopian languages exhibit remarkable linguistic diversity, encompassing a wide array of scripts, and are imbued with profound religious and cultural significance. This paper introduces EthioLLM -- multilingual large language models for five Ethiopian languages (Amharic, Ge'ez, Afan Oromo, Somali, and Tigrinya) and English, and Ethiobenchmark -- a new benchmark dataset for various downstream NLP tasks. We evaluate the performance of these models across five downstream NLP tasks. We open-source our multilingual language models, new benchmark datasets for various downstream tasks, and task-specific fine-tuned language models and discuss the performance of the models. Our dataset and models are available at the https://huggingface.co/EthioNLP repository.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 確率論的自己説明型ニューラルネットワークによる不確実性を考慮した説明

Uncertainty-Aware Explanations Through Probabilistic Self-Explainable Neural Networks ( http://arxiv.org/abs/2403.13740v1 )

ライセンス: Link先を確認
Jon Vadillo, Roberto Santana, Jose A. Lozano, Marta Kwiatkowska, (参考訳) Deep Neural Networksの透明性の欠如は、ハイステークなアプリケーションにおける信頼性と使用を著しく損なう制限であり続けている。 このような制限を克服するためのプロトタイプベースの自己説明型ニューラルネットワーク(PSENN)は、手前の入力と出力クラスのプロトタイプ表現のセットとの類似性に依存しており、深いが透過的なアーキテクチャを提供する。 これまでのところ、そのようなモデルは、モデルの学習段階以降も固定されているプロトタイプの点推定を考慮し、設計されている。 本稿では,PSENNの確率的再構成(Prob-PSENN)を提案する。 これは、プロトタイプのエンドツーエンド学習のためのより柔軟なフレームワークを提供するだけでなく、以前のアプローチでは欠落していたモデルの説明的不確実性を捉えることもできる。 さらに, プロトタイプが説明と予測の両方を決定するので, Prob-PSENNはモデルが不確定または不確実な予測をしていることを検知し, 有効な説明を得る。 実験の結果, Prob-PSENN は確率的でないモデルよりも有意義で頑健な説明を提供し,モデルの説明可能性や信頼性を高めた。

The lack of transparency of Deep Neural Networks continues to be a limitation that severely undermines their reliability and usage in high-stakes applications. Promising approaches to overcome such limitations are Prototype-Based Self-Explainable Neural Networks (PSENNs), whose predictions rely on the similarity between the input at hand and a set of prototypical representations of the output classes, offering therefore a deep, yet transparent-by-design, architecture. So far, such models have been designed by considering pointwise estimates for the prototypes, which remain fixed after the learning phase of the model. In this paper, we introduce a probabilistic reformulation of PSENNs, called Prob-PSENN, which replaces point estimates for the prototypes with probability distributions over their values. This provides not only a more flexible framework for an end-to-end learning of prototypes, but can also capture the explanatory uncertainty of the model, which is a missing feature in previous approaches. In addition, since the prototypes determine both the explanation and the prediction, Prob-PSENNs allow us to detect when the model is making uninformed or uncertain predictions, and to obtain valid explanations for them. Our experiments demonstrate that Prob-PSENNs provide more meaningful and robust explanations than their non-probabilistic counterparts, thus enhancing the explainability and reliability of the models.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# ハイパー戦略論理

Hyper Strategy Logic ( http://arxiv.org/abs/2403.13741v1 )

ライセンス: Link先を確認
Raven Beutner, Bernd Finkbeiner, (参考訳) 戦略論理(SL)は、マルチエージェントシステムにおける戦略的推論を可能にする強力な時間論理である。 SLは戦略に関する明示的な(一階の)定量化をサポートし、ナッシュ均衡や支配的戦略など多くの重要な特性を表現する論理的枠組みを提供する。 SLでは、同じ戦略を複数の戦略プロファイルで使用することができるが、それぞれのプロファイルは、特定の戦略的相互作用から生じる単一経路を考慮に入れた特性として、経路固有性(path-property)として評価される。 本稿では、複数の戦略プロファイルの結果を比較可能な戦略論理であるHyper Strategy Logic(HyperSL)を提案する。 本稿では,非干渉,定量的なナッシュ均衡,最適対向計画,不完全な情報に基づく推論など,SLで表現できない重要な特性をHyperSLで捉えることができることを示す。 アルゴリズム側では,決定可能なモデルチェックを用いたHyperSLの表現的断片を同定し,モデルチェックアルゴリズムを提案する。 本アルゴリズムのプロトタイプ実装に貢献し,実験結果を報告する。

Strategy logic (SL) is a powerful temporal logic that enables strategic reasoning in multi-agent systems. SL supports explicit (first-order) quantification over strategies and provides a logical framework to express many important properties such as Nash equilibria, dominant strategies, etc. While in SL the same strategy can be used in multiple strategy profiles, each such profile is evaluated w.r.t. a path-property, i.e., a property that considers the single path resulting from a particular strategic interaction. In this paper, we present Hyper Strategy Logic (HyperSL), a strategy logic where the outcome of multiple strategy profiles can be compared w.r.t. a hyperproperty, i.e., a property that relates multiple paths. We show that HyperSL can capture important properties that cannot be expressed in SL, including non-interference, quantitative Nash equilibria, optimal adversarial planning, and reasoning under imperfect information. On the algorithmic side, we identify an expressive fragment of HyperSL with decidable model checking and present a model-checking algorithm. We contribute a prototype implementation of our algorithm and report on encouraging experimental results.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# VANETの量子セキュア認証-条件付きプライバシ保護認証

Quantum-Secure Certificate-Less Conditional Privacy-Preserving Authentication for VANET ( http://arxiv.org/abs/2403.13743v1 )

ライセンス: Link先を確認
Girraj Kumar Verma, Nahida Majeed Wani, Prosanta Gope, (参考訳) Vehicular Ad-hoc Networks (VANETs) は、インテリジェントトランスポートシステムとスマートシティをシームレスな車両通信によって変更し、安全性と有効性を向上した。 しかし、後量子時代の情報源と情報の信頼性を確保するため、文献にいくつかの認証スキームが考案されている。 このような構築の最も一般的な基盤は格子ベースの暗号である。 しかし、既存の格子ベースの認証方式は、マスターシークレットキーの漏洩とキーエスクロー問題の潜在的な問題に対処するには不十分である。 両問題を巧妙に解決し,システム全体の効率を保ちながら,欠陥を解消する量子セキュア認証方式を提案する。 最先端のスキームと比較して、証明可能なセキュリティと全体的なパフォーマンス評価は、提案されたアプローチの適合性を浮き彫りにする。

Vehicular Ad-hoc Networks (VANETs) marked a pronounced change in the Intelligent Transport System and Smart Cities through seamless vehicle communication to intensify safety and efficacy. However, a few authentication schemes have been devised in the literature to ensure the authenticity of the source and information in the post-quantum era. The most popular base for such construction is lattice-based cryptography. However, existing lattice-based authentication schemes fall short of addressing the potential challenges of the leakage of the master secret key and key-escrow problem. By ingeniously addressing both issues, the paper proposes the \emph{first} quantum secure authentication scheme to eliminate the flaws while maintaining the system's overall efficiency intact. Compared to the state-of-the-art schemes, the provable security and overall performance assessment highlight the suitability of the proposed approach.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# Be-Your-Outpainter: 入力特化適応によるビデオ出力のマスタリング

Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation ( http://arxiv.org/abs/2403.13745v1 )

ライセンス: Link先を確認
Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li, (参考訳) フレーム間の一貫性とフレーム内一貫性を維持しながら、入力ビデオのビューポート外でビデオコンテンツを生成することを目的としている。 既存のメソッドは、生成品質または柔軟性のいずれかで不足する。 入力-特定適応を通したMOTIAマスタリングビデオアウトペイントについて紹介する。これは拡散に基づくパイプラインで、ソースビデオの固有のデータ固有のパターンと、効果的なアウトペイントに先立つ画像/ビデオ生成の両方を活用する。 MOTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。 入力固有の適応フェーズは、ワンショットソースビデオ上で、効率的で効果的な擬似露光学習を行う。 このプロセスは、モデルにソースビデオ内のパターンを特定し、学習させ、標準生成プロセスとアウトペイントの間のギャップを埋める。 その後のフェーズであるパターン認識のアウトパインティングは、これらの学習パターンの一般化に特化して、アウトパインティング結果を生成する。 空間認識挿入やノイズトラベルなどの追加戦略が提案され、拡散モデルの生成前とソースビデオから取得したビデオパターンをよりよく活用する。 大規模な評価はMOTIAの優位性を強調し、広く認識されているベンチマークにおいて既存の最先端の手法よりも優れている。 特に、これらの進歩はタスク固有の広範囲なチューニングを必要とせずに達成される。

Video outpainting is a challenging task, aiming at generating video content outside the viewport of the input video while maintaining inter-frame and intra-frame consistency. Existing methods fall short in either generation quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through Input-Specific Adaptation, a diffusion-based pipeline that leverages both the intrinsic data-specific patterns of the source video and the image/video generative prior for effective outpainting. MOTIA comprises two main phases: input-specific adaptation and pattern-aware outpainting. The input-specific adaptation phase involves conducting efficient and effective pseudo outpainting learning on the single-shot source video. This process encourages the model to identify and learn patterns within the source video, as well as bridging the gap between standard generative processes and outpainting. The subsequent phase, pattern-aware outpainting, is dedicated to the generalization of these learned patterns to generate outpainting outcomes. Additional strategies including spatial-aware insertion and noise travel are proposed to better leverage the diffusion model's generative prior and the acquired video patterns from source videos. Extensive evaluations underscore MOTIA's superiority, outperforming existing state-of-the-art methods in widely recognized benchmarks. Notably, these advancements are achieved without necessitating extensive, task-specific tuning.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 深部ハッシュ画像検索における高分解能特徴の活用

Leveraging High-Resolution Features for Improved Deep Hashing-based Image Retrieval ( http://arxiv.org/abs/2403.13747v1 )

ライセンス: Link先を確認
Aymene Berriche, Mehdi Adjal Zakaria, Riyadh Baghdadi, (参考訳) 効率的な画像検索のための主要なアプローチとして、ディープハッシュ技術が登場している。 伝統的に、これらの方法はAlexNetやVGG-16のような事前訓練された畳み込みニューラルネットワーク(CNN)を特徴抽出器として利用している。 しかしながら、データセットの複雑さの増大は、これらのバックボーンアーキテクチャが効果的な画像検索に不可欠な意味のある特徴をキャプチャする上で、課題となる。 本研究では,画像検索の最先端技術を用いて学習した高精細な特徴を用いた画像検索の有効性について検討する。 具体的には,HHNet(High-Resolution Hashing Network)と呼ばれるディープハッシュタスクのバックボーンとして高分解能ネットワーク(HRNet)を利用する新しい手法を提案する。 提案手法は,CIFAR-10, NUS-WIDE, MS COCO, ImageNetなど,すべてのベンチマークデータセットを対象とした既存手法と比較して,優れた性能を示す。 このパフォーマンス改善は、複雑なデータセットに対してより顕著であり、複雑な画像検索タスクのために高精細な機能を学ぶ必要性を強調している。 さらに、異なるHRNet構成の包括的分析を行い、ディープハッシュタスクの最適アーキテクチャに関する洞察を提供する。

Deep hashing techniques have emerged as the predominant approach for efficient image retrieval. Traditionally, these methods utilize pre-trained convolutional neural networks (CNNs) such as AlexNet and VGG-16 as feature extractors. However, the increasing complexity of datasets poses challenges for these backbone architectures in capturing meaningful features essential for effective image retrieval. In this study, we explore the efficacy of employing high-resolution features learned through state-of-the-art techniques for image retrieval tasks. Specifically, we propose a novel methodology that utilizes High-Resolution Networks (HRNets) as the backbone for the deep hashing task, termed High-Resolution Hashing Network (HHNet). Our approach demonstrates superior performance compared to existing methods across all tested benchmark datasets, including CIFAR-10, NUS-WIDE, MS COCO, and ImageNet. This performance improvement is more pronounced for complex datasets, which highlights the need to learn high-resolution features for intricate image retrieval tasks. Furthermore, we conduct a comprehensive analysis of different HRNet configurations and provide insights into the optimal architecture for the deep hashing task
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 因子化ガウス近似を用いた変分推論のためのダイバージェンスの順序付け

An Ordering of Divergences for Variational Inference with Factorized Gaussian Approximations ( http://arxiv.org/abs/2403.13748v1 )

ライセンス: Link先を確認
Charles C. Margossian, Loucas Pillaud-Vivien, Lawrence K. Saul, (参考訳) 抽出可能な分布$p$が与えられたとき、変動推論(VI)の問題は、より抽出可能な族$\mathcal{Q}$から最高の近似$q$を計算することである。 最も一般的な近似は、KL(Kullback-Leibler)の発散を最小限にすることで得られる。 しかし、発散の有効な選択肢は他にも存在し、$\mathcal{Q}$ が ~$p$ を含まない場合には、それぞれの発散は異なる解をチャンピオンする。 密度共分散行列を持つガウス行列が対角共分散行列を持つガウス行列によって近似されるとき、分散の選択が VI の結果にどのように影響するかを分析する。 この設定では、分散、精度、エントロピーなどの様々な不確実性の測度を、それらの変動近似が誤って推定する量によって、異なる発散を \textit{ordered} で表すことができることを示す。 また、これらの測度のうちの2つが分解近似によって同時に一致できないことを示す不合理性定理を導出するので、発散の選択は、どの測度が正しく推定されたとしても、どの測度を正確に判断するかを知らせる。 我々の分析は、KL の発散、R'enyi の発散、および $\nabla\log p$ と $\nabla\log q$ を比較するスコアベースの発散をカバーしている。 我々は、これらの順序が VI を用いて非ガウス分布を近似するときに成立するかどうかを経験的に評価する。

Given an intractable distribution $p$, the problem of variational inference (VI) is to compute the best approximation $q$ from some more tractable family $\mathcal{Q}$. Most commonly the approximation is found by minimizing a Kullback-Leibler (KL) divergence. However, there exist other valid choices of divergences, and when $\mathcal{Q}$ does not contain~$p$, each divergence champions a different solution. We analyze how the choice of divergence affects the outcome of VI when a Gaussian with a dense covariance matrix is approximated by a Gaussian with a diagonal covariance matrix. In this setting we show that different divergences can be \textit{ordered} by the amount that their variational approximations misestimate various measures of uncertainty, such as the variance, precision, and entropy. We also derive an impossibility theorem showing that no two of these measures can be simultaneously matched by a factorized approximation; hence, the choice of divergence informs which measure, if any, is correctly estimated. Our analysis covers the KL divergence, the R\'enyi divergences, and a score-based divergence that compares $\nabla\log p$ and $\nabla\log q$. We empirically evaluate whether these orderings hold when VI is used to approximate non-Gaussian distributions.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# WeisfeilerとLeman Go Loopy:グラフ表現学習の新しい階層

Weisfeiler and Leman Go Loopy: A New Hierarchy for Graph Representational Learning ( http://arxiv.org/abs/2403.13749v1 )

ライセンス: Link先を確認
Raffaele Paolino, Sohir Maskey, Pascal Welke, Gitta Kutyniok, (参考訳) グラフ同型テストの新しい階層と対応するGNNフレームワークである$r$-loopy Weisfeiler-Leman$r$-$\ell{}$WLを導入する。 特に、$r$-$\ell{}$WL がサクタスグラフの準同型を数えることができることを示す。 これは、木の準同型しか数えられない古典的な 1-WL を厳密に拡張し、実際、任意の固定された $k$ に対して $k$-WL と相容れない。 提案した$r$-$\ell{}$MPNNの複数の合成データセットに対する表現力とカウント力を実証的に検証し,様々な実世界のデータセットにおける最先端の予測性能を示す。 コードはhttps://github.com/RPaolino/loopyで公開されている。

We introduce $r$-loopy Weisfeiler-Leman ($r$-$\ell{}$WL), a novel hierarchy of graph isomorphism tests and a corresponding GNN framework, $r$-$\ell{}$MPNN, that can count cycles up to length $r + 2$. Most notably, we show that $r$-$\ell{}$WL can count homomorphisms of cactus graphs. This strictly extends classical 1-WL, which can only count homomorphisms of trees and, in fact, is incomparable to $k$-WL for any fixed $k$. We empirically validate the expressive and counting power of the proposed $r$-$\ell{}$MPNN on several synthetic datasets and present state-of-the-art predictive performance on various real-world datasets. The code is available at https://github.com/RPaolino/loopy
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 未知光子数を持つ2つの不整点源の量子制限超解像

Quantum-limited superresolution of two incoherent point sources with unknown photon numbers ( http://arxiv.org/abs/2403.13752v1 )

ライセンス: Link先を確認
Junyan Li, Shengshi Pang, (参考訳) 超解像は、レイリーの基準の限界を克服し、2つの非コヒーレント光学点源のセントロイド分離を解く際の精度を大幅に向上させることが示されている。 しかし、近年では、2つの不整光源の光子数が不明である場合には、2つの光子数が実際に異なるときに超解像の精度が消えることが判明した。 本研究は,2つの不整点光源と未知光子数との遠心分離の精度を詳細に解析し,2つの光源の光子数が異なるが十分近い場合,超解像は相変わらず異なる精度で実現可能であることを示す。 2つの光源の光子数がどれだけ近いかという条件は、超解像を実現し、光子数差の異なる状態における超解像の精度を導出するために必要となる。 さらに,光子数の違い,2つの点スプレッド関数の差,および2つの点スレッド関数の偏差と2つの点スレッド関数の偏差の競合が超解像の精度を決定することを示す。 その結果, 2つの点源と同一の点展開関数と等しい光子数とを区別した, 遠心分離の精度の限界が認められた。 結果は最終的にガウス点スプレッド関数によって説明される。

Superresolution has been demonstrated to overcome the limitation of the Rayleigh's criterion and achieve significant improvement of the precision in resolving the centroid separation of two incoherent optical point sources. However, in recent years, it was found that if the photon numbers of the two incoherent optical sources are unknown, the precision of superresolution vanishes when the two photon numbers are actually different. In this work, we analyze the estimation precision of the centroid separation between two incoherent optical sources with the same point-spread functions and unknown photon numbers in detail, and show that when the photon numbers of the two optical sources are different but sufficiently close, the superresolution can still realized but with different precisions. We find the condition on how close the photons numbers of two optical sources need to be to realize the superresolution, and derive the precision of superresolution in different regimes of the photon number difference. We further consider the superresolution for two incoherent optical sources with different point-spread functions, and show that the competition between the difference of photon numbers, the difference of the two point-spread functions and the centroid separation of the two optical sources determines the precision of superresolution. The results exhibit various precision limits of the centroid separation distinct from that of two point sources with identical point-spread functions and equal photon numbers. The results are finally illustrated by Gaussian point-spread functions.
翻訳日:2024-03-21 16:08:57 公開日:2024-03-20
# 異なるトークン化方式は、スペイン数字協定で比較可能なパフォーマンスをもたらす

Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement ( http://arxiv.org/abs/2403.13754v1 )

ライセンス: Link先を確認
Catherine Arnett, Pamela D. Rivière, Tyler A. Chang, Sean Trott, (参考訳) 言語モデルのトークン化とパフォーマンスの関係は研究のオープンな領域である。 ここでは、異なるトークン化方式がスペイン語の複数形における数字の一致にどのように影響するかを検討する。 形態的に整列したトークン化は他のトークン化方式と同様に、訓練中にそのような方法でトークン化されない単語に対して人工的に誘導しても機能することがわかった。 次に,異なる複数のトークン化のための言語モデル埋め込みが,単一の名詞と複数の名詞を最大に区別する埋め込み空間軸に沿って類似した分布を持つことを示す探索的検討を行った。 以上の結果から, 形態素整合トークン化は実現可能なトークン化手法であり, 既存のモデルはすでにいくつかの形態素パターンを新しい項目に一般化していることが示唆された。 しかし,本研究の結果から,形態的トークン化は性能に厳密には要求されないことが明らかとなった。

The relationship between language model tokenization and performance is an open area of research. Here, we investigate how different tokenization schemes impact number agreement in Spanish plurals. We find that morphologically-aligned tokenization performs similarly to other tokenization schemes, even when induced artificially for words that would not be tokenized that way during training. We then present exploratory analyses demonstrating that language model embeddings for different plural tokenizations have similar distributions along the embedding space axis that maximally distinguishes singular and plural nouns. Our results suggest that morphologically-aligned tokenization is a viable tokenization approach, and existing models already generalize some morphological patterns to new items. However, our results indicate that morphological tokenization is not strictly required for performance.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 視覚言語モデルにおける知識増強による神経変性疾患の歩行映像解析の強化

Enhancing Gait Video Analysis in Neurodegenerative Diseases by Knowledge Augmentation in Vision Language Model ( http://arxiv.org/abs/2403.13756v1 )

ライセンス: Link先を確認
Diwei Wang, Kun Yuan, Candice Muller, Frédéric Blanc, Nicolas Padoy, Hyewon Seo, (参考訳) 単眼歩行ビデオから診断群と歩行障害を評価するための知識増強戦略を提案する。 大規模な事前学習型視覚言語モデル(VLM)に基づいて、歩行ビデオ、クラス固有の記述、数値歩行パラメータの3つの異なるモードの集合的学習を通して、患者の歩行映像の視覚的、テキスト的、数値的表現を学習し、改善する。 まず,テキスト・プロンプト・ラーニングの指導に,クラス固有の医学的記述を活用するために,知識を意識したプロンプト・チューニング戦略を採用する。 第二に、ペア化された歩行パラメータを数値テキストの形で統合し、テキスト表現の数値性を高める。 以上の結果から,ビデオベース分類作業におけるSOTA(State-of-the-art)よりも,学習したクラス固有のテキスト特徴を,定量的な歩行パラメータの語彙を用いて自然言語記述に適切に復号化することが示唆された。 コードとモデルはプロジェクトのページで公開されます。

We present a knowledge augmentation strategy for assessing the diagnostic groups and gait impairment from monocular gait videos. Based on a large-scale pre-trained Vision Language Model (VLM), our model learns and improves visual, textual, and numerical representations of patient gait videos, through a collective learning across three distinct modalities: gait videos, class-specific descriptions, and numerical gait parameters. Our specific contributions are two-fold: First, we adopt a knowledge-aware prompt tuning strategy to utilize the class-specific medical description in guiding the text prompt learning. Second, we integrate the paired gait parameters in the form of numerical texts to enhance the numeracy of the textual representation. Results demonstrate that our model not only significantly outperforms state-of-the-art (SOTA) in video-based classification tasks but also adeptly decodes the learned class-specific text features into natural language descriptions using the vocabulary of quantitative gait parameters. The code and the model will be made available at our project page.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# HierCode: ゼロショット中国語テキスト認識のための軽量階層型コードブック

HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition ( http://arxiv.org/abs/2403.13761v1 )

ライセンス: Link先を確認
Yuyi Zhang, Yuanzhi Zhu, Dezhi Peng, Peirong Zhang, Zhenhua Yang, Zhibo Yang, Cong Yao, Lianwen Jin, (参考訳) 特に中国語のような複雑な文字に対するテキスト認識は、複雑な文字構造と膨大な語彙のために、独特な課題に直面している。 従来のワンホット符号化法は、階層的根基の表現、Of-Vocabulary(OOV)文字の認識、計算強度によるデバイス上の展開に苦慮している。 これらの課題に対処するために,漢字の自然的階層性を利用した新鮮で軽量なコードブックであるHierCodeを提案する。 HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。 このアプローチは、共有ラジカルと構造を利用することでOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴との類似性を計算することでラインレベルの認識タスクも優れている。 手書き、シーン、ドキュメント、ウェブ、古代のテキストを含む様々なベンチマークにわたる広範な実験は、従来の文字認識とゼロショットの文字認識の両方において、HierCodeの優位性を示し、パラメータが大幅に少なく、推論速度が速い最先端のパフォーマンスを示した。

Text recognition, especially for complex scripts like Chinese, faces unique challenges due to its intricate character structures and vast vocabulary. Traditional one-hot encoding methods struggle with the representation of hierarchical radicals, recognition of Out-Of-Vocabulary (OOV) characters, and on-device deployment due to their computational intensity. To address these challenges, we propose HierCode, a novel and lightweight codebook that exploits the innate hierarchical nature of Chinese characters. HierCode employs a multi-hot encoding strategy, leveraging hierarchical binary tree encoding and prototype learning to create distinctive, informative representations for each character. This approach not only facilitates zero-shot recognition of OOV characters by utilizing shared radicals and structures but also excels in line-level recognition tasks by computing similarity with visual features, a notable advantage over existing methods. Extensive experiments across diverse benchmarks, including handwritten, scene, document, web, and ancient text, have showcased HierCode's superiority for both conventional and zero-shot Chinese character or text recognition, exhibiting state-of-the-art performance with significantly fewer parameters and fast inference speed.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 車がドローンと出会うとき:逆天候下でのドメイン適応のためのハイパーボリック・フェデレーション・ラーニング

When Cars meet Drones: Hyperbolic Federated Learning for Source-Free Domain Adaptation in Adverse Weather ( http://arxiv.org/abs/2403.13762v1 )

ライセンス: Link先を確認
Giulia Rizzoli, Matteo Caligiuri, Donald Shenaj, Francesco Barbato, Pietro Zanuttigh, (参考訳) フェデレートラーニング(FL)では、複数のクライアントがプライベートデータを共有せずにグローバルモデルを共同でトレーニングする。 セマンティックセグメンテーションにおいて、Federated Source Free Domain Adaptation (FFreeDA)設定は特に関心があり、クライアントはサーバ側で教師なしの事前トレーニングを行った後、教師なしのトレーニングを受ける。 自動運転車のFLに関する最近の研究はほとんどないが、悪天候や異なる自律エージェントの存在といった本質的な現実的な課題はまだ解明されていない。 このギャップを埋めるために、我々は両方の問題に対処し、車とドローンの両方のクライアントが共存し協力する新しい統合セマンティックセマンティックセマンティクス環境を導入する。 具体的には、異なる気象条件にモデルを動的に適応させるために、バッチノームの気象対応戦略を利用する新しい手法を提案し、一方、双曲空間のプロトタイプは異種クライアント表現の整合に使用される。 最後に,航空車両の悪天候データを用いた最初のセマンティックセグメンテーションデータセットであるFLYAWAREを紹介する。

In Federated Learning (FL), multiple clients collaboratively train a global model without sharing private data. In semantic segmentation, the Federated source Free Domain Adaptation (FFreeDA) setting is of particular interest, where clients undergo unsupervised training after supervised pretraining at the server side. While few recent works address FL for autonomous vehicles, intrinsic real-world challenges such as the presence of adverse weather conditions and the existence of different autonomous agents are still unexplored. To bridge this gap, we address both problems and introduce a new federated semantic segmentation setting where both car and drone clients co-exist and collaborate. Specifically, we propose a novel approach for this setting which exploits a batch-norm weather-aware strategy to dynamically adapt the model to the different weather conditions, while hyperbolic space prototypes are used to align the heterogeneous client representations. Finally, we introduce FLYAWARE, the first semantic segmentation dataset with adverse weather data for aerial vehicles.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# ピアノ音楽のための実用的エンド・ツー・エンド光音楽認識

Practical End-to-End Optical Music Recognition for Pianoform Music ( http://arxiv.org/abs/2403.13763v1 )

ライセンス: Link先を確認
Jiří Mayer, Milan Straka, Jan Hajič jr., Pavel Pecina, (参考訳) 近年の光学音楽認識(OMR)の進歩の大部分は、特にエンドツーエンドのパラダイムに従うモデル、入力画像の読み出し、トークンの線形シーケンスの生成によって達成されている。 残念なことに、多くの楽譜、特にピアノ楽譜は、容易に線形列に変換できない。 これにより、OMR研究者は、広く受け入れられている音楽表記のための構造化フォーマットの代わりに、独自の線形符号化を使用するようになった。 その多様性は、直接OMRシステムの性能を比較するのを困難にしている。 最近のOMRモデルの進歩を有用な結果に近づけるために (a)Linearized MusicXMLと呼ばれるシーケンシャルなフォーマットを定義し、エンドツーエンドのモデルを直接トレーニングし、業界標準のMusicXMLフォーマットとの密結合と互換性を維持する。 b) OpenScore Lieder corpus をベースとして,MusicXML 基底の真理で型セット OMR をベンチマークするための開発とテストセットを作成します。 1,438 と 1,493 のピアノ形式システムがあり、それぞれ IMSLP の画像がある。 (c)データセットのベースラインとして機能し、TEDnメトリックを使用してモデルを評価するために、エンドツーエンドモデルをトレーニングし、微調整する。 また、最近発表された合成ピアノフォームデータセットであるGrandStaffに対して、我々のモデルをテストし、最先端の結果を上回った。

The majority of recent progress in Optical Music Recognition (OMR) has been achieved with Deep Learning methods, especially models following the end-to-end paradigm, reading input images and producing a linear sequence of tokens. Unfortunately, many music scores, especially piano music, cannot be easily converted to a linear sequence. This has led OMR researchers to use custom linearized encodings, instead of broadly accepted structured formats for music notation. Their diversity makes it difficult to compare the performance of OMR systems directly. To bring recent OMR model progress closer to useful results: (a) We define a sequential format called Linearized MusicXML, allowing to train an end-to-end model directly and maintaining close cohesion and compatibility with the industry-standard MusicXML format. (b) We create a dev and test set for benchmarking typeset OMR with MusicXML ground truth based on the OpenScore Lieder corpus. They contain 1,438 and 1,493 pianoform systems, each with an image from IMSLP. (c) We train and fine-tune an end-to-end model to serve as a baseline on the dataset and employ the TEDn metric to evaluate the model. We also test our model against the recently published synthetic pianoform dataset GrandStaff and surpass the state-of-the-art results.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 強化学習のためのビデオからの原則的表現学習に向けて

Towards Principled Representation Learning from Videos for Reinforcement Learning ( http://arxiv.org/abs/2403.13765v1 )

ライセンス: Link先を確認
Dipendra Misra, Akanksha Saran, Tengyang Xie, Alex Lamb, John Langford, (参考訳) 本稿では,ゲームエージェントやソフトウェアテストなどのタスクで十分に利用できるビデオデータを用いて,意思決定のための事前学習表現について検討する。 この問題に関して大きな実証的な進展があったが、理論的な理解はいまだに残っていない。 我々は,表現学習の原理的アプローチに関する理論的研究を開始し,ビデオデータを用いたMDPの潜在状態表現の学習に焦点をあてる。 本研究は,2種類の環境条件について検討する。1つの環境条件は,外因性雑音の存在,つまり背景の人や車の動きなど,時間的相関のない外因性雑音の存在,の2つである。 本稿では, 自動符号化, 時間的コントラスト学習, フォワードモデリングの3つの手法について検討する。 iidノイズのみの存在下で,時間的コントラスト学習とフォワードモデリングの上限を証明した。 これらの手法は潜伏状態の学習に役立ち、多項式サンプルの複雑さを伴う下流RLを効率的に行うことができることを示す。 また、外因性ノイズが存在する場合、ビデオデータから学習する際のサンプルの複雑さが、行動ラベル付き軌跡データから学習するよりも指数関数的に悪化することを示した。 このことは、ビデオ事前学習による強化学習が難しい理由を部分的に説明している。 これらの表現学習手法を2つの視覚領域で評価し,理論的な結果と一致した結果を得た。

We study pre-training representations for decision-making using video data, which is abundantly available for tasks such as game agents and software testing. Even though significant empirical advances have been made on this problem, a theoretical understanding remains absent. We initiate the theoretical investigation into principled approaches for representation learning and focus on learning the latent state representations of the underlying MDP using video data. We study two types of settings: one where there is iid noise in the observation, and a more challenging setting where there is also the presence of exogenous noise, which is non-iid noise that is temporally correlated, such as the motion of people or cars in the background. We study three commonly used approaches: autoencoding, temporal contrastive learning, and forward modeling. We prove upper bounds for temporal contrastive learning and forward modeling in the presence of only iid noise. We show that these approaches can learn the latent state and use it to do efficient downstream RL with polynomial sample complexity. When exogenous noise is also present, we establish a lower bound result showing that the sample complexity of learning from video data can be exponentially worse than learning from action-labeled trajectory data. This partially explains why reinforcement learning with video pre-training is hard. We evaluate these representational learning methods in two visual domains, yielding results that are consistent with our theoretical findings.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# Describe-and-Dissect:言語モデルを用いた視覚ネットワークにおけるニューロンの解釈

Describe-and-Dissect: Interpreting Neurons in Vision Networks with Language Models ( http://arxiv.org/abs/2403.13771v1 )

ライセンス: Link先を確認
Nicholas Bai, Rahul A. Iyer, Tuomas Oikarinen, Tsui-Wei Weng, (参考訳) 本稿では,視覚ネットワークにおける隠れニューロンの役割を記述する新しい手法として,Describe-and-Dissect (DnD)を提案する。 DnDは、ラベル付きトレーニングデータや事前に定義された概念のセットを必要とせずに、マルチモーダル深層学習の最近の進歩を利用して複雑な自然言語記述を生成する。 さらに、DnDはトレーニングフリーなので、新しいモデルをトレーニングせず、将来もっと有能な汎用モデルを簡単に活用できます。 我々は、DnDがより高品質なニューロン記述を提供することで、先行研究より優れていることを示すために、広範囲な質的、定量的な分析を行った。 特に,本手法は,平均値よりも高い品質のラベルを提供し,ニューロンの最も良い説明法として選択される可能性が2倍以上である。

In this paper, we propose Describe-and-Dissect (DnD), a novel method to describe the roles of hidden neurons in vision networks. DnD utilizes recent advancements in multimodal deep learning to produce complex natural language descriptions, without the need for labeled training data or a predefined set of concepts to choose from. Additionally, DnD is training-free, meaning we don't train any new models and can easily leverage more capable general purpose models in the future. We have conducted extensive qualitative and quantitative analysis to show that DnD outperforms prior work by providing higher quality neuron descriptions. Specifically, our method on average provides the highest quality labels and is more than 2 times as likely to be selected as the best explanation for a neuron than the best baseline.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 再構成マスター方程式による正確な熱電流

Accurate heat currents via reorganised master equation ( http://arxiv.org/abs/2403.13776v1 )

ライセンス: Link先を確認
Jonas Glatthard, Guillem Aznar-Menargues, José P. Palao, Daniel Alonso, Luis A. Correa, (参考訳) ナノスケール量子システムとそれらの環境の間のエネルギー交換の正確な特徴付けは、量子技術や中心的な量子熱力学にとって最重要事項である。 ここでは、摂動マスター方程式による定常熱電流を正確に近似するために、系のエネルギーに対する結合誘起再組織補正を慎重に考慮する必要があることを示す。 そうしないと、特に低い温度で、または適度な温度で、大きなエラーが発生する可能性がある。 特に, 再組織エネルギーが弱く, 広い範囲の環境で動作する場合, 「再組織マスター方程式」が, 熱電流の高精度な推定をいかに行うかを示す。 特に、そのようなマスター方程式は、熱電流の計算、力学のモデル化、平衡の正確な取得において、その「非再編成」に勝る。 これは、両方のタイプの方程式が摂動理論の同じ順序に導かれるとしてもそうである。 最も重要なことは、再編成されたマスター方程式を扱う場合、代替のアプローチと比較した場合、余分な複雑さは伴わないことである。 また、熱力学的整合性を確保するために世俗近似を呼び出すことは、その精度を損なうものではない。

The accurate characterisation of energy exchanges between nanoscale quantum systems and their environments is of paramount importance for quantum technologies, and central to quantum thermodynamics. Here, we show that, in order to accurately approximate steady-state heat currents via perturbative master equations, the coupling-induced reorganisation correction to the system's energy must be carefully taken into account. Not doing so, may yield sizeable errors, especially at low, or even moderate temperatures. In particular, we show how a 'reorganised master equation' can produce very accurate estimates for the heat currents when the reorganisation energy is weak and one works with environments with a broad spectrum. Notably, such master equation outperforms its 'non-reorganised' counterpart in the calculation of heat currents, at modelling dynamics, and at correctly capturing equilibration. This is so even if both types of equation are derived to the same order of perturbation theory. Most importantly, working with reorganised master equations does not involve additional complications when compared with alternative approaches. Also, invoking the secular approximation to secure thermodynamic consistency does not compromise their precision.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 認証された人間の軌道予測

Certified Human Trajectory Prediction ( http://arxiv.org/abs/2403.13778v1 )

ライセンス: Link先を確認
Mohammadhossein Bahari, Saeed Saadatnejad, Amirhossein Asgari Farsangi, Seyed-Mohsen Moosavi-Dezfooli, Alexandre Alahi, (参考訳) 軌道予測は自動運転車において重要な役割を果たす。 軌道予測モデルのロバスト性を高めるために多くの戦略が開発されているが、これらの手法は主にヒューリスティックであり、敵の攻撃やノイズの観測に対して確実なロバスト性を提供していない。 本研究では,軌道予測作業に適した認証手法を提案する。 この目的のために, トラジェクティブ予測に係わる固有の課題, 非有界出力, ミュートリモダリティに対処し, その結果, 堅牢性を保証するモデルが得られた。 さらに,提案手法にデノイザを組み込むことにより,さらなる性能向上を図る。 包括的評価を通じて,提案手法の有効性を様々なベースラインで検証し,標準軌跡予測データセットを用いて検証した。 コードはオンラインで利用可能になる。

Trajectory prediction plays an essential role in autonomous vehicles. While numerous strategies have been developed to enhance the robustness of trajectory prediction models, these methods are predominantly heuristic and do not offer guaranteed robustness against adversarial attacks and noisy observations. In this work, we propose a certification approach tailored for the task of trajectory prediction. To this end, we address the inherent challenges associated with trajectory prediction, including unbounded outputs, and mutli-modality, resulting in a model that provides guaranteed robustness. Furthermore, we integrate a denoiser into our method to further improve the performance. Through comprehensive evaluations, we demonstrate the effectiveness of the proposed technique across various baselines and using standard trajectory prediction datasets. The code will be made available online: https://s-attack.github.io/
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 参照レス要約のための情報理論蒸留法

Information-Theoretic Distillation for Reference-less Summarization ( http://arxiv.org/abs/2403.13780v1 )

ライセンス: Link先を確認
Jaehun Jung, Ximing Lu, Liwei Jiang, Faeze Brahman, Peter West, Pang Wei Koh, Yejin Choi, (参考訳) 自動要約の現在の勝利レシピは、ChatGPTのようなプロプライエタリな大規模言語モデル(LLM)や、それらを教師モデルとして模倣することである。 このような大規模言語モデルへのユビキタスな依存は便利だが、もし私たちが、よりコスト効率が高く、制御可能で、強力に要約できる、代替の学習方法を求めるのであれば、小規模モデルが競争的な結果を得ることができたかどうか、重要な疑問が残る。 本稿では,LLMの能力や人文参照に頼らずに,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しいフレームワークInfoSummを提案する。 そこで我々はまず,原文書と要約の相互情報のレンズを通して,要約のデシデラタを新たに定式化することを提案する。 この定式化に基づいて、教師モデルとしてPythia-2.8Bから出発し、さらに、理想的な要約の情報中心測度を最適化するために、モデルを自己学習する。 改良された教師を駆使して、ChatGPTの能力に頼らずに、ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトで強力な要約器にたどり着く。 広範分析により,本手法は人間の評価においてドメイン内教師付きモデルよりも優れており,制御可能な要約においてChatGPTに勝っていることが明らかとなった。

The current winning recipe for automatic summarization is using proprietary large-scale language models (LLMs) such as ChatGPT as is, or imitation learning from them as teacher models. While increasingly ubiquitous dependence on such large-scale language models is convenient, there remains an important question of whether small-scale models could have achieved competitive results, if we were to seek an alternative learning method -- that allows for a more cost-efficient, controllable, yet powerful summarizer. We present InfoSumm, a novel framework to distill a powerful summarizer based on the information-theoretic objective for summarization, without relying on either the LLM's capability or human-written references. To achieve this, we first propose a novel formulation of the desiderata of summarization (saliency, faithfulness and brevity) through the lens of mutual information between the original document and the summary. Based on this formulation, we start off from Pythia-2.8B as the teacher model, which is not yet capable of summarization, then self-train the model to optimize for the information-centric measures of ideal summaries. Distilling from the improved teacher, we arrive at a compact but powerful summarizer with only 568M parameters that performs competitively against ChatGPT, without ever relying on ChatGPT's capabilities. Extensive analysis demonstrates that our approach outperforms in-domain supervised models in human evaluation, let alone state-of-the-art unsupervised methods, and wins over ChatGPT in controllable summarization.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 可逆グラフインフォームド層のスパース実装

Sparse Implementation of Versatile Graph-Informed Layers ( http://arxiv.org/abs/2403.13781v1 )

ライセンス: Link先を確認
Francesco Della Santa, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ上でタスクを学習するための効果的なツールとして登場した。 最近、グラフノードの回帰タスクに対処するためにGraph-Informed (GI)層が導入され、その適用性は古典的なGNNを超えて拡張された。 しかし、GIレイヤの既存の実装では、メモリの割り当てが密集しているため、効率が良くない。 本稿では, 隣接行列の空間性を利用して, メモリ使用量を大幅に削減する, GI層の疎実装を提案する。 さらに、GIレイヤの汎用的な汎用形式を導入し、グラフノードのサブセットへの適用を可能にした。 提案したスパース実装は、GIレイヤの具体的な計算効率とスケーラビリティを改善し、より深いグラフインフォームドニューラルネットワーク(GINN)の構築を可能にし、より大きなグラフへのスケーラビリティを容易にする。

Graph Neural Networks (GNNs) have emerged as effective tools for learning tasks on graph-structured data. Recently, Graph-Informed (GI) layers were introduced to address regression tasks on graph nodes, extending their applicability beyond classic GNNs. However, existing implementations of GI layers lack efficiency due to dense memory allocation. This paper presents a sparse implementation of GI layers, leveraging the sparsity of adjacency matrices to reduce memory usage significantly. Additionally, a versatile general form of GI layers is introduced, enabling their application to subsets of graph nodes. The proposed sparse implementation improves the concrete computational efficiency and scalability of the GI layers, permitting to build deeper Graph-Informed Neural Networks (GINNs) and facilitating their scalability to larger graphs.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# モデルオープンネスフレームワーク:AIにおける再現性、透明性、ユーザビリティのための完全性とオープン性を促進する

The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI ( http://arxiv.org/abs/2403.13784v1 )

ライセンス: Link先を確認
Matt White, Ibrahim Haddad, Cailean Osborne, Xiao-Yang, Liu, Ahmed Abdelmonsef, Sachin Varghese, (参考訳) 生成AI(GAI)は前例のない可能性を提供するが、その商業化は透明性、再現性、バイアス、安全性に関する懸念を提起している。 多くの「オープンソース」GAIモデルは、完全な理解と再現に必要なコンポーネントを欠いている。 オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に従って、その完全性とオープン性に基づいて機械学習モデルを評価するランキング分類システムであるモデルオープンネスフレームワーク(MOF)を提案する。 MOFは、適切なオープンライセンスの下で、モデル開発ライフサイクルの特定のコンポーネントを含め、リリースする必要がある。 このフレームワークは、オープンであると主張するモデルの誤表現を防止することを目的としており、研究者や開発者は、許容ライセンス下ですべてのモデルコンポーネントを提供することを指導し、企業、アカデミア、ホビイストが制限なく安全に採用できるモデルを識別する手助けをする。 MOFの広範な採用により、よりオープンなAIエコシステムが育まれ、研究、イノベーション、採用が加速する。

Generative AI (GAI) offers unprecedented possibilities but its commercialization has raised concerns about transparency, reproducibility, bias, and safety. Many "open-source" GAI models lack the necessary components for full understanding and reproduction, and some use restrictive licenses, a practice known as "openwashing." We propose the Model Openness Framework (MOF), a ranked classification system that rates machine learning models based on their completeness and openness, following principles of open science, open source, open data, and open access. The MOF requires specific components of the model development lifecycle to be included and released under appropriate open licenses. This framework aims to prevent misrepresentation of models claiming to be open, guide researchers and developers in providing all model components under permissive licenses, and help companies, academia, and hobbyists identify models that can be safely adopted without restrictions. Wide adoption of the MOF will foster a more open AI ecosystem, accelerating research, innovation, and adoption.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# 予測保守シナリオにおける断層木の拡張に向けて

Towards an extension of Fault Trees in the Predictive Maintenance Scenario ( http://arxiv.org/abs/2403.13785v1 )

ライセンス: Link先を確認
Roberta De Fazio, Stefano Marrone, Laura Verde, Vincenzo Reccia, Paolo Valletta, (参考訳) フォールトツリー(FT)の最も高く評価されている特徴の1つは、その単純さであり、産業プロセスに適合する。 このようなプロセスが時間とともに進化していくにつれて、FTに基づくモデリング技術はこれらのニーズに適応した。 本稿では,最新の信頼性分野における課題のひとつとして,予測保守の問題を考慮したFTの拡張を提案する。 本稿では予測フォールトツリー言語をスケッチし、具体的な産業環境でのモデリングと分析を支援するいくつかのユースケースを提案する。

One of the most appreciated features of Fault Trees (FTs) is their simplicity, making them fit into industrial processes. As such processes evolve in time, considering new aspects of large modern systems, modelling techniques based on FTs have adapted to these needs. This paper proposes an extension of FTs to take into account the problem of Predictive Maintenance, one of the challenges of the modern dependability field of study. The paper sketches the Predictive Fault Tree language and proposes some use cases to support their modelling and analysis in concrete industrial settings.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# Chain-of-Interaction:Dyadic Contexts による精神行動理解のための大規模言語モデルの構築

Chain-of-Interaction: Enhancing Large Language Models for Psychiatric Behavior Understanding by Dyadic Contexts ( http://arxiv.org/abs/2403.13786v1 )

ライセンス: Link先を確認
Guangzeng Han, Weisi Liu, Xiaolei Huang, Brian Borsari, (参考訳) 自動コーディング患者行動は、アルコールや薬物依存症といった精神医学的な問題に対処するための協調的なコミュニケーション介入アプローチであるモチベーション面接(MI)において、精神療法士の意思決定を支援するために不可欠である。 行動コーディングタスクは、MIセッション中に患者の状態を予測するために、機械学習を急速に適用してきたが、ドメイン固有の知識の欠如と、患者とセラピストの相互作用を見渡すことは、これらのモデルを実際に開発、デプロイする上で大きな課題である。 これらの課題に対処するために,我々は,大規模言語モデル (LLM) を,ダイアド相互作用による精神科的意思決定支援の文脈化を目的とした,CoI(Chain-of-Interaction)プロンプト手法を導入する。 CoIプロンプトアプローチは、コーディングタスクを3つの重要な推論ステップに体系的に分解し、患者のエンゲージメントを抽出し、セラピストの質問戦略を学習し、患者とセラピストの間のダイアド的相互作用を統合する。 このアプローチにより、大規模言語モデルは、患者の行動コーディングのためのコーディングスキーム、患者状態、およびドメイン知識を活用することができる。 実世界のデータセットに対する実験は、既存のプロンプトベースラインよりも複数の最先端LCMを用いたプロンプト手法の有効性と柔軟性を証明できる。 心理療法の行動理解にLLMを適用する際には,広範囲にわたるアブレーション分析を行い,ダイアディック相互作用が重要な役割を担っていることを実証した。

Automatic coding patient behaviors is essential to support decision making for psychotherapists during the motivational interviewing (MI), a collaborative communication intervention approach to address psychiatric issues, such as alcohol and drug addiction. While the behavior coding task has rapidly adapted machine learning to predict patient states during the MI sessions, lacking of domain-specific knowledge and overlooking patient-therapist interactions are major challenges in developing and deploying those models in real practice. To encounter those challenges, we introduce the Chain-of-Interaction (CoI) prompting method aiming to contextualize large language models (LLMs) for psychiatric decision support by the dyadic interactions. The CoI prompting approach systematically breaks down the coding task into three key reasoning steps, extract patient engagement, learn therapist question strategies, and integrates dyadic interactions between patients and therapists. This approach enables large language models to leverage the coding scheme, patient state, and domain knowledge for patient behavioral coding. Experiments on real-world datasets can prove the effectiveness and flexibility of our prompting method with multiple state-of-the-art LLMs over existing prompting baselines. We have conducted extensive ablation analysis and demonstrate the critical role of dyadic interactions in applying LLMs for psychotherapy behavior understanding.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# RewardBench: 言語モデリングのためのRewardモデルの評価

RewardBench: Evaluating Reward Models for Language Modeling ( http://arxiv.org/abs/2403.13787v1 )

ライセンス: Link先を確認
Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi, (参考訳) リワードモデル(RM)は、事前訓練されたモデルを人間の嗜好に合わせるためにRLHFの成功の最前線にあるが、これらの報酬モデルの評価に焦点を当てた研究は比較的少ない。 報酬モデルを評価することは、言語モデルのアライメントに使用される不透明な技術と、どの値が組み込まれているかを理解する機会を与える。 これまでのところ、機能記述やトレーニング方法、オープンソースの報酬モデルはほとんど存在していない。 本稿では、評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介し、報酬モデルの科学的理解を高める。 RewardBenchデータセットは、チャット、推論、安全性にまたがる、プロンプト・ウィン・ローズ・トリオのコレクションで、困難で構造化された、配布外クエリ上での報酬モデルのパフォーマンスをベンチマークする。 私たちは、微妙だが検証可能な理由(例えば、バグ、誤った事実)を持つRMの特定の比較データセットを作成しました。 RewardBenchのリーダーボードでは、分類器の直接MLE訓練や直接選好最適化(DPO)の暗黙の報奨モデル、データセットのスペクトルなど、様々な手法で訓練された報酬モデルを評価する。 我々は,RLHFプロセスの理解を深めるために,様々な報酬モデルの欠点に続き,拒絶の正当性,推論の限界,指示に関する多くの知見を提示する。

Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.
翻訳日:2024-03-21 15:58:55 公開日:2024-03-20
# DepthFM:フローマッチングによる高速単眼深度推定

DepthFM: Fast Monocular Depth Estimation with Flow Matching ( http://arxiv.org/abs/2403.13788v1 )

ライセンス: Link先を確認
Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer, (参考訳) 単眼深度推定は多くの下流視覚タスクやアプリケーションにとって重要である。 この問題に対する現在の差別的アプローチは、ぼやけたアーティファクトによって制限されているが、最先端の生成手法は、SDEの性質によってサンプリングが遅くなる。 ノイズから始めるのではなく、入力画像から深度マップへの直接マッピングを求める。 解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。 本研究では, 事前学習した画像拡散モデルが, 流れマッチング深度モデルにおいて適切な事前学習となり, 合成データのみを効率的に訓練し, 実画像に一般化できることを実証した。 補助表面の正規化損失は、さらに深さ推定を改善する。 提案手法の生成特性から,本モデルはその深度推定の信頼性を確実に予測する。 複雑な自然のシーンの標準的なベンチマークでは、我々の軽量なアプローチは、少ない合成データでのみ訓練されているにもかかわらず、最先端の性能を好ましい低計算コストで示す。

Monocular depth estimation is crucial for numerous downstream vision tasks and applications. Current discriminative approaches to this problem are limited due to blurry artifacts, while state-of-the-art generative methods suffer from slow sampling due to their SDE nature. Rather than starting from noise, we seek a direct mapping from input image to depth map. We observe that this can be effectively framed using flow matching, since its straight trajectories through solution space offer efficiency and high quality. Our study demonstrates that a pre-trained image diffusion model can serve as an adequate prior for a flow matching depth model, allowing efficient training on only synthetic data to generalize to real images. We find that an auxiliary surface normals loss further improves the depth estimates. Due to the generative nature of our approach, our model reliably predicts the confidence of its depth estimates. On standard benchmarks of complex natural scenes, our lightweight approach exhibits state-of-the-art performance at favorable low computational cost despite only being trained on little synthetic data.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 強い相互作用を持つRydberg原子によるヒルベルト空間フラグメンテーションの探索

Probing Hilbert Space Fragmentation with Strongly Interacting Rydberg Atoms ( http://arxiv.org/abs/2403.13790v1 )

ライセンス: Link先を確認
Fan Yang, Hadi Yarloo, Hua-Chen Zhang, Klaus Mølmer, Anne E. B. Nielsen, (参考訳) ヒルベルト空間の断片化は閉多体系におけるエルゴディディティを破るメカニズムを提供する。 本稿では、このエキゾチックなパラダイムをRydberg量子シミュレータ上で包括的に探求する現実的なスキームを提案する。 我々は, ヒルベルト空間を強く分断した一般折り畳み型 XXZ モデルに, 大規模デチューニング系におけるライドベルクイジングモデルが写像可能であることを示す。 しかし、創発的ハミルトニアンは、マグノンの輸送とホール励起の時間尺度をはっきり示している。 この興味深い性質は、Krylov-subspace ergodicityの連続的なチューニングを、可積分状態からKrylov-restricted thermal phase、そして最終的には統計バブル局在領域まで促進する。 さらに非局所的相互作用を導入することにより、クリロフ部分空間の断片化挙動とエルゴード性の両方が著しくリッチになることが分かる。 また、原子位置障害の役割について検討し、対称性選択多体局在遷移を同定する。 我々はこれらの現象がクエンチ力学に現れており、この現象は最先端のRydberg配列のセットアップで容易に調査できることを示した。

Hilbert space fragmentation provides a mechanism to break ergodicity in closed many-body systems. Here, we propose a realistic scheme to comprehensively explore this exotic paradigm on a Rydberg quantum simulator. We show that the Rydberg Ising model in the large detuning regime can be mapped to a generalized folded XXZ model featuring a strongly fragmented Hilbert space. The emergent Hamiltonian, however, displays distinct time scales for the transport of a magnon and a hole excitation. This interesting property facilitates a continuous tuning of the Krylov-subspace ergodicity, from the integrable regime, to the Krylov-restricted thermal phase, and eventually to the statistical bubble localization region. By further introducing nonlocal interactions, we find that both the fragmentation behavior and the ergodicity of the Krylov subspace can be significantly enriched. We also examine the role of atomic position disorders and identify a symmetry-selective many-body localization transition. We demonstrate that these phenomena manifest themselves in quench dynamics, which can be readily probed in state-of-the-art Rydberg array setups.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 危険機能のためのフロンティアモデルの評価

Evaluating Frontier Models for Dangerous Capabilities ( http://arxiv.org/abs/2403.13793v1 )

ライセンス: Link先を確認
Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane, (参考訳) 新しいAIシステムによって引き起こされるリスクを理解するためには、何ができて何ができないのかを理解する必要がある。 事前の作業に基づいて,新しい "危険な能力" 評価プログラムを導入し,Gemini 1.0 モデルで試行する。 評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。 評価したモデルに強力な危険な能力を示す証拠は見つからないが、早期の警告サインにフラグを立てている。 我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。

To understand the risks posed by a new AI system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on Gemini 1.0 models. Our evaluations cover four areas: (1) persuasion and deception; (2) cyber-security; (3) self-proliferation; and (4) self-reasoning. We do not find evidence of strong dangerous capabilities in the models we evaluated, but we flag early warning signs. Our goal is to help advance a rigorous science of dangerous capability evaluation, in preparation for future models.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 視覚言語モデル選択におけるモダリティとキャパシティギャップのブリッジ

Bridge the Modality and Capacity Gaps in Vision-Language Model Selection ( http://arxiv.org/abs/2403.13797v1 )

ライセンス: Link先を確認
Chao Yi, De-Chuan Zhan, Han-Jia Ye, (参考訳) 視覚言語モデル (VLM) は、画像とテキストカテゴリ名とのペアリングによるゼロショット画像分類において優れている。 事前学習型VLMの多様化により、特定のタスクに適したVLMを特定する可能性が高まっている。 このように、有望なゼロショット画像分類戦略は、データセットの画像にアクセスせずにターゲットデータセットのテキストデータのみに依存する、VLM Zooから最も適切な事前訓練VLMを選択することである。 本稿では、VLM選択におけるVLMの能力を評価するための2つの固有の課題について分析する。「モダリティギャップ」とは、VLMの組込みにおける相違であり、テキストを画像の信頼性の低い代替品にすること、「キャパビリティギャップ」とは、VLMの全体ランキングとターゲットデータセットのランキングとの相違であり、モデル固有の性能の一般的な性能から直接予測することを妨げるものである。 本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。 SWABは、まず最適なトランスポートを採用して、トランスポートマトリックスを使用して、オープンソースデータセットとターゲットデータセットの間の関連性をキャプチャする。 次に、このマトリックスを使用して、オープンソースのデータセットからターゲットデータセットにVLMの有用な統計データを転送し、2つのギャップを埋め、VLM選択のためのVLMのキャパシティ推定を強化する。 様々なVLMおよび画像分類データセットを用いた実験により、SWABの有効性が検証された。

Vision Language Models (VLMs) excel in zero-shot image classification by pairing images with textual category names. The expanding variety of Pre-Trained VLMs enhances the likelihood of identifying a suitable VLM for specific tasks. Thus, a promising zero-shot image classification strategy is selecting the most appropriate Pre-Trained VLM from the VLM Zoo, relying solely on the text data of the target dataset without access to the dataset's images. In this paper, we analyze two inherent challenges in assessing the ability of a VLM in this Language-Only VLM selection: the "Modality Gap" -- the disparity in VLM's embeddings across two different modalities, making text a less reliable substitute for images; and the "Capability Gap" -- the discrepancy between the VLM's overall ranking and its ranking for target dataset, hindering direct prediction of a model's dataset-specific performance from its general performance. We propose VLM Selection With gAp Bridging (SWAB) to mitigate the negative impact of these two gaps. SWAB first adopts optimal transport to capture the relevance between open-source datasets and target dataset with a transportation matrix. It then uses this matrix to transfer useful statistics of VLMs from open-source datasets to the target dataset for bridging those two gaps and enhancing the VLM's capacity estimation for VLM selection. Experiments across various VLMs and image classification datasets validate SWAB's effectiveness.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 行動品質評価のための階層型ニューロシンボリックアプローチ

Hierarchical NeuroSymbolic Approach for Action Quality Assessment ( http://arxiv.org/abs/2403.13798v1 )

ライセンス: Link先を確認
Lauren Okamoto, Paritosh Parmar, (参考訳) 行動品質評価(AQA)は、人間の行動のパフォーマンスや実行を定量的に評価するためにコンピュータビジョンを適用する。 現在のAQAアプローチはエンドツーエンドのニューラルモデルであり、透明性が欠如しており、主観的な人間の判断を地道として訓練されているためバイアスを受ける傾向がある。 これらの問題に対処するために、ニューラルネットワークを用いてビデオデータから解釈可能なシンボルを抽象化し、それらのシンボルに規則を適用することによって品質評価を行うAQAのニューロシンボリックパラダイムを導入する。 私たちはケーススタディとしてダイビングを取ります。 ドメインの専門家は、私たちのシステムを好み、ダイビングにおけるAQAに対する純粋に神経的なアプローチよりも、より情報に富むものを見つけました。 また,現状の行動認識と時間的セグメンテーションを実現し,その要素を分割し,視覚的証拠を客観的に評価する詳細なレポートを自動生成する。 ドメインの専門家グループが検証したように、このレポートは審査員のスコアリングを支援し、審査員を訓練し、ダイバーにフィードバックを提供するために使われるかもしれない。 すべての注釈付きトレーニングデータとコードをオープンソースにして、再現性を容易にします。

Action quality assessment (AQA) applies computer vision to quantitatively assess the performance or execution of a human action. Current AQA approaches are end-to-end neural models, which lack transparency and tend to be biased because they are trained on subjective human judgements as ground-truth. To address these issues, we introduce a neuro-symbolic paradigm for AQA, which uses neural networks to abstract interpretable symbols from video data and makes quality assessments by applying rules to those symbols. We take diving as the case study. We found that domain experts prefer our system and find it more informative than purely neural approaches to AQA in diving. Our system also achieves state-of-the-art action recognition and temporal segmentation, and automatically generates a detailed report that breaks the dive down into its elements and provides objective scoring with visual evidence. As verified by a group of domain experts, this report may be used to assist judges in scoring, help train judges, and provide feedback to divers. We will open-source all of our annotated training data and code for ease of reproducibility.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# リバースカース教育のためのリバーストレーニング

Reverse Training to Nurse the Reversal Curse ( http://arxiv.org/abs/2403.13799v1 )

ライセンス: Link先を確認
Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar, (参考訳) 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。 何十兆ものトークンでトレーニングしても、Zipfの法則によって、この問題は依然として現れます。 この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。 LLMは、例えばエンティティのような選択されたサブストリングを保存しながら、トレーニング文字列を反転させることで、前方方向と逆方向の両方で訓練される。 我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。

Large language models (LLMs) have a surprising failure: when trained on "A has a feature B", they do not generalize to "B is a feature of A", which is termed the Reversal Curse. Even when training with trillions of tokens this issue still appears due to Zipf's law - hence even if we train on the entire internet. This work proposes an alternative training scheme, called reverse training, whereby all words are used twice, doubling the amount of available tokens. The LLM is trained in both forward and reverse directions by reversing the training strings while preserving (i.e., not reversing) chosen substrings, such as entities. We show that data-matched reverse-trained models provide superior performance to standard models on standard tasks, and compute-matched reverse-trained models provide far superior performance on reversal tasks, helping resolve the reversal curse issue.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# TimeRewind:画像とイベントの拡散で時間を巻き戻す

TimeRewind: Rewinding Time with Image-and-Events Video Diffusion ( http://arxiv.org/abs/2403.13800v1 )

ライセンス: Link先を確認
Jingxi Chen, Brandon Y. Feng, Haoming Cai, Mingyang Xie, Christopher Metzler, Cornelia Fermuller, Yiannis Aloimonos, (参考訳) 本稿では,シャッターボタンが押される直前に見逃されたフリーティングモーメントを回復するために,単一のキャプチャ画像から‘再巻き戻し’という新たな課題について述べる。 この問題は、コンピュータビジョンと計算写真において重要な課題となり、単一の静的フレームから可視なプレキャプチャ動作を予測する必要がある。 この課題を克服するために、時間分解能の高いモーション情報をキャプチャするニューロモルフィックイベントカメラの新興技術を活用し、高度な画像と映像の拡散モデルと統合する。 提案フレームワークは,イベントカメラデータに基づくイベントモーションアダプタを導入し,この拡散モデルを用いて,キャプチャしたイベントに視覚的に整合性を持ち,物理的に接地した映像を生成する。 広範にわたる実験を通して,我々は,イベントカメラ技術と生成モデルを組み合わせる可能性を示しながら,効果的に「再風」する高品質な映像を合成する手法の能力を実証した。 私たちの研究は、コンピュータビジョン、計算写真、生成モデリングの交差点での新たな研究の道を開き、見逃した瞬間を捉え、将来の消費者向けカメラやスマートフォンを向上するための先進的なソリューションを提供します。 ビデオ結果とコードリリースについては、https://timerewind.github.io/のプロジェクトページを参照してください。

This paper addresses the novel challenge of ``rewinding'' time from a single captured image to recover the fleeting moments missed just before the shutter button is pressed. This problem poses a significant challenge in computer vision and computational photography, as it requires predicting plausible pre-capture motion from a single static frame, an inherently ill-posed task due to the high degree of freedom in potential pixel movements. We overcome this challenge by leveraging the emerging technology of neuromorphic event cameras, which capture motion information with high temporal resolution, and integrating this data with advanced image-to-video diffusion models. Our proposed framework introduces an event motion adaptor conditioned on event camera data, guiding the diffusion model to generate videos that are visually coherent and physically grounded in the captured events. Through extensive experimentation, we demonstrate the capability of our approach to synthesize high-quality videos that effectively ``rewind'' time, showcasing the potential of combining event camera technology with generative models. Our work opens new avenues for research at the intersection of computer vision, computational photography, and generative modeling, offering a forward-thinking solution to capturing missed moments and enhancing future consumer cameras and smartphones. Please see the project page at https://timerewind.github.io/ for video results and code release.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 警察としての自然言語:LLMを用いた協調レベル身体制御のための推論

Natural Language as Polices: Reasoning for Coordinate-Level Embodied Control with LLMs ( http://arxiv.org/abs/2403.13801v1 )

ライセンス: Link先を確認
Yusuke Mikami, Andrew Melnik, Jun Miura, Ville Hautamäki, (参考訳) ロボットの行動計画問題に対処するLLMによる実験結果を示す。 近年、LSMはロボティクスのアクションプランニング、特に複雑な高レベルの命令を中レベルのポリシーコードに変換するコード生成手法に応用されている。 対照的に,本手法ではタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によりアクションプランニングを定式化し,座標レベル制御コマンドを出力することにより,中間表現コードをポリシーとして必要としない。 提案手法はマルチモーダル・プロンプト・シュミレーション・ベンチマークを用いて評価され、自然言語推論を用いた迅速な工学実験により、その欠如よりも成功率を大幅に向上することを示した。 さらに,本手法は,ロボット工学のスキルを未知のタスクに伝達する自然言語記述の可能性を示す。

We demonstrate experimental results with LLMs that address robotics action planning problems. Recently, LLMs have been applied in robotics action planning, particularly using a code generation approach that converts complex high-level instructions into mid-level policy codes. In contrast, our approach acquires text descriptions of the task and scene objects, then formulates action planning through natural language reasoning, and outputs coordinate level control commands, thus reducing the necessity for intermediate representation code as policies. Our approach is evaluated on a multi-modal prompt simulation benchmark, demonstrating that our prompt engineering experiments with natural language reasoning significantly enhance success rates compared to its absence. Furthermore, our approach illustrates the potential for natural language descriptions to transfer robotics skills from known tasks to previously unseen tasks.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# ZigMa: Zigzag Mamba Diffusion Model

ZigMa: Zigzag Mamba Diffusion Model ( http://arxiv.org/abs/2403.13802v1 )

ライセンス: Link先を確認
Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer, (参考訳) 拡散モデルは、特にトランスフォーマーベースの構造において、スケーラビリティと二次的な複雑性の問題に長い間悩まされてきた。 本研究では,Mambaと呼ばれる状態空間モデルの長周期モデリング機能を活用し,その視覚データ生成への適用性を高めることを目的とする。 まず,マンバのスキャン方式における空間的連続性に対する考慮の欠如について,現在のマンバをベースとした視覚的手法における重要な監視点を同定する。 第二に、この知見に基づいて、Zigzag Mambaというシンプルな、プラグアンドプレイゼロパラメータ法を導入し、Mambaベースのベースラインよりも優れ、トランスフォーマーベースのベースラインよりも高速でメモリ利用率の向上を示す。 最後に、Zigzag MambaとStochastic Interpolantフレームワークを統合して、FacesHQ 1024\times 1024$とUCF101、MultiModal-CelebA-HQ、MS COCO $256\times 256$といった大規模なビジュアルデータセット上のモデルのスケーラビリティを調査します。 コードはhttps://taohu.me/zigma/でリリースされる。

The diffusion model has long been plagued by scalability and quadratic complexity issues, especially within transformer-based structures. In this study, we aim to leverage the long sequence modeling capability of a State-Space Model called Mamba to extend its applicability to visual data generation. Firstly, we identify a critical oversight in most current Mamba-based vision methods, namely the lack of consideration for spatial continuity in the scan scheme of Mamba. Secondly, building upon this insight, we introduce a simple, plug-and-play, zero-parameter method named Zigzag Mamba, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines. Lastly, we integrate Zigzag Mamba with the Stochastic Interpolant framework to investigate the scalability of the model on large-resolution visual datasets, such as FacesHQ $1024\times 1024$ and UCF101, MultiModal-CelebA-HQ, and MS COCO $256\times 256$. Code will be released at https://taohu.me/zigma/
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 特徴ドロップアウトに対するボックス安定性のバウンディングは環境全体にわたる検出器の一般化を反映する

Bounding Box Stability against Feature Dropout Reflects Detector Generalization across Environments ( http://arxiv.org/abs/2403.13803v1 )

ライセンス: Link先を確認
Yang Yang, Wenhai Wang, Zhe Chen, Jifeng Dai, Liang Zheng, (参考訳) 境界ボックスは、適切な検出器が興味のあるカテゴリの正確なバウンディングボックスを与えるオブジェクト検出を特徴付ける。 しかし,テストグラウンドの真理が与えられていない実世界では,境界ボックスが正確かどうかを知ることは容易ではないため,検出器の一般化能力を評価することができない。 この研究では、特徴マップのドロップアウトの下では、良い検出器は位置があまり変化しない有界箱を出力する傾向にあり、弱い検出器の有界箱は顕著な位置変化を受ける。 ボックス安定性スコア(BoSスコア)を計算して、この安定性を反映する。 具体的には、画像が与えられた場合、通常の境界ボックスと特徴写像のドロップアウト後の2番目のセットを計算します。 BoSスコアを得るために、両セット間の対応するボックスを見つけ、テストセット全体にわたって平均的なIoU(Intersection over Union)を計算する。 各種試験環境における平均平均精度(mAP)を用いて測定した検出精度とBoSスコアが強い正の相関関係を持つことに寄与する。 この関係により、車両検出や歩行者検出などの標準的検出タスクで検証された、実世界のさまざまなテストセット上の検出器の精度を、テストグラウンドの真実にアクセスできることなく予測することができる。 コードとデータはhttps://github.com/YangYangGirl/BoS.comで公開されている。

Bounding boxes uniquely characterize object detection, where a good detector gives accurate bounding boxes of categories of interest. However, in the real-world where test ground truths are not provided, it is non-trivial to find out whether bounding boxes are accurate, thus preventing us from assessing the detector generalization ability. In this work, we find under feature map dropout, good detectors tend to output bounding boxes whose locations do not change much, while bounding boxes of poor detectors will undergo noticeable position changes. We compute the box stability score (BoS score) to reflect this stability. Specifically, given an image, we compute a normal set of bounding boxes and a second set after feature map dropout. To obtain BoS score, we use bipartite matching to find the corresponding boxes between the two sets and compute the average Intersection over Union (IoU) across the entire test set. We contribute to finding that BoS score has a strong, positive correlation with detection accuracy measured by mean average precision (mAP) under various test environments. This relationship allows us to predict the accuracy of detectors on various real-world test sets without accessing test ground truths, verified on canonical detection tasks such as vehicle detection and pedestrian detection. Code and data are available at https://github.com/YangYangGirl/BoS.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 視覚的接地のためのモデルとデータからの学習

Learning from Models and Data for Visual Grounding ( http://arxiv.org/abs/2403.13804v1 )

ライセンス: Link先を確認
Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez, (参考訳) 我々は、様々な大規模事前学習モデルからデータ駆動学習と知識伝達を組み合わせて、事前学習された視覚・言語モデルの視覚的グラウンド機能を強化する新しいフレームワークであるSynGroundを紹介する。 モデルからの知識伝達は、画像記述生成器を介して画像記述の生成を開始する。 これらの記述は、テキスト・ツー・イメージ・ジェネレータを通じて画像を合成するためのプロンプトとして機能し、テキストを合成するためのクエリとして機能し、そこからフレーズを大きな言語モデルで抽出する。 最後に,オープンボキャブラリオブジェクト検出器を用いて合成画像とテキストの合成バウンディングボックスを生成する。 領域アノテーションと勾配に基づくモデル説明とを整合させるマスク・アテンション整合性目標を最適化することにより、このデータセット上で事前訓練された視覚・言語モデルを微調整する。 得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。 特にSynGroundは、Flickr30kデータセット上のALBEFのポインティングゲーム精度を79.38%から87.26%に改善し、RefCOCO+テストAでは69.35%から79.06%に、RefCO+テストBでは53.77%から63.67%に改善した。

We introduce SynGround, a novel framework that combines data-driven learning and knowledge transfer from various large-scale pretrained models to enhance the visual grounding capabilities of a pretrained vision-and-language model. The knowledge transfer from the models initiates the generation of image descriptions through an image description generator. These descriptions serve dual purposes: they act as prompts for synthesizing images through a text-to-image generator, and as queries for synthesizing text, from which phrases are extracted using a large language model. Finally, we leverage an open-vocabulary object detector to generate synthetic bounding boxes for the synthetic images and texts. We finetune a pretrained vision-and-language model on this dataset by optimizing a mask-attention consistency objective that aligns region annotations with gradient-based model explanations. The resulting model improves the grounding capabilities of an off-the-shelf vision-and-language model. Particularly, SynGround improves the pointing game accuracy of ALBEF on the Flickr30k dataset from 79.38% to 87.26%, and on RefCOCO+ Test A from 69.35% to 79.06% and on RefCOCO+ Test B from 53.77% to 63.67%.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# RAR:視覚認識のためのMLLMの検索とランク付け

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition ( http://arxiv.org/abs/2403.13805v1 )

ライセンス: Link先を確認
Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang, (参考訳) CLIP(Contrastive Language- Image Pre-training)は、ノイズ画像とテキストのペアからのコントラスト学習を用いて、幅広い候補の認識に優れるが、広義の関連性に重点を置いているため、細かな項目間の微妙な違いを区別できない。 逆に、Multimodal Large Language Models (MLLM) は、Webレベルのコーパスの事前学習から得られた知識により、きめ細かいカテゴリの分類に優れている。 しかし、MLLMの性能はカテゴリ数の増加とともに低下し、その主な原因は、コンテキストウィンドウサイズが制限される複雑さと制約の増大である。 本稿では,MLLMの検索・ランク付け手法であるRARを紹介する。 最初はCLIPをベースとしたマルチモーダルレトリバーを構築して,直近のコンテキストウィンドウ以外のカテゴリで明示的なメモリを作成し,保存する。 推論中、RARはメモリからトップkに似た結果を取得し、MLLMを使用してランク付けし、最終的な予測を行う。 提案手法は,微粒化認識における固有の制約に対処するだけでなく,モデルの包括的知識ベースも保持し,様々な視覚言語認識タスクにおける精度を大幅に向上させる。 提案手法は, ゼロショット認識設定下において, 5つの細粒度画像認識ベンチマーク, 11個の数ショット画像認識データセット, 2つのオブジェクト検出データセットに対して, 大幅な性能向上を示す。

CLIP (Contrastive Language-Image Pre-training) uses contrastive learning from noise image-text pairs to excel at recognizing a wide array of candidates, yet its focus on broad associations hinders the precision in distinguishing subtle differences among fine-grained items. Conversely, Multimodal Large Language Models (MLLMs) excel at classifying fine-grained categories, thanks to their substantial knowledge from pre-training on web-level corpora. However, the performance of MLLMs declines with an increase in category numbers, primarily due to growing complexity and constraints of limited context window size. To synergize the strengths of both approaches and enhance the few-shot/zero-shot recognition abilities for datasets characterized by extensive and fine-grained vocabularies, this paper introduces RAR, a Retrieving And Ranking augmented method for MLLMs. We initially establish a multi-modal retriever based on CLIP to create and store explicit memory for different categories beyond the immediate context window. During inference, RAR retrieves the top-k similar results from the memory and uses MLLMs to rank and make the final predictions. Our proposed approach not only addresses the inherent limitations in fine-grained recognition but also preserves the model's comprehensive knowledge base, significantly boosting accuracy across a range of vision-language recognition tasks. Notably, our approach demonstrates a significant improvement in performance on 5 fine-grained visual recognition benchmarks, 11 few-shot image recognition datasets, and the 2 object detection datasets under the zero-shot recognition setting.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# RadSplat:900以上のFPSを用いたロバストリアルタイムレンダリングのためのラジアンフィールドインフォームドガウススティング

RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS ( http://arxiv.org/abs/2403.13806v1 )

ライセンス: Link先を確認
Michael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari, (参考訳) ビュー合成とリアルタイムレンダリングの最近の進歩は、印象的なレンダリング速度でフォトリアリスティックな品質を実現している。 Radiance Field ベースの手法は、Wild キャプチャや大規模シーンのような挑戦的なシナリオでは最先端の品質を実現するが、ボリュームレンダリングに関連する計算要求が過度に高い場合が多い。 一方、ガウススプティングに基づく手法は、ラスタ化に依存し、自然なリアルタイムレンダリングを実現するが、より困難な場面で性能が劣る不安定な最適化ヒューリスティックに悩まされる。 本稿では,複雑なシーンをリアルタイムにレンダリングする軽量なRadSplatを提案する。 私たちの主な貢献は3倍です。 まず, 優先信号として放射場を用い, 点ベースシーン表現の最適化を行い, 品質の向上とロバストな最適化を実現した。 次に,高い品質を維持しつつ全体の点数を削減し,より高速な推論速度でより小型でコンパクトなシーン表現を実現する新しいプルーニング手法を開発した。 最後に、レンダリングをさらに高速化し、より大規模で住宅サイズのシーンにスケールできる新しいテスト時間フィルタリング手法を提案する。 本手法により,900FPS以上の複素キャプチャの最先端合成が可能であることが判明した。

Recent advances in view synthesis and real-time rendering have achieved photorealistic quality at impressive rendering speeds. While Radiance Field-based methods achieve state-of-the-art quality in challenging scenarios such as in-the-wild captures and large-scale scenes, they often suffer from excessively high compute requirements linked to volumetric rendering. Gaussian Splatting-based methods, on the other hand, rely on rasterization and naturally achieve real-time rendering but suffer from brittle optimization heuristics that underperform on more challenging scenes. In this work, we present RadSplat, a lightweight method for robust real-time rendering of complex scenes. Our main contributions are threefold. First, we use radiance fields as a prior and supervision signal for optimizing point-based scene representations, leading to improved quality and more robust optimization. Next, we develop a novel pruning technique reducing the overall point count while maintaining high quality, leading to smaller and more compact scene representations with faster inference speeds. Finally, we propose a novel test-time filtering approach that further accelerates rendering and allows to scale to larger, house-sized scenes. We find that our method enables state-of-the-art synthesis of complex captures at 900+ FPS.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# テキスト・画像拡散モデルにおける大量概念の編集

Editing Massive Concepts in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.13807v1 )

ライセンス: Link先を確認
Tianwei Xiong, Yue Wu, Enze Xie, Yue Wu, Zhenguo Li, Xihui Liu, (参考訳) テキストから画像への拡散モデルは、時代遅れ、著作権付き、誤った、バイアスのあるコンテンツを生成するリスクに悩まされる。 従来の手法は問題を小さな規模で緩和してきたが、より大規模な現実のシナリオで同時に扱うことが不可欠である。 拡散モデル(EMCID)における大量概念を編集する2段階の手法を提案する。 第1段階では、テキストアライメントの損失と拡散雑音予測の損失から2つの自己蒸留による各概念のメモリ最適化を行う。 第2段階では、多層クローズドフォームモデル編集による大規模な概念編集を行う。 さらに,2つのサブタスク,フリーフォームプロンプト,大規模概念カテゴリ,広範囲な評価指標を備えたT2Iモデルの大規模な概念編集を評価するための総合ベンチマークである ImageNet Concept Editing Benchmark (ICEB) を提案する。 提案したベンチマークおよび以前のベンチマークにおいて,1000以上の概念を編集するためのEMCIDの優れたスケーラビリティを実証し,実世界の応用におけるT2I拡散モデルの迅速な調整と再デプロイのための実践的アプローチを提供する。

Text-to-image diffusion models suffer from the risk of generating outdated, copyrighted, incorrect, and biased content. While previous methods have mitigated the issues on a small scale, it is essential to handle them simultaneously in larger-scale real-world scenarios. We propose a two-stage method, Editing Massive Concepts In Diffusion Models (EMCID). The first stage performs memory optimization for each individual concept with dual self-distillation from text alignment loss and diffusion noise prediction loss. The second stage conducts massive concept editing with multi-layer, closed form model editing. We further propose a comprehensive benchmark, named ImageNet Concept Editing Benchmark (ICEB), for evaluating massive concept editing for T2I models with two subtasks, free-form prompts, massive concept categories, and extensive evaluation metrics. Extensive experiments conducted on our proposed benchmark and previous benchmarks demonstrate the superior scalability of EMCID for editing up to 1,000 concepts, providing a practical approach for fast adjustment and re-deployment of T2I diffusion models in real-world applications.
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# 自己指導型学習のためのデータ多様性の事前学習について

On Pretraining Data Diversity for Self-Supervised Learning ( http://arxiv.org/abs/2403.13808v1 )

ライセンス: Link先を確認
Hasan Abed Al Kader Hammoud, Tuhin Das, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, (参考訳) 我々は,より多様なデータセットを用いたトレーニングが,固定された計算予算下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。 以上の結果から,事前学習データの多様性の増大はSSLの性能を向上させるが,下流データへの分布距離が最小である場合に限る。 特に、Webクローリングや拡散生成データといった手法によって達成された、非常に大きな事前学習データ多様性であっても、分散シフトは依然として課題である。 実験では,ImageNetやYFCC100Mといった大規模データセットを用いた7つのSSL手法を総合的に検討した。 コードとトレーニングされたモデルはhttps://github.com/hammoudhasan/DiversitySSLで利用可能になる。

We explore the impact of training with more diverse datasets, characterized by the number of unique samples, on the performance of self-supervised learning (SSL) under a fixed computational budget. Our findings consistently demonstrate that increasing pretraining data diversity enhances SSL performance, albeit only when the distribution distance to the downstream data is minimal. Notably, even with an exceptionally large pretraining data diversity achieved through methods like web crawling or diffusion-generated data, among other ways, the distribution shift remains a challenge. Our experiments are comprehensive with seven SSL methods using large-scale datasets such as ImageNet and YFCC100M amounting to over 200 GPU days. Code and trained models will be available at https://github.com/hammoudhasan/DiversitySSL .
翻訳日:2024-03-21 15:48:57 公開日:2024-03-20
# Ada-NAV:ロボットナビゲーションのための適応軌道長に基づく効率的な政策学習

Ada-NAV: Adaptive Trajectory Length-Based Sample Efficient Policy Learning for Robotic Navigation ( http://arxiv.org/abs/2306.06192v5 )

ライセンス: Link先を確認
Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi, Dinesh Manocha, (参考訳) 軌道長は強化学習(RL)アルゴリズムにおける重要なハイパーパラメータであり、ロボット工学の応用におけるサンプルの非効率性に大きく貢献する。 Ada-NAVはロボットナビゲーションタスクにおけるRLアルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。 軌道長を固定されたハイパーパラメータとして扱う従来の手法とは異なり、下層の航法方針のエントロピーに基づいて動的に調整することを提案する。 興味深いことに、Ada-NAVは既存のオン・ポリティとオフ・ポリティィのRL手法の両方に適用でき、この手法はREINFORCE, Proximal Policy Optimization (PPO), Soft Actor-Critic (SAC)の3つの一般的なRL法に対して実証的に有効性を示す。 我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れている、シミュレーションおよび実世界のロボット実験を通して実証する。 特に、固定サンプル予算では、Ada-NAV は航法成功率 18 % 、航法パス長 20-38 % 、高架コスト 9.32 % を達成している。 さらに,Ada-NAVをClearpath Huskyロボットに統合することで,複雑な屋外環境に適用可能であることを示す。

Trajectory length stands as a crucial hyperparameter within reinforcement learning (RL) algorithms, significantly contributing to the sample inefficiency in robotics applications. Motivated by the pivotal role trajectory length plays in the training process, we introduce Ada-NAV, a novel adaptive trajectory length scheme designed to enhance the training sample efficiency of RL algorithms in robotic navigation tasks. Unlike traditional approaches that treat trajectory length as a fixed hyperparameter, we propose to dynamically adjust it based on the entropy of the underlying navigation policy. Interestingly, Ada-NAV can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC). We demonstrate through simulated and real-world robotic experiments that Ada-NAV outperforms conventional methods that employ constant or randomly sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of Ada-NAV by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# アクティブラーニングに基づく事前学習データ重複モデル

A Pre-trained Data Deduplication Model based on Active Learning ( http://arxiv.org/abs/2308.00721v3 )

ライセンス: Link先を確認
Xinyao Liu, Shengdong Du, Fengmao Lv, Hongtao Xue, Jie Hu, Tianrui Li, (参考訳) ビッグデータの時代、データ品質の問題はますます顕著になっている。 主な課題の1つは重複データの問題であり、これは反復的なエントリや複数のデータソースのマージによって生じる可能性がある。 これらの"汚れたデータ"問題は、ビッグデータの効果的な適用を著しく制限することができる。 データ重複の問題に対処するため,本研究では,アクティブラーニングをベースとした事前学習型重複解消モデルを提案する。 このモデルは、事前訓練されたトランスフォーマー上に構築され、復号化問題を分類タスクのシーケンスとして解くために微調整され、まず、トランスフォーマーとアクティブラーニングをエンド・ツー・エンドのアーキテクチャに統合し、復号化モデルのトレーニングに最も有用なデータを選択するとともに、R-Drop法を用いてラベル付きデータのラウンド毎にデータ拡張を行い、手動ラベリングのコストを低減し、モデルの性能を向上させる。 実験結果から,提案モデルが従来のデータ識別技術(SOTA)よりも優れており,ベンチマークデータセット上でのリコールスコアが最大28%向上していることがわかった。

In the era of big data, the issue of data quality has become increasingly prominent. One of the main challenges is the problem of duplicate data, which can arise from repeated entry or the merging of multiple data sources. These "dirty data" problems can significantly limit the effective application of big data. To address the issue of data deduplication, we propose a pre-trained deduplication model based on active learning, which is the first work that utilizes active learning to address the problem of deduplication at the semantic level. The model is built on a pre-trained Transformer and fine-tuned to solve the deduplication problem as a sequence to classification task, which firstly integrate the transformer with active learning into an end-to-end architecture to select the most valuable data for deduplication model training, and also firstly employ the R-Drop method to perform data augmentation on each round of labeled data, which can reduce the cost of manual labeling and improve the model's performance. Experimental results demonstrate that our proposed model outperforms previous state-of-the-art (SOTA) for deduplicated data identification, achieving up to a 28% improvement in Recall score on benchmark datasets.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# 可変量子力学のためのオーバーヘッド拘束回路編み

Overhead-constrained circuit knitting for variational quantum dynamics ( http://arxiv.org/abs/2309.07857v3 )

ライセンス: Link先を確認
Gian Gentinetta, Friederike Metz, Giuseppe Carleo, (参考訳) 巨大量子系の力学をシミュレーションすることは、量子力学現象のより深い理解を得るための決定的かつ重要な追求である。 量子コンピュータはそのようなシミュレーションを高速化する大きな可能性を秘めているが、その実用化は依然として限られたスケールと広範に広まる騒音によって妨げられている。 そこで本研究では,大規模な量子系を個別のデバイスでシミュレート可能な小さなサブシステムに分割する回路編み機を用いて,これらの課題に対処する手法を提案する。 システムの進化は、予測された変分量子力学(PVQD)アルゴリズムによって制御され、変分量子回路のパラメータの制約が補われ、回路編み方式によって課されるサンプリングオーバーヘッドが制御可能であることを保証する。 我々は,複数の弱い絡み合ったブロックを持つ量子スピン系上で,強く相関したスピンからなる量子スピン系上で実験を行い,サンプリングのオーバーヘッドを管理しつつ,ダイナミックスを正確にシミュレートできることを示した。 さらに,長径ゲートを切断することで回路深度を低減できることを示す。

Simulating the dynamics of large quantum systems is a formidable yet vital pursuit for obtaining a deeper understanding of quantum mechanical phenomena. While quantum computers hold great promise for speeding up such simulations, their practical application remains hindered by limited scale and pervasive noise. In this work, we propose an approach that addresses these challenges by employing circuit knitting to partition a large quantum system into smaller subsystems that can each be simulated on a separate device. The evolution of the system is governed by the projected variational quantum dynamics (PVQD) algorithm, supplemented with constraints on the parameters of the variational quantum circuit, ensuring that the sampling overhead imposed by the circuit knitting scheme remains controllable. We test our method on quantum spin systems with multiple weakly entangled blocks each consisting of strongly correlated spins, where we are able to accurately simulate the dynamics while keeping the sampling overhead manageable. Further, we show that the same method can be used to reduce the circuit depth by cutting long-ranged gates.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# MCRAGE:フェアネスのための総合医療データ

MCRAGE: Synthetic Healthcare Data for Fairness ( http://arxiv.org/abs/2310.18430v3 )

ライセンス: Link先を確認
Keira Behal, Jiayi Chen, Caleb Fikes, Sophia Xiao, (参考訳) 医療分野において、電子健康記録(EHR)は、医療資源の診断、治療、管理のための機械学習モデルを開発するための重要なトレーニングデータである。 しかしながら、医療データセットは人種や民族、性別、年齢といったセンシティブな属性の観点からは不均衡であることが多い。 クラス不均衡なEHRデータセットに基づいてトレーニングされた機械学習モデルは、マイノリティークラスの個人に対して、マイノリティークラスの個人に対して、マジョリティークラスの個人に対するデプロイにおいて著しく悪化し、マイノリティーグループの医療結果が不平等になる可能性がある。 この課題に対処するため、我々は、深層生成モデルにより生成されたサンプルを用いて不均衡なデータセットを増大させる新しいアプローチであるMCRAGE(Mority Class Rebalancing through Augmentation by Generative Modeling)を提案する。 MCRAGEプロセスは、未表現のクラスから高品質な合成EHRサンプルを生成することができる条件付き脱ノイズ拡散確率モデル(CDDPM)を訓練する。 この合成データを使って、既存の不均衡なデータセットを増大させ、よりバランスの取れたすべてのクラスに分散させ、よりバイアスの少ない下流モデルのトレーニングに使用します。 我々は,これらの下流モデルの精度,F1スコア,AUROCを用いて,MCRAGEと代替手法の性能を測定した。 DDPMの最近の収束結果の観点から,本手法の理論的正当性を示す。

In the field of healthcare, electronic health records (EHR) serve as crucial training data for developing machine learning models for diagnosis, treatment, and the management of healthcare resources. However, medical datasets are often imbalanced in terms of sensitive attributes such as race/ethnicity, gender, and age. Machine learning models trained on class-imbalanced EHR datasets perform significantly worse in deployment for individuals of the minority classes compared to those from majority classes, which may lead to inequitable healthcare outcomes for minority groups. To address this challenge, we propose Minority Class Rebalancing through Augmentation by Generative modeling (MCRAGE), a novel approach to augment imbalanced datasets using samples generated by a deep generative model. The MCRAGE process involves training a Conditional Denoising Diffusion Probabilistic Model (CDDPM) capable of generating high-quality synthetic EHR samples from underrepresented classes. We use this synthetic data to augment the existing imbalanced dataset, resulting in a more balanced distribution across all classes, which can be used to train less biased downstream models. We measure the performance of MCRAGE versus alternative approaches using Accuracy, F1 score and AUROC of these downstream models. We provide theoretical justification for our method in terms of recent convergence results for DDPMs.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator ( http://arxiv.org/abs/2312.06731v3 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou, (参考訳) インストラクションチューニングデータは、MLLM(Multimodal Large Language Models)のトレーニングに不可欠である。 しかし、高品質なチューニングチューニングデータの作成には大きな課題がある。 データ生成のための GPT-4 に依存する以前の手法はコストがかかるだけでなく、複雑なタスク(グラウンドベース推論タスク)において満足な性能が欠如していた。 これらの課題に対処するため、我々は、9つの代表タスク、例えば、Common VQA、REC、REG、PointQを含む、様々な高品質な命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。 具体的には、Genixerは4つの重要なステップで統一されたソリューションを提供し、データ生成の難しさを軽減する。 (i)命令データ収集 (ii) 命令テンプレートの設計 三 MLLMの強化、及び (iv)データ生成とフィルタリング。 続いて、我々のGenixerの優れた定性的結果から、現在のMLLMは強力なデータジェネレータに進化する可能性が強いことが示される。 さらに、生成したデータの有効性を定量的に検証するために、2つの代表MLLMのトレーニングにGenixerが生成した命令チューニングデータを追加し、様々なVQAタスクとマルチモーダルベンチマークにおける一貫した改善を観察する。

Instruction tuning data is essential for training the Multimodal Large Language Models (MLLMs). However, the creation of high-quality instruction tuning data presents significant challenges. Prior methods that depended on GPT-4 for data generation were not only costly but also lacked satisfactory performance in complex tasks (i.e., grounding-based reasoning tasks). To address these issues, we developed an innovative data generation pipeline, Genixer, to generate various high-quality instruction tuning data, including nine representative tasks, e.g., Common VQA, REC, REG, and PointQ. Specifically, Genixer provides a unified solution with four key steps for alleviating the difficulty of data generation: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLM, and (iv) data generation and filtering. Subsequently, the superior qualitative results of our Genixer demonstrate that current MLLMs have a strong potential to evolve into powerful data generators. Additionally, to validate the efficacy of generated data quantitatively, we add the instruction tuning data produced by Genixer into the training of two representative MLLMs and observe the consistent improvements on various VQA tasks and multimodal benchmarks.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# 効果的なマルチインワン画像復元に向けて : シークエンシャルでプロンプトな学習戦略

Towards Effective Multiple-in-One Image Restoration: A Sequential and Prompt Learning Strategy ( http://arxiv.org/abs/2401.03379v3 )

ライセンス: Link先を確認
Xiangtao Kong, Chao Dong, Lei Zhang, (参考訳) 単一タスクイメージ復元(IR)は大きな成功を収めているが、複数のIRタスクに対処できる単一モデルのトレーニングは依然として難しい課題である。 本研究では,7つのIRタスクからなるMultiple-in-one (MiO) IR問題について詳細に検討する。 MiO IRは、多様な目的の最適化と複数のタスクへの適応という、2つの重要な課題に直面している。 これらの課題に対処するために、我々は2つの単純かつ効果的な戦略を提示した。 最初の戦略はシーケンシャルラーニング(Sequence learning)と呼ばれ、多様な目的を最適化する方法に対処し、ネットワークがそれらを混ぜるのではなく、個別のIRタスクを逐次的に学習するように誘導する。 第2の戦略、即興学習は、ネットワークが特定のタスクを理解し、一般化能力を向上させるために、異なるIRタスクへの適応方法に対処しようとするものである。 19個のテストセットで評価することにより、シーケンシャルおよび即時学習戦略が、一般的なCNNとTransformerのバックボーンのMiO性能を大幅に向上させることができることを示す。 実験の結果, 2つの戦略が相互に補完し, より優れた劣化表現を学習し, モデルロバスト性を高めることが判明した。 提案したMiO IRの定式化と戦略により,高一般化能力のIRモデルの訓練方法の研究が促進されることが期待できる。

While single task image restoration (IR) has achieved significant successes, it remains a challenging issue to train a single model which can tackle multiple IR tasks. In this work, we investigate in-depth the multiple-in-one (MiO) IR problem, which comprises seven popular IR tasks. We point out that MiO IR faces two pivotal challenges: the optimization of diverse objectives and the adaptation to multiple tasks. To tackle these challenges, we present two simple yet effective strategies. The first strategy, referred to as sequential learning, attempts to address how to optimize the diverse objectives, which guides the network to incrementally learn individual IR tasks in a sequential manner rather than mixing them together. The second strategy, i.e., prompt learning, attempts to address how to adapt to the different IR tasks, which assists the network to understand the specific task and improves the generalization ability. By evaluating on 19 test sets, we demonstrate that the sequential and prompt learning strategies can significantly enhance the MiO performance of commonly used CNN and Transformer backbones. Our experiments also reveal that the two strategies can supplement each other to learn better degradation representations and enhance the model robustness. It is expected that our proposed MiO IR formulation and strategies could facilitate the research on how to train IR models with higher generalization capabilities.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# マルコフ決定過程の検証のための学習アルゴリズム

Learning Algorithms for Verification of Markov Decision Processes ( http://arxiv.org/abs/2403.09184v2 )

ライセンス: Link先を確認
Tomáš Brázdil, Krishnendu Chatterjee, Martin Chmelik, Vojtěch Forejt, Jan Křetínský, Marta Kwiatkowska, Tobias Meggendorfer, David Parker, Mateusz Ujma, (参考訳) 本稿では,マルコフ決定過程(MDP)の検証に学習アルゴリズムとヒューリスティックガイダンスを適用するための一般的なフレームワークを提案する。 我々の技術の主な目的は、状態空間の徹底的な探索を避けることによる性能向上であり、代わりにヒューリスティックスによって導かれるシステムの特に関連する領域に焦点を当てることである。 我々の研究は、Br{\'{a}}zdil et al の以前の結果に基づいており、それを著しく拡張し、いくつかの詳細を精査し、エラーを修正しました。 提案するフレームワークは,検証における中核的な問題である確率的到達性に注目し,二つの異なるシナリオでインスタンス化される。 第一に、MDPの完全な知識、特に正確な遷移確率が利用できると仮定する。 モデルに対するヒューリスティック駆動による部分探索を行い、要求される確率の正確な下限と上限を導出する。 2つ目は、正確な遷移ダイナミクスを知らずにMDPをサンプリングできるケースに取り組みます。 ここでは、下界と上界の両方の観点からも確率的保証を得、近似の効率的な停止基準を提供する。 特に後者は、MDPの非有界特性に対する統計モデル検査(SMC)の拡張である。 他の関連するアプローチとは対照的に、時間有界(有限水平)や割引特性への注意を制限したり、MDPの特定の構造特性を仮定したりしない。

We present a general framework for applying learning algorithms and heuristical guidance to the verification of Markov decision processes (MDPs). The primary goal of our techniques is to improve performance by avoiding an exhaustive exploration of the state space, instead focussing on particularly relevant areas of the system, guided by heuristics. Our work builds on the previous results of Br{\'{a}}zdil et al., significantly extending it as well as refining several details and fixing errors. The presented framework focuses on probabilistic reachability, which is a core problem in verification, and is instantiated in two distinct scenarios. The first assumes that full knowledge of the MDP is available, in particular precise transition probabilities. It performs a heuristic-driven partial exploration of the model, yielding precise lower and upper bounds on the required probability. The second tackles the case where we may only sample the MDP without knowing the exact transition dynamics. Here, we obtain probabilistic guarantees, again in terms of both the lower and upper bounds, which provides efficient stopping criteria for the approximation. In particular, the latter is an extension of statistical model-checking (SMC) for unbounded properties in MDPs. In contrast to other related approaches, we do not restrict our attention to time-bounded (finite-horizon) or discounted properties, nor assume any particular structural properties of the MDP.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# 悪天候下における物体検出のためのロバストなフレームワークD-YOLO

D-YOLO a robust framework for object detection in adverse weather conditions ( http://arxiv.org/abs/2403.09233v2 )

ライセンス: Link先を確認
Zihan Chu, (参考訳) ヘイズ、雪、雨などの逆の気象条件は、画像品質の低下を招き、深層学習に基づく検知ネットワークの性能低下を招きかねない。 既存のほとんどのアプローチは、オブジェクト検出を行う前にヘイズな画像を修正しようと試みており、それによってネットワークの複雑さが増大し、潜伏した情報が失われる可能性がある。 画像復元とオブジェクト検出のタスクをよりうまく統合するために,注目機能融合モジュールを備えた二重ルートネットワークを設計し,ハズー機能とデハズー機能の両方を考慮した。 また,検出ネットワークにヘイズフリー機能を提供するサブネットワークも提案した。 具体的には,特徴抽出サブネットワークと検出ネットワーク間の距離を最小化することにより,検出ネットワークの性能を向上させる。 RTTSとFogyCityscapesデータセットの実験は、D-YOLOが最先端の手法よりも優れたパフォーマンスを示していることを示している。 低レベルの脱ハージングと高レベルの検出のギャップを埋めるための堅牢な検出フレームワークである。

Adverse weather conditions including haze, snow and rain lead to decline in image qualities, which often causes a decline in performance for deep-learning based detection networks. Most existing approaches attempts to rectify hazy images before performing object detection, which increases the complexity of the network and may result in the loss in latent information. To better integrate image restoration and object detection tasks, we designed a double-route network with an attention feature fusion module, taking both hazy and dehazed features into consideration. We also proposed a subnetwork to provide haze-free features to the detection network. Specifically, our D-YOLO improves the performance of the detection network by minimizing the distance between the clear feature extraction subnetwork and detection network. Experiments on RTTS and FoggyCityscapes datasets show that D-YOLO demonstrates better performance compared to the state-of-the-art methods. It is a robust detection framework for bridging the gap between low-level dehazing and high-level detection.
翻訳日:2024-03-21 13:46:32 公開日:2024-03-20
# KP-RED:ジョイント3次元形状検索と変形のためのセマンティックキーポイントの爆発

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation ( http://arxiv.org/abs/2403.10099v2 )

ライセンス: Link先を確認
Ruida Zhang, Chenyangguang Zhang, Yan Di, Fabian Manhardt, Xingyu Liu, Federico Tombari, Xiangyang Ji, (参考訳) 本稿では,KP-REDについて述べる。KP-REDは,オブジェクトスキャンを入力として取り込んで,その対象と密に一致させるために,事前処理されたデータベースから最も幾何学的に類似したCADモデルを抽出・変形する,統合されたキーポイント駆動型レトリーバル・変形フレームワークである。 通常、ノイズのある部分的スキャンに苦しむ既存の密マッチング法とは異なり、本研究では、全対象スキャンと部分的スキャンの両方を自然に扱うために、カテゴリ一貫性のスパースキーポイントを活用することを提案する。 具体的には、まず、軽量な検索モジュールを用いてキーポイントベースの埋め込み空間を構築し、抽出されたキーポイントの周辺に変形認識された局所的特徴を動的に集約することにより、オブジェクト間の類似性を計測する。 埋め込み空間に近接する対象は幾何学において類似していると考えられる。 次に, 局所支持領域内のケージ頂点に対する各キーポイントの影響ベクトルを推定し, 取得した形状の変形を制御するニューラルケージに基づく変形モジュールを提案する。 合成データセットPartNetと実世界のデータセットScan2CADに関する大規模な実験は、KP-REDが既存の最先端アプローチをはるかに上回っていることを示している。 コードとトレーニングされたモデルはhttps://github.com/lolrudy/KP-REDでリリースされる。

In this paper, we present KP-RED, a unified KeyPoint-driven REtrieval and Deformation framework that takes object scans as input and jointly retrieves and deforms the most geometrically similar CAD models from a pre-processed database to tightly match the target. Unlike existing dense matching based methods that typically struggle with noisy partial scans, we propose to leverage category-consistent sparse keypoints to naturally handle both full and partial object scans. Specifically, we first employ a lightweight retrieval module to establish a keypoint-based embedding space, measuring the similarity among objects by dynamically aggregating deformation-aware local-global features around extracted keypoints. Objects that are close in the embedding space are considered similar in geometry. Then we introduce the neural cage-based deformation module that estimates the influence vector of each keypoint upon cage vertices inside its local support region to control the deformation of the retrieved shape. Extensive experiments on the synthetic dataset PartNet and the real-world dataset Scan2CAD demonstrate that KP-RED surpasses existing state-of-the-art approaches by a large margin. Codes and trained models will be released in https://github.com/lolrudy/KP-RED.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# 顔深度検出のためのThumbnail Layoutによる時空間不整合の学習

Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection ( http://arxiv.org/abs/2403.10261v2 )

ライセンス: Link先を確認
Yuting Xu, Jian Liang, Lijun Sheng, Xiao-Yu Zhang, (参考訳) 社会とサイバーセキュリティに対するディープフェイクの脅威は、ディープフェイクビデオ検出の領域内での努力を激化させ、重大な公衆の不安を引き起こしている。 現在のビデオレベル法は主に3D CNNに基づいており、高い計算要求が生じるが、性能は良好である。 本稿では,ビデオクリップを予め定義されたレイアウトに変換することによって,空間的および時間的依存関係の保存を実現する,Thumbnail Layout (TALL) というエレガントでシンプルだが効果的な戦略を提案する。 この変換プロセスは、各フレーム内の同じ位置にあるフレームを順次マスキングする。 これらのフレームをサブフレームにリサイズし、所定のレイアウトに再編成し、サムネイルを形成する。 TALLはモデルに依存しず、驚くほどシンプルで、最小限のコード修正しか必要としない。 さらに,グラフ推論ブロック (GRB) と意味整合性 (SC) の損失を導入し,TALL++ に終止符を打つ。 GRBはセマンティック領域間の相互作用を強化し、セマンティックレベルの不整合の手がかりをキャプチャする。 セマンティックな一貫性の喪失は、モデルの一般化能力を改善するためにセマンティックな特徴に一貫性の制約を課します。 データベース内, クロスデータセット, 拡散生成画像検出, およびディープフェイク生成法認識に関する広範囲な実験により, TALL++は, 最先端の手法に匹敵する結果を達成し, 様々なディープフェイク検出問題に対する我々のアプローチの有効性を実証した。 コードはhttps://github.com/rainy-xu/TALL4Deepfake.comで公開されている。

The deepfake threats to society and cybersecurity have provoked significant public apprehension, driving intensified efforts within the realm of deepfake video detection. Current video-level methods are mostly based on {3D CNNs} resulting in high computational demands, although have achieved good performance. This paper introduces an elegantly simple yet effective strategy named Thumbnail Layout (TALL), which transforms a video clip into a pre-defined layout to realize the preservation of spatial and temporal dependencies. This transformation process involves sequentially masking frames at the same positions within each frame. These frames are then resized into sub-frames and reorganized into the predetermined layout, forming thumbnails. TALL is model-agnostic and has remarkable simplicity, necessitating only minimal code modifications. Furthermore, we introduce a graph reasoning block (GRB) and semantic consistency (SC) loss to strengthen TALL, culminating in TALL++. GRB enhances interactions between different semantic regions to capture semantic-level inconsistency clues. The semantic consistency loss imposes consistency constraints on semantic features to improve model generalization ability. Extensive experiments on intra-dataset, cross-dataset, diffusion-generated image detection, and deepfake generation method recognition show that TALL++ achieves results surpassing or comparable to the state-of-the-art methods, demonstrating the effectiveness of our approaches for various deepfake detection problems. The code is available at https://github.com/rainy-xu/TALL4Deepfake.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# キーポイント協調回帰のための記述子合成におけるニューラルラジアンスフィールドの活用

Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression ( http://arxiv.org/abs/2403.10297v2 )

ライセンス: Link先を確認
Huy-Hoang Bui, Bach-Thuan Bui, Dinh-Tuan Tran, Joo-Ho Lee, (参考訳) 古典的な構造に基づく視覚的ローカライゼーション手法は、高い精度を提供するが、ストレージ、スピード、プライバシの点でトレードオフに直面している。 最近のイノベーションであるキーポイントシーン座標回帰(KSCR)は、グラフアテンションネットワークを活用してキーポイント関係を強化し、単純な多層パーセプトロン(MLP)を用いてそれらの3D座標を予測することで、これらの問題に対処している。 カメラのポーズはPnP+RANSACで決定され、2D-3D対応が確立された。 KSCRは、複数のベンチマークでHLOCのような最先端の画像検索手法と競合する競合するが、ディープラーニングモデルが広範なデータに依存しているため、データサンプルが制限されている場合、そのパフォーマンスは妨げられる。 本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。 新たなポーズを生成し,訓練されたNeRFモデルに入力することで,新しいビューを生成することにより,データスカース環境におけるKSCRの一般化能力を向上する。 提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。 さらに、モジュラー設計は複数のNeRFの統合を可能にし、視覚的ローカライゼーションのための汎用的で効率的なソリューションを提供する。 実装は、https://github.com/ais-lab/DescriptorSynthesis4Feat2Mapで公開されている。

Classical structural-based visual localization methods offer high accuracy but face trade-offs in terms of storage, speed, and privacy. A recent innovation, keypoint scene coordinate regression (KSCR) named D2S addresses these issues by leveraging graph attention networks to enhance keypoint relationships and predict their 3D coordinates using a simple multilayer perceptron (MLP). Camera pose is then determined via PnP+RANSAC, using established 2D-3D correspondences. While KSCR achieves competitive results, rivaling state-of-the-art image-retrieval methods like HLoc across multiple benchmarks, its performance is hindered when data samples are limited due to the deep learning model's reliance on extensive data. This paper proposes a solution to this challenge by introducing a pipeline for keypoint descriptor synthesis using Neural Radiance Field (NeRF). By generating novel poses and feeding them into a trained NeRF model to create new views, our approach enhances the KSCR's generalization capabilities in data-scarce environments. The proposed system could significantly improve localization accuracy by up to 50% and cost only a fraction of time for data synthesis. Furthermore, its modular design allows for the integration of multiple NeRFs, offering a versatile and efficient solution for visual localization. The implementation is publicly available at: https://github.com/ais-lab/DescriptorSynthesis4Feat2Map.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# 小格子分数量子ホール流体の端における量子非線形光学

Quantum nonlinear optics on the edge of small lattice fractional quantum Hall fluids ( http://arxiv.org/abs/2403.10598v2 )

ライセンス: Link先を確認
Alberto Nardin, Daniele De Bernardis, Rifat Onur Umucalilar, Leonardo Mazza, Matteo Rizzi, Iacopo Carusotto, (参考訳) 格子分数量子ホール液体の外部電位に対するエッジモードの量子力学について検討した。 非線形キラルルッティンガー液体理論は, 現状実験で利用できる連続限界から離れた小さな格子幾何学においても, 定量的に正確な説明を提供することを示した。 外部励起に対する線形および非線形応答の両方において、バルク横ホール導電率の量子化値の実験的にアクセス可能なシグネチャを同定する。 開境界によって誘導される強い非線形性は、大きな量子遮断効果を引き起こし、エッジモードの非古典状態が生成される。

We study the quantum dynamics of the edge modes of lattice fractional quantum Hall liquids in response to time-dependent external potentials. We show that the nonlinear chiral Luttinger liquid theory provides a quantitatively accurate description even for the small lattice geometries away from the continuum limit that are available in state-of-the-art experiments. Experimentally accessible signatures of the quantized value of the bulk transverse Hall conductivity are identified both in the linear and the non-linear response to an external excitation. The strong nonlinearity induced by the open boundaries is responsible for sizable quantum blockade effects, leading to the generation of nonclassical states of the edge modes.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# m&m's: マルチステップマルチモーダルタスクのためのツール利用評価ベンチマーク

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks ( http://arxiv.org/abs/2403.11085v2 )

ライセンス: Link先を確認
Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna, (参考訳) 実世界のマルチモーダル問題は、単一の機械学習モデルではほとんど解決されず、しばしば複数のモデルを縫合する多段階の計算計画を必要とする。 ツール拡張 LLM は、そのような計算計画の自動生成に非常に有望である。 しかし、マルチステップマルチモーダルタスクのプランナーとしてLLMを評価するための標準ベンチマークが欠如していることは、プランナー設計決定の体系的な研究を妨げている。 LLMは、ひとつのショットで完全なプランを生成するべきか、ステップバイステップで生成すべきか? ツールを直接PythonコードやJSONのような構造化データフォーマットで呼び出すべきか? フィードバックは計画を改善するか? マルチモーダルモデル、(無料)パブリックAPI、画像処理モジュールを含む33のツールを含む4K以上のマルチモーダルタスクを含むベンチマーク。 これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。 我々はさらに,人間による検証と正確な実行が可能な,1,565のタスクプランの高品質なサブセットを提供する。 m&mでは,2つの計画戦略(複数ステップ対ステップバイステッププランニング),2つの計画形式(JSON対コード),3種類のフィードバック(パーシング/検証/実行)を備えた6つのLLMを評価した。 最後に、我々の広範な実験の要点を要約する。 私たちのデータセットとコードは、HuggingFace (https://huggingface.co/datasets/zixianma/mnms)とGithub (https://github.com/RAIVNLab/mnms)で利用可能です。

Real-world multi-modal problems are rarely solved by a single machine learning model, and often require multi-step computational plans that involve stitching several models. Tool-augmented LLMs hold tremendous promise for automating the generation of such computational plans. However, the lack of standardized benchmarks for evaluating LLMs as planners for multi-step multi-modal tasks has prevented a systematic study of planner design decisions. Should LLMs generate a full plan in a single shot or step-by-step? Should they invoke tools directly with Python code or through structured data formats like JSON? Does feedback improve planning? To answer these questions and more, we introduce m&m's: a benchmark containing 4K+ multi-step multi-modal tasks involving 33 tools that include multi-modal models, (free) public APIs, and image processing modules. For each of these task queries, we provide automatically generated plans using this realistic toolset. We further provide a high-quality subset of 1,565 task plans that are human-verified and correctly executable. With m&m's, we evaluate 6 popular LLMs with 2 planning strategies (multi-step vs. step-by-step planning), 2 plan formats (JSON vs. code), and 3 types of feedback (parsing/verification/execution). Finally, we summarize takeaways from our extensive experiments. Our dataset and code are available on HuggingFace (https://huggingface.co/datasets/zixianma/mnms) and Github (https://github.com/RAIVNLab/mnms).
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# マイクロ波リードアウト応用のための動インダクタンス進行波増幅器の設計

Kinetic inductance traveling wave amplifier designs for practical microwave readout applications ( http://arxiv.org/abs/2403.11354v3 )

ライセンス: Link先を確認
A. Giachero, M. Visser, J. Wheeler, L. Howe, J. Gao, J. Austermann, J. Hubmayr, A. Nucciotti, J. Ullom, (参考訳) 動的誘導波増幅器(KIT)は超伝導薄膜、特に窒化ニオブ(NbTiN)の非線形動的インダクタンスを利用してパラメトリック増幅を行う。 これらの増幅器は利得、帯域幅、圧縮電力の点で顕著な性能を発揮し、ノイズの量子限界に頻繁に接近する。 しかしながら、ほとんどのKITデモは、実用的なデバイス読み取りシステムから分離されている。 過渡端センサマイクロカロリメータに結合した非最適化マイクロ波SQUID多重回路のリードアウトチェーンの最初の増幅器としてKITを用いると,フラックスノイズの初期改善が見られる。 KIT統合の課題の1つは、非線形性を動かすのに必要な相当なマイクロ波ポンプパワーである。 そこで我々は,より薄いNbTiN膜と逆マイクロストリップ伝送線路の設計を用いて,ポンプ電力の低減に努めた。 本稿では、ゲインや付加ノイズを含む新しい伝送線路設計、製造手順、初期装置の特性について述べる。 これらのデバイスは、約5.5-7.25GHzの3dB帯域を持つ10dB以上の利得を示し、実用的利得は12dB、典型的な利得リップルは4dBピークからピークまでである。 我々はNbTiN伝送路のインピーダンスミスマッチを観察するが、これは利得リップルの大半の源である可能性が高い。 最後に,3dB帯域のほぼ全帯域で3量子以下のシステム付加雑音を実演する。

A Kinetic Inductance Traveling Wave amplifier (KIT) utilizes the nonlinear kinetic inductance of superconducting films, particularly Niobium Titanium Nitride (NbTiN), for parametric amplification. These amplifiers achieve remarkable performance in terms of gain, bandwidth, compression power, and frequently approach the quantum limit for noise. However, most KIT demonstrations have been isolated from practical device readout systems. Using a KIT as the first amplifier in the readout chain of an unoptimized microwave SQUID multiplexer coupled to a transition-edge sensor microcalorimeter we see an initial improvement in the flux noise. One challenge in KIT integration is the considerable microwave pump power required to drive the non-linearity. To address this, we have initiated efforts to reduce the pump power by using thinner NbTiN films and an inverted microstrip transmission line design. In this article, we present the new transmission line design, fabrication procedure, and initial device characterization -- including gain and added noise. These devices exhibit over 10 dB of gain with a 3 dB bandwidth of approximately 5.5-7.25 GHz, a maximum practical gain of 12 dB and typical gain ripple under 4 dB peak-to-peak. We observe an appreciable impedance mismatch in the NbTiN transmission line, which is likely the source of the majority of the gain ripple. Finally we perform an initial noise characterization and demonstrate system-added noise of three quanta or less over nearly the entire 3 dB bandwidth.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# LLM3:大規模言語モデルに基づく動作障害推論によるタスクと動作計画

LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning ( http://arxiv.org/abs/2403.11552v2 )

ライセンス: Link先を確認
Shu Wang, Muzhi Han, Ziyuan Jiao, Zeyu Zhang, Ying Nian Wu, Song-Chun Zhu, Hangxin Liu, (参考訳) 従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。 これらのドメイン固有かつ労働集約的なモジュールは、現実世界の設定における新しいタスクに対処することに制限されている。 本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM^3 を紹介する。 具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。 重要なこととして、LLM^3はプロンプトを通じて動き計画のフィードバックを取り入れており、LLMは動きの失敗を推論することで提案を反復的に洗練することができる。 その結果、LLM^3はタスク計画と動作計画のインターフェイスとなり、それら間のドメイン固有のメッセージを扱う複雑な設計プロセスが軽減される。 箱詰め領域における一連のシミュレーションを通して, TAMP問題の解法におけるLLM^3の有効性と, 行動パラメータの選択効率を定量的に検証した。 アブレーション研究は, LLM^3の成功にともなう運動障害の有意な寄与を裏付けるものである。 さらに,物理マニピュレータの定性的実験を行い,実環境におけるアプローチの適用性を実証した。

Conventional Task and Motion Planning (TAMP) approaches rely on manually crafted interfaces connecting symbolic task planning with continuous motion generation. These domain-specific and labor-intensive modules are limited in addressing emerging tasks in real-world settings. Here, we present LLM^3, a novel Large Language Model (LLM)-based TAMP framework featuring a domain-independent interface. Specifically, we leverage the powerful reasoning and planning capabilities of pre-trained LLMs to propose symbolic action sequences and select continuous action parameters for motion planning. Crucially, LLM^3 incorporates motion planning feedback through prompting, allowing the LLM to iteratively refine its proposals by reasoning about motion failure. Consequently, LLM^3 interfaces between task planning and motion planning, alleviating the intricate design process of handling domain-specific messages between them. Through a series of simulations in a box-packing domain, we quantitatively demonstrate the effectiveness of LLM^3 in solving TAMP problems and the efficiency in selecting action parameters. Ablation studies underscore the significant contribution of motion failure reasoning to the success of LLM^3. Furthermore, we conduct qualitative experiments on a physical manipulator, demonstrating the practical applicability of our approach in real-world settings.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# ガウススプラッティングによるビュー一貫性3次元編集

View-Consistent 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2403.11868v2 )

ライセンス: Link先を確認
Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang, (参考訳) 3D Gaussian Splatting (3DGS)の出現は、3D編集に革命をもたらし、効率よく高忠実なレンダリングを提供し、正確な局所的な操作を可能にした。 現在、拡散ベースの2D編集モデルを用いて、マルチビューレンダリング画像を修正し、3DGSモデルの編集をガイドしている。 しかし、このアプローチは多視点不整合の重要な問題に直面しており、誘導画像はビュー間で大きな相違を示し、モード崩壊と3DGSの視覚的アーティファクトをもたらす。 この目的のために、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。 VcEditには、Cross-attention Consistency ModuleとEditing Consistency Moduleという2つの革新的な一貫性モジュールがある。 これらの一貫性モジュールを反復的なパターンに組み込むことで、VcEditは多視点不整合の問題を解決し、様々な場面で高品質な3DGS編集を容易にする。

The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images, which then guide the editing of 3DGS models. However, this approach faces a critical issue of multi-view inconsistency, where the guidance images exhibit significant discrepancies across views, leading to mode collapse and visual artifacts of 3DGS. To this end, we introduce View-consistent Editing (VcEdit), a novel framework that seamlessly incorporates 3DGS into image editing processes, ensuring multi-view consistency in edited guidance images and effectively mitigating mode collapse issues. VcEdit employs two innovative consistency modules: the Cross-attention Consistency Module and the Editing Consistency Module, both designed to reduce inconsistencies in edited images. By incorporating these consistency modules into an iterative pattern, VcEdit proficiently resolves the issue of multi-view inconsistency, facilitating high-quality 3DGS editing across a diverse range of scenes.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# IVAC-P2L:ビデオアクションカウントを改善するために不規則な繰り返しプリミティブを活用する

IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting ( http://arxiv.org/abs/2403.11959v2 )

ライセンス: Link先を確認
Hang Wang, Zhi-Qi Cheng, Youtian Du, Lei Zhang, (参考訳) ビデオアクションカウント(英語: Video Action Counting, VAC)は、スポーツ、フィットネス、日々の活動を分析し、ビデオ内の反復行動の定量化に重要である。 しかしながら、従来のVAC手法は、割り込みや周期の変動など、アクション反復の複雑さを見落としている。 本研究は,IVAC(Irregular Video Action Counting)と呼ばれる新しいアプローチを導入することで,その欠点に対処する。 IVACはビデオにおける不規則な反復パターンのモデリングを優先し、サイクル間一貫性とサイクル間一貫性の2つの主要な側面で定義する。 サイクル間一貫性は、サイクルセグメントの時空間表現における均一性を保証する。 サイクル間不整合は、その固有の内容の違いに基づいて、サイクルセグメントと間隔を区別することの重要性を強調している。 これらの原則をカプセル化するために,一意のプル・プッシュ・ロス(P2L)機構によって支持される一貫性と不整合モジュールを含む新しい方法論を提案する。 IVAC-P2Lモデルでは、周期セグメントの特徴間のコヒーレンスを促進するためにプルロスと、周期セグメントの特徴と間隔セグメントを明確に区別するためにプッシュロスを適用している。 RepCountデータセットで実施された実証評価では、IVAC-P2LモデルがVACタスク性能の新たなベンチマークを設定できることが示されている。 さらに、このモデルは、データセット固有の最適化を必要とせずに、UCFRepとCountixという2つの追加データセット上で既存のモデルよりも優れた、様々なビデオコンテンツに対する例外的な適応性と一般化を示す。 これらの結果は,ビデオにおける不規則な繰り返しに対処するためのアプローチの有効性を確認し,ビデオ分析と理解のさらなる進歩の道を開くものである。

Video Action Counting (VAC) is crucial in analyzing sports, fitness, and everyday activities by quantifying repetitive actions in videos. However, traditional VAC methods have overlooked the complexity of action repetitions, such as interruptions and the variability in cycle duration. Our research addresses the shortfall by introducing a novel approach to VAC, called Irregular Video Action Counting (IVAC). IVAC prioritizes modeling irregular repetition patterns in videos, which we define through two primary aspects: Inter-cycle Consistency and Cycle-interval Inconsistency. Inter-cycle Consistency ensures homogeneity in the spatial-temporal representations of cycle segments, signifying action uniformity within cycles. Cycle-interval inconsistency highlights the importance of distinguishing between cycle segments and intervals based on their inherent content differences. To encapsulate these principles, we propose a new methodology that includes consistency and inconsistency modules, supported by a unique pull-push loss (P2L) mechanism. The IVAC-P2L model applies a pull loss to promote coherence among cycle segment features and a push loss to clearly distinguish features of cycle segments from interval segments. Empirical evaluations conducted on the RepCount dataset demonstrate that the IVAC-P2L model sets a new benchmark in VAC task performance. Furthermore, the model demonstrates exceptional adaptability and generalization across various video contents, outperforming existing models on two additional datasets, UCFRep and Countix, without the need for dataset-specific optimization. These results confirm the efficacy of our approach in addressing irregular repetitions in videos and pave the way for further advancements in video analysis and understanding.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# ニューラルネットワークの同変表現学習のためのグラフニューラルネットワーク

Graph Neural Networks for Learning Equivariant Representations of Neural Networks ( http://arxiv.org/abs/2403.12143v2 )

ライセンス: Link先を確認
Miltiadis Kofinas, Boris Knyazev, Yan Zhang, Yunlu Chen, Gertjan J. Burghouts, Efstratios Gavves, Cees G. M. Snoek, David W. Zhang, (参考訳) 他のニューラルネットワークのパラメータを処理するニューラルネットワークは、暗黙のニューラルネットワーク表現の分類、ニューラルネットワークの重みの生成、一般化エラーの予測など、さまざまな分野のアプリケーションを見つける。 しかし、既存のアプローチは、ニューラルネットワークの固有の置換対称性を見落としているか、あるいは、ネットワークアーキテクチャ自体の影響を無視しながら、均等性を達成するために複雑な重み付けパターンに依存している。 本研究では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。 そこで本研究では,ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを提案する。 本稿では,暗黙のニューラル表現の分類と編集,一般化性能の予測,最適化の学習など,幅広いタスクにおける本手法の有効性について述べる。 ソースコードはhttps://github.com/mkofinas/neural-graphsで公開されている。

Neural networks that process the parameters of other neural networks find applications in domains as diverse as classifying implicit neural representations, generating neural network weights, and predicting generalization errors. However, existing approaches either overlook the inherent permutation symmetry in the neural network or rely on intricate weight-sharing patterns to achieve equivariance, while ignoring the impact of the network architecture itself. In this work, we propose to represent neural networks as computational graphs of parameters, which allows us to harness powerful graph neural networks and transformers that preserve permutation symmetry. Consequently, our approach enables a single model to encode neural computational graphs with diverse architectures. We showcase the effectiveness of our method on a wide range of tasks, including classification and editing of implicit neural representations, predicting generalization performance, and learning to optimize, while consistently outperforming state-of-the-art methods. The source code is open-sourced at https://github.com/mkofinas/neural-graphs.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# 弱さの力:Coreset Selectionによるデータリヘアリングの高速化と強化

The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection ( http://arxiv.org/abs/2403.12166v2 )

ライセンス: Link先を確認
Mohammad Jafari, Yimeng Zhang, Yihua Zhang, Sijia Liu, (参考訳) 機械学習のタスクが進化し続けるにつれて、傾向はより大きなデータセットを集め、ますます大きなモデルを訓練する。 これは精度の向上につながったが、計算コストを持続不可能なレベルへとエスカレートした。 そこで本研究は,計算効率とモデル精度の微妙なバランスをとることを目的としている。 計算時間とモデル性能の両方を効果的に最適化し、コアサブセットの選択を重み付けに利用する新しい手法を提案する。 戦略的に選択されたコアセットに焦点をあてることで、アウトリーチの影響を効率よく最小化するため、我々のアプローチは堅牢な表現を提供する。 再校正された重みは、データセット全体に対してマッピングされ、伝播される。 実験により,本手法の有効性を実証し,モデルトレーニングのスケーラブルで高精度な解法としての可能性を明らかにした。

As machine learning tasks continue to evolve, the trend has been to gather larger datasets and train increasingly larger models. While this has led to advancements in accuracy, it has also escalated computational costs to unsustainable levels. Addressing this, our work aims to strike a delicate balance between computational efficiency and model accuracy, a persisting challenge in the field. We introduce a novel method that employs core subset selection for reweighting, effectively optimizing both computational time and model performance. By focusing on a strategically selected coreset, our approach offers a robust representation, as it efficiently minimizes the influence of outliers. The re-calibrated weights are then mapped back to and propagated across the entire dataset. Our experimental results substantiate the effectiveness of this approach, underscoring its potential as a scalable and precise solution for model training.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# 時空間列を用いた多モーダル融合法と相関学習による有理-覚醒推定

Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation ( http://arxiv.org/abs/2403.12425v2 )

ライセンス: Link先を確認
Jun Yu, Gongpeng Zhao, Yongqi Wang, Zhihong Wei, Yang Zheng, Zerui Zhang, Zhongpeng Cai, Guochen Xie, Jichao Zhu, Wangyuan Zhu, (参考訳) 本稿では,ABAW6コンペティションにおけるVA(Valence-Arousal)推定課題について述べる。 映像フレームと音声セグメントを前処理して視覚的・音声的特徴を抽出する包括的モデルを考案した。 時間的畳み込みネットワーク(TCN)モジュールの利用により,これらの特徴間の時間的および空間的相関を効果的に捉えた。 その後、Transformerエンコーダ構造を用いて長距離依存を学習し、モデルの性能と一般化能力を向上させる。 提案手法はマルチモーダルデータ融合手法を利用して,事前学習した音声とビデオのバックボーンを特徴抽出に利用し,次にTCNベースの時空間符号化とTransformerベースの時間情報キャプチャを行う。 AffWild2データセットを用いたVA推定において,提案手法の有効性を示す実験結果が得られた。

This paper presents our approach for the VA (Valence-Arousal) estimation task in the ABAW6 competition. We devised a comprehensive model by preprocessing video frames and audio segments to extract visual and audio features. Through the utilization of Temporal Convolutional Network (TCN) modules, we effectively captured the temporal and spatial correlations between these features. Subsequently, we employed a Transformer encoder structure to learn long-range dependencies, thereby enhancing the model's performance and generalization ability. Our method leverages a multimodal data fusion approach, integrating pre-trained audio and video backbones for feature extraction, followed by TCN-based spatiotemporal encoding and Transformer-based temporal information capture. Experimental results demonstrate the effectiveness of our approach, achieving competitive performance in VA estimation on the AffWild2 dataset.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# 顔画像からの年齢・性別分類のためのハイブリッドトランスフォーマーシーケンサアプローチ

A Hybrid Transformer-Sequencer approach for Age and Gender classification from in-wild facial images ( http://arxiv.org/abs/2403.12483v2 )

ライセンス: Link先を確認
Aakash Singh, Vivek Kumar Singh, (参考訳) コンピュータビジョンと画像処理技術の進歩は、視覚監視、ターゲット広告、コンテンツベースの検索、人間とコンピュータのインタラクションといった分野における新しい応用の出現につながっている。 コンピュータビジョンの様々な技術のうち、特に顔分析は注目されている。 これまでのいくつかの研究では、年齢や性別の分類など、さまざまなタスクに対する顔の特徴処理の様々な応用を探究してきた。 しかし、これまでいくつかの研究がこの問題を調査してきたが、人間の顔の年齢と性別の分類は、現実世界の応用に必要とされる精度のレベルを達成するには程遠い。 そこで本稿では,年齢と性別の分類問題に対する自己意識とBiLSTMアプローチを組み合わせたハイブリッドモデルを提案し,このギャップを埋めようとしている。 提案したモデルの性能は、これまでに提案されたいくつかの最先端モデルと比較される。 提案モデルでは, 年齢と性別の分類のための最先端実装に比べて, 約10%, 6%の改善が注目されている。 提案したモデルは優れた性能を達成し,より一般化された学習を提供する。 したがって、このモデルは様々な画像処理やコンピュータビジョン問題において、コア分類コンポーネントとして適用することができる。

The advancements in computer vision and image processing techniques have led to emergence of new application in the domain of visual surveillance, targeted advertisement, content-based searching, and human-computer interaction etc. Out of the various techniques in computer vision, face analysis, in particular, has gained much attention. Several previous studies have tried to explore different applications of facial feature processing for a variety of tasks, including age and gender classification. However, despite several previous studies having explored the problem, the age and gender classification of in-wild human faces is still far from the achieving the desired levels of accuracy required for real-world applications. This paper, therefore, attempts to bridge this gap by proposing a hybrid model that combines self-attention and BiLSTM approaches for age and gender classification problems. The proposed models performance is compared with several state-of-the-art model proposed so far. An improvement of approximately 10percent and 6percent over the state-of-the-art implementations for age and gender classification, respectively, are noted for the proposed model. The proposed model is thus found to achieve superior performance and is found to provide a more generalized learning. The model can, therefore, be applied as a core classification component in various image processing and computer vision problems.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# LNPT:ラベルなしネットワーク・プルーニングとトレーニング

LNPT: Label-free Network Pruning and Training ( http://arxiv.org/abs/2403.12690v2 )

ライセンス: Link先を確認
Jinying Xiao, Ping Li, Zhe Tang, Jie Nie, (参考訳) トレーニング前のプルーニングは、ニューラルネットワークをスマートデバイスにデプロイすることを可能にする。 一般化にともなう重みを保ちながら、資源制約のスマートデバイス上でプルーンドネットワークを利用できる。 一般に、初期化と完全学習ネットワーク間の重みノルム距離は一般化性能と相関する。 しかし、我々が明らかにしたように、この測定値と訓練過程における一般化の不整合は、事前にスマートデバイス上で切断された構造を決定するのに障害となる。 本稿では,学習ギャップの概念を導入し,その正確さと一般化の相関を強調した。 実験により,ネットワークの固有層から特徴写像の形で学習ギャップが一般化性能の変動と一致していることが示されている。 我々は,クラウド上の成熟したネットワークが,ラベルのないデータを持つスマートデバイス上でのネットワークプルーニングと学習のオンラインガイダンスを提供するための,新しい学習フレームワーク LNPT を提案する。 本研究は,教師あり学習よりもこのアプローチが優れていることを示すものである。

Pruning before training enables the deployment of neural networks on smart devices. By retaining weights conducive to generalization, pruned networks can be accommodated on resource-constrained smart devices. It is commonly held that the distance on weight norms between the initialized and the fully-trained networks correlates with generalization performance. However, as we have uncovered, inconsistency between this metric and generalization during training processes, which poses an obstacle to determine the pruned structures on smart devices in advance. In this paper, we introduce the concept of the learning gap, emphasizing its accurate correlation with generalization. Experiments show that the learning gap, in the form of feature maps from the penultimate layer of networks, aligns with variations of generalization performance. We propose a novel learning framework, LNPT, which enables mature networks on the cloud to provide online guidance for network pruning and learning on smart devices with unlabeled data. Our results demonstrate the superiority of this approach over supervised training.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# MELTing Point: 言語変換器のモバイル評価

MELTing point: Mobile Evaluation of Language Transformers ( http://arxiv.org/abs/2403.12844v2 )

ライセンス: Link先を確認
Stefanos Laskaridis, Kleomenis Katevas, Lorenzo Minto, Hamed Haddadi, (参考訳) トランスフォーマーは機械学習の環境に革命をもたらし、日々のタスクに徐々に入り込み、コンピュータに‘知性のスパーク’を持たせた。 しかし、彼らのランタイム要件は、モバイルに広くデプロイされることを妨げている。 パーソナルデバイスがますます強力になり、プライバシーがますます厳しい問題になるにつれて、我々はLarge Language Models(LLMs)のモバイル実行の現状を探る。 これを実現するために、私たちは独自の自動化インフラストラクチャMELTを開発しました。デバイス上でのLLMのヘッドレス実行とベンチマークをサポートし、Android、iOS、Nvidia Jetsonデバイスを含むさまざまなモデル、デバイス、フレームワークをサポートします。 我々は、一般的な命令の微調整 LLM を評価し、様々なフレームワークを活用して、エンド・ツー・エンドとグラニュラルのパフォーマンスを測定し、その過程でのメモリとエネルギーの要求をトレースする。 我々の分析は、デバイス上でのLCMの実行、性能、エネルギー効率、精度を様々な最先端モデルで定量化し、ハイパースケールモデルの時代におけるデバイス上でのインテリジェンスの現状を示す最初の体系的な研究である。 結果は、ターゲット間のパフォーマンスの不均一性を強調し、LLM推論が主にメモリバウンドであることを裏付ける。 量子化はメモリ要求を大幅に削減し、実行を実行可能なものにするが、無視できない精度のコストで実行する。 エネルギーフットプリントと熱的挙動から導かれると、両方の要因がユーザ体験に悪影響を及ぼすため、LLMの継続的な実行はいまだ解明されていない。 最後に、私たちの経験から、エコシステムはまだ初期段階であり、アルゴリズムとハードウェアのブレークスルーは実行コストを大きくシフトさせる可能性があることが示されています。 NPUアクセラレーションとフレームワークのハードウエアの共同設計が、エッジデプロイメントに適したオフロードの代替として、効率的なスタンドアロン実行への最大の賭けになることを期待しています。

Transformers have revolutionized the machine learning landscape, gradually making their way into everyday tasks and equipping our computers with ``sparks of intelligence''. However, their runtime requirements have prevented them from being broadly deployed on mobile. As personal devices become increasingly powerful and prompt privacy becomes an ever more pressing issue, we explore the current state of mobile execution of Large Language Models (LLMs). To achieve this, we have created our own automation infrastructure, MELT, which supports the headless execution and benchmarking of LLMs on device, supporting different models, devices and frameworks, including Android, iOS and Nvidia Jetson devices. We evaluate popular instruction fine-tuned LLMs and leverage different frameworks to measure their end-to-end and granular performance, tracing their memory and energy requirements along the way. Our analysis is the first systematic study of on-device LLM execution, quantifying performance, energy efficiency and accuracy across various state-of-the-art models and showcases the state of on-device intelligence in the era of hyperscale models. Results highlight the performance heterogeneity across targets and corroborates that LLM inference is largely memory-bound. Quantization drastically reduces memory requirements and renders execution viable, but at a non-negligible accuracy cost. Drawing from its energy footprint and thermal behavior, the continuous execution of LLMs remains elusive, as both factors negatively affect user experience. Last, our experience shows that the ecosystem is still in its infancy, and algorithmic as well as hardware breakthroughs can significantly shift the execution cost. We expect NPU acceleration, and framework-hardware co-design to be the biggest bet towards efficient standalone execution, with the alternative of offloading tailored towards edge deployments.
翻訳日:2024-03-21 13:39:48 公開日:2024-03-20
# 生成型マルチモーダルエンティティリンク

Generative Multimodal Entity Linking ( http://arxiv.org/abs/2306.12725v4 )

ライセンス: Link先を確認
Senbao Shi, Zhenran Xu, Baotian Hu, Min Zhang, (参考訳) MEL(Multimodal Entity Linking)は、知識ベースから参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。 既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、全てのモデルパラメータを微調整する必要がある。 本研究では,ジェネレーティブ・マルチモーダル・エンティティ・リンク・フレームワークであるGEMELを提案する。 私たちはビジョンと言語モデルを凍結し続け、モダリティ間の相互作用を可能にするために機能マッパーをトレーニングします。 MELタスクにLLMを適用するために,マルチモーダルインスタンスを実演として検索することで,LLMのコンテキスト内学習能力を活用する。 GEMEL はモデルパラメータの 0.3% しか微調整されていないため、2つの確立された MEL データセット(WikiDiverse では 7.7% 、WikiMEL では 8.8% の精度向上)で最先端の結果が得られている。 性能向上は、LLM予測の人気バイアスを緩和し、あまり一般的でないエンティティを効果的に曖昧にすることに起因する。 さらなる解析により、GEMELの一般性とスケーラビリティが検証される。 我々のフレームワークは市販の言語モデルと互換性があり、MELタスクでLLMを利用するための効率的で汎用的なソリューションに向かっている。 私たちのコードはhttps://github.com/HITsz-TMG/GEMELで公開されています。

Multimodal Entity Linking (MEL) is the task of mapping mentions with multimodal contexts to the referent entities from a knowledge base. Existing MEL methods mainly focus on designing complex multimodal interaction mechanisms and require fine-tuning all model parameters, which can be prohibitively costly and difficult to scale in the era of Large Language Models (LLMs). In this work, we propose GEMEL, a Generative Multimodal Entity Linking framework based on LLMs, which directly generates target entity names. We keep the vision and language model frozen and only train a feature mapper to enable cross-modality interactions. To adapt LLMs to the MEL task, we leverage the in-context learning capability of LLMs by retrieving multimodal instances as demonstrations. Extensive experiments show that, with only ~0.3% of the model parameters fine-tuned, GEMEL achieves state-of-the-art results on two well-established MEL datasets (7.7% accuracy gains on WikiDiverse and 8.8% accuracy gains on WikiMEL). The performance gain stems from mitigating the popularity bias of LLM predictions and disambiguating less common entities effectively. Further analysis verifies the generality and scalability of GEMEL. Our framework is compatible with any off-the-shelf language model, paving the way towards an efficient and general solution for utilizing LLMs in the MEL task. Our code is available at https://github.com/HITsz-TMG/GEMEL.
翻訳日:2024-03-21 11:37:40 公開日:2024-03-20
# BA-SAM: セグメンテーションモデルのためのスケーラブルなバイアスモードアテンションマスク

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model ( http://arxiv.org/abs/2401.02317v4 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Xiangtai Li, Deng-Ping Fan, Xuequan Lu, Lizhuang Ma, (参考訳) 本稿では,Segment Anything Model (SAM)における画像解像度変化の課題について述べる。 SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。 以前のアプローチでは、イメージを一定のサイズに縮小するか、構造変更を採用する傾向があり、SAMの豊富な事前知識の保存を妨げる。 さらに、このようなタスク固有のチューニングは、ダウンストリームタスクのデプロイに費用対効果があり許容できないモデルを完全に再トレーニングする必要があります。 本稿では,この問題を,異なるサイズの画像に対する一貫したパッチサイズを維持しつつ,トークン列の長さが変化する長さ補間問題として再検討する。 そこで本研究では,多様な画像解像度に対するSAMの適応性を向上し,構造修正の必要をなくすために,スケーラブルバイアス修正注意マスク(BA-SAM)を提案する。 まず,トークン列の長さが変化すると,注目層のドット積値が一貫した大きさとなるように,新しいスケーリング係数を導入する。 第2に,未学習の遠方情報の影響を緩和し,各トークンが隣り合う情報を優先できるバイアスモードの注目マスクを提案する。 我々のBA-SAMは、ゼロショットと微調整の2つのシナリオで有効性を示す。 DIS5K、DUTS、ISIC、COD10K、COCOを含む多様なデータセットに対する広範な評価は、ゼロショット設定のパフォーマンス劣化を著しく軽減し、最小限の微調整で最先端のパフォーマンスを達成する能力を明らかにしている。 さらに,BA-SAMの一般化可能性を4つのデータセットで同時に示す一般化モデルとベンチマークを提案する。 コードはhttps://github.com/zongzi13545329/BA-SAMで入手できる。

In this paper, we address the challenge of image resolution variation for the Segment Anything Model (SAM). SAM, known for its zero-shot generalizability, exhibits a performance degradation when faced with datasets with varying image sizes. Previous approaches tend to resize the image to a fixed size or adopt structure modifications, hindering the preservation of SAM's rich prior knowledge. Besides, such task-specific tuning necessitates a complete retraining of the model, which is cost-expensive and unacceptable for deployment in the downstream tasks. In this paper, we reformulate this issue as a length extrapolation problem, where token sequence length varies while maintaining a consistent patch size for images of different sizes. To this end, we propose Scalable Bias-Mode Attention Mask (BA-SAM) to enhance SAM's adaptability to varying image resolutions while eliminating the need for structure modifications. Firstly, we introduce a new scaling factor to ensure consistent magnitude in the attention layer's dot product values when the token sequence length changes. Secondly, we present a bias-mode attention mask that allows each token to prioritize neighboring information, mitigating the impact of untrained distant information. Our BA-SAM demonstrates efficacy in two scenarios: zero-shot and fine-tuning. Extensive evaluation on diverse datasets, including DIS5K, DUTS, ISIC, COD10K, and COCO, reveals its ability to significantly mitigate performance degradation in the zero-shot setting and achieve state-of-the-art performance with minimal fine-tuning. Furthermore, we propose a generalized model and benchmark, showcasing BA-SAM's generalizability across all four datasets simultaneously. Code is available at https://github.com/zongzi13545329/BA-SAM
翻訳日:2024-03-21 11:37:40 公開日:2024-03-20
# 乱摂動下における特異部分空間の解析

Analysis of singular subspaces under random perturbations ( http://arxiv.org/abs/2403.09170v2 )

ライセンス: Link先を確認
Ke Wang, (参考訳) 本稿では,信号の文脈における特異ベクトルと特異部分空間の摂動の包括的解析とランダムなガウス雑音行列モデルを提案する。 低ランク信号行列を仮定すると、デビス=カーン=ヴェーディンの定理を完全に一般化した方法で拡張し、任意の単位不変行列ノルムに適用し、O'Rourke, Vu と著者の以前の結果を拡張する。 また、特異ベクトルの$\ell_\infty$解析、特異部分空間の$\ell_{2, \infty}$解析、および特異ベクトルに関連する線型および双線型関数の探索を含む詳細な結果を得る。 さらに,ガウス混合モデルとサブマトリクス局所化問題の文脈において,これらの知見の実用的意義について考察する。

We present a comprehensive analysis of singular vector and singular subspace perturbations in the context of the signal plus random Gaussian noise matrix model. Assuming a low-rank signal matrix, we extend the Davis-Kahan-Wedin theorem in a fully generalized manner, applicable to any unitarily invariant matrix norm, extending previous results of O'Rourke, Vu and the author. We also obtain the fine-grained results, which encompass the $\ell_\infty$ analysis of singular vectors, the $\ell_{2, \infty}$ analysis of singular subspaces, as well as the exploration of linear and bilinear functions related to the singular vectors. Moreover, we explore the practical implications of these findings, in the context of the Gaussian mixture model and the submatrix localization problem.
翻訳日:2024-03-21 11:37:40 公開日:2024-03-20
# MIntRec2.0:会話におけるマルチモーダルインテント認識とスコープ外検出のための大規模ベンチマークデータセット

MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations ( http://arxiv.org/abs/2403.10943v2 )

ライセンス: Link先を確認
Hanlei Zhang, Xin Wang, Hua Xu, Qianrui Zhou, Kai Gao, Jianhua Su, jinyue Zhao, Wenrui Li, Yanting Chen, (参考訳) マルチモーダルな意図認識は、人間の意図の理解を高めるために、現実世界の文脈から非言語的モダリティを組み込むことが要求される、重大な課題となる。 既存のベンチマークデータセットは規模が限られており、マルチターン対話で発生するスコープ外のサンプルを扱うのに苦労している。 マルチモーダルな意図認識のための大規模ベンチマークデータセットであるMIntRec2.0を紹介する。 1,245の対話と15,040のサンプルがあり、それぞれが30のきめ細かいクラスからなる新しい意図的分類に注釈付けされている。 9,304個のインスコープサンプルに加えて、実世界のシナリオで自然に発生するマルチターンのコンテキストに現れる5,736個のアウトオブスコープサンプルも含まれている。 さらに,各発話における話者の包括的情報を提供し,多人数会話研究に活用する。 我々は,単ターン・多ターン対話データ,モダリティ特徴抽出,マルチモーダル融合,顕微鏡内分類,スコープ外検出をサポートする汎用フレームワークを構築した。 評価ベンチマークは、古典的なマルチモーダル融合法、ChatGPT、人間評価器を用いて構築されている。 非言語情報を用いた既存の手法では、文脈情報を効果的に活用し、スコープ外サンプルを検出することは大きな課題である。 特に、大きな言語モデルでは、認知意図理解タスクにおける機械学習手法の限界が強調され、人間に比べて大きなパフォーマンスギャップが生じる。 私たちは、MIntRec2.0が貴重なリソースとして機能し、人間と機械の対話における研究の先駆的な基盤を提供し、関連するアプリケーションを大幅に促進すると考えている。 完全なデータセットとコードはhttps://github.com/thuiar/MIntRec2.0で公開されている。

Multimodal intent recognition poses significant challenges, requiring the incorporation of non-verbal modalities from real-world contexts to enhance the comprehension of human intentions. Existing benchmark datasets are limited in scale and suffer from difficulties in handling out-of-scope samples that arise in multi-turn conversational interactions. We introduce MIntRec2.0, a large-scale benchmark dataset for multimodal intent recognition in multi-party conversations. It contains 1,245 dialogues with 15,040 samples, each annotated within a new intent taxonomy of 30 fine-grained classes. Besides 9,304 in-scope samples, it also includes 5,736 out-of-scope samples appearing in multi-turn contexts, which naturally occur in real-world scenarios. Furthermore, we provide comprehensive information on the speakers in each utterance, enriching its utility for multi-party conversational research. We establish a general framework supporting the organization of single-turn and multi-turn dialogue data, modality feature extraction, multimodal fusion, as well as in-scope classification and out-of-scope detection. Evaluation benchmarks are built using classic multimodal fusion methods, ChatGPT, and human evaluators. While existing methods incorporating nonverbal information yield improvements, effectively leveraging context information and detecting out-of-scope samples remains a substantial challenge. Notably, large language models exhibit a significant performance gap compared to humans, highlighting the limitations of machine learning methods in the cognitive intent understanding task. We believe that MIntRec2.0 will serve as a valuable resource, providing a pioneering foundation for research in human-machine conversational interactions, and significantly facilitating related applications. The full dataset and codes are available at https://github.com/thuiar/MIntRec2.0.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# CVaR最適化のサンプル効率向上のための簡易混合政策パラメータ化

A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization ( http://arxiv.org/abs/2403.11062v2 )

ライセンス: Link先を確認
Yudong Luo, Yangchen Pan, Han Wang, Philip Torr, Pascal Poupart, (参考訳) 政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面し、実用化を妨げている。 この非効率性は、多くのサンプル軌道を見渡すテールエンド性能と、リターン分布の低いテールが過度に平坦であるときに勾配が消える可能性という2つの主要な事実に起因している。 これらの課題に対処するために、簡単な混合ポリシーパラメータ化を提案する。 この方法は、リスク中立ポリシーと調整可能なポリシーを統合し、リスク逆ポリシーを形成する。 この戦略を用いることで、収集されたすべての軌跡を政策更新に利用でき、リスク中立成分を介して高いリターンを刺激し、テールを持ち上げ、平坦化を防止して、勾配の消失を防止できる。 実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。 具体的には、従来のCVaR-PGが合理的なポリシーを学習できないいくつかのムジョコ環境において、リスク-逆CVaRポリシーの特定に長けている。

Reinforcement learning algorithms utilizing policy gradients (PG) to optimize Conditional Value at Risk (CVaR) face significant challenges with sample inefficiency, hindering their practical applications. This inefficiency stems from two main facts: a focus on tail-end performance that overlooks many sampled trajectories, and the potential of gradient vanishing when the lower tail of the return distribution is overly flat. To address these challenges, we propose a simple mixture policy parameterization. This method integrates a risk-neutral policy with an adjustable policy to form a risk-averse policy. By employing this strategy, all collected trajectories can be utilized for policy updating, and the issue of vanishing gradients is counteracted by stimulating higher returns through the risk-neutral component, thus lifting the tail and preventing flatness. Our empirical study reveals that this mixture parameterization is uniquely effective across a variety of benchmark domains. Specifically, it excels in identifying risk-averse CVaR policies in some Mujoco environments where the traditional CVaR-PG fails to learn a reasonable policy.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# 3次元人文推定におけるドメイン一般化のための2次元拡張フレームワーク

A Dual-Augmentor Framework for Domain Generalization in 3D Human Pose Estimation ( http://arxiv.org/abs/2403.11310v2 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen, (参考訳) 制御された実験室で収集された3D人間のポーズデータは、様々なシナリオにまたがって一般化されたポーズ推定装置の課題を示す。 これを解決するために、ドメインの一般化が用いられる。 3次元ポーズ推定のための領域一般化における現在の手法は、通常、逆行訓練を利用して、トレーニングのための合成ポーズを生成する。 しかしながら、これらのアプローチにはいくつかの制限がある。 第一に、対象ドメインに関する事前情報の欠如は、単一のポーズオーグメンタによる適切なオーグメンテーションの適用を複雑にし、ターゲットドメインの一般化に影響を及ぼす。 さらに、逆行訓練の判別器は、ソースと合成されたポーズの類似性を強制し、ソース外分布の探索を妨げる傾向にある。 さらに、ポーズ推定器の最適化はドメインシフトに晒されず、全体的な一般化能力を制限している。 これらの制約に対処するために,弱体と強体という2つのポーズオーグメンタを特徴とする新しいフレームワークを提案する。 本フレームワークでは,ソースポーズに関する知識の保存と,ターゲットポーズに関する事前情報のないアウト・オブ・ソース分布の探索を容易にするため,生成・識別プロセスに差分戦略を採用している。 さらに,ポーズ推定器の最適化プロセスにおいて,メタ最適化を利用してドメインシフトをシミュレートし,一般化能力を向上させる。 提案手法は,様々なベンチマークデータセットの包括的な実験を通じて,既存の手法よりも大幅に優れており,我々のコードは \url{https://github.com/davidpengucf/DAF-DG} でリリースされる。

3D human pose data collected in controlled laboratory settings present challenges for pose estimators that generalize across diverse scenarios. To address this, domain generalization is employed. Current methodologies in domain generalization for 3D human pose estimation typically utilize adversarial training to generate synthetic poses for training. Nonetheless, these approaches exhibit several limitations. First, the lack of prior information about the target domain complicates the application of suitable augmentation through a single pose augmentor, affecting generalization on target domains. Moreover, adversarial training's discriminator tends to enforce similarity between source and synthesized poses, impeding the exploration of out-of-source distributions. Furthermore, the pose estimator's optimization is not exposed to domain shifts, limiting its overall generalization ability. To address these limitations, we propose a novel framework featuring two pose augmentors: the weak and the strong augmentors. Our framework employs differential strategies for generation and discrimination processes, facilitating the preservation of knowledge related to source poses and the exploration of out-of-source distributions without prior information about target poses. Besides, we leverage meta-optimization to simulate domain shifts in the optimization process of the pose estimator, thereby improving its generalization ability. Our proposed approach significantly outperforms existing methods, as demonstrated through comprehensive experiments on various benchmark datasets.Our code will be released at \url{https://github.com/davidpengucf/DAF-DG}.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# 独立関数近似を持つマルコフゲームにおけるRL:局所的アクセスモデルの下でのサンプル複雑度境界の改善

RL in Markov Games with Independent Function Approximation: Improved Sample Complexity Bound under the Local Access Model ( http://arxiv.org/abs/2403.11544v2 )

ライセンス: Link先を確認
Junyi Fan, Yuxuan Han, Jialin Zeng, Jian-Feng Cai, Yang Wang, Yang Xiang, Jiheng Zhang, (参考訳) マルチ緊急の呪いを克服しつつ、一般的なマルコフゲームにおいて、大きな状態と行動空間を持つ平衡を効果的に学習することは難しい問題である。 近年の研究では、各エージェントの限界値Q$-値を近似するために、独立線型関数クラスを用いてこの問題を解決しようとしている。 しかし、そのようなフレームワークの下の既存のサンプルの複雑さ境界は、所望の精度$\varepsilon$またはアクション空間に最適な依存関係を持つ。 本研究では,CCE(Carse correlation equilibria)をシミュレータにローカルアクセスして学習するための新しいアルゴリズムLin-Confident-FTRLを導入する。 状態空間のサイズに対数的依存がある限り、Lin-Confident-FTRLは証明可能な最適精度で$\epsilon$-CCEを学習し、関連する問題パラメータ(エージェントの数や時間水平線など)と多項式的にスケールしながら、アクション空間への線形依存を取り除く。 さらに,Linear-Confident-FTRLの解析は,シミュレータへのランダムアクセスを想定した場合,より厳密なサンプル複雑性を持つ計算効率の高いアルゴリズムを新たに生成する単一エージェントローカルプランニング文献において,仮想ポリシー反復手法を一般化する。

Efficiently learning equilibria with large state and action spaces in general-sum Markov games while overcoming the curse of multi-agency is a challenging problem. Recent works have attempted to solve this problem by employing independent linear function classes to approximate the marginal $Q$-value for each agent. However, existing sample complexity bounds under such a framework have a suboptimal dependency on the desired accuracy $\varepsilon$ or the action space. In this work, we introduce a new algorithm, Lin-Confident-FTRL, for learning coarse correlated equilibria (CCE) with local access to the simulator, i.e., one can interact with the underlying environment on the visited states. Up to a logarithmic dependence on the size of the state space, Lin-Confident-FTRL learns $\epsilon$-CCE with a provable optimal accuracy bound $O(\epsilon^{-2})$ and gets rids of the linear dependency on the action space, while scaling polynomially with relevant problem parameters (such as the number of agents and time horizon). Moreover, our analysis of Linear-Confident-FTRL generalizes the virtual policy iteration technique in the single-agent local planning literature, which yields a new computationally efficient algorithm with a tighter sample complexity bound when assuming random access to the simulator.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# NRFベースのPseudo-LiDARポイントクラウドを100ドル追加して、クラスバランス問題の解決

Just Add $100 More: Augmenting NeRF-based Pseudo-LiDAR Point Cloud for Resolving Class-imbalance Problem ( http://arxiv.org/abs/2403.11573v2 )

ライセンス: Link先を確認
Mincheol Chang, Siyeong Lee, Jinkyu Kim, Namil Kim, (参考訳) 典型的なLiDARベースの3Dオブジェクト検出モデルは、実世界のデータ収集と教師ありの方法で訓練される。 これに対処するために、データベースから基底真理(GT)LiDAR点をサンプリングし、それらを興味のある場面に貼り付けることで、マイノリティクラスの例を増やすことがよく使われるが、依然として課題が残っている:GTサンプルの配置の柔軟性とサンプルの多様性の制限。 本研究では,小クラスのミニチュアや現実世界の物体の周囲を撮影するビデオから生成した擬似LiDAR点雲を(低コストで)活用することを提案する。 提案手法は, Pseudo Ground Truth Augmentation (PGT-Aug) と呼ばれる3つのステップから構成される。 (i)2D-to-3Dビュー合成モデルを用いたボリューム3Dインスタンス再構成 (ii)LiDAR強度推定とオブジェクトレベル領域アライメント 三 地中情報と地図情報とのハイブリッドな文脈認識配置方法。 我々は,3つの人気のあるベンチマーク,nuScenes,KITTI,Lyftで実施された広範な実験,特に異なるLiDAR構成でキャプチャされた大きなドメインギャップを持つデータセットにおいて,パフォーマンスの向上を通じて,本手法の優位性と汎用性を実証した。 私たちのコードとデータは、公開時に公開されます。

Typical LiDAR-based 3D object detection models are trained in a supervised manner with real-world data collection, which is often imbalanced over classes (or long-tailed). To deal with it, augmenting minority-class examples by sampling ground truth (GT) LiDAR points from a database and pasting them into a scene of interest is often used, but challenges still remain: inflexibility in locating GT samples and limited sample diversity. In this work, we propose to leverage pseudo-LiDAR point clouds generated (at a low cost) from videos capturing a surround view of miniatures or real-world objects of minor classes. Our method, called Pseudo Ground Truth Augmentation (PGT-Aug), consists of three main steps: (i) volumetric 3D instance reconstruction using a 2D-to-3D view synthesis model, (ii) object-level domain alignment with LiDAR intensity estimation and (iii) a hybrid context-aware placement method from ground and map information. We demonstrate the superiority and generality of our method through performance improvements in extensive experiments conducted on three popular benchmarks, i.e., nuScenes, KITTI, and Lyft, especially for the datasets with large domain gaps captured by different LiDAR configurations. Our code and data will be publicly available upon publication.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# GaussNav: ビジュアルナビゲーションのためのガウススプレイティング

GaussNav: Gaussian Splatting for Visual Navigation ( http://arxiv.org/abs/2403.11625v2 )

ライセンス: Link先を確認
Xiaohan Lei, Min Wang, Wengang Zhou, Houqiang Li, (参考訳) 具体的視覚では、インスタンスイメージゴールナビゲーション(IIN)は、エージェントが探索されていない環境でゴール画像に描かれた特定のオブジェクトを見つける必要がある。 IINの主な難しさは、様々な視点で対象物を認識することの必要性と、潜在的な散逸を拒絶することにある。 既存の地図ベースのナビゲーション手法は、主にバードアイビュー(BEV)マップの表現形式を採用するが、シーン内の詳細なテクスチャの表現は欠如している。 上記の課題に対処するため,我々は3Dガウススティング(3DGS)に基づく新しい地図表現を構築するIINタスクのための新しいガウススティングナビゲーション(GaussNav)フレームワークを提案する。 提案フレームワークにより,エージェントはシーンの形状や意味情報を記憶するだけでなく,オブジェクトのテクスチャ的特徴を保持することができる。 当社のGaussNavフレームワークは、Habitat-Matterport 3D(HM3D)データセット上で、パス長(SPL)が0.252から0.578に重み付けしたSuccessの増加によって、パフォーマンスが大幅に向上したことを実証しています。 私たちのコードは公開されます。

In embodied vision, Instance ImageGoal Navigation (IIN) requires an agent to locate a specific object depicted in a goal image within an unexplored environment. The primary difficulty of IIN stems from the necessity of recognizing the target object across varying viewpoints and rejecting potential distractors. Existing map-based navigation methods largely adopt the representation form of Bird's Eye View (BEV) maps, which, however, lack the representation of detailed textures in a scene. To address the above issues, we propose a new Gaussian Splatting Navigation (abbreviated as GaussNav) framework for IIN task, which constructs a novel map representation based on 3D Gaussian Splatting (3DGS). The proposed framework enables the agent to not only memorize the geometry and semantic information of the scene, but also retain the textural features of objects. Our GaussNav framework demonstrates a significant leap in performance, evidenced by an increase in Success weighted by Path Length (SPL) from 0.252 to 0.578 on the challenging Habitat-Matterport 3D (HM3D) dataset. Our code will be made publicly available.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# データ効率の良いコントラスト言語画像事前学習:量よりもデータ品質を優先する

Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity ( http://arxiv.org/abs/2403.12267v2 )

ライセンス: Link先を確認
Siddharth Joshi, Arnav Jain, Ali Payani, Baharan Mirzasoleiman, (参考訳) 大規模画像キャプチャデータセット上でのCLIP(Contrastive Language- Image Pre-Training)は、目覚ましいゼロショットの一般化を実現する表現を学習する。 しかし、そのようなモデルは大量の事前学習データを必要とする。 事前トレーニングデータの品質向上は、ボリュームの増加よりもCLIPのパフォーマンス向上に有効であることが示されている。 それでも、ベストを確実に一般化するトレーニングデータの小さなサブセットを見つけることは、未解決の問題のままである。 本稿では,CLIPの理論的に厳密なデータ選択法を提案する。 画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。 ConceptualCaptions3MとConceptualCaptions12Mの広範な実験により、 \method\が発見したサブセットは、ImageNetとそのシフトしたバージョンにおける次の最良のベースラインの精度の2.7倍と1.4倍の精度を達成することが示された。 さらに,我々のサブセットでは,11の下流データセットの平均精度が1.5倍になることを示す。 コードはhttps://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.comで入手できる。

Contrastive Language-Image Pre-training (CLIP) on large-scale image-caption datasets learns representations that can achieve remarkable zero-shot generalization. However, such models require a massive amount of pre-training data. Improving the quality of the pre-training data has been shown to be much more effective in improving CLIP's performance than increasing its volume. Nevertheless, finding small subsets of training data that provably generalize the best has remained an open question. In this work, we propose the first theoretically rigorous data selection method for CLIP. We show that subsets that closely preserve the cross-covariance of the images and captions of the full data provably achieve a superior generalization performance. Our extensive experiments on ConceptualCaptions3M and ConceptualCaptions12M demonstrate that subsets found by \method\ achieve over 2.7x and 1.4x the accuracy of the next best baseline on ImageNet and its shifted versions. Moreover, we show that our subsets obtain 1.5x the average accuracy across 11 downstream datasets, of the next best baseline. The code is available at: https://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# マルチモーダルレコメンデーションのためのアライニングとトレーニングフレームワーク

An Aligning and Training Framework for Multimodal Recommendations ( http://arxiv.org/abs/2403.12384v2 )

ライセンス: Link先を確認
Yifan Liu, Kangning Zhang, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, Weinan Zhang, (参考訳) マルチメディアアプリケーションの開発において、ユーザインタラクション以上のリッチなコンテキストを活用できるため、マルチモーダルレコメンデーションは重要な役割を担っている。 既存の手法では, マルチモーダル情報を補助的とみなし, それらを用いてIDの特徴を学習するが, 多モーダルコンテンツの特徴とIDの特徴の間には意味的ギャップがあり, ユーザやアイテムの表現の誤調整につながる。 本稿では,まず,マルチモーダルレコメンデーションにおけるミスアライメント問題を体系的に検討し,AlignRecというソリューションを提案する。 AlignRecでは、推奨目的をコンテンツ内のアライメント、コンテンツとカテゴリID間のアライメント、ユーザとアイテム間のアライメントという3つのアライメントに分解する。 各アライメントは、特定の目的関数によって特徴づけられ、当社のマルチモーダルレコメンデーションフレームワークに統合されます。 AlignRecを効果的にトレーニングするために、まず最初にアライメントを事前訓練して、統一されたマルチモーダル特徴を取得し、その後、これらの特徴を入力として、以下の2つのアライメントをトレーニングすることを提案する。 各マルチモーダルフィーチャがトレーニングに役立つかどうかを分析することが不可欠であるため、中間性能を評価するために3つの新しいメトリクスクラスを設計する。 実世界の3つのデータセットに関する広範な実験は、9つのベースラインと比較して、AlignRecの優位性を一貫して検証している。 また、AlignRecによって生成されるマルチモーダル機能は、現在使われているものよりも優れていることが分かりました。

With the development of multimedia applications, multimodal recommendations are playing an essential role, as they can leverage rich contexts beyond user interactions. Existing methods mainly regard multimodal information as an auxiliary, using them to help learn ID features; however, there exist semantic gaps among multimodal content features and ID features, for which directly using multimodal information as an auxiliary would lead to misalignment in representations of users and items. In this paper, we first systematically investigate the misalignment issue in multimodal recommendations, and propose a solution named AlignRec. In AlignRec, the recommendation objective is decomposed into three alignments, namely alignment within contents, alignment between content and categorical ID, and alignment between users and items. Each alignment is characterized by a specific objective function and is integrated into our multimodal recommendation framework. To effectively train our AlignRec, we propose starting from pre-training the first alignment to obtain unified multimodal features and subsequently training the following two alignments together with these features as input. As it is essential to analyze whether each multimodal feature helps in training, we design three new classes of metrics to evaluate intermediate performance. Our extensive experiments on three real-world datasets consistently verify the superiority of AlignRec compared to nine baselines. We also find that the multimodal features generated by AlignRec are better than currently used ones, which are to be open-sourced.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# 任意多視点画像からの人間のメッシュ復元

Human Mesh Recovery from Arbitrary Multi-view Images ( http://arxiv.org/abs/2403.12434v2 )

ライセンス: Link先を確認
Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen, (参考訳) 任意のマルチビュー画像からのヒューマンメッシュリカバリには、任意のカメラポーズと、任意の数のカメラビューの2つの特徴がある。 可変性のため、このタスクに取り組むために統一されたフレームワークを設計することは困難である。 この課題は、フレキシビリティを維持しつつ、任意のカメラのポーズを同時に推定し、任意のマルチビューイメージから人間のメッシュを復元できるというジレンマとして要約できる。 このジレンマを解決するために、任意の多視点画像から統一人間メッシュ回復(U-HMR)を分離・征服するフレームワークを提案する。 特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビュー融合(AVF)の2つの主要コンポーネントから構成される。 カメラのポーズと人体メッシュが互いに独立しているため、CBDはそれらを2つのサブタスクに分割し、2つのサブネットワーク(\ie, CPE, AVF)でそれぞれ処理する。 CPEでは、各カメラのポーズは他のカメラと無関係であるため、すべてのビューを並列に処理するために共有MLPを採用する。 AVFでは、マルチビュー情報を融合して融合操作をビュー数に依存しないものにするため、SMPLパラメータクエリトークンを用いたトランスフォーマーデコーダを導入し、メッシュリカバリのためのクロスビュー機能を抽出する。 提案するフレームワークの有効性と各コンポーネントの効果を実証するため,Human3.6M,MPI-INF-3DHP,TotalCaptureの3つの公開データセットに対して広範な実験を行った。

Human mesh recovery from arbitrary multi-view images involves two characteristics: the arbitrary camera poses and arbitrary number of camera views. Because of the variability, designing a unified framework to tackle this task is challenging. The challenges can be summarized as the dilemma of being able to simultaneously estimate arbitrary camera poses and recover human mesh from arbitrary multi-view images while maintaining flexibility. To solve this dilemma, we propose a divide and conquer framework for Unified Human Mesh Recovery (U-HMR) from arbitrary multi-view images. In particular, U-HMR consists of a decoupled structure and two main components: camera and body decoupling (CBD), camera pose estimation (CPE), and arbitrary view fusion (AVF). As camera poses and human body mesh are independent of each other, CBD splits the estimation of them into two sub-tasks for two individual sub-networks (\ie, CPE and AVF) to handle respectively, thus the two sub-tasks are disentangled. In CPE, since each camera pose is unrelated to the others, we adopt a shared MLP to process all views in a parallel way. In AVF, in order to fuse multi-view information and make the fusion operation independent of the number of views, we introduce a transformer decoder with a SMPL parameters query token to extract cross-view features for mesh recovery. To demonstrate the efficacy and flexibility of the proposed framework and effect of each component, we conduct extensive experiments on three public datasets: Human3.6M, MPI-INF-3DHP, and TotalCapture.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# ERASE:Deep Recommenderシステムのためのベンチマーク機能選択手法

ERASE: Benchmarking Feature Selection Methods for Deep Recommender Systems ( http://arxiv.org/abs/2403.12660v2 )

ライセンス: Link先を確認
Pengyue Jia, Yejing Wang, Zhaocheng Du, Xiangyu Zhao, Yichao Wang, Bo Chen, Wanyu Wang, Huifeng Guo, Ruiming Tang, (参考訳) Deep Recommender Systems(DRS)は、より正確なレコメンデーションのために、多くの機能フィールドに依存している。 その結果, 効率的な特徴選択手法は, 精度をさらに向上し, 配置要求に合うように, ストレージ効率を最適化するために重要になっている。 この研究領域は、特にDSSの文脈において、生まれてから3つの課題に直面している。 第一に、研究論文にまたがる様々な実験装置は、しばしば不公平な比較をもたらし、実践的な洞察を妨げている。 第二に、既存の文献では、大規模なデータセットに基づく選択属性の詳細な分析が欠如しており、選択手法とDSSのバックボーンの徹底的な比較が、発見の一般化性を制限し、DSSへの展開を妨げている。 最後に、しばしば特徴選択法によって達成可能なピーク性能の比較に焦点をあてるが、これは典型的には最適なハイパーパラメータを識別できないアプローチであり、これらの手法の堅牢性と安定性を評価するために見落としている。 これらのギャップを埋めるために,本論文では,DRSのためのフェースセレクションのための包括的bEnchmaRkであるERASEについて述べる。 ERASEは、従来のとディープラーニングの両方のアプローチをカバーし、4つのパブリックデータセット、プライベート産業データセット、および現実世界の商用プラットフォームを通じて、11のフィーチャーセレクションメソッドを徹底的に評価し、大幅な拡張を実現している。 私たちのコードは簡単に再現できる。

Deep Recommender Systems (DRS) are increasingly dependent on a large number of feature fields for more precise recommendations. Effective feature selection methods are consequently becoming critical for further enhancing the accuracy and optimizing storage efficiencies to align with the deployment demands. This research area, particularly in the context of DRS, is nascent and faces three core challenges. Firstly, variant experimental setups across research papers often yield unfair comparisons, obscuring practical insights. Secondly, the existing literature's lack of detailed analysis on selection attributes, based on large-scale datasets and a thorough comparison among selection techniques and DRS backbones, restricts the generalizability of findings and impedes deployment on DRS. Lastly, research often focuses on comparing the peak performance achievable by feature selection methods, an approach that is typically computationally infeasible for identifying the optimal hyperparameters and overlooks evaluating the robustness and stability of these methods. To bridge these gaps, this paper presents ERASE, a comprehensive bEnchmaRk for feAture SElection for DRS. ERASE comprises a thorough evaluation of eleven feature selection methods, covering both traditional and deep learning approaches, across four public datasets, private industrial datasets, and a real-world commercial platform, achieving significant enhancement. Our code is available online for ease of reproduction.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# 安全強化学習における政策分岐

Policy Bifurcation in Safe Reinforcement Learning ( http://arxiv.org/abs/2403.12847v2 )

ライセンス: Link先を確認
Wenjun Zou, Yao Lv, Jie Li, Yujie Yang, Shengbo Eben Li, Jingliang Duan, Xianyuan Zhan, Jingjing Liu, Yaqin Zhang, Keqiang Li, (参考訳) 安全な強化学習(RL)は制約付き最適制御問題に対する高度な解決策を提供する。 安全RLの既存の研究は、政策関数の連続性を暗黙的に前提としており、政策はスムーズで不断な方法で行動に反応するが、いくつかのシナリオでは、実現可能な政策は不連続または多値であり、不連続な局所的オプティマ間の補間は必然的に制約違反につながる。 我々は,このような現象の発生機構を最初に同定し,リーチ可能なタプルの収縮性に対応する安全なRLにおける政策分岐の存在を厳密に証明するためにトポロジカル解析を用いる。 我々の定理は、障害物のない状態空間が非単純連結である場合、実現可能なポリシーは分岐する必要があることを明らかにする。 このような分岐ポリシーを訓練するために,ガウス混合分布をポリシ出力として利用するMultimodal Policy Optimization (MUPO)と呼ばれる安全なRLアルゴリズムを提案する。 この分岐挙動は、最も高い混合係数を持つガウス成分を選択することで達成できる。 さらに、MUPOはスペクトル正規化と前方KL分岐を統合し、異なるモードを探索するポリシーの能力を高める。 車両制御タスクを用いた実験では,我々のアルゴリズムは分岐したポリシーをうまく学習し,安全性を確実に確保する一方で,連続的なポリシーは避けられない制約違反に悩まされている。

Safe reinforcement learning (RL) offers advanced solutions to constrained optimal control problems. Existing studies in safe RL implicitly assume continuity in policy functions, where policies map states to actions in a smooth, uninterrupted manner; however, our research finds that in some scenarios, the feasible policy should be discontinuous or multi-valued, interpolating between discontinuous local optima can inevitably lead to constraint violations. We are the first to identify the generating mechanism of such a phenomenon, and employ topological analysis to rigorously prove the existence of policy bifurcation in safe RL, which corresponds to the contractibility of the reachable tuple. Our theorem reveals that in scenarios where the obstacle-free state space is non-simply connected, a feasible policy is required to be bifurcated, meaning its output action needs to change abruptly in response to the varying state. To train such a bifurcated policy, we propose a safe RL algorithm called multimodal policy optimization (MUPO), which utilizes a Gaussian mixture distribution as the policy output. The bifurcated behavior can be achieved by selecting the Gaussian component with the highest mixing coefficient. Besides, MUPO also integrates spectral normalization and forward KL divergence to enhance the policy's capability of exploring different modes. Experiments with vehicle control tasks show that our algorithm successfully learns the bifurcated policy and ensures satisfying safety, while a continuous policy suffers from inevitable constraint violations.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# NISQデバイスにおける平均回路固有値サンプリング

Average circuit eigenvalue sampling on NISQ devices ( http://arxiv.org/abs/2403.12857v2 )

ライセンス: Link先を確認
Emilio Pelaez, Victory Omole, Pranav Gokhale, Rich Rines, Kaitlin N. Smith, Michael A. Perlin, Akel Hashim, (参考訳) 平均回路固有値サンプリング (ACES) はFlamia が arXiv:2108.05803 で導入した。 原論文では、ACESを用いて、短期機器をオープンな問題として特徴付けている。 この研究は、実際のデバイス向けのACESの完全な実装を提示し、それをSuperstaq arXiv:2309.05157にデプロイし、シミュレーションと実験によって得られたデバイスに合わせたリソース推定を行うことによって、この方向に進んでいる。 シミュレーションにより,ACESは1ビットおよび2ビットの非一様パウリ誤差チャネルを平均固有値絶対誤差0.003$および0.001ドル以下で推定できることを示した。 デバイスのネイティブゲートに依存しているため、実際のデバイスでツイリング技術によって一般的なエラーチャネルを推定する問題は未解決のままであるが、Cliffordセットによるシミュレーションは、報告されたハードウェアデータと一致する結果を示している。 IBM の Algiers と Osaka デバイスに関する実験結果が提示され,エラーチャネルを乱れのない Pauli チャネルとして特徴付ける。

Average circuit eigenvalue sampling (ACES) was introduced by Flammia in arXiv:2108.05803 as a protocol to characterize the Pauli error channels of individual gates across the device simultaneously. The original paper posed using ACES to characterize near-term devices as an open problem. This work advances in this direction by presenting a full implementation of ACES for real devices and deploying it to Superstaq arXiv:2309.05157, along with a device-tailored resource estimation obtained through simulations and experiments. Our simulations show that ACES is able to estimate one- and two-qubit non-uniform Pauli error channels to an average eigenvalue absolute error of under $0.003$ and total variation distance of under 0.001 between simulated and reconstructed probability distributions over Pauli errors with $10^5$ shots per circuit using 5 circuits of depth 14. The question of estimating general error channels through twirling techniques in real devices remains open, as it is dependent on a device's native gates, but simulations with the Clifford set show results in agreement with reported hardware data. Experimental results on IBM's Algiers and Osaka devices are presented, where we characterize their error channels as Pauli channels without twirling.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20
# MEDBind: 言語とマルチモーダルな医療データ埋め込みの統合

MEDBind: Unifying Language and Multimodal Medical Data Embeddings ( http://arxiv.org/abs/2403.12894v2 )

ライセンス: Link先を確認
Yuan Gao, Sangwook Kim, David E Austin, Chris McIntosh, (参考訳) 医用視覚言語プレトレーニングモデル(VLPM)は、胸部X線(CXR)を臨床テキストと融合させ、ゼロショット学習と下流臨床タスクを可能にする画像テキストデータバインディングアプローチを導入し、顕著な進歩を遂げている。 しかし、現在の展望は、心電図(ECG)のような追加の医療モダリティの総合的な統合を欠いている。 我々は,CXR,ECG,医療用テキストにまたがる共同埋め込みを学習するMEDBind(Medical Electronic patient recorD)を提案する。 テキストデータを中心アンカーとして使用するMEDBindは、トリモダリティバインディング、トップK検索における競合性能、ゼロショット、確立したVLPMに対する少数ショットベンチマーク、CXR-to-ECGゼロショット分類と検索機能を備えている。 このシームレスな統合は、CXR, ECG, テキストの凝集性埋め込み空間を育むために、モダリティ-テキスト対のコントラッシブ・ロスと、提案したコントラッシブ・ロス関数、エッジ-モダリティ・コントラシブ・ロスとの組み合わせによって達成される。 最後に,MEDBind は CXR と ECG の埋め込みを直接,マルチモーダル・プロンプト・チューニングのための大規模モデルに統合することにより,下流タスクを改善することができることを示す。

Medical vision-language pretraining models (VLPM) have achieved remarkable progress in fusing chest X-rays (CXR) with clinical texts, introducing image-text data binding approaches that enable zero-shot learning and downstream clinical tasks. However, the current landscape lacks the holistic integration of additional medical modalities, such as electrocardiograms (ECG). We present MEDBind (Medical Electronic patient recorD), which learns joint embeddings across CXR, ECG, and medical text. Using text data as the central anchor, MEDBind features tri-modality binding, delivering competitive performance in top-K retrieval, zero-shot, and few-shot benchmarks against established VLPM, and the ability for CXR-to-ECG zero-shot classification and retrieval. This seamless integration is achieved through combination of contrastive loss on modality-text pairs with our proposed contrastive loss function, Edge-Modality Contrastive Loss, fostering a cohesive embedding space for CXR, ECG, and text. Finally, we demonstrate that MEDBind can improve downstream tasks by directly integrating CXR and ECG embeddings into a large-language model for multimodal prompt tuning.
翻訳日:2024-03-21 11:32:23 公開日:2024-03-20